Speech-to-Text

Audio & Optionen

Erlaubt: mp3, m4a, wav, webm, ogg, flac. OpenAI-Modelle: max 25 MB pro Datei. Diarisierungs-Modell zusätzlich max 23 min (1400 s) Audio. Gemini hat keine harten Größenlimits.
whisper-1: klassisches Whisper-Modell, sehr robust.
Nur für OpenAI-Modelle. Gemini ignoriert das Feld, erkennt selbst. Bei bekannter Sprache klar bessere Accuracy.
diarized_json wird automatisch aktiviert wenn Diarize-Modell gewählt ist.
Nur OpenAI. Hilft beim Erkennen schwieriger Begriffe (z.B. "Tscheppaschlucht, Karawanken").

Ergebnis

Noch keine Transkription gestartet.