Erlaubt: mp3, m4a, wav, webm, ogg, flac.
OpenAI-Modelle: max 25 MB pro Datei.
Diarisierungs-Modell zusätzlich max 23 min (1400 s) Audio.
Gemini hat keine harten Größenlimits.
whisper-1: klassisches Whisper-Modell, sehr robust.
Nur für OpenAI-Modelle. Gemini ignoriert das Feld, erkennt selbst.
Bei bekannter Sprache klar bessere Accuracy.
diarized_json wird automatisch aktiviert wenn Diarize-Modell gewählt ist.
Nur OpenAI. Hilft beim Erkennen schwieriger Begriffe (z.B. "Tscheppaschlucht, Karawanken").