Admin — Transcribe (Speech-to-Text)

Audio & Optionen

Audio-Datei

Erlaubt: mp3, m4a, wav, webm, ogg, flac. OpenAI-Modelle: max 25 MB pro Datei. Diarisierungs-Modell zusätzlich max 23 min (1400 s) Audio. Gemini hat keine harten Größenlimits.

Modell

whisper-1: klassisches Whisper-Modell, sehr robust.

Sprache

Nur für OpenAI-Modelle. Gemini ignoriert das Feld, erkennt selbst. Bei bekannter Sprache klar bessere Accuracy.

Response-Format

diarized_json wird automatisch aktiviert wenn Diarize-Modell gewählt ist.

Kontext-Hint (optional)

Nur OpenAI. Hilft beim Erkennen schwieriger Begriffe (z.B. "Tscheppaschlucht, Karawanken").

Speech-to-Text

Audio & Optionen

Ergebnis