Spracherkennung (ASR)

Bild/Audio/Video

Automatische Umwandlung von Sprache in Text.

Automatic Speech Recognition (ASR) wandelt gesprochene Sprache mithilfe akustischer und linguistischer Modelle in Text um. Moderne Systeme nutzen Deep-Learning-Modelle wie Transformer oder Recurrent Neural Networks.

Beispiele: Diktierfunktionen, Sprachsteuerung, Transkription von Meetings.
Herausforderungen: Dialekte, Hintergrundgeräusche, Mehrsprachigkeit.