Zurück zum Glossar
Spracherkennung (ASR)
Bild/Audio/Video
Automatische Umwandlung von Sprache in Text.
Automatic Speech Recognition (ASR) wandelt gesprochene Sprache mithilfe akustischer und linguistischer Modelle in Text um. Moderne Systeme nutzen Deep-Learning-Modelle wie Transformer oder Recurrent Neural Networks.
- Beispiele: Diktierfunktionen, Sprachsteuerung, Transkription von Meetings.
- Herausforderungen: Dialekte, Hintergrundgeräusche, Mehrsprachigkeit.