Zurück zum Glossar

Spracherkennung (ASR)

Bild/Audio/Video

Automatische Umwandlung von Sprache in Text.


Automatic Speech Recognition (ASR) wandelt gesprochene Sprache mithilfe akustischer und linguistischer Modelle in Text um. Moderne Systeme nutzen Deep-Learning-Modelle wie Transformer oder Recurrent Neural Networks.

  • Beispiele: Diktierfunktionen, Sprachsteuerung, Transkription von Meetings.
  • Herausforderungen: Dialekte, Hintergrundgeräusche, Mehrsprachigkeit.