Zurück zum Glossar

Multimodales Modell

Modelle & Architekturen

Verarbeitet mehrere Modalitäten (Text, Bild, Audio).


Multimodale Modelle koppeln Repräsentationen aus verschiedenen Datentypen.

  • Architekturen: späte/ frühe Fusion, Cross-Attention, gemeinsame Embedding-Räume.
  • Einsatz: Bildbeschreibung, visuelle Frage-Antwort, Audio-Video-Analyse.
  • Herausforderungen: Ausrichtung der Modalitäten, Daten/Annotationen, Rechenkosten.