Zurück zum Glossar
Multimodales Modell
Modelle & Architekturen
Verarbeitet mehrere Modalitäten (Text, Bild, Audio).
Multimodale Modelle koppeln Repräsentationen aus verschiedenen Datentypen.
- Architekturen: späte/ frühe Fusion, Cross-Attention, gemeinsame Embedding-Räume.
- Einsatz: Bildbeschreibung, visuelle Frage-Antwort, Audio-Video-Analyse.
- Herausforderungen: Ausrichtung der Modalitäten, Daten/Annotationen, Rechenkosten.