Zurück zum Glossar
Transformer
Modelle & Architekturen
Sequenzmodell mit Attention statt Rekurrenz/Konvolution.
Der Transformer nutzt Self-Attention, um Abhängigkeiten unabhängig von ihrer Distanz zu modellieren.
- Vorteile: parallele Verarbeitung, skalierbar, State-of-the-Art in NLP/Multimodalität.
- Bauteile: Multi-Head-Attention, Positionsembeddings, Feedforward-Blöcke, Residual/Norm.
- Aspekte: Kontextfenster, Rechenbedarf, Optimierungs- und Speichertricks.