Zurück zum Glossar

Transformer

Modelle & Architekturen

Sequenzmodell mit Attention statt Rekurrenz/Konvolution.


Der Transformer nutzt Self-Attention, um Abhängigkeiten unabhängig von ihrer Distanz zu modellieren.

  • Vorteile: parallele Verarbeitung, skalierbar, State-of-the-Art in NLP/Multimodalität.
  • Bauteile: Multi-Head-Attention, Positionsembeddings, Feedforward-Blöcke, Residual/Norm.
  • Aspekte: Kontextfenster, Rechenbedarf, Optimierungs- und Speichertricks.