Zurück zum Glossar

Tokenisierung

Modelle & Architekturen

Zerlegung von Text in Tokens (Einheiten).


Tokenisierung zerlegt Text in Einheiten (z.B. Subwörter), die das Modell verarbeitet.

  • Verfahren: BPE, WordPiece, Unigram; sprach-/domänenspezifische Besonderheiten.
  • Einfluss: Kontextlänge, OOV-Handhabung, Effizienz.
  • Praxis: konsistente Preprocessing-Pipelines, Versionierung des Vokabulars.