Zurück zum Glossar
Tokenisierung
Modelle & Architekturen
Zerlegung von Text in Tokens (Einheiten).
Tokenisierung zerlegt Text in Einheiten (z.B. Subwörter), die das Modell verarbeitet.
- Verfahren: BPE, WordPiece, Unigram; sprach-/domänenspezifische Besonderheiten.
- Einfluss: Kontextlänge, OOV-Handhabung, Effizienz.
- Praxis: konsistente Preprocessing-Pipelines, Versionierung des Vokabulars.