Modellkompression · MentoroAI

Pruning/Quantisierung zur Beschleunigung.

Modellkompression umfasst Verfahren, die Größe und Rechenaufwand eines neuronalen Netzes verringern, ohne die Genauigkeit stark zu beeinträchtigen. Ziel ist der effiziente Einsatz auf Geräten mit begrenzten Ressourcen.

Techniken: Pruning, Quantisierung, Knowledge Distillation.
Anwendungsgebiete: Mobile KI, Edge Computing, eingebettete Systeme.