Tokenisierung ist ein grundlegender Verarbeitungsschritt in der natürlichen Sprachverarbeitung (NLP), bei dem ein Text in kleinere Einheiten — sogenannte Tokens — aufgeteilt wird. Diese Tokens können ganze Wörter, Wortteile, einzelne Zeichen oder Satzzeichen sein. Das KI-Modell arbeitet nicht direkt mit dem Text, sondern mit diesen Tokens, die jeweils durch Zahlen repräsentiert werden.
Für Grundschullehrkräfte ist das Konzept der Tokenisierung aus mehreren Gründen relevant. Erstens erklärt es, warum KI-Tools manchmal merkwürdige Fehler machen: Wenn ein langes deutsches Wort wie „Donaudampfschifffahrtsgesellschaft" in mehrere Tokens zerlegt wird, kann die Bedeutung teilweise verloren gehen. Zweitens bestimmt die Tokenisierung die Kosten und Grenzen von KI-Tools, da viele Dienste nach verbrauchten Tokens abrechnen. Drittens beeinflusst die Qualität der Tokenisierung die Leistung bei nicht-englischen Sprachen — deutsche Texte benötigen aufgrund der langen zusammengesetzten Wörter mehr Tokens als englische Texte gleicher Länge.
Ein anschauliches Beispiel für den Unterricht: Der Satz „Die Katze sitzt auf der Matte" wird in etwa 7-9 Tokens zerlegt. Das Verständnis dieses Prinzips hilft Lehrkräften, besser einzuschätzen, wie lang ihre Prompts sein dürfen und warum manche KI-Antworten bei komplexen deutschen Formulierungen weniger präzise ausfallen als bei einfachen Sätzen.