Künstliche Intelligenz

Token (KI)

Grundlegende Verarbeitungseinheit von Large Language Models — Textfragmente unterhalb der Wortebene, die Pricing, Kontextlimits und Antwortqualität bestimmen.

Tokens sind die fundamentalen Einheiten, in denen Large Language Models Text verarbeiten. Ein Token ist dabei kein ganzes Wort, sondern ein Textfragment — häufig eine Silbe, ein Wortteil oder ein Satzzeichen. Das englische Wort „understanding" wird beispielsweise in mehrere Tokens zerlegt, während kurze Wörter wie „the" einem einzelnen Token entsprechen. Jede Eingabe an ein LLM und jede generierte Antwort wird intern als Folge solcher Tokens dargestellt.

Tokenisierung: Vom Text zur Zahlenfolge

Bevor ein LLM einen Text verarbeiten kann, muss dieser in eine Sequenz von Token-IDs umgewandelt werden — diesen Vorgang nennt man Tokenisierung. Die heute verbreiteten Verfahren sind Byte Pair Encoding (BPE) und SentencePiece. Beide Ansätze bauen ein Vokabular aus häufig vorkommenden Zeichenkombinationen auf: Gängige Wörter und Silben erhalten eigene Tokens, seltene Wörter werden in kleinere Fragmente zerlegt. Das Vokabular eines typischen LLM umfasst zwischen 32.000 und 200.000 Tokens.

Die Tokenisierung ist nicht sprachunabhängig. Da die meisten Tokenizer überwiegend auf englischen Texten trainiert wurden, benötigt deutscher Text in der Regel mehr Tokens als ein englischer Text gleicher Länge. Zusammengesetzte Wörter wie „Datenschutzgrundverordnung" werden in mehrere Tokens aufgeteilt, während das englische Äquivalent „GDPR" oft ein einzelner Token ist. In der Praxis verbraucht deutscher Text je nach Modell und Themengebiet etwa 20 bis 40 Prozent mehr Tokens als vergleichbarer englischer Text.

Warum Tokens wichtig sind

Tokens bestimmen drei zentrale Aspekte beim Einsatz von LLMs:

Kosten. Die Abrechnung bei Cloud-basierten Modellen wie GPT oder Claude erfolgt pro verbrauchtem Token — getrennt nach Input-Tokens (Prompt) und Output-Tokens (Antwort). Wer die Token-Anzahl seiner Prompts kennt, kann Kosten präzise kalkulieren und optimieren.

Kontextfenster. Jedes LLM hat ein maximales Kontextfenster, angegeben in Tokens. Es definiert, wie viel Text das Modell gleichzeitig verarbeiten kann — Systemprompt, Nutzeranfrage und Antwort zusammen. Aktuelle Modelle bieten Kontextfenster von 128.000 bis über eine Million Tokens. Bei RAG-Systemen bestimmt das Kontextfenster, wie viele abgerufene Dokumenten-Chunks dem Modell übergeben werden können.

Antwortqualität. Übermäßig lange Prompts verschwenden nicht nur Budget, sondern können die Antwortqualität verschlechtern, weil relevante Informationen in der Textmasse untergehen. Gezieltes Prompt Engineering berücksichtigt daher immer auch die Token-Effizienz.

Token-Anzahl vs. Wortanzahl

Als Faustregel gilt für englischen Text: Ein Token entspricht etwa 0,75 Wörtern, oder umgekehrt ein Wort etwa 1,3 Tokens. Für deutschen Text liegt das Verhältnis aufgrund der Wortlänge und Kompositabildung höher — ein deutsches Wort entspricht durchschnittlich 1,5 bis 1,8 Tokens. Diese Unterschiede sind relevant, wenn Unternehmen den Token-Verbrauch für deutsche Geschäftsanwendungen kalkulieren: Ein deutschsprachiger Prompt kostet bei gleicher inhaltlicher Aussage mehr als sein englisches Pendant.

Relevanz für KMUs

Für den Unternehmenseinsatz von LLMs ist ein Grundverständnis von Tokens unverzichtbar. Es ermöglicht eine realistische Kostenkalkulation, die richtige Dimensionierung von RAG-Pipelines und die Optimierung von Prompts für den täglichen Einsatz. Gerade im deutschsprachigen Raum, wo der Token-Verbrauch systematisch höher liegt als in englischsprachigen Märkten, lohnt sich die bewusste Auseinandersetzung mit Tokenisierung — sei es bei der Auswahl des passenden Modells, der Gestaltung von System-Prompts oder der Budgetplanung für einen KI-Arbeitsplatz.

Unser Angebot

Souveräner KI-Arbeitsplatz

Weiterführende Artikel

RAG-Systeme für Unternehmen: So bauen Sie eine intelligente Wissensbasis DSGVO & KI: Was Unternehmen beim Einsatz beachten müssen