Künstliche Intelligenz

Context Window

Die maximale Anzahl an Tokens, die ein Large Language Model in einer einzelnen Anfrage verarbeiten kann — bestehend aus Eingabe und Ausgabe zusammen.

Das Context Window (Kontextfenster) bezeichnet die maximale Menge an Text, die ein Large Language Model in einer einzelnen Anfrage gleichzeitig verarbeiten kann. Es umfasst sowohl die Eingabe (Systemprompt, Konversationsverlauf, hochgeladene Dokumente) als auch die generierte Ausgabe. Alles, was außerhalb dieses Fensters liegt, ist für das Modell unsichtbar. Die Größe wird in Tokens gemessen — Einheiten, die je nach Sprache etwa drei bis vier Zeichen umfassen, wobei deutsche Texte tendenziell mehr Tokens pro Wort benötigen als englische.

Entwicklung der Kontextgrößen

Frühe Sprachmodelle waren auf wenige tausend Tokens beschränkt, was etwa einer Handvoll Textseiten entsprach. Aktuelle Modelle bieten Kontextfenster von hunderttausenden bis über einer Million Tokens und können damit ganze Bücher, umfangreiche Codebases oder hunderte Seiten an Vertragsdokumenten in einer einzigen Anfrage verarbeiten. Diese Entwicklung hat die Einsatzmöglichkeiten von LLMs grundlegend erweitert — Aufgaben wie die vollständige Analyse langer Verträge oder die Zusammenfassung ganzer Projektdokumentationen sind erst durch große Kontextfenster praktikabel geworden.

Warum das Context Window wichtig ist

Die Größe des Kontextfensters bestimmt direkt, welche Anwendungsfälle mit einem LLM realisierbar sind. Bei mehrstufigen Konversationen muss der gesamte bisherige Gesprächsverlauf in das Fenster passen, damit das Modell den Kontext nicht verliert. Bei der Dokumentenanalyse entscheidet das Kontextfenster, ob ein Dokument vollständig oder nur in Teilen verarbeitet werden kann. Und in RAG-Systemen beeinflusst es, wie viele abgerufene Textpassagen dem Modell als Kontext übergeben werden können.

Ein größeres Kontextfenster bedeutet allerdings nicht automatisch bessere Ergebnisse. Forschungsergebnisse zeigen das sogenannte „Lost in the Middle"-Problem: Informationen, die sich in der Mitte eines langen Kontexts befinden, werden von Modellen weniger zuverlässig berücksichtigt als Inhalte am Anfang oder Ende. Die bloße Fähigkeit, lange Texte zu akzeptieren, garantiert also nicht, dass alle darin enthaltenen Informationen gleichwertig genutzt werden.

Strategien für den Umgang mit begrenztem Kontext

In der Praxis gibt es bewährte Ansätze, um innerhalb der Grenzen des Kontextfensters effektiv zu arbeiten. Chunking teilt große Dokumente in kleinere, überlappende Abschnitte auf, die einzeln verarbeitet und anschließend zusammengeführt werden. Summarization fasst lange Texte oder Konversationsverläufe zusammen, bevor sie in den Kontext einfließen. RAG umgeht die Begrenzung elegant, indem nur die für eine Frage relevanten Textpassagen aus einer Vektordatenbank abgerufen und dem Modell übergeben werden — statt das gesamte Dokument in den Kontext zu laden. Und gezieltes Prompt Engineering sorgt dafür, dass die wichtigsten Informationen an den Anfang oder das Ende des Kontexts platziert werden, wo sie am zuverlässigsten verarbeitet werden.

Relevanz für KMUs

Für Unternehmen ist das Verständnis des Context Windows aus zwei Gründen relevant. Erstens beeinflusst es die Wahl des Modells und der Architektur: Wer regelmäßig lange Verträge, technische Dokumentationen oder umfangreiche E-Mail-Verläufe analysieren will, braucht Modelle mit großem Kontextfenster — oder eine RAG-Architektur, die diese Einschränkung kompensiert. Zweitens hat die Kontextgröße direkte Kostenauswirkungen, da bei den meisten Anbietern die Abrechnung pro Token erfolgt. Mehr Kontext bedeutet höhere Kosten pro Anfrage. Eine durchdachte Strategie — etwa die Kombination aus Zusammenfassung und gezieltem Retrieval — kann die Qualität der Ergebnisse verbessern und gleichzeitig die Kosten senken.

Unser Angebot

KI-Wissensdatenbank

Weiterführende Artikel

RAG-Systeme für Unternehmen: So bauen Sie eine intelligente Wissensbasis