IT-Lexikon
Künstliche Intelligenz

Embedding

Mathematische Darstellung von Text als hochdimensionaler Vektor, die es ermöglicht, semantische Ähnlichkeiten zwischen Texten zu berechnen.

Embeddings wandeln Text in numerische Vektoren um, wobei semantisch ähnliche Texte im Vektorraum nahe beieinander liegen. Jeder Vektor besteht aus hunderten bis tausenden Zahlenwerten, die gemeinsam die Bedeutung eines Textes codieren. Diese Technik ist die Grundlage für semantische Suche, RAG-Systeme, Textklassifizierung und Clustering. Anders als eine reine Stichwortsuche erfassen Embeddings auch Synonyme, Paraphrasen und kontextuelle Zusammenhänge — ein entscheidender Vorteil bei der Arbeit mit unstrukturierten Unternehmensdaten.

Wie Embeddings funktionieren

Ein Embedding-Modell verarbeitet eine Textpassage und gibt einen Vektor fester Länge zurück. Dabei durchläuft der Text zunächst einen Tokenizer, der ihn in Token zerlegt. Ein Transformer-Netzwerk berechnet anschließend aus diesen Token eine einzige Vektordarstellung. Texte mit ähnlicher Bedeutung erhalten Vektoren, die im hochdimensionalen Raum nahe beieinander liegen. Die Ähnlichkeit wird typischerweise über Kosinus-Ähnlichkeit oder den euklidischen Abstand gemessen. Dieses Prinzip ermöglicht es, aus Millionen von Dokumenten diejenigen abzurufen, die einer Suchanfrage semantisch am nächsten kommen — ohne dass exakte Schlüsselwörter übereinstimmen müssen.

Embedding-Modelle im Vergleich

Die Wahl des Embedding-Modells beeinflusst Retrieval-Qualität, Latenz und Betriebskosten. Die folgende Tabelle zeigt verbreitete Optionen:

Modell Dimensionen Sprachen Typischer Einsatz
OpenAI text-embedding-3-large 3 072 mehrsprachig Hohe Genauigkeit, API-basiert
OpenAI text-embedding-3-small 1 536 mehrsprachig Kosteneffizient, gute Basisqualität
Cohere embed-v3 1 024 100+ Komprimierung möglich, flexible Dimensionen
intfloat/multilingual-e5-large 1 024 100+ Open Source, selbst hostbar
sentence-transformers/paraphrase-multilingual-MiniLM 384 50+ Leichtgewichtig, schnelle Inferenz

Proprietäre Modelle wie die von OpenAI oder Cohere bieten hohe Qualität bei einfacher Integration über API-Aufrufe. Open-Source-Alternativen auf Basis von Sentence Transformers ermöglichen den Betrieb auf eigener Infrastruktur — ein relevanter Aspekt für Unternehmen mit strengen Datenschutzanforderungen nach DSGVO.

Chunking-Strategien

Bevor Dokumente als Embeddings gespeichert werden, müssen sie in sinnvolle Abschnitte (Chunks) zerlegt werden. Die Chunking-Strategie hat direkten Einfluss auf die Retrieval-Qualität. Zu große Chunks verwässern die semantische Präzision, zu kleine Chunks verlieren den Kontext. In der Praxis haben sich überlappende Chunks mit 200–500 Token bewährt, wobei eine Überlappung von 10–20 % Kontextverluste an den Grenzen reduziert. Fortgeschrittene Ansätze nutzen semantisches Chunking, das Abschnittsgrenzen anhand inhaltlicher Übergänge setzt, oder hierarchisches Chunking mit Zusammenfassungen auf übergeordneter Ebene. Die optimale Strategie hängt vom Dokumenttyp ab: Vertragstexte erfordern andere Chunk-Größen als technische Handbücher oder Support-Tickets.

Anwendung in RAG-Systemen

In einer RAG-Pipeline werden die erzeugten Chunks als Embedding-Vektoren in einer Vector Database gespeichert. Bei einer Nutzeranfrage wird die Frage ebenfalls in einen Vektor umgewandelt, und die ähnlichsten Dokument-Chunks werden per Vektorsuche abgerufen. Diese Chunks fließen als Kontext in den Prompt eines LLM, das daraus eine fundierte Antwort generiert. Die Qualität des Embedding-Modells bestimmt maßgeblich, ob die richtigen Dokumente gefunden werden — ein schwaches Retrieval führt zu irrelevanten Antworten oder Halluzinationen. Durch Fine-Tuning eines Embedding-Modells auf unternehmensspezifische Fachsprache lässt sich die Retrieval-Qualität gezielt verbessern.

Deutsche Sprache und mehrsprachige Modelle

Nicht alle Embedding-Modelle bilden die deutsche Sprache gleich gut ab. Modelle, die überwiegend auf englischen Daten trainiert wurden, schwächeln bei deutschen Komposita, Fachbegriffen und Dialektvarianten. Für den deutschen Unternehmenseinsatz eignen sich mehrsprachig optimierte Modelle wie Cohere embed-v3 oder Open-Source-Modelle der multilingual-e5-Familie. Bei besonders spezialisierten Domänen — etwa Versicherungsrecht oder Maschinenbau-Dokumentation — kann ein domänenspezifisches Fine-Tuning die Ergebnisse weiter verbessern. Die Evaluation sollte stets mit realen deutschen Testdaten erfolgen, nicht nur mit übersetzten englischen Benchmarks.

Relevanz für KMUs

Für kleine und mittlere Unternehmen eröffnen Embeddings den Zugang zu intelligenter Dokumentensuche und wissensbasierten KI-Anwendungen. Ein typischer Einstieg ist die semantische Suche über interne Wissensdatenbanken: Mitarbeitende stellen Fragen in natürlicher Sprache und erhalten relevante Passagen aus Handbüchern, Verträgen oder Ticket-Archiven. Die Betriebskosten bleiben überschaubar — API-basierte Modelle rechnen pro Token ab, Open-Source-Modelle laufen auf moderater Hardware. Entscheidend ist die Wahl einer Architektur, die mit dem Datenvolumen skaliert und dabei DSGVO-konforme Datenverarbeitung gewährleistet. Embeddings sind kein Selbstzweck, sondern die technische Grundlage dafür, dass ein LLM präzise auf unternehmenseigenes Wissen zugreifen kann.