Montandor

← Journal

Souveräne semantische Suche — das Gedächtnis eines Hauses bleibt zu Hause

Embeddings, Vektordatenbanken, Ähnlichkeit, Abruf: eine sachliche Lesart der Abwägung souverän / gehostet.

Lev Marchuk

(Lev Marchuk: Profilage / Data scientist)

2 juin 2026 · 5 min

// avec la participation de

Margaux LefèvreMargaux LefèvreDirectrice technique
Chloé GarnierChloé GarnierResponsable architecture

Die Beobachtung. In wenigen Jahren sammelt ein Unternehmen Tausende Dokumente an : Produktblätter, technische Notizen, Lieferantenaustausch, interne Abläufe. Sie über exakte Stichwörter zu finden, wird rasch illusorisch. Die semantische Suche vergleicht nicht mehr Zeichenketten, sondern den Sinn. Seit 2018-2019 haben Embeddings und Vektordatenbanken dies zum Alltag gemacht. Die Frage lautet nicht mehr « ist es möglich ? », sondern « wo soll dieses Wissen liegen ? ».

Wie es funktioniert

Jedes Textfragment wird durch ein Embedding-Modell in einen Vektor umgewandelt und in einer Vektordatenbank indexiert. Sinnesnähe wird zu geometrischer Nähe (Kosinus-Ähnlichkeit). Für Geschwindigkeit nutzt man approximative Nächste-Nachbarn-Indizes (HNSW, FAISS), oft im Dienst eines Retrieval-Augmented-Generation-Schemas (RAG).

Warum souverän

Ein Dokument bei einem gehosteten Dienst zu indexieren, heisst, seinen Inhalt an einen Dritten zu senden. Modell, Index und Abfragen auf eigener Infrastruktur zu halten — der souveräne Ansatz — schützt Datenkontrolle, DSGVO-Konformität (EU 2016/679) und Stabilität (keine vom Anbieter erzwungene Neuindexierung).

Die Abwägungen

Ein offenes Modell vernünftiger Grösse (Familie E5, MiniLM) läuft auf einem bescheidenen Server, oft ohne GPU, erreicht aber nicht immer die Qualität der grössten proprietären Modelle. Reicht der Recall für die realen Abfragen, überwiegen Kontrolle und Vertraulichkeit.

Wo wir stehen

Montandor Andorra betreibt eine souveräne semantische Wissensbasis für die interne Werkzeugkette : das Korpus wird segmentiert, von einem offenen, bei uns gehosteten Modell kodiert und in einer von uns betriebenen Vektordatenbank indexiert. Nichts Vertrauliches verlässt den Perimeter.

„Eine Wissensbasis ist das Gedächtnis eines Hauses ; es bleibt besser zu Hause.“
Wouter Meijboom, CEO, Montandor Andorra.

Quellen

Veröffentlicht am 2. Juni 2026 — Forschung von Lev Marchuk, in Zusammenarbeit mit Margaux Lefèvre und Chloé Garnier.