Montandor

← Journal

Cerca semàntica sobirana — quan la memòria d'una casa es queda a casa

Embeddings, bases vectorials, similitud, recuperació: una lectura mesurada del compromís sobirà / allotjat.

Lev Marchuk

(Lev Marchuk: Profilage / Data scientist)

2 juin 2026 · 5 min

// avec la participation de

Margaux LefèvreMargaux LefèvreDirectrice technique
Chloé GarnierChloé GarnierResponsable architecture

La constatació. En pocs anys, una empresa acumula milers de documents : fitxes de producte, notes tècniques, intercanvis amb proveïdors, procediments interns. Trobar-los per paraula clau exacta esdevé aviat il·lusori. La cerca semàntica ja no compara cadenes de caràcters, sinó el sentit. Des de 2018-2019, els embeddings i les bases vectorials han portat aquesta idea del laboratori a l'ús corrent. La pregunta ja no és « és possible? » sinó « on allotjar aquest saber? ».

Com funciona

Cada fragment de text es converteix en un vector mitjançant un model d'embedding i s'indexa en una base vectorial. La proximitat de sentit esdevé proximitat geomètrica (similitud cosinus). Per anar de pressa s'usen índexs de veïns més propers aproximats (HNSW, FAISS), sovint al servei d'un esquema retrieval-augmented generation (RAG).

Per què sobirà

Indexar un document en un servei allotjat equival a enviar-ne el contingut a un tercer. Mantenir model, índex i consultes sobre la pròpia infraestructura — l'enfocament sobirà — protegeix el control de les dades, la conformitat RGPD (UE 2016/679) i l'estabilitat (cap reindexació imposada per un proveïdor).

Els compromisos

Un model obert de mida raonable (família E5, MiniLM) funciona en un servidor modest, sovint sense GPU, però no sempre iguala els models propietaris més grans. Si l'exhaustivitat basta per a les consultes reals, el control i la confidencialitat pesen més.

On ens situem

Montandor Andorra explota una base de coneixement semàntica sobirana per al seu utillatge intern : corpus segmentat, codificat per un model obert allotjat a casa nostra, indexat en una base que operem. Res de confidencial no surt del perímetre.

“Una base de coneixement és la memòria d'una casa ; val més guardar-la a casa.”
Wouter Meijboom, CEO, Montandor Andorra.

Fonts

Publicat el 2 de juny de 2026 — recerca dirigida per Lev Marchuk, en col·laboració amb Margaux Lefèvre i Chloé Garnier.