Cerca semàntica sobirana — quan la memòria d'una casa es queda a casa
Embeddings, bases vectorials, similitud, recuperació: una lectura mesurada del compromís sobirà / allotjat.

(Lev Marchuk: Profilage / Data scientist)
2 juin 2026 · 5 min
// avec la participation de
Margaux LefèvreDirectrice technique
Chloé GarnierResponsable architectureLa constatació. En pocs anys, una empresa acumula milers de documents : fitxes de producte, notes tècniques, intercanvis amb proveïdors, procediments interns. Trobar-los per paraula clau exacta esdevé aviat il·lusori. La cerca semàntica ja no compara cadenes de caràcters, sinó el sentit. Des de 2018-2019, els embeddings i les bases vectorials han portat aquesta idea del laboratori a l'ús corrent. La pregunta ja no és « és possible? » sinó « on allotjar aquest saber? ».
Com funciona
Cada fragment de text es converteix en un vector mitjançant un model d'embedding i s'indexa en una base vectorial. La proximitat de sentit esdevé proximitat geomètrica (similitud cosinus). Per anar de pressa s'usen índexs de veïns més propers aproximats (HNSW, FAISS), sovint al servei d'un esquema retrieval-augmented generation (RAG).
Per què sobirà
Indexar un document en un servei allotjat equival a enviar-ne el contingut a un tercer. Mantenir model, índex i consultes sobre la pròpia infraestructura — l'enfocament sobirà — protegeix el control de les dades, la conformitat RGPD (UE 2016/679) i l'estabilitat (cap reindexació imposada per un proveïdor).
Els compromisos
Un model obert de mida raonable (família E5, MiniLM) funciona en un servidor modest, sovint sense GPU, però no sempre iguala els models propietaris més grans. Si l'exhaustivitat basta per a les consultes reals, el control i la confidencialitat pesen més.
On ens situem
Montandor Andorra explota una base de coneixement semàntica sobirana per al seu utillatge intern : corpus segmentat, codificat per un model obert allotjat a casa nostra, indexat en una base que operem. Res de confidencial no surt del perímetre.
“Una base de coneixement és la memòria d'una casa ; val més guardar-la a casa.”
— Wouter Meijboom, CEO, Montandor Andorra.
Fonts
- Mikolov et al. — word2vec, 2013; GloVe, 2014.
- Vaswani et al. — Transformer, 2017; BERT, 2018.
- Reimers & Gurevych — Sentence-BERT, 2019.
- HNSW (Malkov & Yashunin, 2016); FAISS (Johnson et al., 2017).
- Lewis et al. — Retrieval-Augmented Generation, 2020.
- Reglament (UE) 2016/679 (RGPD).
Publicat el 2 de juny de 2026 — recerca dirigida per Lev Marchuk, en col·laboració amb Margaux Lefèvre i Chloé Garnier.