Montandor

← Journal

Recherche sémantique souveraine — garder la mémoire d'une maison chez soi

Embeddings, bases vectorielles, similarité, récupération : une lecture mesurée de l'arbitrage souverain / hébergé.

Lev Marchuk

(Lev Marchuk: Profilage / Data scientist)

2 juin 2026 · 5 min

// avec la participation de

Margaux LefèvreMargaux LefèvreDirectrice technique
Chloé GarnierChloé GarnierResponsable architecture

Le constat. En quelques années, une entreprise accumule des milliers de documents : fiches, notes, échanges fournisseurs, procédures. Les retrouver par mots-clés exacts devient illusoire. La recherche sémantique ne compare plus des chaînes de caractères, mais le sens. Depuis 2018-2019, les embeddings et les bases vectorielles ont rendu cela courant. La question n'est plus « est-ce possible ?  » mais « où héberger ce savoir ? ».

Comment ça marche

Chaque fragment de texte est converti en vecteur par un modèle d'embedding, puis indexé dans une base vectorielle. La proximité de sens devient une proximité géométrique (similarité cosinus). Pour aller vite, on utilise des index de plus proches voisins approximatifs (HNSW, FAISS), souvent au service d'un schéma retrieval-augmented generation (RAG).

Pourquoi souverain

Indexer un document chez un service hébergé revient à en envoyer le contenu chez un tiers. Garder modèle, index et requêtes sur sa propre infrastructure — l'approche souveraine — protège le contrôle de la donnée, la conformité RGPD (UE 2016/679) et la stabilité (pas de ré-indexation imposée par un fournisseur).

Les arbitrages

Un modèle ouvert de taille raisonnable (famille E5, MiniLM) tourne sur un serveur modeste, souvent sans GPU, mais n'égale pas toujours les plus gros modèles propriétaires. Si le rappel suffit aux requêtes réelles, la maîtrise et la confidentialité l'emportent.

Où nous nous situons

Montandor Andorra exploite une base de connaissances sémantique souveraine pour son outillage interne : corpus découpé, encodé par un modèle ouvert hébergé chez nous, indexé dans une base que nous opérons. Rien de confidentiel ne sort du périmètre.

« Une base de connaissances, c'est la mémoire d'une maison ; mieux vaut la garder chez soi. »
Wouter Meijboom, CEO, Montandor Andorra.

Sources

Publié le 2 juin 2026 — recherche menée par Lev Marchuk, en collaboration avec Margaux Lefèvre et Chloé Garnier.