Recherche sémantique souveraine — garder la mémoire d'une maison chez soi
Embeddings, bases vectorielles, similarité, récupération : une lecture mesurée de l'arbitrage souverain / hébergé.

(Lev Marchuk: Profilage / Data scientist)
2 juin 2026 · 5 min
// avec la participation de
Margaux LefèvreDirectrice technique
Chloé GarnierResponsable architectureLe constat. En quelques années, une entreprise accumule des milliers de documents : fiches, notes, échanges fournisseurs, procédures. Les retrouver par mots-clés exacts devient illusoire. La recherche sémantique ne compare plus des chaînes de caractères, mais le sens. Depuis 2018-2019, les embeddings et les bases vectorielles ont rendu cela courant. La question n'est plus « est-ce possible ? » mais « où héberger ce savoir ? ».
Comment ça marche
Chaque fragment de texte est converti en vecteur par un modèle d'embedding, puis indexé dans une base vectorielle. La proximité de sens devient une proximité géométrique (similarité cosinus). Pour aller vite, on utilise des index de plus proches voisins approximatifs (HNSW, FAISS), souvent au service d'un schéma retrieval-augmented generation (RAG).
Pourquoi souverain
Indexer un document chez un service hébergé revient à en envoyer le contenu chez un tiers. Garder modèle, index et requêtes sur sa propre infrastructure — l'approche souveraine — protège le contrôle de la donnée, la conformité RGPD (UE 2016/679) et la stabilité (pas de ré-indexation imposée par un fournisseur).
Les arbitrages
Un modèle ouvert de taille raisonnable (famille E5, MiniLM) tourne sur un serveur modeste, souvent sans GPU, mais n'égale pas toujours les plus gros modèles propriétaires. Si le rappel suffit aux requêtes réelles, la maîtrise et la confidentialité l'emportent.
Où nous nous situons
Montandor Andorra exploite une base de connaissances sémantique souveraine pour son outillage interne : corpus découpé, encodé par un modèle ouvert hébergé chez nous, indexé dans une base que nous opérons. Rien de confidentiel ne sort du périmètre.
« Une base de connaissances, c'est la mémoire d'une maison ; mieux vaut la garder chez soi. »
— Wouter Meijboom, CEO, Montandor Andorra.
Sources
- Mikolov et al. — word2vec, 2013; GloVe, 2014.
- Vaswani et al. — Transformer, 2017; BERT, 2018.
- Reimers & Gurevych — Sentence-BERT, 2019.
- HNSW (Malkov & Yashunin, 2016); FAISS (Johnson et al., 2017).
- Lewis et al. — Retrieval-Augmented Generation, 2020.
- Règlement (UE) 2016/679 (RGPD).
Publié le 2 juin 2026 — recherche menée par Lev Marchuk, en collaboration avec Margaux Lefèvre et Chloé Garnier.