Recherche sémantique souveraine — quand la mémoire d'une maison reste chez la maison

Embeddings, bases vectorielles, similarité, récupération : une lecture mesurée de la recherche sémantique et de l'arbitrage souverain / hébergé.

(Lev Marchuk: Profilage / Data scientist)

2 juin 2026 · 7 min

// avec la participation de

Margaux LefèvreDirectrice technique

Chloé GarnierResponsable architecture

Le constat. Une entreprise accumule, en quelques années, des milliers de documents : fiches produit, notes techniques, échanges fournisseurs, procédures internes. Les retrouver par mots-clés exacts devient vite illusoire — l'auteur a écrit « ardoise murale », le collègue cherche « tableau noir mural ». La recherche sémantique répond à ce décalage : elle ne compare plus des chaînes de caractères, mais le sens. Depuis 2018-2019, les embeddings et les bases vectorielles ont fait passer cette idée du laboratoire à l'outillage courant. La question qui se pose aujourd'hui n'est plus « est-ce possible ? » mais « où héberger ce savoir ? » — sur un service externe, ou sous son propre contrôle.

Du mot-clé au sens

La recherche classique repose sur la correspondance lexicale — la famille des modèles TF-IDF puis BM25, qui restent à ce jour des références solides de la recherche d'information. Elle est rapide et explicable, mais aveugle aux synonymes, aux reformulations et aux langues différentes. La recherche sémantique procède autrement : chaque fragment de texte est converti en un vecteur — une liste de nombres, souvent plusieurs centaines, qui situe le fragment dans un espace où la proximité géométrique traduit la proximité de sens. Deux phrases voisines par le sens sont voisines dans cet espace, même sans aucun mot commun.

Ces vecteurs sont produits par des modèles d'embedding, héritiers d'une lignée bien documentée : word2vec (Mikolov et al., 2013), GloVe (Pennington et al., 2014), puis les encodeurs contextuels issus de l'architecture Transformer (Vaswani et al., 2017) et de BERT (Devlin et al., 2018). Les modèles récents de type Sentence-BERT (Reimers & Gurevych, 2019) produisent directement des vecteurs de phrase comparables, ce qui a rendu la recherche sémantique opérationnelle à grande échelle.

Comment fonctionne une base vectorielle

Une fois les documents transformés en vecteurs, il faut pouvoir retrouver les plus proches d'une requête. C'est le rôle d'une base vectorielle. La mesure de proximité la plus courante est la similarité cosinus, qui compare l'angle entre deux vecteurs plutôt que leur longueur. Chercher exhaustivement parmi des millions de vecteurs serait coûteux ; on utilise donc des index de plus proches voisins approximatifs (ANN), dont les familles les mieux établies sont HNSW (Malkov & Yashunin, 2016) et IVF/PQ popularisée par la bibliothèque FAISS (Johnson et al., 2017). Ces index échangent une fraction de précision contre des gains de vitesse considérables.

Dans la pratique, ce mécanisme alimente souvent un schéma de retrieval-augmented generation (RAG, Lewis et al., 2020) : on récupère les fragments pertinents par similarité, puis on les fournit comme contexte à un système de rédaction. La qualité de la réponse dépend alors d'abord de la qualité de la récupération — d'où l'attention portée au découpage des documents, au choix du modèle d'embedding et à l'évaluation de la pertinence (rappel et précision).

Pourquoi « souverain »

Beaucoup de fournisseurs proposent l'embedding et le stockage vectoriel sous forme de service hébergé : c'est rapide à mettre en place et sans entretien. Mais pour une base de connaissances d'entreprise, indexer un document revient à en envoyer le contenu chez un tiers. Garder l'ensemble de la chaîne — modèle d'embedding, index, requêtes — sur une infrastructure que l'on maîtrise, c'est ce qu'on appelle une approche souveraine. Trois motifs la justifient.

Contrôle de la donnée. Les notes fournisseurs, conditions commerciales et procédures internes ne quittent pas le périmètre de l'entreprise — ni en clair, ni sous forme de vecteurs, dont la littérature montre qu'ils peuvent parfois être partiellement inversés.
Conformité. Le RGPD (règlement UE 2016/679) impose une base légale et une maîtrise des transferts pour toute donnée à caractère personnel ; héberger soi-même simplifie la cartographie des traitements et la localisation des données.
Stabilité. Un modèle d'embedding choisi et figé en interne ne change pas sous les pieds de l'entreprise au gré des mises à jour d'un fournisseur — ce qui éviterait d'avoir à ré-indexer tout le corpus sans préavis.

Les arbitrages

L'approche souveraine n'est pas gratuite. Un modèle d'embedding ouvert et de taille raisonnable (par exemple la famille E5, Wang et al., 2022, ou les modèles MiniLM) tourne sur un serveur modeste, souvent sans accélérateur graphique, mais atteint rarement la qualité absolue des plus gros modèles propriétaires. Il faut l'héberger, le surveiller, gérer les sauvegardes et la montée de version de l'index. Le bon compromis se mesure : si un modèle léger répond aux requêtes réelles avec un rappel suffisant, la maîtrise et la confidentialité l'emportent souvent sur les quelques points de pertinence d'un service hébergé.

La question n'est donc pas souverain ou hébergé dans l'absolu. Elle est : quelle est la sensibilité du corpus, quel niveau de pertinence est réellement nécessaire, et quel coût d'exploitation l'équipe peut soutenir dans la durée. C'est un arbitrage d'ingénierie autant que de gouvernance.

Où nous nous situons

Montandor Andorra exploite une base de connaissances sémantique souveraine pour son outillage interne : le corpus est découpé, encodé par un modèle d'embedding ouvert hébergé sur notre propre infrastructure, puis indexé dans une base vectorielle que nous opérons nous-mêmes. Rien de confidentiel ne sort du périmètre. Ce n'est pas un choix idéologique ; c'est l'application d'un principe simple — la donnée d'une maison reste chez la maison — à un outil de recherche dont nos équipes se servent au quotidien.

« Une base de connaissances, c'est la mémoire d'une maison. On peut louer beaucoup de choses ; sa propre mémoire, mieux vaut la garder chez soi. La recherche sémantique nous rend ce savoir vivant et trouvable — à condition qu'elle reste sous notre toit. »
— Wouter Meijboom, CEO, Montandor Andorra.

Sources

Publié le 2 juin 2026 — recherche menée par Lev Marchuk (Profilage / Data scientist), en collaboration avec Margaux Lefèvre (Directrice technique) et Chloé Garnier (Architecte en chef).