Montandor

← Journal

Búsqueda semántica soberana — cuando la memoria de una casa se queda en casa

Embeddings, bases vectoriales, similitud, recuperación: lectura mesurada de la búsqueda semántica y del compromiso soberano / alojado.

Lev Marchuk

(Lev Marchuk: Profilage / Data scientist)

2 juin 2026 · 6 min

// avec la participation de

Margaux LefèvreMargaux LefèvreDirectrice technique
Chloé GarnierChloé GarnierResponsable architecture

La constatación. En pocos años, una empresa acumula miles de documentos : fichas de producto, notas técnicas, intercambios con proveedores, procedimientos internos. Encontrarlos por palabra clave exacta pronto resulta ilusorio — el autor escribió « pizarra mural », el colega busca « tablero de pared  ». La búsqueda semántica resuelve ese desajuste : ya no compara cadenas de caracteres, sino el sentido. Desde 2018-2019, los embeddings y las bases vectoriales han llevado esta idea del laboratorio al uso corriente. La pregunta hoy no es « ¿es posible? » sino « ¿dónde alojar este saber? » — en un servicio externo o bajo control propio.

De la palabra clave al sentido

La búsqueda clásica se basa en la coincidencia léxica — la familia TF-IDF y luego BM25, que siguen siendo referencias sólidas de la recuperación de información. Es rápida y explicable, pero ciega ante sinónimos, reformulaciones e idiomas distintos. La búsqueda semántica procede de otro modo : cada fragmento de texto se convierte en un vector — una lista de números, a menudo varios cientos, que sitúa el fragmento en un espacio donde la proximidad geométrica refleja la proximidad de sentido. Estos vectores los producen modelos de embedding, herederos de word2vec (2013), GloVe (2014) y de los codificadores contextuales de la arquitectura Transformer (2017) y BERT (2018).

Cómo funciona una base vectorial

Una vez convertidos los documentos en vectores, hay que recuperar los más próximos a una consulta. La medida más común es la similitud coseno, que compara el ángulo entre dos vectores. Buscar de forma exhaustiva entre millones de vectores sería costoso : se usan índices de vecinos más próximos aproximados (ANN), siendo HNSW (2016) y FAISS (2017) las familias más establecidas. A menudo este mecanismo alimenta un esquema de retrieval-augmented generation (RAG, 2020) : se recuperan los fragmentos pertinentes y se aportan como contexto a un sistema de redacción.

Por qué « soberano »

Muchos proveedores ofrecen el embedding y el almacenamiento vectorial como servicio alojado : rápido y sin mantenimiento. Pero para una base de conocimiento corporativa, indexar un documento equivale a enviar su contenido a un tercero. Mantener toda la cadena — modelo, índice, consultas — sobre una infraestructura propia es lo que llamamos un enfoque soberano. Lo justifican el control de los datos (nada sale del perímetro), la conformidad (el RGPD, reglamento UE 2016/679, exige base legal y control de las transferencias de datos personales) y la estabilidad (un modelo fijado internamente no cambia al ritmo de un proveedor).

Los compromisos

El enfoque soberano no es gratuito. Un modelo de embedding abierto y de tamaño razonable (por ejemplo la familia E5, 2022, o los modelos MiniLM) funciona en un servidor modesto, a menudo sin GPU, pero rara vez iguala la calidad absoluta de los mayores modelos propietarios. Hay que alojarlo, supervisarlo y gestionar las copias y versiones del índice. El equilibrio se mide : si un modelo ligero responde a las consultas reales con suficiente exhaustividad, el control y la confidencialidad suelen pesar más que unos puntos de pertinencia.

Dónde nos situamos

Montandor Andorra explota una base de conocimiento semántica soberana para su utillaje interno : el corpus se segmenta, se codifica con un modelo de embedding abierto alojado en nuestra propia infraestructura y se indexa en una base vectorial que operamos nosotros mismos. Nada confidencial sale del perímetro. No es una elección ideológica : es aplicar un principio simple — los datos de una casa se quedan en la casa.

“Una base de conocimiento es la memoria de una casa. Se pueden alquilar muchas cosas ; la propia memoria, mejor guardarla en casa.”
Wouter Meijboom, CEO, Montandor Andorra.

Fuentes

Publicado el 2 de junio de 2026 — investigación dirigida por Lev Marchuk (Perfilado / Data Scientist), en colaboración con Margaux Lefèvre (Directora técnica) y Chloé Garnier (Arquitecta jefe).