Pesquisa semântica soberana — quando a memória de uma casa fica na casa
Embeddings, bases vetoriais, similaridade, recuperação: leitura mesurada da pesquisa semântica e do compromisso soberano / alojado.

(Lev Marchuk: Profilage / Data scientist)
2 juin 2026 · 6 min
// avec la participation de
Margaux LefèvreDirectrice technique
Chloé GarnierResponsable architectureA constatação. Em poucos anos, uma empresa acumula milhares de documentos : fichas de produto, notas técnicas, trocas com fornecedores, procedimentos internos. Encontrá-los por palavra-chave exata torna-se rapidamente ilusório — o autor escreveu « ardósia de parede », o colega procura « quadro preto mural ». A pesquisa semântica resolve esse desfasamento : já não compara cadeias de caracteres, mas o sentido. Desde 2018-2019, os embeddings e as bases vetoriais levaram esta ideia do laboratório ao uso corrente. A questão hoje não é « é possível? » mas « onde alojar este saber? » — num serviço externo ou sob controlo próprio.
Da palavra-chave ao sentido
A pesquisa clássica assenta na correspondência lexical — a família TF-IDF e depois BM25, que continuam a ser referências sólidas da recuperação de informação. É rápida e explicável, mas cega aos sinónimos e a línguas diferentes. A pesquisa semântica procede de outro modo : cada fragmento de texto é convertido num vetor — uma lista de números que situa o fragmento num espaço onde a proximidade geométrica reflete a proximidade de sentido. Estes vetores são produzidos por modelos de embedding, herdeiros de word2vec (2013), GloVe (2014) e dos codificadores contextuais do Transformer (2017) e do BERT (2018).
Como funciona uma base vetorial
Convertidos os documentos em vetores, é preciso recuperar os mais próximos de uma consulta. A medida mais comum é a similaridade cosseno. Procurar exaustivamente entre milhões de vetores seria dispendioso : usam-se índices de vizinhos mais próximos aproximados (ANN), sendo HNSW (2016) e FAISS (2017) as famílias mais estabelecidas. Muitas vezes este mecanismo alimenta um esquema de retrieval-augmented generation (RAG, 2020) : recuperam-se os fragmentos pertinentes e fornecem-se como contexto a um sistema de redação.
Porquê « soberano »
Muitos fornecedores oferecem o embedding e o armazenamento vetorial como serviço alojado. Mas para uma base de conhecimento empresarial, indexar um documento equivale a enviar o seu conteúdo a um terceiro. Manter toda a cadeia sobre uma infraestrutura própria é o que chamamos uma abordagem soberana. Justificam-na o controlo dos dados (nada sai do perímetro), a conformidade (o RGPD, regulamento UE 2016/679) e a estabilidade (um modelo fixado internamente não muda ao ritmo de um fornecedor).
Os compromissos
A abordagem soberana não é gratuita. Um modelo de embedding aberto e de tamanho razoável (a família E5, 2022, ou os modelos MiniLM) funciona num servidor modesto, muitas vezes sem GPU, mas raramente iguala a qualidade absoluta dos maiores modelos proprietários. Há que alojá-lo, vigiá-lo e gerir as cópias e versões do índice. Se um modelo leve responde às consultas reais com suficiente abrangência, o controlo e a confidencialidade pesam mais que alguns pontos de pertinência.
Onde nos situamos
Montandor Andorra explora uma base de conhecimento semântica soberana para o seu utensílio interno : o corpus é segmentado, codificado por um modelo de embedding aberto alojado na nossa própria infraestrutura e indexado numa base vetorial que operamos. Nada de confidencial sai do perímetro — os dados de uma casa ficam na casa.
“Uma base de conhecimento é a memória de uma casa. Podem alugar-se muitas coisas ; a própria memória, melhor guardá-la em casa.”
— Wouter Meijboom, CEO, Montandor Andorra.
Fontes
- Mikolov et al. — word2vec, 2013; GloVe, 2014.
- Vaswani et al. — Transformer, 2017; BERT, 2018.
- Reimers & Gurevych — Sentence-BERT, 2019.
- Malkov & Yashunin — HNSW, 2016; FAISS, 2017.
- Lewis et al. — Retrieval-Augmented Generation, 2020.
- Robertson & Zaragoza — BM25, 2009.
- Regulamento geral de proteção de dados — (UE) 2016/679 (RGPD).
Publicado em 2 de junho de 2026 — investigação dirigida por Lev Marchuk (Perfilagem / Data Scientist), em colaboração com Margaux Lefèvre (Diretora técnica) e Chloé Garnier (Arquiteta-chefe).