Pesquisa semântica soberana — quando a memória de uma casa fica na casa

Embeddings, bases vetoriais, similaridade, recuperação: leitura mesurada da pesquisa semântica e do compromisso soberano / alojado.

(Lev Marchuk: Profilage / Data scientist)

2 juin 2026 · 6 min

// avec la participation de

Margaux LefèvreDirectrice technique

Chloé GarnierResponsable architecture

A constatação. Em poucos anos, uma empresa acumula milhares de documentos : fichas de produto, notas técnicas, trocas com fornecedores, procedimentos internos. Encontrá-los por palavra-chave exata torna-se rapidamente ilusório — o autor escreveu « ardósia de parede », o colega procura « quadro preto mural ». A pesquisa semântica resolve esse desfasamento : já não compara cadeias de caracteres, mas o sentido. Desde 2018-2019, os embeddings e as bases vetoriais levaram esta ideia do laboratório ao uso corrente. A questão hoje não é « é possível? » mas « onde alojar este saber? » — num serviço externo ou sob controlo próprio.

Da palavra-chave ao sentido

A pesquisa clássica assenta na correspondência lexical — a família TF-IDF e depois BM25, que continuam a ser referências sólidas da recuperação de informação. É rápida e explicável, mas cega aos sinónimos e a línguas diferentes. A pesquisa semântica procede de outro modo : cada fragmento de texto é convertido num vetor — uma lista de números que situa o fragmento num espaço onde a proximidade geométrica reflete a proximidade de sentido. Estes vetores são produzidos por modelos de embedding, herdeiros de word2vec (2013), GloVe (2014) e dos codificadores contextuais do Transformer (2017) e do BERT (2018).

Como funciona uma base vetorial

Convertidos os documentos em vetores, é preciso recuperar os mais próximos de uma consulta. A medida mais comum é a similaridade cosseno. Procurar exaustivamente entre milhões de vetores seria dispendioso : usam-se índices de vizinhos mais próximos aproximados (ANN), sendo HNSW (2016) e FAISS (2017) as famílias mais estabelecidas. Muitas vezes este mecanismo alimenta um esquema de retrieval-augmented generation (RAG, 2020) : recuperam-se os fragmentos pertinentes e fornecem-se como contexto a um sistema de redação.

Porquê « soberano »

Muitos fornecedores oferecem o embedding e o armazenamento vetorial como serviço alojado. Mas para uma base de conhecimento empresarial, indexar um documento equivale a enviar o seu conteúdo a um terceiro. Manter toda a cadeia sobre uma infraestrutura própria é o que chamamos uma abordagem soberana. Justificam-na o controlo dos dados (nada sai do perímetro), a conformidade (o RGPD, regulamento UE 2016/679) e a estabilidade (um modelo fixado internamente não muda ao ritmo de um fornecedor).

Os compromissos

A abordagem soberana não é gratuita. Um modelo de embedding aberto e de tamanho razoável (a família E5, 2022, ou os modelos MiniLM) funciona num servidor modesto, muitas vezes sem GPU, mas raramente iguala a qualidade absoluta dos maiores modelos proprietários. Há que alojá-lo, vigiá-lo e gerir as cópias e versões do índice. Se um modelo leve responde às consultas reais com suficiente abrangência, o controlo e a confidencialidade pesam mais que alguns pontos de pertinência.

Onde nos situamos

Montandor Andorra explora uma base de conhecimento semântica soberana para o seu utensílio interno : o corpus é segmentado, codificado por um modelo de embedding aberto alojado na nossa própria infraestrutura e indexado numa base vetorial que operamos. Nada de confidencial sai do perímetro — os dados de uma casa ficam na casa.

“Uma base de conhecimento é a memória de uma casa. Podem alugar-se muitas coisas ; a própria memória, melhor guardá-la em casa.”
— Wouter Meijboom, CEO, Montandor Andorra.

Fontes

Publicado em 2 de junho de 2026 — investigação dirigida por Lev Marchuk (Perfilagem / Data Scientist), em colaboração com Margaux Lefèvre (Diretora técnica) e Chloé Garnier (Arquiteta-chefe).