Ricerca semantica sovrana — quando la memoria di una maison resta alla maison

Embedding, database vettoriali, similarità, recupero: lettura misurata della ricerca semantica e del compromesso sovrano / ospitato.

(Lev Marchuk: Profilage / Data scientist)

2 juin 2026 · 6 min

// avec la participation de

Margaux LefèvreDirectrice technique

Chloé GarnierResponsable architecture

La constatazione. In pochi anni, un'azienda accumula migliaia di documenti : schede prodotto, note tecniche, scambi con i fornitori, procedure interne. Ritrovarli per parola chiave esatta diventa presto illusorio — l'autore ha scritto « lavagna murale », il collega cerca « tabella nera a parete ». La ricerca semantica risponde a questo scarto : non confronta più stringhe di caratteri, ma il senso. Dal 2018-2019, gli embedding e i database vettoriali hanno portato quest'idea dal laboratorio all'uso corrente. La domanda oggi non è « è possibile? » ma « dove ospitare questo sapere? » — su un servizio esterno o sotto il proprio controllo.

Dalla parola chiave al senso

La ricerca classica si fonda sulla corrispondenza lessicale — la famiglia TF-IDF e poi BM25, tuttora riferimenti solidi del recupero dell'informazione. È rapida e spiegabile ma cieca ai sinonimi e alle lingue diverse. La ricerca semantica procede diversamente : ogni frammento di testo è convertito in un vettore — un elenco di numeri che colloca il frammento in uno spazio dove la prossimità geometrica riflette la prossimità di senso. Questi vettori sono prodotti da modelli di embedding, eredi di word2vec (2013), GloVe (2014) e degli encoder contestuali del Transformer (2017) e di BERT (2018).

Come funziona un database vettoriale

Convertiti i documenti in vettori, occorre recuperare quelli più vicini a una query. La misura più comune è la similarità coseno. Cercare in modo esaustivo tra milioni di vettori sarebbe costoso : si usano indici di vicini più prossimi approssimati (ANN), con HNSW (2016) e FAISS (2017) tra le famiglie più consolidate. Spesso questo meccanismo alimenta uno schema di retrieval-augmented generation (RAG, 2020) : si recuperano i frammenti pertinenti e si forniscono come contesto a un sistema di redazione.

Perché « sovrano »

Molti fornitori offrono l'embedding e l'archiviazione vettoriale come servizio ospitato. Ma per una base di conoscenza aziendale, indicizzare un documento equivale a inviarne il contenuto a un terzo. Mantenere l'intera catena su un'infrastruttura propria è ciò che chiamiamo un approccio sovrano. Lo giustificano il controllo dei dati (nulla esce dal perimetro), la conformità (il GDPR, regolamento UE 2016/679) e la stabilità (un modello fissato internamente non cambia al ritmo di un fornitore).

I compromessi

L'approccio sovrano non è gratuito. Un modello di embedding aperto e di dimensioni ragionevoli (la famiglia E5, 2022, o i modelli MiniLM) gira su un server modesto, spesso senza GPU, ma raramente eguaglia la qualità assoluta dei maggiori modelli proprietari. Va ospitato, monitorato, e ne vanno gestite copie e versioni dell'indice. Se un modello leggero risponde alle query reali con sufficiente richiamo, il controllo e la riservatezza pesano spesso più di qualche punto di pertinenza.

Dove ci collochiamo

Montandor Andorra gestisce una base di conoscenza semantica sovrana per il proprio strumentario interno : il corpus è segmentato, codificato da un modello di embedding aperto ospitato sulla nostra infrastruttura e indicizzato in un database vettoriale che gestiamo noi stessi. Nulla di confidenziale lascia il perimetro — i dati di una maison restano alla maison.

“Una base di conoscenza è la memoria di una maison. Si possono affittare molte cose ; la propria memoria è meglio tenerla in casa.”
— Wouter Meijboom, CEO, Montandor Andorra.

Fonti

Pubblicato il 2 giugno 2026 — ricerca condotta da Lev Marchuk (Profilazione / Data Scientist), in collaborazione con Margaux Lefèvre (Direttrice tecnica) e Chloé Garnier (Architetto capo).