I database vettoriali nascono per dare risposte probabilistiche, non risposte esatte.
La loro potenza sta nel fatto di individuare il più probabile.
Dobbiamo ricordare che la probabilità è connessa ad un risultati possibile individuato. Se il risultato, il motivo della ricerca, non è individuato, la macchina procede sulla base di probabilità basate su qualsiasi contesto, rendendo ogni ricerca priva di interesse.
In poche parole, probabilità segue finalità.
Premessa questa considerazione di assoluto valore, ci sono tecniche per migliorare la probabilità di risultati coerenti, soprattutto nei sistemi RAG che consentono di elaborare contenuti specifici.
Praticamente con il reranking il sistema attribuisce un "valore" maggiore a determinati contenuti.
Il termine è giovane nella AI, e non approfondito sotto il profilo linguistico.
Cosa significa: "determinati contenuti" ?
Il reranking opera sull'intero documento o su parte di essi ?
Un chunking è la tecnica che influisce su tokens and embeddings, ma qui l'analisi supera le finalità del dizionario.
Giova qui sapere che, in termini comuni, è come quando due persone discutono asserendo valori diversi.
Ad esempio una sottolinea i risvolti pratici, l'altra quelli legali: le due persone stanno discutendo di valori. Definiti i valori da seguire insieme, la conversazione diventerà efficace.
Ogni qual volta non si riesce a definire il fine comune che si sta perseguendo durante una interrogazione (ed è l'uomo e la macchina che conversano, quindi entrambi devono capirsi sugli obiettivi), allora il risultato non diventa migliore, non conterrà meno errori.
Diventa solo un risultato più coerente con l'obiettivo cercato.
Le allucinazioni sono tipicamente risposte interlocutorio di una macchina che non ha capito cosa vogliamo, e prova a rispondere a modo suo: da perfetta inebete che non sa cosa sono i valori e gli obiettivi che non abbiamo spiegato nella conversazione. Perchè è da noi che li aspetta.
Suggerisco la lettura su linkedin di questo post di Alessio Pomaro.
In linguistica si parlava espressamente di selezione della documentazione e di individuazione degli obiettivi in funzione di vari fattori: contesto,autori,fonti,dominio, e a altro.
Per chi usa ancora solo la logica dei motori di ricerca è come chiedere: "come accettare l'eredità" piuttosto che: "come farsi anticipare le spese del funerale dalla banca senza accettare l'eredità subito".