"Un inference provider è un servizio o una piattaforma che permette di eseguire inferenze su modelli di machine learning.
"In altre parole, è un'interfaccia che consente agli utenti di inviare dati di input ai modelli pre-addestrati e ottenere come output le previsioni o le risposte generate dai modelli.
"Questo è particolarmente utile per applicazioni che richiedono analisi, classificazione, generazione di testo, riconoscimento di immagini, e altre attività basate su intelligenza artificiale."
Fin qui la risposta della AI sviluppata da IusOnDemand.
Perchè gli inference provider sono chiave nell'attuale sviluppo di servizi ?
Semplicemente perchè l'installazione di AI in locale è improponibile se non per chi vuole investire veramente tantissimi soldi.
Una nvidia 4070 con 32gb non può far girare modelli di reasoning decenti, e nemmeno modelli ricchi di sfumature cognitive, di relazioni concettuali. Possono fare lavori meccanici, senza però potersi fidare delle valutazioni cognitive, cioè non comprendono bene cosa leggono per fare quello che gli chiediamo.
In questa direzione però si muovono i cinesi, proponendo il supporto di chip diversi da nvidia (ce la faranno, ci vuole tempo pero') e proponendo compartimenti cognitivi specializzati, ma su metodi cognitivi comuni. Saper pensare, ma conoscere solo qualche comparto. Serve sapere perchè Cleopatra si è uccisa (non aveva altra via per proteggere il proprio popolo, se non togliendo a Roma il motivo di fare guerra), ma non serve che si sappia quando, dove, la storia di Cleopatra.
E siccome un llm, un modello, è un file compresso delle nozioni dell'umanità, l'importante che abbia le nozioni per ragionare, non che ricordi tutta la storia. L'esperienza senza ricordi di fatti estranei al proprio campo.
Con tutti i limiti che una soluzione del genere comporta, ma con il vantaggio che, in futuro, potrà funzionare un pochino su ogni pc.