Attività di raccolta (mining) di dati anche anonimi per un utilizzo di solito commerciale. Si parla di data mining relativamente a quei programmi che cercano su internet indirizzi email a cui inviare messaggi pubblicitari.
Aggiornamento: nel 2019 il termine è sicuramente usato in modo molto più ampio.
Resta l'attività di raccolta, estrazione ed eventuale normalizzazione di dati pubblicati su risorse accessibili da web, ma le finalità sono molto maggiori.
Il data mining può essere usato per profilare o per sviluppare la raccolta di big data e aiutare l'apprendimento di strumenti di intelligenza artificiale.
Tipicamente Wikipedia viene usata come sorgente di dati per l'analisi lessicale; banche dati di leggi multilingue per l'analisi e comparazione di termini giuridici.
Data mining, oggi come oggi, è sempre più l'attività preliminare alla costituzione di big data che, pero', utilizzano anche i dati raccolti presso gli utenti (comportamenti d'uso di software e device).
Incidentalmente raccomandavo negli anni '90 di inserire queste attività nella definizioni di risorse telematiche, quelle risorse che sono una risorsa dell'umanita'. Cioè nessuno se ne può appropriare senza ricondividerle con l'umanità.
A distanza di oltre venti anni, questo è ancora un tema incompreso ma esploso da parte di chi usa la voce digitalizzata per sviluppare strumenti di riconoscimento vocale. Le voci di tutti contribuiscono al successo del servizio realizzato da uno solo, e protetto in forma di monopolio, concedendo spesso l'uso in forma gratuita direttamente, ma remunerata indirettamente con la profilazione.