E' la tecnica di leggere una pagina online ed estrarne dati (data mining)
Feed rss. Per anni Youtube ha offerto i feed rss per facilitare la fruizione dei canali e la condivisione dei video.
Poi chiusi i rubinetti, chiusi i feed.
Nessuno se ne è accorto, a parte i programmatori.
A questo punto si analizzano le pagine html e si estraggono da esse i contenuti.
Ci sono tante tecniche per rendere compatibili i dati con altre risorse.
Teniamo presente che non si tratta di attività illegali, a priori. Pensate i calendari, già riconosciuti aperti quando non siano "particolari".
Insomma: il diritto riconosce che certe informazioni date in pubblico non possono poi essere tutela di esclusiva e vietate a singoli. Se vai in pubblico, dici in pubblico, gli altri possono ripetere.
Ci sono altre norme che intervengono, ma spesso il web scraping serve proprio a dare più visibilità ai servizi "minati" (mined da data mining).
Ci sono comparatori, che leggono le offerte e le propongono poi a i propri clienti con link diretti al sito di origine.
Spesso il sito destinatario ha accordi commerciali ma si rifiuta di fornire dati tramite api o altri formati.
Resta quindi il web scraping. Il migliore è quello che elabora quantità di dati in modo talmente originale da realizzare dei meta servizi di interesse.
A memoria ricordo i metacrawler, meta motori di ricerca che ne interrogavano altri e restituivano i risultati ai propri utenti.
Ci sono fior di tecniche per impedire il web scraping, ma è la battaglia tra chi vuole farsi conosce e chi vuole aggiungere un altro anello nella filiera commerciale, oppure diventare dominante e sfruttare il lavoro altrui.
La tecnica va quindi valutata volta per volta, senza presumere nulla. Troppi gli usi possibili.