Civile.it
/internet
Osservatorio sul diritto e telecomunicazioni informatiche, a cura del dott. V. Spataro dal 1999, 9267 documenti.

Il dizionario e' stato letto volte.



Segui via: Email - Telegram
  Dal 1999   spieghiamo il diritto di internet  Store  Podcast  Dizionario News alert    
             

  


WPkit.it: privacy, formulari, check up per WordPress

Temi attuali:
Algoritmi ChatGPT Intelligenza artificiale Privacy WordPress



Dizionario 23.03.2017    Pdf    Appunta    Letti    Post successivo  

Web scraping: cosa significa - dizionario

La' dove non arriva la condivisione supplisce l'html. Detto anche data scraping


Spataro

 

E

E' la tecnica di leggere una pagina online ed estrarne dati (data mining)

Feed rss. Per anni Youtube ha offerto i feed rss per facilitare la fruizione dei canali e la condivisione dei video.

Poi chiusi i rubinetti, chiusi i feed.

Nessuno se ne è accorto, a parte i programmatori.

A questo punto si analizzano le pagine html e si estraggono da esse i contenuti.

Ci sono tante tecniche per rendere compatibili i dati con altre risorse.

Teniamo presente che non si tratta di attività illegali, a priori. Pensate i calendari, già riconosciuti aperti quando non siano "particolari".

Insomma: il diritto riconosce che certe informazioni date in pubblico non possono poi essere tutela di esclusiva e vietate a singoli. Se vai in pubblico, dici in pubblico, gli altri possono ripetere.

Ci sono altre norme che intervengono, ma spesso il web scraping serve proprio a dare più visibilità ai servizi "minati" (mined da data mining).

Ci sono comparatori, che leggono le offerte e le propongono poi a i propri clienti con link diretti al sito di origine.

Spesso il sito destinatario ha accordi commerciali ma si rifiuta di fornire dati tramite api o altri formati.

Resta quindi il web scraping. Il migliore è quello che elabora quantità di dati in modo talmente originale da realizzare dei meta servizi di interesse.

A memoria ricordo i metacrawler, meta motori di ricerca che ne interrogavano altri e restituivano i risultati ai propri utenti.

Ci sono fior di tecniche per impedire il web scraping, ma è la battaglia tra chi vuole farsi conosce e chi vuole aggiungere un altro anello nella filiera commerciale, oppure diventare dominante e sfruttare il lavoro altrui.

La tecnica va quindi valutata volta per volta, senza presumere nulla. Troppi gli usi possibili.

Aggiornamento 7 4 2023

Il Garante ha bloccato temporaneamente ChatGPT perchè non vi è base giuridica per la raccolta dei dati sul web, quindi il trattamento illecito. Scorza e Stanzione hanno espressamente ribadito che non condividono l'equiparazione dello scraping di ChatGPT con quello di Google, senza spiegare.

Tipicamente la raccolta di dati veniva fatta per restituire i contenuti tramite motori di ricerca.

L'abbonandanza di contenuti categorizzati fa venire gola a chiunque, e oggi i tool di analisi dei trend trastrellano il web alla ricerca di sinonimi, assonanze, e per categorizzare meglio i contenuti.

L'aver trovato dati personali in ChatGPT viene desunto come un illecito trattamento a priori, l'opposto di quanto ho scritto io nel 2017.

La base giuridica tuttavia c'e'. Ico stesso spiega che non si deve presumere che ChatGPT sia titolare. Il tema è quindi in forte dibattito, ma personalmente ritengo che è il trattamento il problema. Non basta guardare l'esistenza dei dati personali.

Per inciso: l'attività di web scraping è fortemente depotenziata da api, javascript e tool per offuscare l'indicizzazione, e dal copyright, che da qualche anno impone di dimostrare a che titolo si usa un contenuto indicandone la fonte, senza aspettare che l'autore ne dichiari la partenità. Non in tutti i contesti, ma in molti.

Vale la pena anche notare che gli inquirenti effettuano data mining ampiamente, e sono sotto indagine dell'EDPS senza arrivare ad una pronuncia definitiva.

In poche parole tutti sentono in proprio di poter trattare miliardi di dati altrui, ma che se lo fanno altri non è autorizzabile.

Troppi conflitti, poco approfondimento. Ne leggeremo ancora.

23.03.2017 Spataro



1-bit LLM
Incidente
Social Media Manager
ARC - protocollo
Legal Product Management
Pareidolia
Violazioni minori
Reverse proxy
PECR
Pretexting



Segui le novità in materia di Dizionario su Civile.it via Telegram
oppure via email: (gratis Info privacy)





dallo store:
visita lo store








Dal 1999 il diritto di internet. I testi sono degli autori e di IusOnDemand srl p.iva 04446030969 - diritti riservati - Privacy - Cookie - Condizioni d'uso - in 0.04