chatgpt | 2023-08-28 · NEW: Appunta · Stampa · Cita: 'Doc 97912' · pdf |
Il trattamento di web spidering di ChatGPT e robots.txt |
abstract:
Qualche mese fa dicevo che ChatGPT operava come qualsiasi motore di ricerca. Ora anche nelle interviste componenti del Garante ricordano l'uso di robots.txt segnalato da tanti altri.
Link: https://platform.openai.com/docs/plugins/bot
analisi:
....... .... .. ...... ... ....... ....... .... ......... ...... .. ........
... ..... ..... .......... .......... ... ....... ......... .'... .. .......... ......... .. ..... ......
..... ... ....... ... .' .. ...... .. ........ .' ............... . ...........
........ .. ........... .. ........ .. .... ... ... ........ ...... .... ...... ....: ....... .......
.. .. ........ ...... .. ...... .. ..... ...... ....... . ... ...... ....... ..... . ....: "..... .. ......... . ..... .. .......", ........ .... .... .. ............. ..... ... .. ...... .. ........
....... .. ... ...... ........ ......' ...... ...... ....... . ........... . ....... ... ...... ....... . .........
......' ....... .. .........
.. .... .. ....... .' ....... .. .... .. ...... .........., ..... .. ..... ....... ...... .... (........ ....) .. .... .... .. .... ........... ..... .... .. .......
.. .'............... .. ........ ..... ... ......
...... ......' ?......
......' .. ... ..... ... .......... . ...... .. ..... ........ ... ... .' ........, ... ........ ... ........ ....... .... ..... ......... .............
.. ........ .' ..' ... ...... ..... .. ...... .. .... ... .... . ..... . ........ ... ......... .. ... ... ...... ......... ........... ... .'......... ........
.. ...... .......... ? .... ........ ....... ......... ........ ..........
..... ..........
.. ..., ........, ..... ......... .... .. .... .......
... ........ ...'....... .. ........ .'....... .. .... .. ....... ...... ..... ...... .. .. ........... ..... ... .. ..... .. ....... .. ........ ...... . .. ........, ..... .............
.. ........ ..... ... ...' ...... .. ...
.. ......., . ...... .... ............
index:
Indice
- I primi "attacchi" per acquisire tutte
testo:
Come dicevo, lo scraping e' l'attività che accomuna OpenAi a Google.
Il Garante per mesi non ha ascoltato e ha smentito nelle interviste, ma molto di recente ha riconosciuto che esistono standard per fermare lo scraping. Standard nati per i motori di ricerca, disponibili per chatGpt. Altri nei mesi scorsi avevano spiegato lo standard, senza ottenere ascolto. Ora la nozione tecnica finalmente viene acquisita.
Standard per altro aggirati ripetutamente da vari operatori malevoli, quindi riconosciuti insufficienti. I primi "attacchi" per acquisire tutte le mie ontologie li ho visti una decina di anni fa, forse anche prima.
Robots.txt dice: fermati !
User-agent: * Disallow: /
Cosa che vi fara' cancellare da qualsiasi motore di ricerca (in effetti no, ci sono altri motivi).
User-agent: ChatGPT-User
Disallow: /
Infatti usa anche uno user agent trasparente: User agent token: ChatGPT-User
Alcuni dicono di bloccare l'ip. E' una tecnica sbagliata, piuttosto complementare.
Come confermano quindi gli standard del web, l'attività di raccolta tramite web scraping coincide con quella di qualsiasi motore di ricerca.
L'elaborazione dei dati invece e' diversa.
E' un fatto informatico e lo ribadisco con forza. Non si puo' qualificare legalmente in modo diverso.
La distinzione tuttavia e' utilissima per capire quali trattamenti richiedono ulteriori attenzioni e come (sotto il profilo legale).
Ma non e' questa la sede, e nemmeno il tempo.
Link: https://platform.openai.com/docs/plugins/bot
Testo del 2023-08-28
Chatgpt Search engine Robots.txt