Civile.it
/internet
Osservatorio sul diritto e telecomunicazioni informatiche, a cura del dott. V. Spataro dal 1999, 9282 documenti.

Il dizionario e' stato letto volte.



Segui via: Email - Telegram
  Dal 1999   spieghiamo il diritto di internet  Store  Podcast  Dizionario News alert    
             

  


WPkit.it: privacy, formulari, check up per WordPress

Temi attuali:
Algoritmi ChatGPT Intelligenza artificiale Privacy WordPress



Opendata 21.12.2020    Pdf    Appunta    Letti    Post successivo  

Opendata: Who said it first, in Italian Parliament ?

A great opportunity to study opendata and Italian Parliament


Valentino Spataro

 

Who said it first, in Italian Parliament ?

Q&A in open data.

www.legaldesign.it/opendata

My name is Valentino Spataro. I follow John Sheridan on Twitter for what he made on open data in UK, some years ago.

I was surprised when I've read a retweet of Sollazzo. He announced an easy and effective way to find the first time a word was used in the House of Commons.

It was some months I was looking for an inspiration to go deeper in open data of the Italian Parliament, and the idea make me open a door of opportunities.

So I studied the front end realized by Sollazzo. It's a great work to use the data via TheyWorkForYou.

In Italy there are several solutions, but I was looking for a single endpoint of all legislatures.

Secondly, I was looking for Q&A that, in my opinion, describe more a issuee on the society.

dati.camera.it offers two ways: download or endpoint.

The use of the endpoint requires a deep knowledge about the classifications of the documents. I hadn't yet enough experience to try a consultation in SPARQL of Q&A.

So I downloaded them. The ascii files follows this format:

  • url of the single Q&A;
  • key
  • value

A single Q&A is described in different single lines, acrosso 6 million of lines. Every Q&A is tagged with its unique url.

I've lost a week to try to manage them as a final product, in the best way, supporting the european ontologies used.

The solution came when I decided to make something work, immediatly, without ordering in advance all datas in a single record, a single record for each Q&A. Sql can do it for me, even if I lose flexibility for advanced queries.

I was impressed by the use of Eurovoc classifications; it made me fly too high for actual goals.

I had to remember that this is a project to learn how datas are classified, and to find the first one using a word, in Q&A in Italian Parliament, not everything else.

So I cleaned and imported the open data in my maria Db server, one line by one, and wrote the software to create the fastest sql query.

The database was indexed in full text, one index for the two field: a values field in VARCHAR and a long descrition field in type TEXT. The index, obviously, FULLTEXT.

I had to work only from XIV legislature and the next ones: the previous is temporarly missing (the zip is empty) and the previous legislatures are in a different format. So the best idea is to learn the fields needed to use SPARQL.

For the UI I followed the method of Sollazzo (a green photo of the Parliament), for the framework I use Materializecss.

Being in contact con Sollazzo, he suggested me to make a little presentation. I made a video in Italian, sorry, where you can see the raw datas and how they area imported in maria Db.

That difficult is to have an easy access of open datas. Sparql is exceptional, and Italian Parliament offer many example and documentions, but I didn't find anything on Q&A, so I have to experiment.

But what I've learnt is the exceptional use of european classifications, Eurovoc, that are multilingual and in a sort of hierarchy very intersting.

But the more important lesson is that we can add value to open data with a vision, with our culture.

Everyone try to use all datas to give more informations.

But focusing on a single useful information can really add much more value to a dataset than offering list of informations, already available on the web.

Thank Sollazzo,

Valentino Spataro

www.legaldesign.it/opendata

Chi l'ha detto per primo in Parlamento ?

Da uno scambio di Tweet con Giuseppe Sollazzo e John Sheridan abbiamo utilizzato gli open data del Parlamento Italiano.

Chi l'ha detto per primo ?

Questo è quello che ha realizzato Giuseppe Sollazzo, con gli opendata della House of Commons: una consultazione molto semplice e rapida degli atti parlamentari alla ricerca della prima volta.

Appena ho visto l'idea, il cui sorgente è su GitHub, mi sono detto che era l'idea che mi serviva per iniziare a giocare con altri dati parlamentari, oltre a quelli che già utilizzo.

Ho risposto al tweet e ci siamo tenuti i contatto.

UK vs Italy

La pagina di Giuseppe Sollazzo sfrutta una facile consultazione offerta da un sito inglese, che mette a disposizione una ricerca che può essere inserita in pagine esterne.

In Italia non c'è un servizio simile, ma gli SPARQL del Parlamento consentono ogni interrogazione in tempo reale: completissimi, ma richiedono una approfondita conoscenza dei database parlamentari.

Per iniziare si possono scaricare i dataset già pronti, per poi importarli in un database.

Interrogazioni parlamentari

Da subito ho pensato che le interrogazioni parlamentari dovrebbero contenere richieste più interessanti e meno ridondanti di quelle contenuti nei dibattiti di approvazione di una legge.

Partendo dalle interrogazioni ho trovato i dati registrati in due formati a seconda del periodo. Ho preso quelli dalla XIV legislatura in avanti.

Scaricatili, ho iniziato a guardarli. Sono divisi in:

  1. id interrogazione
  2. chiave
  3. valore

A questo punto ho provato a inserire in una unica scheda di una interrogazione tutti i valori, campo dopo campo.

Troppo lungo. Fattibile, ma richiede troppe prove troppo lunghe.

Sei milioni di linee da indicizzare

Sei milioni: tante sono le linee contenuti negli opendata che ho scelto.

A questo punto ho deciso di replicare la struttura direttamente nel database, dividendo i valori tra quelli più piccoli di 500 caratteri in campi VARCHAR e quelli più lunghi in campi TEXT.

La scelta è pensata ai fini dell'indicizzazione.

A questo punto i dati vengono caricati e generato, tra i vari, un indice FULLTEXT sui due campi: per farla breve, ho dato a MariaDB lo strumento per fare ricerche istantanee.

La query viene generata dal programma sulla base delle parole cercate, per essere rapidissima: sono così passato da un iniziale 15 secondi a meno di mezzo secondo, forse ancora meno.

Sarebbe stato bello normalizzare i dati in modo più efficace, ma richiede troppo lavoro.

Qui la finalità è imparare a conoscere gli opendata

Ontologie

Interessantissimo è stato lavorare, nelle ipotesi iniziali, con le ontologie europee. Ogni atto parlamentare è categorizzato con una struttura "gerarchica" di ontologie, che apre a ricerche incredibili.

In test di laboratorio ho effettuato alcune di queste ricerche, e ampliano moltissimo le prospettive.

Anche in questo caso il risultato di scoprire, studiarle, capirle, reinterpretarle è stato raggiunto, ma non può diventare un prodotto finale senza un considerevole impegno. Per ora resta accantonato.

L'unica vera conseguenza che mi dispiace è non poter pubblicare il sorgente che, internamente, ha ancora traccia di queste prove, pur non avendo senso rispetto al risultato che oggi si consulta online.

Quindi dovrò riscrivere i sorgenti ma si tratta di una query sql un poco più complessa di altri.

L'aspetto innovativo è la struttura del database che è visibile nel video pubblicato sul sito.

Risultati

  1. ho lavorato con gli open data europei e italiani
  2. li ho potuti studiare internamente, trovando le relazioni interne ed esterne
  3. ho realizzato un motore con database interno di sei milioni di record che si consultano in meno di un secondo senza aiuti esterni
  4. ho linkato i dati per la consultazione alla fonte.
  5. ho conosciuto Giuseppe Sollazzo le cui competenze sono straordinarie.

Una valuzione interessante: in Italia abbiamo uno strumento più potente ma più difficile da governare. La documentazione è ottima, gli esempi numerosi, ma non sufficienti nel mio caso. La risorsa alla quale Sollazzo ha potuto accedere permette di risparmiare vari giorni di studio sul formato dei dati.

Ma una valutazione mi ha colpito: il lavoro silenzioso di tanti tecnici in Parlamento è straordinario. Abbiamo una quantità di informazioni catalogate in modo innovativo a partire almeno dagli anni '80, ma in molti casi toccano anche date precedenti.

Insomma: il nostro Parlamento poggia su solidissime basi documentali. E sfogliarle da remoto è un qualcosa al quale non ci dovremmo mai abituare.

Sei milioni di dati in meno di mezzo secondo.

Fantastico.

www.legaldesign.it/opendata

21.12.2020 Valentino Spataro
legaldesign.it


Inps sanzionata per 300.000 per il metodo usato nei controlli contro gli amministratori pubblici
Dati sulle vaccinazioni e contagi in Italia e in tutto il mondo
OnData su SkyTg24: open data e covid, ma anche altro
OpenDataCovid19: 30.000 ma ancora tutto da fare - dati bene comune
21 criteri ? solo 2. La proposta di Wired, alla quale aggiungere: si faccia su base CAP o almeno provinciale
ALERT: Anche i medici chiedono, pretendono, il report dei dati comunali oltre che provinciali e degli altri attualmente NON oggettivi
Covid: Dati non condivisi sono dati non affidabili. Firma DATI BENE COMUNE - UPDATE
Big Data
Graphql
Sparql



Segui le novità in materia di Opendata su Civile.it via Telegram
oppure via email: (gratis Info privacy)





dallo store:
visita lo store








Dal 1999 il diritto di internet. I testi sono degli autori e di IusOnDemand srl p.iva 04446030969 - diritti riservati - Privacy - Cookie - Condizioni d'uso - in 0.575