La gestione dei dati della ricerca
Guida

La gestione dei dati della ricerca

Come gestire, depositare e rendere disponibili i dati della ricerca.
Immagine anteprima
La gestione dei dati della ricerca
Immagine di testata
La gestione dei dati della ricerca

Cosa sono i dati della ricerca?

Sono le informazioni, in qualsiasi formato (digitale e/o cartaceo, numerico, descrittivo, audio o video), raccolte e utilizzate durante un’attività di ricerca, necessarie a validare i risultati raggiunti.
A titolo esemplificativo: risultati di esperimenti (positivi o negativi), osservazioni, fonti edite e inedite, riferimenti bibliografici, software e codice, testi, oggetti. Possono essere grezzi o elaborati.

Come gestire i dati?

Gestire i dati della ricerca (Research Data Management - RDM) non implica necessariamente l’apertura dei dati. Significa organizzare il lavoro di raccolta e conservazione dei dati per assicurare che siano conservati adeguatamente, rintracciabili e comprensibili anche a distanza di tempo o da parte di chi non ha partecipato alla raccolta. 

I dati della ricerca devono essere gestiti secondo i principi FAIR (Findable, Accessible, Interoperable, Reusable), per rendere la conoscenza facile da rintracciare, farla circolare e favorire l’innovazione.

Per rendere i dati Findable / Rintracciabili

  • va assegnato al dataset un identificatore persistente (es. DOI, handle, ecc.)
  • i metadati che descrivono il dataset devono essere esaustivi, accurati e indicizzati dai motori di ricerca

Per rendere i dati Accessible / Accessibili

  • l’identificatore persistente associato al dataset risolve correttamente alla pagina dei metadati 
  • i metadati che descrivono il dataset sono pubblici, visibili e indicizzabili anche se i dati non sono ad accesso aperto

Per rendere i dati Interoperable / Interoperabili

  • i dati sono resi disponibili in formati aperti o molto diffusi
  • i metadati seguono schemi standard riconosciuti
  • sono presenti link con altre risorse collegate ai dati (ad es. pubblicazioni, rapporti tecnici, ecc.)

Per rendere i dati Re-usable / Riutilizzabili  

  • i dati sono descritti in modo che siano facilmente comprensibili
  • al dataset è stata attribuita una licenza con possibilità di riutilizzo

Le modalità di gestione, valorizzazione e preservazione nel tempo dei dati durante e dopo la ricerca sono descritte nel Data Management Plan (DMP).
 

Il piano di gestione dei dati (DMP)

  • è richiesto da diversi enti finanziatori, tra cui la Commissione Europea (programma Horizon Europe) che prevede la sua consegna entro il 6° mese dal finanziamento
  • va pensato già nella fase di progettazione della ricerca
  • va modificato in itinere, ogni volta che intervengano cambiamenti nella natura dei dati o nelle modalità di raccolta e gestione
  • va aggiornato regolarmente pianificando, sin dalla prima versione, le revisioni periodiche
  • va condiviso con tutti i ricercatori impegnati nella ricerca
  • deve essere sintetico, schematico, preciso (utilizzare il più possibile tabelle e punti elenco, scrivere solo ciò di cui si è certi)
  • descrive:
    1. quali tipi di dati vengono raccolti e analizzati
    2. quali formati e quali software vengono usati
    3. chi è l’autore del/dei dataset e ha la responsabilità di tenere aggiornato il piano
    4. eventuali problematiche legate all’etica, alla gestione di dati personali e sensibili, a esigenze di confidenzialità e riservatezza
    5. come condividere i dati con i collaboratori
    6. come proteggerli e con quale regolarità fare copie di backup
    7. dove e come depositare i dati a lungo termine, con quali costi di conservazione
    8. chi e come può avere accesso ai dati (aperti a tutti, accessibili su richiesta) attraverso licenze e regole di riuso dei dati 

Servizi online per la compilazione di un piano di gestione dei dati:

Griglia per l’elaborazione del piano di gestione dei dati della ricerca predisposta dal Gruppo Italiano di Supporto all’Open Science (IOSSG).

Servizi online per il calcolo dei costi di gestione dei dati:

Applicazione open source per la rimozione delle informazioni personali dai set di dati:

Perché rendere i dati disponibili?

L’accesso aperto ai dati della ricerca scientifica favorisce il progresso della conoscenza, la riproducibilità delle ricerche, riduce le duplicazioni, incrementa la trasparenza.

I dati in sé non sono opere dell’ingegno a carattere creativo e non sono oggetto del diritto d’autore. Quando non sussistono particolari e giustificate necessità di tutela (vincoli di confidenzialità, tutela della privacy, sfruttamento industriale o commerciale), possono quindi essere ri-utilizzati o ri-distribuiti senza restrizioni con licenze per il libero dominio o che prevedano l’obbligo di attribuzione.

Sempre più spesso le riviste scientifiche internazionali e i programmi di finanziamento della ricerca, per consentire la validazione delle pubblicazioni scientifiche, chiedono che:

  • i dati di ricerca siano resi disponibili in archivi pubblici dedicati;
  • sia archiviata anche la documentazione necessaria alla comprensione degli strumenti e dei software utilizzati per generarli ed elaborarli (read-me file) in modo da assicurarne l’accessibilità nel tempo ed evitare che gli standard o le tecnologie utilizzate ne rendano difficoltosa la decodifica dopo qualche anno;
  • sia previsto il cross-linking che lega i dati alle relative pubblicazioni (è possibile depositando i dati quando la pubblicazione viene accettata e inserendo l’identificatore persistente del dataset nelle bozze della versione finale della pubblicazione).

Quando, come e dove vanno depositati i dati?

I dati vanno depositati nell’archivio scelto:

  • al momento dell’accettazione della pubblicazione in modo da attribuire al dataset un identificatore persistente (DOI, handle, ecc.) da citare all’interno della pubblicazione, 
  • al più tardi quando i risultati della ricerca vengono pubblicati. 

Nel primo caso è possibile scegliere un periodo di embargo che “chiuda” il dataset fino alla pubblicazione dei risultati nella sede editoriale scelta.

I dati devono essere depositati completi dei metadati descrittivi: autore/i e contributore/i, titolo, data di pubblicazione, abstract, riferimenti all’eventuale finanziamento, l’eventuale citazione delle pubblicazioni ai quali si riferiscono, la licenza di distribuzione, il livello di accesso ed eventuale periodo di embargo.

È opportuno verificare se esiste uno standard da seguire nella propria disciplina (ad es. con Repository Finder) e archiviare i dati nei repository tematici/disciplinari della propria comunità scientifica, che costituiscono un punto di riferimento e favoriscono la rintracciabilità e il riuso dei dati depositati.
Tali archivi devono rispettare alcuni requisiti:

  • governance pubblica
  • conservazione a lungo termine dei dati
  • utilizzo di licenze aperte, come le Creative Commons
  • metadati standard
  • attribuzione di un identificatore persistente (DOI, handle, URN, ecc.)
  • cross-linking con le relative pubblicazioni scientifiche
  • statistiche di riuso

È possibile depositare in più di un repository, ma è molto importante usare sempre lo stesso identificatore persistente, per esempio il DOI. 

Link utili

Template e guida per Data Management Plan (Science Europe): template pp. 9-10; guida pp. 17-25
Griglia per l’elaborazione del piano di gestione dei dati della ricerca (IOSSG)
Linee guida per l’applicazione dei principi FAIR alla gestione e al riuso dei dati

Contatti

Servizio Valutazione della ricerca e Open Science
svr@sns.it