Kan deling av forskningsdata gi bedre forskning?

Bak all forskning som presenteres, ligger forskningsdata. Potensialet i deling og gjenbruk av data er stort, og stadig flere land etablerer rutiner for å håndtere dette. Men mange forskere er ambivalente og har lite kunnskap om datadeling.

Forskningsdata høres kanskje ikke ut som et spennende tema, men i løpet av det første året jeg var masterstudent kom jeg over zooniverse. Dette er et glimrende eksempel på Citizen Science og jeg ble inspirert til å lese mer om håndtering av forskningsdata og mulighetene som ligger i å kombinere ulike data som allerede er samlet inn. For å få til dette er det en grunnleggende nødvendighet at datamateriale som samles inn også blir gjort tilgjengelig for andre, ikke bare tiltenkte brukergrupper. For å forstå litt bedre hvor landet ligger skrev jeg en masteroppgave om holdninger til, og erfaringer med, deling.

Forskere og deling i dag

650 forskere ved Universitetet for miljø og biovitenskap (UMB) på Ås ble spurt om

hvordan de deler data i dag og hvilke holdninger de har til deling.

Fagområdene på UMB faller innunder livsvitenskapene og representerer på den måten et avgrenset vitenskapsområde. 23 % av forskerne svarte på min undersøkelse.

Funnene har jeg delt inn i tre kategorier. I kategori 1 og 2 oppsummerer jeg resultatene fra mine egne spørsmål. I kategori 3 sammenlignes mine resultater med resultater fra en undersøkelse av Parse.Insight. Flere av spørsmålene var hentet fra denne undersøkelsen nettopp for at jeg skulle ha et sammenligningsgrunnlag for mine funn.

1. Eksisterende gjenbruk av forskningsdata

a) Det er mye gjenbruk av data innen livsvitenskapene, funn av nødvendige data gjøres via kolleger
b) Det ligger fortsatt et stort potensial i å etablere et nettverk for deling av data
c) For forskere som gjør sine data åpent tilgjengelig i dag er prinsippene for åpen forskning viktige
d) De fleste forskere registrer ingen informasjon om eller metadata til sine forskningsdata, og har videre ingen forståelse for verdien i dette for fremtidig gjenfinning, tolkning og tilhørighetsforståelse.

Metadata ( fra gresk meta “om” og latin data “opplysninger” ) er data som tjener til å definere eller beskrive andre data.

2. Holdninger til deling av forskningsdata

a) Eksklusive rettigheter for første publikasjon og akkreditering ved gjenbruk er viktig for forskeren
b) Holdninger til det å gjøre sine data åpent tilgjengelig avhenger i stor grad av hvor mange års erfaring forskeren har
c) Misbruk og juridiske problemer er utfordringer forskerne forventer i forbindelse med datadeling

3. Hva som er typisk for livsvitenskapene

a) Forskere innen livsvitenskapene har høyere forventninger knyttet til hvilken innflytelse deling av forskningsdata vil ha på deres fagområder, sammenlignet med forskere fra andre fagområder.
b) Bruk av tidskifter og forlagssider til tilgjengeliggjøring av forskningsdata er typisk for livsvitenskapene.

Hva vinner man med deling av data?

Økende mengder forskningsdata gjør at systemer for lagring av forskningsdata må bygges ut ved forskningsarenaer i Norge. Stadig flere blir åpne for at også forskningsdata kan gjøres tilgjengelige, og ikke bare sluttproduktet. Tilgang til disse forskningsdataene kan stimulere ny forskning, både innenfor et fagområde og tverrfaglig. Forskning på klima og miljø er eksempel på forskningsområder som tar i bruk data fra mange fagområder.

En friere tilgang til data fra andre disipliner vil gi fremtidens forskere muligheten til å se sammenhenger vi ikke ser i dag. Noen ganger kan også datasett brukes på andre måter en det de var tiltenkt da de ble samlet inn. Et eksempel på denne bruken er gamle loggbøker fra skip for å kartlegge klimaendringer.

Lagringssystemer som gir åpen tilgang til forskningsdata gir også bedre kontroll: Risikoen for å bli oppdaget ved fusk blir betraktelig mye høyere når hele forskningsprosessen er åpent tilgjengelig. Samtidig sikres etterprøvbarhet ved at andre forskere kan gå inn og se om de ut fra det samme datasettet trekker de samme konklusjonene. Elementer som styrker tilliten til at forskningen produserer korrekte og etterprøvbare resultater, er viktig for at allmennheten skal ha tillit til de resultatene forskeren kommer frem til.

Kunnskap deles kun i de innerste sirkler

Jeg har sett nærmere på hvordan forskere innenfor et begrenset fagområde, livsvitenskapene, stiller seg til å dele forskningsdata de samler inn og på hvordan de i dag benytter data fra andre forskere.

Det er hovedsakelig gjennom kolleger forskerne får tilgang til data de ønsker å gjenbruke i sin forskning. Dette er hverken en effektiv eller demokratisk fordeling av kunnskap, og fører til at svært mange forskere har opplevd å ikke få tilgang til de dataene de trenger. Å etablere et faglig nettverk der datautveksling skjer, tar mange år og utestenger på et vis de yngre uetablerte forskerne fra en tilgang de trenger.

De som trenger det mest, vil det minst

Svarene ble delt både etter hvilke institutt forskerne tilhørte og etter hvor mange års erfaring de har som forskere. Fordelingen blant de som svarte var jevn, både med tanke på ulike institutter ved UMB og antall år med erfaring.

  • Uavhengig av antall år med erfaring er det vanlig å dele data med kolleger og forskningsgruppe.
  • Forskerne med minst erfaring, PhD-stipendiater, er mest positive til å gjøre data de samler inn åpent tilgjengelig
  • Forskerne med mer enn 20 års erfaring som forskere er derimot de som i størst grad gjør sine data åpent tilgjengelige for andre.
  • Forskere med 5 til 10 års erfaring har den høyeste prosentandelen av forskere som ikke ønsker å gjøre sine data tilgjengelige for andre. Samtidig viser undersøkelsen av det er forskerne med 5 til 10 års erfaring som oftest opplever å ikke få tilgang til data de trenger i forskningen sin.

Dette tyder på at det kan ta 10 år for en forsker å etablere et fungerende kollegialt nettverk for datautveksling. Dette er sløsing med tanke på at det er mulig å opprette systemer for tilgjengeligjøring. Gjennom å optimalisere tilgangen til data vil disse forskerne få mulighet til å utnytte sitt fulle potensial på et tidligere tidspunkt.

Forskere skjønner ikke verdien av metadata

Det er bekymringsverdig at halvparten av forskerne som svarte på undersøkelsen ikke lagrer metadata om dataene de samler inn. Metadata fungerer som en nøkkel for å forstå dataene, og kan være praktiske ting som dato eller tidsspenn for innsamling, informasjon om hvem som står bak innsamlingen og så videre. Manglende metadata gjør derfor datasettene utsatt for feiltolkning, både fordi det gjør det vanskelig for forskeren selv å reprodusere egne resultater fra det samme datasett, og fordi dette utgjør en risiko for feiltolkning av andre i fremtiden.

Kun et fåtall av forskerne har kjennskap til standarder for metadata. Disse ser samtidig hvor viktig metadata og standarder for dette er for at forskningsdata skal kunne gjenbrukes:

“Some of the data I publish will not be accepted if they do not fulfil existing standards for what is required to be included. Therefore yes. Existing standards makes the publication process more trustworthy” (Forsker ved IKBM)

Fem tips til universiteter som ønsker å dele

På bakgrunn av funnene og konklusjonen i oppgaven har jeg også satt sammen en enkel og konkret liste med anbefalinger til universiteter som ønsker å begynne med å tilby åpen lagring av data for sine forskere.

Disse anbefalingene tar hensyn til det forskerne frykter mest, nemlig at de skal tillegges nye arbeidsoppgaver som vil gi dem mindre tid til å drive med forskning og at de samtidig vil miste rettigheter til data de har arbeidet mye med å samle inn.

Samtidig tar tipsene hensyn til den tydelige velviljen til å gjenbruke data både innenfor egen disiplin og på tvers av disipliner.

  • For at det skal være mulig å gjenbruke datasettene er det helt nødvendig at de lagres med informasjon/metadata som gjør det mulig både å finne og forstå data som er samlet inn av andre forskere på et tidligere tidspunkt.
  • For å unngå at forskere får mye ekstra arbeid med lagring av data må det etableres gode støttefunksjoner med kompetanse på området.
  • Potensialet som ligger i å kombinere data på tvers av disipliner er et sterkt argument for etablering av en nasjonal infrastruktur.
  • Retningslinjer både for opphavsrett og personvern må være på plass.
  • Bruk av CC-lisenser som gir forskeren anledning til å regulere hvordan materialet kan gjenbrukes.
  • Rutiner for bruk av metadata må etableres. Bibliotekenes ekspertise på dette området gjør dem til en naturlig samarbeidspartner.

Regulering av bruk

Både gjennom spørsmål om hva forskere frykter og hvordan de ser for seg at forskningsdata kan deles, kommer det frem hvor viktig det er for forskerne å ha rettigheter til å gjøre første publisering med bruk av dataene de samler inn. Dette vil si at forskeren eller forskergruppen som samler inn et datamateriale ikke ønsker å dele dette før hun/han/de har hatt tid til å bearbeide, analysere og trekke en konklusjon som publiseres.

Det er et stort press på forskere om å publisere mye, samtidig tar prosessen med å samle inn data ofte lang tid. Det er derfor viktig at forskeren ikke tvinges til å dele sine data med andre før hun/han selv føler seg “ferdig”. En av respondentene sa følgende om dette:

“Field data requires a lot of time and financial resources, the person strongly involved in the planning and acquisition of the data should have the benefit of first publication. You don’t want to end up as the data producer while others get to do the interesting work. First publication should ideally come early, but several factors can affect this time”. (Forsker ved IPM)

Dette er krav som lett vil kunne etterleves, og som ikke strider mot det å gjøre forskningsdata tilgjengelig. Det indikerer heller hvor i forskningsprosessen forskerne føler seg klare for å dele.

Samtidig er det viktig for forskeren å krediteres når dataene han eller hun samler inn blir gjenbrukt av andre. En vanlig måte å løse dette på er gjennom bruk av Digital Object Identifiers (DOIs). Gjennom bruk av DOIs kan det lages en unik lenke til forskningsdataene, og sitering og statistikker på sitering eller gjenbruk vil være mulig å lage.

En annen bekymring blant forskere er at deres data skal brukes i sammenhenger som de ikke står inne for.

“There is a huge difference between the usage of data for commercial purposes vs. research purposes. I would not hesitate to share my data with other researchers, but I would not like them to be used commercially. That could weaken the credibility of my research” (Forsker ved IØR)

Dette dilemmaet kan løses ved hjelp av Creative Commons lisensiering som tar høyde for gjenbrukets premisser. Slike lisenser kan også brukes for å hindre kommersielt gjenbruk. Lisenser er allerede tatt i bruk på forskningsdata blant annet i England. Disse lisensene kan oversettes og brukes også for norske forhold, samtidig som de viser til etablerte internasjonale standarder for lisensiering av opphavsbelagt materiale.

  • Anne Aaby

    Veldig godt innlegg, Takk!