Norsk veikart for forskningsinfrastruktur

E-infrastruktur

Elektronisk infrastruktur (e-infrastruktur) er IKT-baserte infrastrukturer som muliggjør avansert og samarbeidsorientert forskning. Datainfrastrukturer er relevante for alle fagområder, og det er et økende behov for å gjøre disse infrastrukturene interoperabile på tvers av geografiske og faglige grenser.

Formål

Eksempler på e-infrastrukturer er høykapasitets datanettverk og tilhørende tjenester som autentisering og autorisering, verktøy for effektiv arbeidsflyt og programvare for simulering og analyse av data. E-infrastruktur omfatter også digitale registre og databaser for lagring av store datamengder og regneressurser for store beregninger, såkalt tungregning (High Performance Computing (HPC)). HPC er et viktig verktøy for å møte store vitenskapelige og samfunnsmessige utfordringer, blant annet innenfor marin forskning, klimaforskning og helseforskning.

E-infrastruktur som fremmer datadeling og gjenbruk av data omtales gjerne som datainfrastrukturer.

E-infrastruktur leverer grunnleggende tjenester til forskning.

E-infrastruktur er spesielt viktig for forskning som krever omfattende beregninger eller genererer store mengder data gjennom simulering og analyse. Sensitive data som ikke kan eller skal deles fritt må også kunne håndteres på en sikker og god måte, og trenger spesialtilpassede dataplattformer som ivaretar dette.

Målene for e-infrastruktur er tredelt:

  • levere tjenester til forskningsprosjekter og andre forskningsinfrastrukturer
  • levere områdespesifikk e-infrastruktur
  • levere sikker lagring og tilgjengeliggjøring av data i tråd med de internasjonale FAIR-prinsippene[1]

Store verdier investeres for å fremskaffe og analysere data. Dette stiller krav til hvordan data sikres. Data får økt verdi gjennom katalogisering og generering av metadata, i tillegg til gjennom tilgjengeliggjøring for andre brukere i tråd med FAIR-prinsippene. Tilgang til, og effektiv bruk av, e-infrastruktur for alle fagområder er derfor en av hjørnestenene i dataintensiv forskning.

Bedre tilgang til forskningsdata styrker kvaliteten på forskningen, både fordi resultater enklere kan valideres og etterprøves, og fordi data kan brukes på nye måter og i kombinasjon med andre data. Åpen tilgang til forskningsdata bidrar til færre dupliseringer og unødvendig dobbeltarbeid og kan legge til rette for mer tverrfaglig forskning. Åpen tilgang til forskningsdata er et prioritert område både nasjonalt og internasjonalt. I 2017 lanserte Kunnskapsdepartementet en Nasjonal strategi for tilgjengeliggjøring og deling av forskningsdata. Fra 2021 vil European Open Science Cloud (EOSC) være et viktig verktøy for å realisere målene om åpen forskning i Horisont Europa. Norske institusjoner er med i EOSC-Nordic, som skal legge til rette for koordinering av relevante EOSC-initiativer i de nordiske og baltiske landene. Forskningsrådets policy for åpen tilgang til forskningsdata legger vekt på at forskningsdata skal tilgjengeliggjøres for relevante brukere, på like betingelser, til lavest mulig kostnad og i tråd med de internasjonale FAIR-prinsippene for økt dataverdi. Dette er også et uttalt mål i Forskningsrådets policy for åpen forskning, gjeldende fra 2020. Prosjekter som mottar finansiering fra Forskningsrådet skal utarbeide en datahåndteringsplan. Hensikten med en datahåndteringsplan er å planlegge for hvordan forskningsdataene[2] skal sikres, ikke bare underveis i prosjektet, men også for framtidig gjenbruk. Retningslinjene i policyen gjelder alle data i prosjekter som er finansiert av Forskningsrådet (med noen få unntak). Ulike e-infrastrukturer har utviklet digitale verktøy som forskningsprosjekter kan benytte for å generere datahåndteringsplaner.

Eksisterende forskningsinfrastruktur

Norske forskningsinstitusjoner har i dag en god og kostnadseffektiv samordning av e-infrastruktur for forskning og høyere utdanning innenfor mange fagområder. UNINETT AS utvikler og driver det norske høyhastighetsnettverk for forskning og utdanning som forbinder mer enn 200 norske institusjoner og over 300 000 brukere og knytter dem opp mot internasjonale forskningsnett. Selskapet eies av Kunnskapsdepartementet og driftes ikke-kommersielt. Tilknytningen til forskningsnettet er basisen for de fleste andre tjenester levert av UNINETT.

Datterselskapet UNINETT Sigma2 AS (Sigma2) har ansvar for å anskaffe, drifte og videreutvikle den generiske nasjonale e-infrastrukturen for tungregning og datalagring i Norge. I perioden fra 2016–2019 ble de fire nasjonale tungregningsanleggene, som ble anskaffet i 2012, erstattet med to nye regneanlegg (E-INFRA ved UNINETT Sigma 2). Infrastrukturen for datalagring, NIRD (nasjonal infrastruktur for forskningsdata), er direkte knyttet til regneanleggene og dette legger til rette for en mer effektiv levering av tjenester for dataanalyse og visualisering. NIRD gir lagringsressurser med årlige kapasitetsoppgraderinger, datasikkerhet gjennom lagring på to fysiske lokasjoner, støtte for flere lagringsprotokoller og migrasjon til tredjeparts skytilbydere.

Gjennom et tett samarbeid med de fire eldste universitetene tilbyr Sigma2 flere relaterte tjenester innenfor tungregning og datalagring til norsk universitets- og høgskolesektor og til andre forskningsorganisasjoner med finansiering fra det offentlige. I tillegg leder og koordinerer Sigma2 norsk deltakelse i internasjonalt samarbeid innenfor e-infrastruktur, som Nordic e-Infrastructure Collaboration (NeIC), Partnership for Advanced Computing in Europe (PRACE) og European Data Infrastructure (EUDAT).

Innenfor enkelte områder som behandler personsensitive data er det behov for løsninger som ivaretar krav til sikring av data samtidig som forskerne skal ha tilgang til å analysere dataene. Slike løsninger tilbys blant annet gjennom Tjenester for Sensitive Data (TSD) som drives og utvikles i et samarbeid mellom Universitet i Oslo og Sigma2. Det er bevilget midler fra Nasjonal satsing på forskningsinfrastruktur til investering i nytt utstyr for både beregnings- og datalagringsanleggene for personsensitive data (TSD).

Norsk senter for forskningsdata (NSD) arkiverer, tilrettelegger og formidler data til forskningsmiljøer, både nasjonalt og internasjonalt, og utarbeider teknologiske løsninger slik at forskningssektoren får åpen tilgang til forskningsdata. NSD er personvernombud for alle landets universiteter, de fleste høyskoler og flere helseforetak og forskningsinstitutter. Siden 2003 har NSD vært etablert som et aksjeselskap eid av kunnskapsdepartementet. NSD har fått midler fra Nasjonal satsing på forskningsinfrastruktur til Norwegian Open Research Data Infrastructure (NORDi) som er en løsning for lagring og tilgjengeliggjøring av forskningsdata.

Andre generiske datainfrastrukturer som kan nevnes er UiT Open Research Data og DataverseNO, som er åpne forskningsdataarkiv etablert av Universitetet i Tromsø. Infrastrukturene er tilgjengelige både for forskere ved UiT og for andre institusjoner og enkeltforskere. Videre er BIBSYS BIRD et generisk verktøy for lagring, dokumentasjon, deling og publisering av forskningsdata. Dette verktøyet er utviklet av BIBSYS (som nå er en del av UNIT, direktoratet for IKT og fellestjenester i høyere utdanning og forskning) i samarbeid med Handelshøyskolen BI.

Det finnes også mange fagspesifikke datainfrastrukturer som tilbyr tjenester rettet mot særskilte behov hos ulike brukermiljøer. Disse fagspesifikke infrastrukturene er tilpasset data som skal gjøres tilgjengelig innenfor de ulike fagområdene. For å oppnå mest mulig gjenbruk av allerede innsamlede data, er det avgjørende at det finnes gode infrastrukturer som gjør det enkelt å finne fram til relevante data og koble ulike datasett sammen. Mer informasjon om fagspesifikke datainfrastrukturer er beskrevet i de ulike områdestrategiene.

Behov for nyetablering, oppgradering og samordning

Stadig bedre måle- og sensorteknologi, mer omfattende målinger og mer avanserte verktøy for dataanalyser, medfører en økning i behovet for tungregning og lagring av store mengder forskningsdata. Dette gjelder ikke bare for fagområder som tradisjonelt har forholdt seg til store datamengder, men også for stadig flere forskningsfelt som genererer eller behandler store mengder data. Kombinasjonen av en mer datadrevet forskningssektor og en dreining mot mer åpen forskning, gjør at det er et økende behov for gode infrastrukturer for tilgjengeliggjøring og gjenbruk av data. Dette omfatter også bedre utnyttelse av data som er innhentet til forvaltningsformål, men som vil være svært verdifulle for forskningen dersom de tilrettelegges for dette. I en stadig mer digitalisert forskningssektor ser vi også at de tradisjonelle faggrensene blir mindre tydelige, og dataflyt mellom fagområdene gir nye muligheter for innovativ forskning. Investering i gode, sikre datainfrastrukturer som ivaretar datasettenes iboende egenskaper og samtidig sørger for interoperabilitet mellom datasett, vil bidra til slik dataflyt.

Maskinlæring og kunstig intelligens er et forskningsfelt der IKT-forskere og forskere fra andre fag og disipliner møtes, for eksempel innenfor presisjonsmedisin, økonomi og finans, samfunnssikkerhet og medie- og forbrukerforskning. Forskning og utvikling innenfor kunstig intelligens krever forskningsinfrastrukturer med stor lagrings- og prosesseringskapasitet som tilfredsstiller krav til personvern, sikkerhet og eierskap til data og resultater. Spesielt krever kunstig intelligens, maskinlæring og dyp læring ofte at man kombinerer moderne prosessorer med kraftige, dataparallelle akseleratorer, som for eksempel GPU-kapasitet (Graphics Processing Unit) og kompetanse til å utnytte dette, noe som ikke er en del av tradisjonelle tungregningsanlegg.

Den teknologiske utviklingen innen tungregning går meget hurtig, og for å sikre kosteffektiv drift og for å tilby tjenester i forskningsfronten, så må regneanleggene skiftes ut om lag hvert fjerde år. Sigma2 jobber kontinuerlig med å skifte ut og oppgradere både beregnings- og datalagringsanleggene for forskning i Norge. Gjennom en framskriving av historisk etterspørsel og forespørsel fra nye brukergrupper, beregner Sigma2 hvilke regnekapasiteter de nye anleggene bør ha for å kunne ta vare på behovene fra norske forskere. De siste årene har behov for e-infrastrukturtjenester for forskningsmiljøene innenfor de fleste fagfelt økt og vi forventer at etterspørselen vil fortsette å øke sterkt i årene framover [3]. For å sikre muligheter for norske forskere framover, går Norge også inn i internasjonalt samarbeid slik som i det europeiske samarbeidet om å etablere felles tungregningskapasitet gjennom EuroHPC.

I den framtidige utviklingen av e-infrastruktur og datainfrastrukturer vil samordning av initiativer og samhandling mellom aktører bli avgjørende. Det vil være fornuftig å se på datainfrastrukturer som del av et digitalt økosystem, hvor utstyrskomponenter og tjenester desentraliseres innenfor en felles ramme som på denne måten vil utgjøre en enhet. I denne sammenheng vil datainfrastrukturer som oppfyller kravene til EOSC (European Open Science Cloud) være spesielt aktuelle. Slike infrastrukturer vil bidra til bedre dataflyt over landegrenser, i tillegg til over faggrenser. 

Relasjon med andre områder

Forskningsrådet oppfordrer til samarbeid mellom aktørene ved etablering av tjenester for datahåndtering, slik at vi i størst mulig grad kan utnytte investeringer som allerede er gjort. Dette kan skje gjennom prosjektsamarbeid eller direkte bruk av eksisterende tjenester. Slikt samarbeid er ikke begrenset til nasjonale løsninger. Innenfor noen områder vil det være mest naturlig å samarbeide om internasjonale datainfrastrukturer, slik mange av ESFRI prosjektene innenfor datahåndtering er eksempler på. 

Forskningsrådet vil normalt ikke gi bidrag til investeringer i, og drift av, regneressurser for store beregninger dersom ikke investeringene er koordinert med eller foretas av Sigma2. Forskningsmiljøer som har behov for regneressurser anbefales først å kontakte Sigma2, for å avklare om behovene kan dekkes gjennom eksisterende eller planlagte investeringer i regi av Sigma2. Ved søknad om nye nasjonale forskningsinfrastrukturer som har behov for lagringsressurser eller beregningsressurser, forutsetter Forskningsrådet at prosjektansvarlig har en dialog med Sigma2 om hvordan disse behovene kan ivaretas og at kostnadene legges inn i budsjettet for den omsøkte infrastrukturen.

Forskningsinfrastrukturer knyttet til E-infrastruktur

Prosjekt Status
E-INFRA ved UNINETT Sigma 2 – a national e-Infrastrucure for science Under etablering/i drift 

Øvrige forskningsinfrastrukturer på veikartet av relevans for E-infrastruktur

Prosjekt Status
eX3 – Experimental Infrastructure for Exploration of Exascale Computing Under etablering/i drift
Microdata.no – Microdata Platform for Norwegian and International Research and Analysis Under etablering/ i drift
NORDi – Norwegian Open Research Data Infrastructure Under etablering/i drift

[1] De internasjonale FAIR-prinsippene er utarbeidet som et sett av retningslinjer for å tilrettelegge for økt dataverdi. FAIR er et akronym for ordene findable, accessible, interoperable og reusable. Data og metadata bør være gjenfinnbare, tilgjengelige, gjenbrukbare og kunne håndteres maskinelt.

[2] Forskningsdata som kan tilgjengeliggjøres er ikke bare selve datasettet men kan også være metadata, metodebeskrivelse, algoritmer, kode, ol.

[3] Lenke til E-infra 2030 rapporten