Del og skap verdier - Åpne offentlige data i Norge
Transcription
Del og skap verdier - Åpne offentlige data i Norge
Åpne data Del og skap verdier Veileder i tilgjengeliggjøring av offentlige data Dette er 2. versjon av veilederen, oppdatert januar 2013. Den elektroniske versjonen finner du (alltid oppdatert) på data.norge.no. 2 Veileder i tilgjengeliggjøring av offentlige data Forord: Hans Christian Holte og Dr. Rufus Pollock Side4 Kapittel1 Hva er åpne data? 1.1 Hva menes med åpne offentlige data? Side6 Side7 1.2 Norsk lisens for offentlige data (NLOD) Side8 1.3 Hvilke data kan jeg åpne? Side 8 1.4 Hvilke data skal jeg ikke åpne? Side9 1.5 Trafikklyssystemet Side9 1.6 Usikkerhet rundt åpning av data Side10 Kapittel 2 Hvorfor åpne data? 2.1 Næringsutvikling og verdiskaping 2.2 Effektivisering og innovasjon i offentlig sektor 2.3 Gjennomsiktighet og demokratisering Kapittel 3 Lovverk og viderebrukspolitikk 3.1 Digitaliseringsprogrammet Kapittel 4 Hvordan går du frem? 4.1 Kartlegging Side15 Side15 Side15 Side 17 Side18 4.2 Utvelging 4.3 Klargjøring 4.4 Publisering 4.5 Registrering på data.norge.no 4.6 Kvalitet på nett Kapittel 5 Hva mer kan du gjøre? 5.1 Åpne, lenkede data Side19 Side19 Side20 Side20 Side21 Side 21 Side22 Side24 Side25 5.2 Oppsummering Vedlegg Side12 Side12 Side13 Side14 3.2 Digitaliseringsrundskrivet 3.3 Retningslinjer ved tilgjengeliggjøring av offentlige data 3.4 Lover under arbeid Side11 Side26 Begreper og definisjoner Oversikt filformat Side26 Side27 Veileder i tilgjengeliggjøring av offentlige data 3 Forord Hans Christian Holte - Direktør DIFI Både Fornyings- og administrasjonsdepartementet og Direktoratet for forvaltning og IKT (Difi) forsøker etter beste evne å legge forholdene til rette for at offentlige virksomheter skal dele sine data. Da kan data brukes i nye sammenhenger, til nye tjenester. Denne veilederen er et tiltak for å støtte offentlige virksomheter i arbeidet med å gjøre data tilgjengelig for gjenbruk. Den tar for seg juridiske, sosiale og tekniske aspekter ved åpne data. Den er spesielt rettet mot offentlig sektor, men kan selvfølgelig bli brukt av alle. Jeg vil særlig takke Open Knowledge Foundation (OKFN) for samarbeidet. OKFN har laget «Open Data Handbook», med bidrag fra en rekke åpne data-eksperter fra hele verden. Vi har bygget videre på dette arbeidet og laget en versjon tilpasset norske forhold. I likhet med OKFN, har vi også åpnet opp for innspill til vår veileder. Vi vet at mange i Norge har kunnskap om åpne data, og vi håper på tilbakemeldinger som kan hjelpe oss med å videreutvikle veilederen. Vi vil også oversette denne veilederen til engelsk, slik at vi kan gi det tilbake til det internasjonale åpne data-samfunnet. Offentlig sektor har store mengder data som kan og bør gjøres tilgjengelig for gjenbruk. Jeg håper offentlige virksomheter setter åpne data høyt på agendaen, og at de vil ha nytte av denne veilederen i arbeidet med å få datasettene ut. Hans Christian Holte Dr. Rufus Pollock - Director Open Knowledge Foundation The Open Definition states that content or data is open ‘if anyone is free to use, reuse, and redistribute it – subject only, at most, to the requirement to attribute and sharealike’. The Open Definition was first drafted by the Open Knowledge Foundation in 2005, and over the years has become our flagship and tenet, underpinning all that we do. It is therefore with particular pleasure that I write this foreword to Åpne data – en veileder. The Norwegian adaptation of the Open Data Handbook is a shining example of how the ‘use, reuse, and redistribution’ of material can open up new realms of potential, allowing others to build upon existing work in order to create new value. The Open Data Handbook was originally drafted by volunteers from the Open Knowledge Foundation during a 2-day book sprint in Berlin in October 2010. After a period of review, the Open Data Handbook version 1.0 was released in February 2012. Since its release, the Handbook has received widespread attention from government bodies and individuals alike. It has already been translated into several languages, and many more translations are underway. Åpne data – en veileder takes a direct translation of the Open Data Handbook as its basis, and expands upon areas that have particular relevance in a Norwegian context. Difi’s work is excellent. They have created a highly relevant new resource, and conferred additional value upon the original Open Data Handbook by widening access to its core content and message. This is an excellent example of Open Knowledge in action, and I am proud to express my support of their initiative. Dr. Rufus Pollock 4 Veileder i tilgjengeliggjøring av offentlige data Innledning Hva er den korteste, tryggeste og vakreste sykkelruta hjemmefra til jobben din, og hvordan er kvaliteten på lufta du puster inn på veien? Hvordan kommer du deg til bortekampen til barna dine? Hvilke bygninger eier kommunen du bor i? Finnes det tilgjengelige leiesykler i nærheten av der du er nå? Når kommer neste buss? Hvilken region har de beste jobbmulighetene? Når kan du påvirke beslutninger om ting du er engasjert i, og hvem kan du snakke med om det? Med begrepet «offentlige data» mener vi alle typer informasjon som er produsert eller samlet inn av offentlige virksomheter. Når offentlige data blir publisert i formater som kan leses og bearbeides av datamaskiner, blir det mulig for utviklere, journalister, forskere og sivilsamfunnet for øvrig å finne nye måter å bruke dataene på. Denne veilederen gir en innføring i hvordan offentlige data kan gjøres tilgjengelige og dermed viderebrukes. Veilederen tar for seg åpne offentlige data generelt og gir eksempler på hva åpne data kan brukes til. Vi presenterer argumenter for at offentlige virksomheter bør åpne dataene sine, og gir praktiske råd om hvordan det kan gjøres. Veileder i tilgjengeliggjøring av offentlige data 5 Kapittel1 Hva er åpne data? 6 Veileder i tilgjengeliggjøring av offentlige data Hva er åpne data? 1.1 Hva menes med åpne offentlige data? Offentlige virksomheter har store mengder data som er lagret i interne datasystemer. Åpne data er strukturert informasjon som er gjort tilgjengelige slik at de kan leses og tolkes av både maskin og menneske. Dataene må også ha en åpen lisens slik at de enkelt kan viderebrukes av alle som vil. Open Knowledge Foundation (http://okfn.org/) sin definisjon av åpne data er «[d]ata som er fritt tilgjengelig for bruk og viderebruk av alle, både mennesker og maskiner. Dataeiere kan ikke kreve mer enn at man navngir og/eller deler videre på samme vilkår.” Her er de viktigste kravene til åpne data: • Tilgjengelighet og tilgang: Dataene må være tilgjengelige i sin helhet, helst som gratis nedlasting eller spørregrensesnitt (API) via Internett. Dataene må også være tilgjengelige i en enkel form og mulig å redigere. • Deling og viderebruk: Dataene må gjøres tilgjengelige under vilkår som tillater deling og viderebruk, også når de kombineres med andre datasett. • Universell deltakelse: Alle skal ha muligheten til å bruke og dele – ingen arbeidsområder, enkeltindivid eller grupper skal diskrimineres. Det er ikke tillatt med restriksjoner som hindrer kommersiell bruk, eller restriksjoner for enkelte bruksområder, som for eksempel «bare i undervisning». Med data mener vi enkle biter av informasjon. Når mange slike biter struktureres og settes sammen, får vi et datasett. Offentlige data er alle data som er organisert og arkivert i offentlig sektor. Offentlige data er data som enten er samlet inn utenfra eller blir utarbeidet av de ansatte i en statlig virksomhet. Slike data kan for eksempel være næringslivsregistre, kartdata, organisasjonsmodeller, budsjett og årsregnskap. Åpne data er: «Data som er fritt tilgjengelig for bruk og viderebruk av alle, både mennesker og maskiner. Dataeiere kan ikke kreve mer enn at man navngir og/eller deler videre på samme vilkår.» Maskinlesbare data er data i et format som kan leses og bearbeides av en datamaskin og dermed lett kan deles på tvers av IT-systemer. Maskinlesbare dataformater, som XML, JSON og CSV egner seg derfor godt til viderebruk. Bildefiler (skanna informasjon) og PDF-dokumenter er eksempler på formater som er krevende for maskiner å hente strukturert informasjon fra. Veileder i tilgjengeliggjøring av offentlige data 7 Hva er åpne data? 1.2 Norsk lisens for offentlige data (NLOD) Fornyings-, administrasjons- og kirkedepartementet har utarbeidet en lisensavtale som offentlige virksomheter kan bruke ved tilgjengeliggjøring av data. Når data er lisensiert med Norsk lisens for offentlige data (NLOD) kan de fritt viderebrukes på visse vilkår. Du har lov til • å kopiere og tilgjengeliggjøre • å endre og/eller sette sammen med andre datasett • å kopiere og tilgjengeliggjøre en endret eller sammensatt versjon • å benytte datasettet kommersielt På følgende vilkår • at du navngir lisensgiver slik lisensgiver ber om, men ikke på en måte som indikerer at disse har godkjent eller anbefaler deg eller din bruk av datasettet • at du ikke bruker dataene på en måte som fremstår som villedende, og heller ikke fordreier eller uriktig fremstiller dataene Med den forståelse • at data som inneholder personopplysninger og er taushetsbelagt, ikke er omfattet av denne lisensen og ikke kan viderebrukes • at lisensgiver fraskriver seg ethvert ansvar for informasjonens kvalitet og hva informasjonen brukes til Norsk lisens for offentlige data (NLOD) er tilgjengelig både på norsk og på engelsk på http://data.norge.no. 1.3 Hvilke data kan jeg åpne? Det finnes nesten ingen grenser for hvilke typer data som kan viderebrukes. Alt fra enkle lister og tabeller til avanserte databaser med informasjon fra flere av virksomhetens datasystemer kan være aktuelle for viderebruk. Informasjon som årsregnskap, budsjett, resultater fra spørreundersøkelser, arkeologiske funn, plassering av søppelkasser, returpunkter eller offentlige toalett, kan ha verdi for andre enn virksomheten selv. Her er noen konkrete eksempler på datasett som er registrert på http://på data.norge.no: • • • • • • • • • Enhetsregisteret og Foretaksregisteret (Brønnøysundregistrene) Husbankens statistikkbank (Husbanken) Byrådets budsjettforslag 2013 og økonomiplan 2013-2016 (Oslo kommune) Etater og virksomheter med kartkoordinater (Difi) Statistikk over norsk offisiell bistand (Norad) Trafikkmeldinger (Statens Vegvesen) Værdata (Meteorologisk institutt) Idrettsanleggsregisteret (Kulturdepartementet) Flydata (Avinor) 8 Veileder i tilgjengeliggjøring av offentlige data Hva er åpne data? 1.4 Hvilke data skal jeg ikke åpne? I følge norsk lov gjelder følgende restriksjoner knyttet til det å publisere data: • Data som inneholder personopplysninger som er omfattet av personopplysningsloven, kan du normalt ikke åpne. Unntaket er om du har hentet inn samtykke (lovlig behandlingsgrunnlag) for utleveringa og for den videre bearbeidingen av personopplysningene. • Du kan ikke lisensiere informasjon som har blitt gjort tilgjengelig i strid med lovbestemt taushetsplikt som åpne data. Det betyr at selv om informasjonen alt er (ulovlig) tilgjengelig på internett (eller publisert på andre måter), kan ikke du/din organisasjon publisere datasettet og/ eller påføre en lisens for viderebruk. • Det er ulovlig å publisere informasjon som er unntatt offentlighet med hjemmel i lov, deriblant informasjon som er skjermingsverdig etter sikkerhetsloven (gradert informasjon). • Du kan kun åpne data som organisasjonen selv eier. Dersom andre organisasjoner, selskaper eller personer har vært delaktig (tredjeparts rettigheter) i fremstillingen av datasettet, må alle parter samtykke i at din organisasjon kan påføre datasettet en åpen lisens. Dersom du har kommet i skade for feilaktig å ha publisert informasjon som faller inn under disse unntakene, skal du stoppe all bruk og fjerne all informasjon så snart som du er blitt (gjort) oppmerksom på dette. 1.5 Trafikklyssystemet For å gjøre det enklere å vurdere om et datasett kan åpnes eller ikke, kan “trafikklyssystemet” være nyttig. Systemet deler informasjon inn i tre kategorier: rød, gul og grønn. Den røde kategorien er datasett som på grunn av sikkerhet, personvern eller immaterielle rettigheter må holdes internt, eller potensielt delte med dem det gjelder. Ett eksempel er personlig helsedata. Den gule kategorien er datasett som kan deles opp i to: 1) Deling med andre offentlige organisasjoner. Mer datadeling fører potensielt til mer effektive tjenester og redusert fare for duplikat av data. Det er mange datasett som ikke kan åpnes grunnet sikkerhet, personvern eller immaterielle rettigheter, men som likevel kan deles innenfor offentlig sektor. Vi anbefaler at datasett som kan deles innenfor offentlig sektor, plasseres i den gule kategorien. Folkeregisteret er et eksempel på et “gult datasett”. 2) Usikker på om de kan/bør åpnes Dersom du er usikker på om datasettet kan åpnes, anbefaler vi også at du plasserer de i den gule kategorien. Den grønne kategorien inkluderer datasett som helt åpenbart kan åpnes for viderebruk. Du kan lese mer om hvordan du kategoriserer datasett i kapittel 4. Veileder i tilgjengeliggjøring av offentlige data 9 Hva er åpne data? 1.6 Usikkerhet rundt åpning av data Vi forstår at det kan være usikkerhet rundt det å åpne data. Her skal vi forsøke å svare på noen av de mest stilte spørsmålene: • Vi vet ikke hva dataene våre vil bli brukt til Det stemmer, men det er også et av hovedpoengene med åpne data. Datasett kan nemlig brukes til nyttige ting som dataeieren ikke alltid kan forutse. • Kvaliteten på dataene våre er for dårlig Dersom data er gode nok til å ta beslutninger på, er de også gode nok til å deles. Dette er dessuten like mye et argument for å åpne dataene som mot å gjøre det: Tilbakemeldinger fra viderebrukere kan bidra til å heve kvaliteten på dataene som blir produsert. • Tilgjengeliggjøring koster for mye I de fleste tilfeller er det en liten investering å tilgjengeliggjøre data, og på http://data.norge.no finner du gratis infrastruktur for publisering av datasett. Husk at produksjonen av offentlige data ofte allerede er finansiert, og at digitalisering medfører at det i praksis er gratis å kopiere og sende store mengder data. Å publisere datasett er en liten investering sammenliknet med nytteverdien datasettene har for næringslivet og samfunnet. • Tilgjengeliggjøring av data er utenfor kjerneaktivitetene våre Dersom du gjør dataene tilgjengelige, får eksterne aktører mulighet til å lage tjenester som kan bidra til å støtte kjerneaktivitetene. • Vi har ingen kontroll over hvilke datasett som settes sammen med våre egne Selv om dette stemmer, er også dette et av hovedpoengene med å åpne dataene. Når ulike datasett kobles, kan nye tjenester utvikles. Du står ikke ansvarlig for det som blir laget dersom du bruker Norsk lisens for offentlige data (NLOD). • Tilgjengeliggjøring av data er avslørende Data kan avsløre at man ikke har oppnådd tilfredsstillende politiske eller administrative resultater, eller på andre måter sette dataeieren i et dårlig lys. Forsøk på å unngå slike avsløringer vil imidlertid stå i kontrast til den åpenheten som samfunnet vårt ellers preges av. I enkelte tilfeller kan det også innebære brudd på offentlighetsloven, som gir innbyggerne rett til både innsyn og viderebruk. • Det er for komplisert! Å åpne offentlige data behøver hverken være tidkrevende eller komplisert. Åpne data kan, i sin enkleste form, være et regneark med strukturerte faktaopplysninger publisert på en nettside. Etter hvert kan regnearket utvides til flere regneark, før man gradvis går over til å publisere informasjonen i flere maskinlesbare formater. Poenget er å starte i det små og hele tiden lære av de erfaringer man får av å jobbe med åpne data. Husk at Difi kan hjelpe med veiledning og infrastruktur. 10 Veileder i tilgjengeliggjøring av offentlige data Kapittel 2 Hvorfor åpne data? Hvorfor åpne data? M ange offentlige organisasjoner samler et bredt spekter av data for å kunne utføre oppgavene sine. Denne informasjonen er en stor ressurs som kan utnyttes mer enn den gjør i dag. Offentlige data er spesielt interessante på grunn av mengden og viktigheten av dataene. Det er allerede mulig å peke på områder der åpne offentlige data skaper verdier, og der det mest sannsynlig kan skapes flere. Samtidig er det umulig å forutse nøyaktig hvordan og hvor verdier vil bli skapt. Her er noen eksempler på hva åpne data kan bidra til: 2.1 Næringsutvikling og verdiskaping Viderebrukere trenger åpne data som grunnlag for å skape nye applikasjoner og tjenester basert på informasjon fra det offentlige. Disse kan selges i et stadig voksende marked for applikasjoner og nettjenester. Åpne data er råmateriale som kan stimulere til innovasjon og nye tjenester som kommer både samfunnet og enkeltindividet til gode, gjennom et mer mangfoldig tjenestetilbud. Selskapet StormGeo bygger store deler av sin virksomhet på viderebruk av meteorologiske data. Gjennom analyse, visualisering og videreforedling har de etablert spesialiserte værvarslingstjenester for blant annet energisektoren. Vi ser en teknologirevolusjon innen analyse, utnyttelse og prosessering av data. Verdien av data er i dag likestilt med kapital og arbeidskraft (The Economist) og kan potensielt bidra til en årlig verdiøkning på 140 milliarder euro pr. år for hele EU (Vikery 2011). Legelisten.no ble lansert i mai 2012 med formål å gjøre det enklere for folk å finne en god fastlege. Nettstedet legger til rette for at alle kan oppgi hvor fornøyde (eller misfornøyde) de er med sin fastlege, slik at du kan velge lege ut fra andres erfaringer. Tjenesten er basert på data fra Helseøkonomiforvaltningen (Helfo) og Helsedirektoratet. Det er mange eksempler på ideer som kan bidra til nye verdifulle tjenester, men som ikke har blitt realisert på grunn av manglende tilgang på data. Vi nøyer oss med ett eksempel fra Difi sin egen hackathon (dataverksted) i desember 2011 der TV2 vant med sin idé Pust. Pust er en app som varsler brukere i risikogrupper om kvaliteten på luften der de er, eller der de planlegger å oppholde seg. Utsatte risikogrupper kan få store pusteproblem i dårlig luftkvalitet, men det er ingen lett tilgjengelig (mobil) tjeneste som varsler om dårlig luftkvalitet. For at appen skal kunne realiseres, må den ha tilgang til målinger av luft både inne og ute. Den må ha informasjon om boliger med vedfyring, feiedata fra brannvesen/kommuner, kødannelser/trafikkflyt fra Statens vegvesen, pollenvarsel for allergikere, utslippsdata fra bedrifter og industri og kartdata fra Statens kartverk. 2.2 Effektivisering og innovasjon i offentlig sektor Åpne data gjør det ikke bare mulig for private aktører å lage tjenester på toppen av offentlige data: det kan også bidra til at de offentlige tjenestene blir bedre. Mer gjenbruk og viderebruk av data bidrar dessuten til mindre dobbeltarbeid og en mer effektiv forvaltning. Sammenstilling av offentlige data vil danne grunnlag for nye og bedre digitale tjenester, enten disse er utviklet av private aktører eller av offentlig sektor selv. Resultatet er uansett bedre og flere tjenester for deg og meg fra både offentlig sektor og private aktører. 12 Veileder i tilgjengeliggjøring av offentlige data Hvorfor åpne data? I Danmark har Finansministeriet beregnet (bit.ly/WuHifk) at frigjøring av grunndata (inkludert eiendoms- og kartdata) vil gi offentlig sektors egne virksomheter en gevinst på 300 millioner kroner og privat sektor en gevinst på 500 millioner kroner. Eventuelle innovasjonssuksesser vil komme i tillegg. Det nederlandske utdanningsdepartementet har publisert alle sine utdanningsrelaterte data på nett for viderebruk. Det har gitt mindre arbeidsmengder og lavere kostnader for departementet, siden man mottar færre spørsmål. De gjenværende spørsmålene er nå også enklere for tjenestemennene å svare på, siden det er tydelig hvor de relevante dataene finnes. Dersom virksomheten “sitter på” data som i prinsippet kan publiseres som åpne data, er det mer effektivt å åpne tilgang for alle enn å gi publikum innsyn enkeltvis. Brannvesenet i Amsterdam har jobbet med å kombinere veidata, trafikkmålinger og adresser med beboerdata og byggesaker knyttet til de enkelte eiendommene. Slik kan de finne raskeste vei til brannstedet, informasjon om beboere på brannadresse, og oppdatert byggeteknisk informasjon om bygget som brenner, i sanntid. Bart Van Leeuwen har skrevet om Amsterdam-prosjektet i tidsskriftet Nodalities. 2.3 Gjennomsiktighet og demokratisering Åpne data gir lettere innsyn i offentlige prosesser og dermed en mer etterrettelig og etterprøvbar offentlig sektor. Vi får bedre tilgang til grunnlaget for beslutninger og prioriteringer, bedre forutsetninger for å evaluere vår politiske ledelse, og bredere innsikt i den politiske prosessen. Dette kan være med på å styrke tilliten til det offentlige, og til det politiske systemet. Eksempel på tjenester som bidrar her, er «Holder de Ord» (holderdeord.no) som gjør det enkelt for deg å sjekke hva politikerne på Stortinget lover og gjør i saker du er opptatt av. Kjernevirksomheten til «Holder de ord» er å hente åpne avstemningsdata fra Stortinget og sammenstille disse med valgløfter fra ulike partiprogram. Veileder i tilgjengeliggjøring av offentlige data 13 Lovverk og viderebrukspolitikk Kapittel 3 Lovverk og viderebrukspolitikk 14 Veileder i tilgjengeliggjøring av offentlige data Lovverk og viderebrukspolitikk 3.1 Digitaliseringsprogrammet I digitaliseringsprogrammet (P-10/2012) presenterer regjeringen hovedlinjene i sin politikk for digitalisering av forvaltningen. Punkt 5.7 omtaler tilgjengeliggjøring av offentlige data: Regjeringen vil legge bedre til rette for at offentlig informasjon blir gjort tilgjengelig, slik at den kan brukes videre på nye måter og i nye sammenhenger. Ved å tilgjengeliggjøre data inviterer man næringsliv og sivilsamfunn med i arbeidet med å tilby innbyggerne gode offentlige tjenester og utvikle disse videre. Meteorologisk institutt har for eksempel gjort tilgjengelig data for bruk i tjenester, slik som apper til mobiltelefoner eller nettsider. Tilgjengeliggjøring av data i egnede formater og på en kostnadseffektiv måte blir enklere og rimeligere hvis det inkluderes i etatenes utviklingsplaner fra starten av og blir en integrert del av et system, og ikke krever kostbar nyutvikling i etterkant. Dette vil også understøtte integrerte helhetlige nettjenester som forvaltningen i framtiden kan tilby publikum, slik som selvbetjeningsløsninger hvor fagdata vil kunne understøtte de ulike valg man kan gjøre. 3.2 Digitaliseringsrundskrivet Digitaliseringsrundskrivet gjelder for departementene, statens ordinære forvaltningsorganer, forvaltningsorganer med særskilte fullmakter og forvaltningsbedrifter. Rundskrivet, som gir føringer for hvordan virksomhetene skal digitalisere for å tilby bedre tjenester og effektivisere driften, sier dette om viderebruk av offentlig informasjon (punkt 1.4): I samsvar med viderebruksbestemmelsene i offentlighetsloven skal virksomheten gjøre egnet informasjon tilgjengelig i maskinlesbare formater. Dette gjelder informasjon av samfunnsmessig verdi, som kan viderebrukes, som ikke er taushetsbelagt og der kostnadene ved tilgjengeliggjøring antas å være beskjedne. Virksomheter som vurderer å etablere nye eller å oppgradere eksisterende fagsystemer eller digitale tjenester, skal legge til rette for at data fra disse tjenestene kan gjøres tilgjengelige i maskinlesbare formater. Virksomheten skal følge Retningslinjer ved tilgjengeliggjøring av offentlige data. 3.3 Retningslinjer ved tilgjengeliggjøring av offentlige data Lov om rett til innsyn i dokumenter i offentleg verksemd (offentlighetsloven) trådte i kraft 1. januar 2009. Gjennom offentlighetsloven har potensielle viderebrukere en vid adgang til innsyn i forvaltningens dokumenter og databaser. Etter loven har man også rett til å viderebruke informasjon. Loven gjennomfører EUs viderebruksdirektiv (2003/98/EC). Dette er utgangspunktet for arbeidet med tilgjengeliggjøring og viderebruk av offentlige data: Innsynsrett Alle typer offentlige data som faller inn under dokumentbegrepet i offentlighetsloven, er åpne for innsyn dersom ikke annet følger av lov eller forskrift med hjemmel i lov. Dette følger av offentlighetsloven § 3. Etter offentlighetsloven § 9 kan man også be om innsyn i sammenstilte opplysninger, så lenge sammenstillingen kan gjøres med enkle fremgangsmåter. Viderebruksbestemmelser Viderebruksbestemmelsene i offentlighetsloven gjelder virksomheter som er omfattet av viderebruksdirektivet og har derfor et litt annet virkeområde enn offentlighetsloven. Ulovfestede prinsipper om likebehandling vil likevel kunne innebære at tilgjengeliggjøring for viderebruk må skje på ikke-diskriminerende vilkår slik viderebruksbestemmelsene i offentlighetsloven krever. Veileder i tilgjengeliggjøring av offentlige data 15 Lovverk og viderebrukspolitikk Offentlighetslovens regler om viderebruk innebærer at: • Offentlige data som blir tilgjengeliggjort for viderebruk, skal tilgjengeliggjøres på like vilkår for både kommersielle og ikke-kommersielle aktører. Det er forbud mot forskjellsbehandling mellom sammenlignbare tilfeller og mot å avtale at noen har enerett på tilgang til informasjon. Dette følger av offentlighetsloven § 6. Kravet om like vilkår gjelder for alle aspekter ved tilgangen til data, inkludert tidspunktet data og informasjon om datasett blir tilgjengelig på, bearbeidelsesgrad, format, pris, dokumentasjon og veiledning. • Offentlige data som blir lagt ut til viderebruk, skal kunne brukes til ethvert formål dersom ikke annen lovgivning eller retten til en tredjeperson er til hinder for det. Dette følger av offentlighetsloven § 7. • Hovedregelen i offentlighetsloven er at innsyn skal være gratis. Det kan kun kreves betaling for innsyn dersom det er hjemlet i en bestemmelse som har hjemmel i offentlighetsloven. Dette følger av offentlighetsloven § 8. I særlige tilfeller kan det tas en rimelig fortjeneste, slik det er bestemt for geodata og eiendomsinformasjon, jf. offentlighetsforskriften § 4 femte ledd. Betalingssatsene skal normalt være slik at de samlede inntektene ikke blir større enn de faktiske kostnadene ved å tilgjengeliggjøre informasjonen. Hvis det kreves betaling, skal betalingssatsene offentliggjøres på internett. På forespørsel skal virksomhetene også gi opplysninger om grunnlaget for utregning av betalingssatsene. Personopplysninger og taushetsbelagt informasjon Informasjon som inneholder personopplysninger eller er underlagt taushetsplikt, skal som hovedregel ikke tilgjengeliggjøres for viderebruk. I noen tilfeller kan imidlertid samfunnets behov veie tyngre enn den enkeltes rett til privatliv, slik at informasjon som inneholder personopplysninger likevel kan gjøres tilgjengelig for viderebruk. Dette kan for eksempel gjelde for lister over politiske verv, etc. I noen tilfeller vil også personopplysningene kunne anonymiseres. Informasjonen vil da kunne tilgjengeliggjøres for viderebruk på vanlig måte. Behandling av personopplysninger reguleres av personopplysningsloven. Retningslinjer Å tilgjengeliggjøre data for viderebruk handler i mange tilfeller om mer enn å publisere informasjon slik at det er mulig å bla i data på en nettside. Viderebruk handler også om at rådata gjøres tilgjengelig i det som kalles «maskinlesbare formater», slik at datamaskiner kan brukes til å tolke og analysere datamaterialet. Rådata er data som kan prosesseres maskinelt, tas fra hverandre, blandes med andre data og brukes i nye sammenhenger. For å sikre at data blir tilgjengeliggjort på en hensiktsmessig måte bør offentlige virksomheter tilgjengeliggjøre data i tråd med følgende retningslinjer: 1. Gratisprinsippet I en del tilfeller vil offentlige organer etter offentlighetsloven ha anledning til å ta betalt for utlevering av data. For å sikre at data blir brukt så mye som mulig bør prisen imidlertid være så lav som mulig. Aller helst bør data være gratis. Om ikke annet er pålagt, bør virksomhetene derfor tilgjengeliggjøre data uten å ta betalt. Dersom man likevel tar betalt, bør opplysninger om grunnlaget for utregning av betalingssatsene aktivt offentliggjøres slik at de er lette å finne for potensielle viderebrukere. 2. Maskinlesbare formater Offentlige data som blir lagt ut til viderebruk bør være tilgjengelig i maskinlesbare, standardiserte, ikkeproprietære formater. Dersom data er lagret i proprietære formater, og det å gjøre data tilgjengelig i standardiserte, ikke-proprietære formater er tidkrevende, bør virksomheten tilgjengeliggjøre data i proprietære formater som en overgangsløsning. Fordeler og ulemper ved ulike alternative formater er drøftet i Difis veileder «del og skap verdier». 3. Bearbeiding Virksomhetene bør tilpasse data for at viderebrukere enkelt kan ta dem i bruk, for eksempel ved å lage systemer for spørringer som er tilpasset spesifikke formål. Slike tilpasninger bør likevel ikke være til hinder for at datasett i sin opprinnelige form også blir gjort tilgjengelig dersom det blir etterspurt. Her er det viktig at virksomhetene er åpne for innspill fra de som ønsker å bruke dataene. 16 Veileder i tilgjengeliggjøring av offentlige data Lovverk og viderebrukspolitikk 4. Dokumentasjon Virksomhetene bør dokumentere datasettene slik at det blir enkelt å ta datasettene i bruk. Denne dokumentasjonen bør blant annet inneholde definisjoner av de enkelte dataelementene samt informasjon om hvor ofte datasettet oppdateres. Dokumentasjonen bør være strukturert og publisert i et standardisert format. 5. Opphavsrett Dersom data som tilgjengeliggjøres ikke er beskyttet etter åndsverkloven, bør virksomheten informere potensielle viderebrukere om dette. Dersom data som tilgjengeliggjøres er beskyttet etter åndsverkloven bør virksomheten si ifra seg sine egne eksklusive økonomiske rettigheter til bruk av datasettet. Dette oppfordres det til i fortalen til viderebruksdirektivet, og kan enkelt gjøres ved å bruke Norsk lisens for offentlige data (NLOD). Bruk av denne lisensen sikrer en enhetlig praksis for hvilke rettigheter viderebrukere har. Dette gjør det enkelt og forutsigbart for potensielle viderebrukere å vite hvilke vilkår de må forholde seg til. 6. Synliggjøring Data som gjøres tilgjengelig for viderebruk bør registreres og beskrives på nettstedet data.norge. no, som er en katalog med beskrivelser av offentlige data som er tilgjengelige for viderebruk i Norge. Da vil datasettet være synlig for alle. 7. Tilbakemeldinger Virksomhetene bør oppgi kontaktinformasjon slik at de som bruker dataene kan komme med tilbakemeldinger. Slik kan virksomhetene øke datakvaliteten gjennom å få tilbakemeldinger ved feil, samt få innspill til forbedringer. 8. Fast adresse Data bør ha unike, permanente og hensiktsmessige adresser på internett, slik at det er mulig å lenke data sammen. Adressene på Difis datahotell er et godt eksempel på hvordan slike adresser kan bygges opp. 3.4 Lover under arbeid EU arbeider for tiden med en revisjon av viderebruksdirektivet. I desember 2011 lanserte EU-kommisjonen en strategi for åpne data for Europa, der det foreslås å oppdatere viderebruksdirektivet fra 2003. Det er ventet at et revidert direktiv blir vedtatt i 2013. Direktivet vil også gjelde for Norge og vil styrke de juridiske forpliktelsene til å åpne data fra offentlig sektor. Forslaget til revidert direktiv inkluderer • å gjøre det til en generell regel at alle dokumenter som blir gjort tilgjengelige fra offentlige etater, skal kunne viderebrukes til ethvert formål, kommersielle eller ikke-kommersiell, med mindre de er beskyttet av tredjeparts opphavsrett • å etablere av prinsippet om at offentlige instanser ikke bør få lov til å kreve mer enn kostnadene som utløses av den enkelte anmodning om data (marginalkostnader), som i praksis betyr at de fleste dataene vil bli tilbudt gratis eller nesten gratis • å gjøre det obligatorisk å tilby data i de mest brukte og maskinlesbare formatene for å sikre at data kan viderebrukes på en effektiv måte • å introdusere tilsyn for å håndheve disse prinsippene • å utvide av direktivet til også å omfatte biblioteker, museer og arkiver for første gang (reglene fra 2003 vil gjelde for data fra slike institusjoner) Veileder i tilgjengeliggjøring av offentlige data 17 Hvordan går du frem? Kapittel 4 Hvordan går du frem? 18 Veileder i tilgjengeliggjøring av offentlige data Hvordan går du frem? D et trenger ikke være tidkrevende å åpne data. Vi foreslår en fremgangsmåte som består av fem trinn: 1. Kartlegging, 2. Utvelging, 3. Klargjøring, 4. Publisering, 5. Registrering på data.norge.no. 4.1 Kartlegging Det første du må gjøre er å skaffe deg oversikt over hvilke datasett som finnes i virksomheten, og hvem som har ansvaret for disse. Vi anbefaler å utnevne en person som kan opptre som koordinator for dette arbeidet. Begynn gjerne med arkivmedarbeidere, seksjonssjefer, avdelingsdirektører eller andre saksansvarlige, men husk at kjennskap til (og kunnskap om) datasett og registre gjerne finnes på alle nivå i virksomheten. Gå gjennom fagsystemer, nettsider, intranett og fellesområder sammen med de ansvarlige. Selv i løpet av et relativt kort møte kan du lage en liste over hvilke datasett virksomheten forvalter. Data fra fagsystemer som har en felles nasjonal database, bør koordineres på nasjonalt nivå. Du står likevel fritt til å publisere uttrekk av egne data gitt at samarbeidsavtaler og leverandøravtaler ikke er til hinder for dette. På dette tidspunktet trenger du ikke ha som mål å samle inn all informasjon om alle datasett, men noen hovedpunkt bør tas med: • Navn på datasett • Kort beskrivelse • Kontaktperson/fagansvarlig Navnet på datasettet bør være selvforklarende, og så tydelig som mulig si hvilket datasett dette er. En beskrivelse av datasettet bør inneholde en kort oppsummering av hvordan datasettet er kommet i stand, hvilke data som er i datasettet og hvor ofte disse oppdateres. 4.2 Utvelging Du er nå klar til å ta stilling til hvilke datasett som skal publiseres og hvilke du bør begynne med. Slik kan du gå fram: • Sorter datasettene etter trafikklyssystemet (se kapittel 1.5): ta stilling til om de tilhører rød, gul eller grønn kategori. • Publiser en oversikt over alle gule og grønne datasett som virksomheten forvalter. Samtidig som vi anbefaler å publisere de enkle datasettene først, bør du også være lydhør for hva viderebrukerne ønsker seg. En publisert oversikt over alle gule og grønne datasett, gir følgende muligheter: • Viderebrukere får en oversikt over hvilke data du forvalter. • Offentlige virksomheter får en oversikt over hvilke datasett som finnes, noe som gir et godt grunnlag for deling og viderebruk. • Du kan få hjelp til å avgjøre tvilstilfellene i den gule kategorien. • Det blir mulig å lage en utfyllende nasjonal oversikt over offentlige datasett. Husk at listen over datasett også er et datasett: gjør den derfor også tilgjengelig i et maskinlesbart format (for eksempel CSV). Veileder i tilgjengeliggjøring av offentlige data 19 Hvordan går du frem? 4.3 Klargjøring Etter at du har skaffet deg oversikt over hvilke datasett som finnes, starter arbeidet med å klargjøre data for publisering. Slik kan du gå fram: Konverter datasettet til et maskinlesbart format Dersom datasettene dine er i et proprietært format, bør du konvertere til et åpent format. Hvis utgangspunktet er et Excel-regneark, kan du lagre det som CSV direkte før du publiserer dem. Se ellers oversikten over filformater bakerst i veilederen. Difi sitt datahotell kan gjøre dine data tilgjengelige i CSV, XML, JSON og JSONP og HTML samtidig, på grunnlag av en CSV-fil. Datahotellet er gratis å bruke for alle i norsk offentlig sektor. Du finner flere opplysninger på data.norge.no. Velg lisens For at datasettene dine skal kunne viderebrukes, må de publiseres under en åpen lisens. For å sikre en enhetlig praksis for hvilke rettigheter viderebrukere har, anbefaler FAD at alle bruker Norsk lisens for offentlige data (NLOD - se eget kapittel). Selve lisensen påfører du ved å legge til følgende tekst i datasettet (og/eller på nettsiden der datasettet er tilgjengelig): «Dette datasettet er gjort tilgjengelig under <navn på lisens>. Lisensens fulle tekst er tilgjengelig på <url>.» Her er et eksempel for NLOD: «Dette datasettet er gjort tilgjengelig under Norsk lisens for offentlige data NLOD v1.0. Lisensens fulle tekst er tilgjengelig på http://data.norge.no/nlod.» Standardiser datasettene Etter hvert som flere datasett publiseres, vil det oppstå muligheter for å kombinere ulike datasett. En standardisering av struktur, lisens og feltbeskrivelser vil forenkle kombinasjoner av data både for deg og andre. For å sikre at dataene beskriver det samme, bør du i størst mulig grad benytte etablerte standarder innen gjeldende fagområde og inkludere offisielle ID-er i datasettene, eksempelvis kommunenummer, næringskoder, tjenestekoder osv. Du bør også standardisere måten verdier angis på, for eksempel at datoinformasjon og økonomiske størrelser presenteres likt i ulike datasett. Unngå standardisering som bidrar til at informasjonsverdi går tapt, for eksempel ved at man ikke kan regne seg tilbake til dataenes opprinnelige verdi. Du bør unngå avrundinger (for eksempel til hele 1000), fordi man da ikke lenger leverer rene rådata, men lett bearbeidde data der detaljrikdommen i datasettet er redusert. Jo «rikere» datasett, jo større variasjon, og dermed mer anvendbare datasett til ulike analyser. Dokumenter innholdet Utover informasjonen som er nevnt i samband med kartlegging, trenger viderebrukerne mer utfyllende informasjon om kolonneoverskrifter, forkortelser, og nøkler/IDer som er brukt i datasettet. Dersom det er spesielle forhold knyttet til selve innholdet i deler av datagrunnlaget, bør dette også tas med her. Se Oslo kommune sin oppføring Byrådets budsjettforslag 2013 og økonomiplan 2013-2016 (bit.ly/ZPA9d1) på data. norge.no for eksempel på hvordan dette kan gjøres. 4.4 Publisering Du er nå klar til å publisere datasettene dine. Uansett hvor du publiserer, må du gjøre det på en slik måte at datasettet får en fast nettadresse. Her er noen alternativer for hvordan du kan publisere datasettene du har. 20 Veileder i tilgjengeliggjøring av offentlige data Hvordan går du frem? Enkeltfiler på eksisterende nettside Den enkleste måten å publisere datasettene på, er å legge enkeltfiler ut til nedlasting på egne nettsider. Vi anbefaler å samle alle datasett på samme side slik at de er enkle å finne for alle. Grensesnitt for filtrering og nedlasting av delmengder Dersom du har store mengder data, kan det være en fordel å lage en tjeneste der alle kan filtrere og laste ned delmengder i et maskinlesbart format. Et eksempel på en slik tjeneste er Husbankens statistikkbank (bit.ly/V1RXwy). I tillegg bør du vurdere å tilby et spørregrensesnitt for maskiner/ tjenester (API). Sektorsamarbeid Dersom flere virksomheter jobber med samme fagområde, kan det være en god idé å gå sammen om en felles portal for åpne datasett. Miljøstatus i Norge (miljostatus.no) er et nettsted der mange offentlige organer har gått sammen om å gjøre miljøinformasjon lett tilgjengelig. På Difis datahotell Hvis du ikke kan publisere i maskinlesbare formater på egne nettsider, kan datasettene (CSV-filer) lastes opp på datahotellet på data.norge.no. Her får du en fast adresse for datasettene dine i en rekke åpne maskinlesbare formater. Programvaren bak datahotellet er gratis og kan fritt lastes ned og benyttes på egne servere. Som et spørregrensesnitt Et spørregrensesnitt (kalles ofte API, Application Programming Interface) lar programmerere (og tjenester) gjøre spørringer etter spesifikke deler av data om gangen, i stedet for å gi alle dataene samlet i en stor fil. API-er er som regel tilknyttet en database som oppdateres i sanntid. I følge FAD sine retningslinjer skal nye datasystemer og oppgradering av eksisterende systemer legge til rette for denne typen tilgang på data. 4.5 Registrering på data.norge.no Etter at datasettet er publisert, bør du i registrere og beskrive datasettet på data.norge.no. Etter å ha opprettet konto for registrering, vil du bli bedt om å oppgi følgende opplysninger: • • • • • • • Tittel på datasettet Beskrivelse av datasettet Kontaktperson Lenke(r) til datasett Lisens (velg fra liste) Tema/kategori Lenke til dokumentasjon Etter at datasettet er publisert i katalogen, er de lettere å finne for viderebruksmiljøene. Vi presiserer at dette er anbefalt for alle i offentlig sektor uavhengig av hvor selve datasettene er publisert. 4.6 Kvalitet på nett I Difi sitt kriteriesett for kvalitet på nett for 2013 er det tatt med et punkt om åpne data. Kriteriesettet henviser til Digitaliseringsrundskrivet og FAD sine retningslinjer. Ved tilgjengeliggjøring av data skal følgende krav oppfylles: • Publisering i et åpent, maskinlesbart format (for eksempel CSV, XML eller JSON). • Eier skal opplyse om retningslinjer for bruk (lisens). • Datasettet bør registreres på data.norge.no. Slik registrering blir belønnet med ekstrapoeng. Nettstedeiere får ett poeng for å ha publisert datasett og ett poeng for registrering på data.norge. no. Hele kriteriesettet finner du på kvalitet.difi.no Veileder i tilgjengeliggjøring av offentlige data 21 Kapittel 5 Hva mer kan du gjøre? 22 Veileder i tilgjengeliggjøring av offentlige data Hva mer kan du gjøre? O m du har gjort alt i veilederen så langt, er du og din virksomhet kommet godt på vei med åpne data. En aktiv viderebruk er likevel ingen selvfølge: ofte må du selv ta ansvar for å gjøre dine data kjent. Når du gjør verden kjent med hva du kan tilby, stimulerer du til viderebruk, samtidig som dette er positivt for virksomhetens omdømme. Slik kan du motivere andre til å bruke, utforske og viderebruke dine data: • Bruk virksomhetens hjemmeside Lag nettartikler og pressemeldinger for å spre blest om dine data. Løft gjerne fram lenker til datasett og knytt disse til artikler som omhandler samme tema. • Spre i sosiale media Mye informasjon om åpne data deles gjennom sosiale medier som Facebook, Twitter og LinkedIn. Delta i diskusjonen og del dine pressemeldinger og nettartikler. På Twitter kan du også delta i samtalen om åpne data ved å bruke emnetaggene #opnedata og #offdata. • Snakk om dine data Husk å snakke om dine åpne datasett når du holder presentasjoner i ulike sammenhenger. • Publiser artikler på tredjeparts sider Bloggere som skriver om spesialiserte kunnskapsområder, kan ha opparbeidet seg store leserkretser. Spør om å få skrive noe om datasettene dine på sidene deres. Dette kan også være fordelaktig for begge parter – du får mer oppmerksomhet, og de får en «gratis» bloggpost. • Skap blest om løsninger som er basert på datasettet ditt En god digital tjeneste vil gjerne vekke oppmerksomhet. Om du eller andre utvikler tjenester, apper eller visualiseringer av data, kan du fortelle omverdenen at dette er bygget på dine åpne data. Følg @opnedata på Twitter (eller søk etter #opnedata) for å følge Difi sitt arbeid med åpne data. • Etabler nye møteplasser Gode ideer oppstår når folk møtes, snakker sammen og lærer av hverandre. Viderebrukere trenger førstehåndskunnskap om dine data, og du trenger mer kunnskap om hvordan de potensielt kan brukes. Et godt samarbeid mellom dataeiere og viderebrukere kan bidra til at flere og bedre ideer blir til innovative tjenester. Følg @opnedata på Twitter (eller søk etter #opnedata) for å følge Difi sitt arbeid med åpne data. Dersom du ønsker å gi potensielle viderebrukere en konkret utfordring, kan du arrangere dataverksted, eller såkalte hackdays eller hackathons. Et dataverksted kan for eksempel starte med at et antall datasett blir åpnet. Utviklere får deretter i oppgave å komme med gode ideer, konsepter og/eller utvikle applikasjoner basert på datasettene. Veileder i tilgjengeliggjøring av offentlige data 23 Hva mer kan du gjøre? Slike arrangementer kan være alt fra korte uformelle møter til konkurranser som går over flere måneder. Arrangementene kan hjelpe deg med å • kartlegge hvem som er potensielle viderebrukere av dine data, og hvilke behov de har • lære hvordan dine data blir brukt av andre • få kunnskap om hvordan publiserte datasett fungerer med tanke på format, oppdateringer, grensesnitt og liknende • skape en møteplass for dine data og viderebrukerne • introdusere mulige viderebrukere for hverandre (fremtidig samarbeid) • vise dataene dine til et større publikum (for eksempel fra blogger eller medieoppslag som arrangementet kan utløse) Det kan også være nyttig å ta kontakt med arrangører i andre regioner eller land for hjelp eller gode tips. Ta gjerne kontakt med Difi om du ønsker hjelp til å komme i gang med denne typen arrangement. Eksempler på arrangement Hackathon i desember 2011 I desember 2011 organiserte Difi et hackathon (dataverksted) i samarbeid med Cybernetisk Selskab ved Institutt for informatikk, MediArena Bergen og Girl Geek Dinners, for å markere den internasjonale dagen for åpne data. Vi skaffet premier (sponset av IKT-Norge, Difi, Dataforeningen og Opera Software), publiserte reglene for konkurransen og oppfordret til å komme og bidra med sine prosjekter en hel dag. Totalt ble det i løpet av en kreativ arbeidsdag utviklet ti ulike konsepter som dreide seg om alt fra digitalt demokrati til norske selskaper med forbindelser til skatteparadiser. Vinneren av MediArenas konkurranse ble et lag fra TV2s utviklingsavdeling. De utviklet idéen til mobilapplikasjonen «Pust». USAs Datapaloozas USA har introdusert Datapaloozas som er ment å samle sammen en energisk, kreativ gruppe med ledere fra hele aspektet av sektoren som datapaloozaen omhandler. Helsedatapaloozas samler helsepersonell, offentlig ansatte, næringslivsledere, akademikere, informasjonsteknologiledere osv. Tanken bak er at felles erfaringer og ulike perspektiver, i tillegg til mangfoldet av talent og fantasi, vil føre til ny innsikt, nye ideer, nye partnerskap, bedre programmer og raskere skalering av ideer. 5.1 Åpne, lenkede data Tim Berners-Lee, oppfinneren av World Wide Web og leder av World Wide Web Consorium (W3C), har tatt til orde for en 5-stjerners skala for publisering av data. Systemet klassifiserer data fra én til fem stjerner ut fra et teknisk perspektiv: (http://www.w3.org/DesignIssues/LinkedData.html) Denne veilederen omhandler data opp til tre stjerner, altså data publisert i åpne og standardiserte formater som gjør at andre kan bruke datasettene uavhengig av spesifikke typer programvare. I følge Tim Berners-Lee har vi nå oppnådd tre av totalt fem stjerner. Hele skalaen ser slik ut: ★ Gjør dine data tilgjengelig på Internett med en åpen lisens (uavhengig av format) (eks. PDF) ★ ★ Gjør data tilgjengelig som strukturerte data (eksempelvis Excel framfor en skjermdump/bildefil) ★★★ Gjør data tilgjengelig i åpne formater (eksempelvis CSV framfor Excel) ★★★★ Alt over, men bruk i tillegg URI-er for å identifisere innhold, slik at andre kan referere til dine data ★★★★★ Lenk dine data mot andre datakilder for å sette dine data i sammenheng (Linked Open Data) For data på laveste nivå er altså en åpen lisens nok, mens du må publisere dine datasett som åpne, lenkede data (LOD) for å få full pott. 24 Veileder i tilgjengeliggjøring av offentlige data Hva mer kan du gjøre? Her er noen av fordelene med å publisere data med fire og fem stjerner: • • • • Du kan lenke til deler av data i datasettet fra et annet sted (Internett eller lokalt). Du kan enkelt viderebruke deler av et datasett. Du kan trolig viderebruke eksisterende verktøy og programvarebibliotek. Du kan trygt kombinere data med andres data (ettersom URI-er er ment å være globalt unike og varige). • Dine data blir lettere å finne. • Lenker fra andre datasett (til dine data) gir datasettet ditt en merverdi som øker viderebruksverdien for alle parter. Selv om viderebruksverdien øker med antall stjerner, så er vårt råd å prioritere å få ut data på nivå tre framfor å utsette i påvente av publisering med fem stjerner. Ta gjerne kontakt med oss ([email protected]) om du er interessert i å vite mer om hvordan du kan publisere datasett som åpne, lenkede data. Noen ressurssider for åpne, lenkede data: http://linkeddata.org/ http://www.w3.org/standards/semanticweb/data http://www.semicolon.no/Norwegian-LOD.pdf NB: Tim Berners-Lee sin 5-stjerners skala må ikke forveksles med Difi sin skala for kvalitet på nett: http://kvalitet.difi.no 5.2 Oppsummering Åpne data er ikke vanskelig. I bunn og grunn handler det om å gjøre strukturert informasjon, for eksempel regneark og tabeller, tilgjengelig for nedlasting med en lisens som gjør det mulig for andre å bruke informasjonen til hva de vil. Digitaliseringsrundskrivet slår fast at statlige etater skal gjøre egnet informasjon tilgjengelig i maskinlesbare formater. Denne veilederen, sammen med FAD sine Retningslinjer ved tilgjengeliggjøring av offentlige data, forteller deg hvordan. Lett tilgang på offentlig informasjon er en forutsetning for et velfungerende demokrati, et innovativt næringsliv og en fremtidsrettet og effektiv forvaltning. I tillegg til lovverk, rundskriv, retningslinjer og teknologi, er vi avhengig av en vilje til åpenhet i hver enkelt etat for å lykkes. FAD har gitt Difi et ansvar for å følge opp etater som arbeider med å tilgjengeliggjøre offentlige data. Ta gjerne kontakt med oss på [email protected]. Vi er her for å hjelpe. Veileder i tilgjengeliggjøring av offentlige data 25 Vedlegg Begreper og definisjoner Oversikt format Begreper og definisjoner API: Et Application Programming Interface (API) lar programmerere gjøre spørringer etter spesifikke deler av data om gangen, i stedet for å gi alle dataene samlet i en stor fil. APIer er som regel tilknyttet en database som oppdateres i sanntid. Å publisere data via et API har imidlertid noen ekstra utfordringer, som utvikling, vedlikehold og kostnad knyttet til seg. Data.norge.no: Difis temanettsted for viderebruk av offentlige data. Består av en katalog over data fra offentlige virksomheter i Norge, og er et møtested for alle som er interessert i offentlige data. Databaserettigheter: Retten til å hinder andre fra å trekke ut og gjenbruke innhold fra en database. Finnes hovedsakelig i europeisk lovgivning. Del på samme vilkår-lisens: En lisens som krever at brukere av et arbeid tilbyr innholdet under samme eller lignende vilkår som originalen. EU PSI Directive: Direktiv om gjenbruk av offentlig informasjon, 2003/98/EC omhandler måten den offentlig sektoren burde fremme gjenbruken av sine informasjonsressurser FAD: Fornyings-, administrasjons- og kirkedepartementet. Har ansvaret for regjeringens IKTpolitikk. FAD er etatsstyrer for Difi. Gjenbruk: Bruk av innhold utenfor dets opprinnelige mening. Immaterielle rettigheter (IPR): Immaterielle rettigheter er en samlebetegnelse på opphavsrett og industrielle rettigheter. Det refererer til beskyttelse av oppfinnelser, forfatter- og kunstnerarbeid, symboler, navn, logoer, design og andre innovasjoner. IPR inkluderer industrielle (registrerbare) rettigheter (patent, varemerke og design) og åndsverk, opphavsrett, domener, forretningshemmeligheter med mer. 26 Veileder i tilgjengeliggjøring av offentlige data Lisens for bruk av offentlig data: Et dokument som beskriver hvilke rettigheter en som ønsker å viderebruke offentlige data har. En lisens kan sette betingelser ved bruk av data, for eksempel krav om navngivelse av dataeier eller lignende. Maskinlesbare data: Dataformater som kan leses av en datamaskin. Eksempler på maskinlesbare dataformat er XML, JSON og CSV. Slike formater kan lett deles på tvers av ulike IT-systemer. Navngivelseslisens: Lisens som krever at opphavsperson og/eller lisensgiver blir navngitt på den måten disse angir. Offentlige data: Informasjon som offentlige etater og kommuner besitter i forbindelse med arbeidsoppgaver de utfører. All informasjon som er offentlig og derfor kan tilgjengeliggjøres for viderebruk. Personvern: Det enkelte menneskets ukrenkelighet og krav på respekt fra andre mennesker, respekt for egen integritet og privatlivets fred. Personvernet er derfor nært knyttet til enkeltindividers muligheter for privatliv, selvbestemmelse og selvutfoldelse. Viderebruk av offentlige data skal ikke gå på bekostning av personvernet. Public domain: Offentlig eiendom. Det eksisterer ikke opphavsrett. Gjelder ikke i alle lovgivninger. Public Sector Information (PSI): Informasjon som er samlet inn eller kontrollert av offentlig sektor. Viderebruk: Viderebruk av offentlige data er å bruke åpne data i nye sammenhenger til å lage for eksempel nye tjenester. Ved å tilgjengeliggjøre data for viderebruk i næringsliv og sivilsamfunn, kan samfunnets nytte av at dataene øke. Web API: Et API som er utviklet for å fungere på internett. Åpne offentlige data: Offentlig data som er tilgjengelige for bruk og viderebruk av både mennesker og maskiner. Åpne standarder: Generelt forstått som tekniske standarder som er utelatt fra lisensrestriksjoner. Kan også bli tolket til å mene standarder som er utviklet på en leverandørnøytral måte. Vedlegg Oversikt format Format et sett av regler for hvordan selve dataene og opplysninger om disse skal lagres. Dette formatet vil variere med datasystem, type program og leverandør, og skal en datafil overføres fra én type system til et annet, vil det svært ofte være nødvendig å konvertere filen til et annet format. Comma Separated Files (CSV): CSV-filer kan være nyttige format siden de er kompakte og derfor passende til å overføre store datasett med same struktur. Men, formatet er så spartansk at det ofte er svært vanskelig å finne ut hvilke kolonner som er viktige. Derfor er det svært viktig i CSV-filer at beskrivelsen av de ulike feltene er nøyaktige. HTML: HTML er et markeringsspråk for formatering av nettsider med hypertekst og annen informasjon som kan vises i en nettleser. HTML benyttes til å strukturere informasjon – angi noe tekst som overskrifter, avsnitt, lister og så videre – og kan, i en viss grad, brukes til å beskrive utseende og semantikk i et dokument. JSON: JSON er en enkel tekstbasert standard for datautveksling. Den er opprinnelig avledet fra JavaScript for å representere enkle datastrukturer. Standarden er imidlertid uavhengig av JavaScript eller andre programmeringsspråk. RDF: RDFer er en gruppe av W3C-spesifikasjoner som beskriver en modell for å representere metadata, data om data. RDF-data kan blant annet kodes i XML og JSON. RDF kan entydig identifisere objekter og begreper ved hjelp av samlinger med beskrivelser av klasser og egenskaper. Dette gir store muligheter for utveksling av informasjon på tvers av systemer og teknologier. RDF er derfor egnet til å kommunisere og samordne data som kan lagres i ulike systemer, for eksempel i relasjonsdatabaser. Regneark: Microsoft Excel er ofte brukt til å lagre data. Denne dataen kan ofte bli brukt direkte dersom beskrivelsene av hva de ulike kolonnene betyr/viser til. Men, i enkelte tilfeller kan regnearket inneholde makroer og former som er tungvint å jobbe med. Det er derfor anbefalt å legge slike regnestykker utenom regnearket, siden det da er lettere å lese for brukeren. Scannet bilde: Dette er mest sannsynlig det minst passende formatet for det meste av data, men både TIFF og JPEG-2000 kan i det minste markere hva som er i bildet. Det kan være relevant å vise data som bilder dersom det opprinnelig ikke var elektronisk, som gamle kirkearkiv og andre arkivmateriale. Et bilde er uansett bedre enn ingenting. Tekstdokument: Ordinære dokument i format som Word, ODF, OOXML eller PDF kan være godt nok til å vise enkelte typer data, for eksempel forholdsvis statiske epostlister eller lignende. Det kan være en billig løsning å fremstille dataen I, siden det er ofte dette formatet det blir opprettet i. Formatene holder ikke strukturen fast, hvilket betyr at det ofte er vanskelig å hente ut data automatisk. Dersom du benytter en av disse formatene, bør du bruke maler slik at det i det minste blir mulig å trekke ut informasjon fra dokumentene. Bruk av typografiformatering kan også støtte videre bruk av data, da det blir lettere for maskiner å skille overskrifter fra innholdet osv. Det er generelt ikke anbefalt å fremvise data i Word-format, dersom dataen finnes i et annet format. Tekstfiler: Dokument med ren tekst (.txt) er veldig lette for datamaskiner å lese. De ekskluderer derimot vanligvis strukturerte metadata fra dokumentet, som betyr at utviklere må lage en algoritme som kan tolke/lese hvert dokument. Det kan oppstå enkelte problem ved utveksling av rene tekstfiler mellom operativsystem. MS Windows, Mac OS X og andre Unix-varianter har sine egne metoder å fortelle datamaskinen at de har kommet til slutten av en linje. XML: XML er et mye brukt format for datautveksling. Formatet er et vanlig tekstformat, leselig for mennesker, der merker, eller tagger, gir informasjon om hva innholdet er. Scannet bilde: Dette er mest sannsynlig det minst passende formatet for det meste av data, men både TIFF og JPEG-2000 kan i det minste markere hva som er i bildet. Det kan være relevant å vise data som bilder dersom det opprinnelig ikke var elektronisk, som gamle kirkearkiv og andre arkivmateriale. Et bilde er uansett bedre enn ingenting. Åpne filformat: Formatet som dataen er publisert kan enten være åpne eller lukkede. Et åpent format er et der spesifiseringen for programvaren er tilgjengelige for alle, kostnadsfritt, slik at alle kan bruke disse spesifikasjonene I sine egne programvarer uten begrensninger for gjenbruk eller bruk påført av immaterielle rettigheter. I tråd med åpen forvaltning burde informasjon tilgjengeliggjøres i et åpent filformat som er maskinlesbart. Veileder i tilgjengeliggjøring av offentlige data 27 Ta gjerne kontakt! E-post: [email protected] Twitter:@opnedata data.norge.no Direktoratet for forvaltning og IKT (Difi) Postboks 8115 Dep, 0032 Oslo. Telefon: 22 45 10 00 www.difi.no Difi-veileder 2012:1 ISBN 978-82-7483-117-9 Nytt revidert opplag januar 2013 Dette verk er lisensieret under en Creative Commons Navngivelse 3.0 Norge lisens.