Full presentasjon
Transcription
Full presentasjon
INF130 – Datahåndtering og analyse Normalisering INF130: Normalisering 10.03.15 1.1 Repetisjon av standard terminologi i databaser INF130: Normalisering 10.03.15 2 Normalisering • Motivasjon • Redundans • Funksjonelle avhengigheter • Determinanter • Partielle avhengigheter • Transitive avhengigheter • Normalformer: 1NF, 2NF, 3NF, BCNF • Normaliseringsstegene Pensum: Kapittel 8.2 INF130: Normalisering 10.03.15 3 Hva er normalisering ? • Formell metode for å designe relasjonsdatabaser for å unngå dobbellagring og redundans (som fører til inkonsistenser) • I praksis resulterer normalisering i splitting opp av tabeller inn i mindre tabeller • (En tabell som ikke er normalisert er i UNF - unormalisert form) INF130: Normalisering 10.03.15 4 Normalisering • Normalisering består i å dekomponere (splitte opp) tabeller til flere enklere tabeller slik at: – Redundans ikke oppstår – Informasjonsinnholdet bevares • Normaliseringsteori gir oss: – Presise regler for å avgjøre om og hvordan tabeller skal dekomponeres basert på kunnskap om funksjonelle avhengigheter. INF130: Normalisering 10.03.15 5 Redundans: Informasjon som blir gjentatt OrdreNr Ordredato KNr Adresse 20505 20.8.2011 5022 Kongens gate 3 20505 20.8.2011 5022 Kongens gate 3 20506 20.8.2011 5009 Furulia 72 20506 20.8.2011 5009 Furulia 72 20506 20.8.2011 5009 Furulia 72 20507 20.9.2011 5188 Svingen 7 q Tabellen inneholder data om både ordrer og kunder. q OrdreNr er primærnøkkel, men KNr bestemmer (nåværende) Adresse. q Redundans er sløsing med plass og øker sjansen for inkonsistens (hvis vi endrer adresse for en kunde ett sted, men ikke alle). q Kunder som ikke har kjøpt noe lar seg ikke representere. q Tabellen bør splittes i to enklere tabeller: Kunde og Ordre! INF130: Normalisering 10.03.15 6 Et unormalisert register repeterende gruppe ansatt bopel priv.tlf lønn 22334466 250000 avdeling avd.adr avd.tlf avd.budsj prosjekt prosj.timer prosjekt prosj.timer Salg Oslo 22876543 Salg Oslo 22876543 120 Oslo 2000000 110 Skedsmo 63298765 2000000 081 Asker 1500000 240000 Produksj. Bærum 22878855 230 Bærum 1000000 300000 Økonomi Bærum 22878850 Bryter kravene til relasjoner: • Varierende antall attributter for hvert tuppel • Duplikate attributtnavn INF130: Normalisering 10.03.15 Alfa 200 Alfa 75 Alfa 150 Beta 100 Beta 250 Vi går gjenom normalisering med et nytt eksempel! 7 Eksempel på repeterende grupper (ikke atomiske verdier) studnavn Hansen INF130: Normalisering telefonnr 63804356 47328990 10.03.15 8 Eksempel på oppdateringsanomalier ansattnr navn stilling filial filialadresse s001 Hansen leder f01 Liavn 5 s203 Larsen saksbeh. f03 Storgt 10 p011 Olsen assistent f01 Liavn 5 1. Kan ikke legge inn en ny filial uten at man har en ansatt der fordi man ikke kan sette ansattnr=NULL (ansattnr er primærnøkkel) (innleggingsanomali) 2. Hvis Larsen slutter mister vi info om filial f03 (slettingsanomali) 3. Hvis vi ønsker å endre f01’s filialadresse må vi gjøre det i to tupler ellers får vi datainkonsistens (endringsanomali) INF130: Normalisering 10.03.15 9 Hvorfor er redundans så farlig? • Kan føre til oppdateringsanomalier (avvik fra reglene, uregelmessighet). Det finnes tre forskjellige typer av disse avvikene: - Innleggingsanomalier - Slettingsanomalier - Endringsanomlier INF130: Normalisering 10.03.15 10 Forut for normalisering … • En god database-design begynner med en ”Entity Relationship” (ER-)modell, som er et godt utgangspunkt for normalisering. (Vi tar opp modellering litt senere.) • Hva ønsker vi å søke på i databasen? For å gjøre søkingen så rask som mulig bør de tingene vi søker på være attributter i en relasjon. INF130: Normalisering 10.03.15 11 Funksjonelle avhengigheter I • En funksjonell avhengighet X → Y uttrykker en beskrankning: Hvis to rader har samme verdi i X må de ha samme verdi i Y. – Eks: Hvis to rader har samme KNr (5022), så må de ha samme Adresse. Dvs. at KNr → Adresse. • Vi sier at X bestemmer Y, og kaller X en determinant. • For å avgjøre om X → Y må vi kjenne betydningen til X og Y. Beskrankningen skal gjelde for alle mulige tabellinnhold. INF130: Normalisering 10.03.15 12 Funksjonelle avhengigheter II • Eksempler: – VareNr → Betegnelse – VareNr → Pris – OrdreNr, VareNr → Antall • Kan disse «forenkles»? – VareNr, Betegnelse → Pris – OrdreNr, VareNr, Antall, Betegnelse → Pris – VareNr → Pris, Kategori INF130: Normalisering 10.03.15 13 Funksjonelle avhengigheter III • Grafisk notasjon: A B C D E • X kandidatnøkkel: X → Y for alle Y • Noen avhengigheter lar vi være underforstått. INF130: Normalisering 10.03.15 14 Normaliseringsprosessen Tabell på 1NF Fjern partielle avhengigheter. Tabell på 2NF Fjern transitive avhengigheter. Tabell på 3NF Fjern resterende redundans. Tabell på BCNF INF130: Normalisering 10.03.15 15 Normaliseringssteg A A INF130: Normalisering B A B C B C D C D D E E D F E F E 10.03.15 16 1. NormalForm (1NF) q En tabell tilfredsstiller 1NF hvis alle verdier er atomære. Ø 1NF er kun av historisk interesse; enhver tabell er pr. definisjon på 1NF. Ø Restriksjonen til atomære verdier hindrer «tabeller i tabeller» / «repeterende grupper». Ø Vi har ikke jobbet med tabeller som ikke er på 1NF. INF130: Normalisering 10.03.15 17 2. NormalForm (2NF) q En tabell tilfredsstiller 2NF hvis den er på 1NF og dessuten ikke har attributter som er partielt avhengig av primærnøkkelen. A INF130: Normalisering B C D Brudd! E 10.03.15 18 3. NormalForm (3NF) q En tabell tilfredsstiller 3NF hvis den er på 2NF og dessuten ikke inneholder transitive funksjonelle avhengigheter. A INF130: Normalisering B C D Brudd! E 10.03.15 19 Boyce-Codd NormalForm (BCNF) • En tabell er på BCNF hvis enhver minimal determinant er en kandidatnøkkel. A INF130: Normalisering B C D Brudd! E 10.03.15 20 Repeterende gruppe i egen relasjon ansatt bopel priv.tlf lønn 250000 120 Oslo 22334466 110 Skedsmo 63298765 081 Asker 230 Bærum prosjekt ansatt Alfa 120 200 Beta 120 250 Alfa 110 75 Alfa 081 150 Beta 230 100 INF130: Normalisering prosj.timer avdeling avd.adr avd.tlf avd.budsj Salg Oslo 22876543 2000000 Salg Oslo 22876543 2000000 240000 Produksj. Bærum 22878855 1500000 300000 Økonomi Bærum 22878850 1000000 • Bare atomiske verdier • Fast antall attributter i hver relasjon • Primærnøkkel definert • Ikke null i primærnøkkel Tilfredsstiller de formelle krav for relasjoner, men . . . 10.03.15 21 Partielle og transitive funksjonelle avhengigheter prosjekt ansatt Alfa 120 200 250000 Beta 120 250 250000 Alfa 110 75 Alfa 081 150 240000 Beta 230 100 300000 ansatt bopel prosj.timer priv.tlf lønn 250000 120 Oslo 22334466 110 Skedsmo 63298765 081 Asker 230 Bærum INF130: Normalisering lønn avdeling Partiell funksjonell avhengighet avd.budsj Salg 2000000 Salg 2000000 240000 Produksj. 1500000 300000 Økonomi 1000000 10.03.15 Transitiv funksjonell avhengighet 22 Funksjonelle avhengigheter Dersom det i en relasjon til ethvert tidspunkt er to (muligens sammensatte attributter) X og Y der verdiene alltid er slik at det like verdier av X gir like verdier av Y, er Y funksjonelt avhengig av X. Sagt på en annen måte: Y er funksjonelt avhengig av X hvis X entydig bestemmer Y ansatt INF130: Normalisering bopel priv.tlf 120 Oslo 22334466 110 Skedsmo 63298765 081 Asker 230 Bærum lønn 250000 avdeling avd.adr avd.tlf avd.budsj Salg Oslo 22876543 2000000 Salg Oslo 22876543 2000000 240000 Produksj. Bærum 22878855 1500000 300000 Økonomi Bærum 22878850 1000000 10.03.15 23 Eksempel på funksjonelle avhengigheter ansatt bopel priv.tlf lønn 250000 120 Oslo 22334466 110 Skedsmo 63298765 081 Asker 230 Bærum avdeling avd.adr avd.tlf avd.budsj Salg Oslo 22876543 2000000 Salg Oslo 22876543 2000000 240000 Produksj. Bærum 22878855 1500000 300000 Økonomi Bærum 22878850 1000000 Husk at en funksjonell avhengighet skal gjelde for alle lovlige forekomster i et relasjonsskjema. Et tilfeldig øyeblikksbilde av tupler kan derfor bare gi et ufullstendig bilde av hvilke funksjonelle avhengigheter som finnes. Derfor må de funksjonelle avhengigheter avledes fra “virkelighetens” regler! INF130: Normalisering 10.03.15 24 Normaliseringsprosessen Til 1. normalform: • A B C D E C Skill ut repeterende grupper D E C D E F G A B F G A C D E A C D C E A B B G Til 2. normalform: • Skill ut attributter som er funksjonelt avhengige av en del av primærnøkkelen sammen med en kopi av denne Til 3. normalform: • INF130: Normalisering Skill ut attributter som er funksjonelt avhengige av andre attributter sammen med en kopi av disse A A C B D F E G F GS: Dataorientert systemutvikling figur 6.6 10.03.15 25 Normalformer 1NF, 2NF, 3NF • Tabellene skal bare ha én kandidatnøkkel og denne er primærnøkkelen –dette er en forenkling • 1NF (Første normalform) har ingen repeterende grupper, dvs hver rute inneholder kun én verdi • En tabell i 2NF er i 1NF og ingen av de ikke-nøkkel kolonnene determineres av en mindre del av nøkkelen • En tabell i 3NF er i 2NF og det er ingen transitive determineringer (en ikke-nøkkelkolonne determineres av en annen ikke-nøkkelkolonne) INF130: Normalisering 10.03.15 26 Disse tabellene er i 3NF. INF130: Normalisering 10.03.15 27 Dette var et overblikk over normalisering • Informasjon skal ikke gå tapt pga normalisering, verken entitetsinformasjon eller reelle bindinger mellom relasjoner • Men ønsker vi alltid å normalisere fullt ut? • Det er kjent at søkingen går raskere over færre tabeller • Hvis vi bevisst avkorter normaliseringen, burde vi dokumentere hvorfor vi har valgt å gjøre det. INF130: Normalisering 10.03.15 28 Normalformene (1) • 1. normalform (1NF) – Primærnøkkelattributtene er definert – Ingen repeterende grupper – Alle attributter funksjonelt avhengig av primærnøkkelen INF130: Normalisering 10.03.15 29 Normalformene (2) • 2. normalform (2NF) – 1. normalform – Ingen partielle funksjonelle avhengigheter • 3. normalform (3NF) – 2. normalform – Ingen transitive funksjonelle avhengigheter • Boyce-Codd – Er det flere avhengigheter? Disse bør eventuelt fjernes / legges til egne tabeller INF130: Normalisering 10.03.15 30 Øvingsoppgaver • Oppgave 6 – Normalisering av tabellet • DimPostnummer(Postnummer;Poststed;FylkeKode;Fylke; KommuneKode;Kommune;PostnummerKategoriKode;Po stnummerKategori;Latitude;Longitude) • Fyker(nummer,navn); – BLOGGINNLEGG INF130: Normalisering 10.03.15 31 Normalisering av tabeller INF130: Normalisering 10.03.15 32