STATISTIKA 1. OSNOVNI POJMI
Transcription
STATISTIKA 1. OSNOVNI POJMI
1. OSNOVNI POJMI Definicija 1: Statistika je veda, ki se ukvarja s proučevanjem množičnih pojavov v določenem prostoru in času. STATISTIKA Množičen pojav: ocenjevanje dijakov merjenje višin dijakov branje knjig dijakov smučanje v Sloveniji merjenje krvnega tlaka promet skozi določeno križišče mesečne plače zaposlenih serijska proizvodnja določenega izdelka 2 1 Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) razvrščanje podatkov, Definicija 2: Populacija je množica, ki jo želimo statistično proučiti. Statistična enota je en element populacije. Populacijo lahko sestavljajo živa bitja, predmeti, dogodki. urejanje in grafično prikazovanje podatkov, povzemanje in sprejemanje zaključkev (odkrivanje lastnosti in zakonitosti populacije in napovedovanje vrednosti). Opredelitev populacije: stvarno (kdo ali kaj spada v populacijo in kdo ne) geografsko (kje je populacija opazovana) časovno (kdaj je zajeta) 3 4 Definicija 3: Vzorec je podmnožica (del) populacije. Vzorec je slučajen, če imajo vse enote populacije enako možnost (enako verjetnost) biti izbrane v vzorec. Slučajni vzorec predstavlja (reprezentira) celotno populacijo. Enostavno slučajno vzorčenje: žrebanje (loterijski način) vzorci s ponavljanjem (enota, ki je bila že izbrana v vzorec, je ponovno izbrana), vzorci brez ponavljanja (enota, ki je bila že izbrana v vzorec, ne more biti ponovno izbrana). Definicija 4: Preučevano lastnost (značilnost) enote imenujemo statistična spremenljivka. Vrednost statistične spremenljivke je lastnost ene opazovane enote in jo imenujemo podatek. PRIMER 1 Statistične spremenljivke: višina dijaka, ocena dijaka. Definicija 5: Parameter je statistična karakteristika populacije. PRIMER 2 Parametri: povprečna višina dijakov, povprečna ocena dijakov. Število enot populacije označimo z N. 6 5 Glede na način izražanja podatke ločimo na: opisne (ali kvalitativne): vrednosti le opišemo z besedami in jih ne moremo ovrednotiti numerično (npr. spol, kraj bivanja, barva avtomobila), vrstne (ali ordinalne): vrednosti lahko uredimo le po velikosti, njihova razmerja pa nimajo pomena (npr. šolska ocena, doseženo mesto na tekmi, zadovoljstvo z malico), številske (ali kvantitativne): vrednosti izrazimo numerično oz. številsko. Ločimo diskretne in zvezne številske podatke. Nezvezne (ali diskretne): zaloga vrednosti končna ali neskončna množica realnih števil (npr. število prometnih nesreč, št. prebranih knjig, št. dijakov v razredu). Zvezne: zavzamejo lahko vsako vrednost iz nekega intervala (npr. višina ali teža dijaka, višina žepnine, cena knjig). PRIMER 3 V tabeli so zbrani nekateri podatki o podnebju v Sloveniji v letu 2007: Zap.št. 1. 2. 3. 4. 5. 6. 7. 8. .. . Kraj Bilje Bovec Letal. J.P.LJ Celje Črnomelj Ilirska Bistr. Kočevje Kredarica .. . Pov. temp. (◦ C) 13,4 10,7 10,1 11,2 12 10,8 9,7 -0,3 .. . Vir: Statistični urad Republike Slovenije 7 8 Pov. vlaž. (%) 71 74 80 75 77 76 79 77 .. . Št. dni z dežjem 129 ... 113 130 142 ... 143 77 .. . Odgovorite na naslednja vprašanja: 1 Kaj je v tem primeru populacija? S katerimi pogoji je opredeljena (stvarno, časovno, krajevno)? 2 Kaj je statistična enota? 3 Katere statistične spremenljivke so predstavljene v tabeli? 4 Kakšna je posamezna spremenljivka glede na način izražanja? 5 Katere parametre populacije bi lahko določili? PRIMER 4 Izvedeti želimo, kakšno je mnenje dijakov na ŠC Novo mesto o malici v šol. letu 2008/2009. Ker je število dijakov okoli 3000, ne moremo vprašati vsakega, zato se odločimo, da bomo oblikovali vzorec velikosti 200 dijakov, ki bo dobro predstavljal celo populacijo. Ali bi bil v ta namen ustrezen vzorec, ki bi zajemal prvih 200 dijakov, ki pridejo v torek zjutraj v šolo? 9 10 2. UREJANJE PODATKOV Kdo zbira podatke? šole bolnišnice podjetja .. . Spoznali bomo: SURS (uradna statistika) ranžirno vrsto EUROSTAT (evropska statistika) grupiranje podatkov EPICENTER, NINAMEDIA (javnomnenjske raziskave) .. . Programski paketi za obdelavo podatkov: Excel, SPSS, SAS, Minitab, Mathlab, S-Plus, . . . 11 12 RANŽIRNA VRSTA Ranžirno vrsto predstavljajo po velikosti urejeni številski podatki. Uporabljamo jo za urejanje majhnega števila številskih podatkov. Vsakemu podatku določimo zaporedno mesto v ranžirni vrsti, ki ga imenujemo rang. Enaki podatki stojijo v ranžirni vrsti skupaj in imajo enak rang. Izračunamo ga kot povprečje rangov, ki bi jih podatki imeli, če bi bili različni med seboj. PRIMER 5 Število potnikov. Na avtobusu, ki vozi vsak dan ob delovnikih ob 14.45 iz Novega mesta v Ljubljano, so 12 dni zapored opazovali število potnikov. Rezultati so 20, 38, 28, 35, 30, 40, 22, 32, 35, 32, 45, 35. Zapišite podatke v ranžirno vrsto in jim določite rang. Rešitev: št. potnikov rang 20 22 28 30 13 32 32 35 35 35 38 40 45 14 GRUPIRANJE PODATKOV Grupiranje: združevanje podatkov v skupine (razrede): PRIMER 6 Poraba mleka. 50 slovenskih družin v neki vasi smo vprašali, koliko mleka so porabili v prejšnjem tednu. Zbrani podatki v litrih so: najprej določimo skupne lastnosti enot v posameznih razredih (od 5 do 20 razredov), 1,1 1,7 1 0,5 0,9 2,1 2,3 2,3 2,6 3,1 3,7 3,9 3,1 2,5 3,3 3,3 3,9 3,8 4,1 4 4,3 4,4 4,4 5,1 5,9 5,3 5,2 5,7 4,7 4,3 4,2 4,3 4,7 4,2 7,1 7,2 7,5 7,5 7,6 6,3 6,2 6,1 6,9 8,1 8,2 8,5 9,3 9,2 9,1 9,8 vsaka enota mora biti v natanko enem razredu (ne sme se zgoditi, da bi ista enota ustrezala lastnostim dveh razredov ali pa da za kakšno enoto ne bi obstajal razred, v katerega bi jo uvrstili). enote porazdelimo po razredih, Ali so podatki dovolj pregledni, da lahko povemo kaj o porabi mleka? 15 16 I. Grupiranje številskih spremenljivk v r razredov: Najmanjša vrednost, ki še sodi v i-ti razred: xi,min Največja vrednost, ki še sodi v i-ti razred: xi,max (Absolutna) frekvenca razreda fi : število enot v i-tem razredu Frekvenčna tabela ali frekvenčna porazdelitev: predstavitev razredov in pripadajočih frekvenc: razred 1. 2. .. . vrednost spr. x1,min − x1,max x2,min − x2,max fi f1 f2 .. . r. Σ xr ,min − xr ,max / fr N PRIMER 7 Poraba mleka - nadaljevanje. Zbrane podatke grupiraj in vsakemu razredu določi frekvenco. Frekvenčna porazdelitev številske spremenljivke 17 18 Kaj lahko izračunamo za grupirane podatke? Relativna frekvenca fi ◦ : delež enot v i-tem razredu glede na število vseh enot N, ki smo jih opazovali: fi ◦ = fi N Strukturni odstotek fi %: relativna frekvenca fi ◦ pomnožena s 100 %: fi % = fi ◦ · 100 % 19 Kumulativna frekvenca Fi : število enot, ki imajo manjše vrednosti od spodnje meje i-tega razreda: F1 = 0 in Fi = Fi−1 + fi−1 (za i > 1) Relativna kumulativna frekvenca Fi◦ : delež vseh opazovanih enot, ki imajo manjše vrednosti od spodnje meje i-tega razreda: Fi◦ = 20 Fi N Spodnja meja xi,s in zgornja meja xi,z razreda: zgornja meja razreda i-tega razreda enaka spodnji meji (i + 1)-vega razreda: Širina razreda di : razlika med zgornjo in spodnjo mejo razreda di = xi,z − xi,s xi,z = xi+1,s Sredina razreda xi : aritmetična sredina spodnje in zgornje meje razreda: Zvezna spremenljivka: xi,s = xi,min in xi,z = xi,max Celoštevilska spremenljivka(dve zaporedni celi števili se razlikujeta za 1 - enotski razmik): xi,s = xi,min − 0, 5 xi,z = xi,max + 0.5 21 poraba mleka v l 0−pod 2 2−pod 4 4−pod 6 6−pod 8 8−pod 10 / xi,s + xi,z 2 Z grupiranjem enot v frekvenčne razrede dodelimo vsem enotam v i-tem razredu isto vrednost xi , s čimer izgubimo nekaj natančnosti pri obdelavi podatkov. 22 PRIMER 8 Poraba mleka - nadaljevanje. Za grupirane podatke iz primera o porabi mleka izračunajte fi ◦ , fi %, Fi , Fi◦ , xi,s , xi,z , di , xi . razred 1. 2. 3. 4. 5. Σ xi = fi 5 13 16 9 7 50 PRIMER 9 Starost oseb. V okulistični ambulanti so včeraj pregledali 45 oseb. Njihove starosti v letih so: 33 32 34 37 18 12 36 38 22 24 27 27 28 29 21 24 25 27 23 15 3 4 16 13 15 41 17 19 8 44 45 6 2 7 38 26 25 47 42 25 48 31 35 35 33 Podatke grupirajte v razrede, nato pa za vsak razred izračunajte fi ◦ , fi %, Fi , Fi◦ , xi,s , xi,z , di , xi . Excel: grupiranje: FREQUENCY, nato CTRL-SHIFT-ENTER 23 24 II. Grupiranje opisnih podatkov Za vsak razred lahko določimo le relativno frekvenco in strukturni odstotek vsakega razreda. razred 1. 2. .. . lastnost spr. lastnost 1 lastnost 2 fi f1 f2 .. . r. Σ lastnost r / fr N fi ◦ f1◦ f2◦ .. . fr◦ 1 fi % f1 % f2 % .. . fr % 100 Frekvenčna porazdelitev opisne spremenljivke PRIMER 10 Potniki na vlaku. Na vlaku so želeli ugotoviti strukturo potnikov. Razdelili so jih na dijake, študente, delavce, brezposelne in upokojence. Zbrani podatki so: dijak dijak dijak delavec brezposelen brezposelen brezposelen upokojenec upokojenec dijak dijak dijak dijak dijak dijak dijak študent študent študent študent delavec delavec delavec delavec dijak dijak dijak dijak dijak dijak študent študent študent študent študent študent dijak dijak dijak dijak dijak študent študent študent delavec delavec dijak dijak dijak dijak delavec delavec delavec delavec delavec delavec brezposelen brezposelen brezposelen študent študent študent delavec delavec delavec upokojenec upokojenec brezposelen brezposelen študent študent študent upokojenec upokojenec delavec upokojenec upokojenec študent študent študent študent dijak dijak dijak dijak dijak upokojenec upokojenec upokojenec upokojenec Oblikujte frekvenčno porazdelitev podatkov, nato pa za vsak razred izračunajte fi ◦ in fi %. Excel: COUNTIF (pogoj je posamezna kategorija) 25 3. GRAFIČNO PRIKAZOVANJE PODATKOV 18 16 14 12 10 8 6 4 2 0 Frekvenčni poligon je linijski poligon v pravokotnem koordinatnem sistemu, ki povezuje točke, katerih abscise so enake sredinam frekvenčnih razredov, ordinate pa frekvencam: (xi , fi ). Da grafikon povežemo z abscisno osjo, dodamo še točki (x0 , 0) in (xr +1 , 0). 16 13 Št. družin Št. družin Histogram je prikaz grupiranih številskih podatkov v pravokotnem koordinatnem sistemu s stolpci, kjer vsak stolpec ustreza enemu razredu. Če so razredi enako široki, so višine stolpcev premosorazmerne s frekvencami razredov. 26 9 7 5 18 16 14 12 10 8 6 4 2 0 16 13 9 7 5 0 -1 0-2 2-4 4-6 6-8 8 - 10 0 1 3 5 7 9 11 Poraba mleka v l Poraba mleka v l Excel: Črtni diagram (primeren za prikaz številskih podatkov) Excel: Stolpični diagram (zmanjšamo presledke med stolpci, primeren za prikaz številskih podatkov) 27 28 Strukturni stolpec uporabljamo za prikaz strukturnih odstotkov. Narišemo stolpec poljubne širine in poljubne višine. Višino stolpca proglasimo za 100 %, nato pa jo razdelimo v razmerju strukturnih odstotkov. Posamezne dele stolpca ponavadi šrafiramo ali pobarvamo z različnimi barvami, zato za pojasnitev dodamo legendo. 100% 90% 7 80% 9 70% 60% 50% 20% 10% 0% 0-2 10% 8 - 10 14% 8 - 10 6-8 4-6 2-4 0-2 16 40% 30% Tudi strukturni krog uporabljamo za prikaz strukturnih odstotkov. Delež enot v posameznem razredu je prikazan s krožnim izsekom. Velikost središčnega kota za vsak razred izračunamo kot odstotek polnega kota: fi % · 360◦ . Tudi strukturni krog opremimo z legendo. 6-8 18% 2-4 26% 13 5 Excel: Stolpični diagram (primeren za prikaz vrstnih in opisnih podatkov) 29 Prikaz s stolpci je podoben histogramu, uporabljamo pa ga lahko za prikaz grupiranih opisnih ali številskih podatkov. Širina stolpca je poljubna, višina stolpca pa je premosorazmerna s frekvenco razreda. 4-6 32% Excel: Tortni diagram (primeren za prikaz vrstnih in opisnih podatkov) 30 PRIMER 11 Spodnji grafikon prikazuje zaslužke dijaka preko študentskega servisa v enem letu. Primerjajte zaslužke dijaka po mesecih. Excel: Stolpični diagram (primeren za prikaz vrstnih in opisnih podatkov) 31 32 4. SREDNJE VREDNOSTI PRIMER 12 Spodnji grafikon prikazuje iste zaslužke dijaka preko študentskega servisa v enem letu kot prejšnji grafikon. V čem je razlika? Kaj lahko zdaj povemo o višinah zaslužkov dijaka po mesecih? Srednja vrednost je mera za osredinjenost podatkov. Pove, kje se nahajajo podatki. Obravanali bomo tri srednje vrednosti: mediana modus aritmetična sredina (povprečje) 34 33 MEDIANA Definicija 6: Mediana (ali središčnica) je srednja vrednost, od katere ima polovica enot manjše ali enake vrednosti, polovica pa večje ali enake. Označili jo bomo z Me. Mediano za majhno število podatkov najhitreje določimo tako, da podatke najprej uredimo po velikosti v ranžirno vrsto, nato izračunamo mesto, na katerem se nahaja mediana: N+1 2 . Če ta vrednost ni celo število, je mediana povprečje sosednjih dveh vrednosti. PRIMER 13 Določite mediano zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Rezultat komentirajte. PRIMER 14 Določite mediano zamud avtobusa v šestih dneh: 2, 2, 6, 7, 10, 15 min. Rezultat komentirajte. Mediana je določena z mestom v ranžirni vrsti, zato ekstremno veliki (ali majhni) podatki ne vplivajo na njeno vrednost. Excel: MEDIAN 35 36 MODUS ARITMETIČNA SREDINA Definicija 7: Modus (ali gostiščnica) je srednja vrednost, ki je enaka tisti vrednosti spremenljivke, ki se najpogosteje pojavlja. Označili ga bomo z Mo. PRIMER 15 Določite modus zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Rezultat komentirajte. Med podatki je lahko tudi več modusov (tiste vrednosti, ki se enakomnogokrat pojavljajo največkrat). Definicija 8: Aritmetična sredina (povprečje) je srednja vrednost, ki jo dobimo tako, da vsoto vseh vrednosti spremenljivke delimo s številom enot v populaciji N. Označili jo bomo z µ: µ= Σ N xi x 1 + x 2 + · · · + xN ali µ = i=1 N N Excel: AVERAGE Excel: MODE 37 38 Lastnosti aritmetične sredine: PRIMER 16 Izračunajte aritmetično sredino zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Če vsakemu podatku prištejemo isto vrednost a, se tudi aritmetična sredina poveča za a. 1 Rezultat komentirajte. Če vsak podatek nadmestimo z aritmetično sredino, ostane vsota podatkov nespremenjena. 2 Kako bi se spremenila aritmetična sredina, če bi vsaki vrednosti prišteli 5 min? Če od vsakega podatka odštejemo aritmetično sredino (izračunamo odklon od aritmetične sredine), je vsota vseh odklonov enaka 0. 3 Kolišna bi bila vsota podatkov, če bi vsakega nadomestili z aritmetično sredino? 4 Od vsakega podatka odštejte aritmetično sredino. Kolikšna je vsota teh vrednosti? 39 PRIMER 17 Ali je smiselno izračunati aritmetično sredino spremenljivke spol ali pa spremenljivke kraj bivanja? Odgovor obrazloži. 40 5. RAZPRŠENOST PODATKOV PRIMER 18 V skupini je 5 dijakov. Njihova povprečna starost je 15 let. Kaj lahko sklepamo? 1 Da je največ dijakov starih 15 let. 2 Da so vsi dijaki stari približno 15 let. 3 Da so vsi dijaki stari 15 let. 4 Da je polovica dijakov starih manj kot 15 let, polovica pa več kot 15 let. 5 Da je vsota starosti vseh otrok v skupini 75 let. Razpršenost (ali variabilnost) je lastnost podatkov, da lahko zavzamejo različne vrednosti. Podatki so lahko bolj ali manj razpršeni, kar je videti na sliki: Obravnavali bomo naslednje mere za razpršenost: PRIMER 19 Povprečna ocena pisne naloge iz matematike petih dijakov je 3,2. Kaj lahko poveš o ocenah pisne naloge posameznih dijakov? variacijski razmik standardni odklon (standardna deviacija) medčetrtinski razmik 41 42 VARIACIJSKI RAZMIK STANDARDNI ODKLON Definicija 9: Variacijski razmik je razlika med največjo in najmanjšo vrednostjo v populaciji. Označimo ga z VR. Definicija 10: Standardni odklon (ali standardna deviacija) je enaka korenu povprečja kvadratov odklonov vrednosti od aritmetične sredine. Označimo ga s σ: VR = xmax − xmin PRIMER 20 Izračunajte variacijski razmik zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Rezultat komentirajte. Excel: VR = MAX - MIN (izračunamo, ker ni posebnega ukaza) 43 σ= 2 ΣN i=1 (xi − µ) N Za uporabo je bolj preprosta formula: 2 ΣN i=1 xi − µ2 σ= N Dokaz. 44 PRIMER 21 Izračunaj standardni odklon zamud avtobusa v petih dneh: 2,2,6,7,10 min. Rezultat komentiraj. Kaj bi se zgodilo s standardnim odklonom, če bi vsem vrednostim prišteli 5 min? Kaj pove standardni odklon? Če je porazdelitev spremenljivke simetrična (lahko pogledamo histogram), se približno 23 vrednosti spremenljivke nahaja na intervalu [µ − σ, µ + σ]. Excel: standardni odklon: STDEVP ARITMETIČNA SREDINA IN STANDARDNI ODKLON GRUPIRANIH PODATKOV PRIMER 22 Dijaki v T1A, T1B in T1C so pisali pisno nalogo iz matematike. Povprečna ocena dijakov iz T1A je 3,4, povprečna ocena v T1B je 3,2, v T1C pa 2,9. Kolikšna je povprečna ocena dijakov vseh treh razredov? 45 Aritmetična sredina (povprečje) grupiranih podatkov (tudi tehtana aritmetična sredina): µ= Σr fi xi f1 xi + f2 x2 + · · · + fr xr ali µ = i=1 N N Standardni odklon grupiranih podatkov: Σri=1 fi xi2 σ= − µ2 N 47 46 Pri izračunu si pomagamo z razširjeno frekvenčno porazdelitvijo: razred 1. 2. .. . vrednost x1,min − x1,max x2,min − x2,max fi f1 f2 .. . xi x1 x2 .. . fi xi f1 x1 f2 x2 .. . r. Σ xr ,min − xr ,max / fr N xr / fr xr Σri=1 fi xi 48 fi xi2 f1 x12 f2 x22 .. . fr xr2 r Σi=1 fi xi2 PRIMER 23 Poraba mleka - nadaljevanje primera. Izračunajte aritmetično sredino in standardni odklon porabe mleka 50 slovenskih družin prejšnji teden v neki vasi. razred 1. 2. 3. 4. 5. Σ poraba mleka v l 0−pod 2 2−pod 4 4−pod 6 6−pod 8 8−pod 10 / fi 5 13 16 9 7 50 xi 1 3 5 7 9 / 49 6. KVARTILI IN ŠKATLA Z BRKI Definicija 11: Trije kvartili razdelijo številske podatke v ranžirni vrsti v štiri skupine: PRIMER 24 Starost oseb - nadaljevanje primera Izračunajte aritmetično sredino in standardni odklon starosti oseb, ki so bile včeraj pregledane v okulistični ambulanti. razred 1. 2. 3. 4. 5. Σ starost 1−10 11−20 21−30 31−40 41−50 / fi 6 8 14 11 6 45 xi 5,5 15,5 25,5 35,5 45,5 / 50 S pomočjo kvartilov lahko nazorno pokažemo razpršenost podatkov tako, da narišemo škatlo z brki, za katero potrebujemo poleg kvartilov še najmanjšo in največjo vrednost med podatki. prvi kvartil Q1 je tista vrednost, od katere je 25 % podatov manjših (ali enakih) in 75 % podatkov večjih (ali enakih) - nahaja se na N+1 4 -tem mestu drugi kvartil Q2 je tista vrednost, od katere je 50 % podatov manjših (ali enakih) in 50 % podatkov večjih (ali enakih) (tudi mediana) -tem mestu nahaja se na 2(N+1) 4 tretji kvartil Q3 je tista vrednost, od katere je 75 % podatov manjših (ali enakih) in 25 % podatkov večjih (ali enakih) - nahaja se na 3(N+1) - tem mestu 4 2(N+1) in 3(N+1) niso celoštevilske, vzamemo za kvartil Če vrednosti N+1 4 , 4 4 povprečje sosednjih vrednosti. 51 Škatlo z brki imenujemo tudi okvir z ročaji ali grafikon kvartilov (ang. box-and-whiskers plot ali box-plot). Definicija 12: Medčertinski razmik Q je razlika med tretjim in prvim kvartilom. (Med Q1 in Q3 se nahaja 50 % podatkov.) 52 PRIMER 25 V T1A so dijaki zbrali podatke o številu ur, ki so jih prejšnji teden preživeli za računalnikom. Zbrani podatki so: PRIMER 26 Na zdravniškem pregledu so stehtali 17 dijakov manjšega razreda. Njihove teže v kg so: 2, 2, 3, 4, 5, 6, 6, 7, 7, 8, 9, 10, 11, 11, 12, 12, 15, 15, 16, 17, 18, 21, 21, 21, 22, 24, 25, 28, 30, 30, 34 50, 52, 53, 55, 56, 56, 60, 61, 64, 64, 65, 67, 71, 72, 73, 73, 80 1 Izračunajte vse tri kvartile in jih obrazložite. 2 Izračunajte medčetrtinski razmik. 3 Narišite škatlo z brki. 1 Izračunajte vse tri kvartile in jih obrazložite. 2 Izračunajte medčetrtinski razmik. 3 Narišite škatlo z brki. 53 54 PRIMER 27 Primerjaj osebne dohodke moških in žensk v nekem podjetju na spodnjem grafikonu. Kaj lahko sklepaš iz slike? PRIMER 28 Primerjaj osebne dohodke moških in žensk v nekem podjetju na spodnjem grafikonu. Kaj lahko sklepaš iz slike? 55 56 7. KORELACIJA IN REGRESIJA PRIMER 29 Voznik beleži število kilometrov, ki jih prevozi s svojim avtomobilom, in porabo goriva pri vsaki vožnji. Ugotoviti želi, kako je poraba goriva povezana s številom prevoženih kilometrov. Kateri statistični spremenljivki nastopata v primeru? Ali bo pri različnih vožnjah, ko bo prevozil enako število kilometrov, vedno porabil enako količino goriva? Spremenljivka X : število prevoženih kilometrov Spremenljivka Y : količina porabljenega goriva Povezanost med številskima spremenljivkama X in Y imenujemo korelacija. Povezanost spremenljivk lahko prikažemo v pravokotnem koordinatnem sistemu, če eno od spremenljivk proglasimo za neodvisno in drugo za odvisno. Tako dobljeni diagram imenujemo razsevni diagram. Koliko goriva bo porabil za vožnje, pri katerih bo prevozil manj km, v primerjavi z vožnjami, pri katerih bo prevozil več km? Razmisli, kaj vpliva na porabo goriva. 57 Razsevni diagram: 58 Spremenljivki X in Y sta povezani linearno, če točke v razsevnem diagramu ležijo na isti premici ali pa se od nje bolj ali manj odklanjajo (ovalna oblika množice točk v razsevnem diagramu). Premico, ki se najbolj prilega točkam, imenujemo regresijska premica. Ločimo pozitivno in negativno linearno povezanost: Pozitivna linearna povezanost: večje vrednosti spremenljivke X so povezane z v povprečju večjimi vrednostmi spremenljivke Y . (regresijska premica je naraščajoča) Negativna linearna povezanost: večje vrednosti spremenljivke X so povezane z v povprečju manjšimi vrednostmi spremenljivke Y . (regresijska premica je naraščajoča) Razsevni diagram Excel: Raztreseni (XY) 59 Excel: Enačba regresijske premice: na grafikonu kliknemo z desnim gumbom miške na eno točko in izberemo ’Dodaj trendno črto’. Pod možnostmi izberemo ’Prikaži enačbo na grafikonu’. 60 Moč linearne povezanosti kaže Pearsonov koeficient r , katerega vrednosti se nahajajo na intervalu [−1, 1]. Moč linearne povezanosti med spremenljivkama X in Y je lahko: - močna pozitivna, če je 0.75 ≤ r < 1; poz.lin. povezanost - srednje močna pozitivna, če je 0.4 ≤ r < 0.75; neg.lin. povezanost - šibka pozitivna, če je 0 ≤ r < 0.4; - ni linearne povezanosti, če r = 0; - šibka negativna, če je −0.4 < r < 0; - srednje močna negativna, če je −0.75 < r ≤ −0.4; - močna negativna, če je −1 < r ≤ −0.75. Excel: PEARSON ni lin. povezanosti ni povezanosti 61 62 8. ČASOVNE VRSTE PRIMER 30 Voznik je za 12 voženj zabeležil število prevoženih kilometrov in porabo goriva v litrih. Rezultati so prikazani v tabeli: Kilometri Gorivo 20 2,5 35 3,8 60 6 35 4 65 5,5 50 4 40 3,5 25 2,5 25 3 45 4 10 1,8 1 Narišite razsevni diagram (v zvezek in z Excel). 2 Izračunajte Pearsonov koeficient korelacije (z Excel). Kakšno povezanost kaže? 3 Določite enačbo regresijske premice (z Excel). Premico vrišite v razsevni diagram. 4 Koliko goriva bo v povprečju porabil voznik za 42 km? 63 15 2 Mnogi pojavi se spreminjajo s časom. Če podatke uredimo glede na trenutek ali obdobje, ki ga opisujejo, dobimo časovno vrsto. Analiziranje časovne vrste nam lahko pomaga razumeti spremembe in napovedati vrednosti v prihodnosti. Definicija 13: Časovna vrsta je niz istovrstnih podatkov v zaporednih časovnih trenutkih ali v posameznih zaporednih časovnih intervalih. Grafični prikaz podatkov: podatke prikažemo z linijskim grafikonom, kjer na vodoravno os nanašamo čas, na navpično os pa vrednosti opazovanih podatkov. 64 PRIMER 31 Poraba električne energije. Dijak je doma 7 tednov beležil tedensko porabo električne energije. Podatki so zbrani v tabeli: Zap. št. (k) 1 2 3 4 5 6 7 Definicija 14: Linearni trend je premica y = kx + n, ki podaja dolgoročno smer razvoja časovne vrste. Njeno enačbo bomo določili s programom Excel. teden 1. teden 2. teden 3. teden 4. teden 5. teden 6. teden 7. teden kWh 109 98 102 103 95 90 92 V enačbi linearnega trenda je x zaporedna številka obdobja. Koeficient k pove, za koliko se spremeni vrednost y , ko se x poveča za 1 obdobje. Linearni trend bomo vrisali v linijski grafikon s programom Excel. S pomočjo trenda lahko izračunamo napoved vrednosti y za vnaprej. Opomba: linearni trend je poseben primer regresijke premice. Podatke prikažite z linijskim grafikonom in izračunajte povprečno tedensko porabo. Excel: na sliki kliknemo z desnim gumbom miške na eno točko in izberemo ’Dodaj trendno črto’. Pod možnostmi izberemo ’Prikaži enačbo na grafikonu’. 65 66 PRIMER 33 Spodnji grafikon prikazuje upad vrednosti delnice v zadnjih 18 mesecih. Ali je trend upada linearen? PRIMER 32 Za primer porabe električne energije s programom Excel vrišite linearni trend. Napovejte, kolikšno porabo električne energije lahko pričakujemo 8. teden. 67 68 Kaj lahko še izračunamo za časovno vrsto? Indeks s stalno osnovo Ik/0 je v odstotkih izraženo razmerje med podatkom Xk v trenutku ali intervalu k in podatkom X0 v vnaprej izbranem trenutku ali intervalu. Indeks s stalno osnovo torej izračunamo po formuli: Ik/0 = Xk · 100 X0 Verižni indeks Ik je v odstotkih izraženo razmerje med podatkom Xk v trenutku ali intervalu k in podatkom Xk−1 v prehodnem trenutku ali intervalu k − 1. Verižni indeks izračunamo po formuli: Ik = Stopnja rasti Sk je v odstotkih izražena razlika med podatkoma Xk in Xk−1 glede na podatek Xk−1 . Izračunamo jo po formuli: Sk = Xk − Xk−1 · 100 Xk−1 Povprečna stopnja rasti S je stopnja, s katero bi morali zaporedno spreminjati podatke v časovni vrsti, da bi iz podatka v prvem trenutku ali intervalu dobili podatek v zadnjem trenutku ali intervalu. Izračunamo jo po formuli: X n S = 100 n−1 −1 X1 Xk · 100 Xk−1 69 70 Trenutke ali obdobja, podatke ter indekse in stopnje pregledno prikažemo v tabeli: razred (k) 1 2 .. . obdobje n Xk X1 X2 .. . Ik/0 I1/0 I2/0 .. . Ik I1 I2 .. . Sk S1 S2 .. . Xn In/0 In Sn PRIMER 34 Za primer porabe električne energije izračunajte indekse s stalno osnovo glede na prvi teden, verižne indekse, stopnje rasti ter povprečno stopnjo rasti. Rešitev: Rezultati so podani v tabeli: Zap. št. 1 2 3 4 5 6 7 teden 1. teden 2. teden 3. teden 4. teden 5. teden 6. teden 7. teden kWh 109 98 102 103 95 90 92 Ik/1 100 89,9 93,6 93,6 87,2 82,6 84,4 Excel: oblikujemo formule za posamezne celice. 71 72 Ik / 89,9 104,1 101,0 92,2 94,7 102,2 Sk / -10,1 4,1 1,0 -7,8 -5,3 2,2 Kontingenčna tabela Povprečna stopnja rasti: S = 100 n−1 Xn −1 X1 = 100 6 Definicija 15: Kontingenčna ali dvorazsežna tabela prikazuje podatke po vrednostih dveh opisnih spremenljivk hkrati. 92 −1 109 = −2, 79 Če bi se poraba električne energije vsak teden zmanjšala za 2, 79%, bi se iz začetne porabe 109 kWh v prvem tednu zmanjšala na 92 kWh v sedmem tednu. PRIMER 35 225 dijakov srednje šole smo vprašali o zadovoljstvu s šolsko malico. Rezultati so zbrani v tabeli: letnik/zadovoljstvo 1. letnik 2. letnik 3. letnik 4. letnik zadovoljen 35 45 35 20 nezadovoljen 15 15 10 50 Kaj lahko povemo o zadovoljstvu anketiranih dijakov z malico? 73 74 Rešitev: Za boljši pregled nad podatki, dodamo še vrstico ’skupaj’ in stolpec ’skupaj’: letnik/zadovoljstvo 1. letnik 2. letnik 3. letnik 4. letnik skupaj zadovoljen 35 45 35 20 135 75 nezadovoljen 15 15 10 50 90 skupaj 50 60 55 70 225 Struktura anketiranih dijakov po zadovoljstvu s šolsko malico za vsak letnik: letnik/zadovolj. 1. letnik 2. letnik 3. letnik 4. letnik skupaj zadovoljen 35 45 35 20 135 % 70,0% 75,0% 77,8% 28,6% 60,0% Strukturo prikažite tudi grafično. 76 nezadov. 15 15 10 50 90 % 30,0 % 25,0 % 22,2 % 71,4 % 40,0 % skupaj 50 60 55 70 225 % 100 % 100% 100 % 100 % 100 % Struktura anketiranih dijakov po letnikih za vsako od mnenj o zadovoljstvu s šolsko malico: letnik/zadovolj. 1. letnik 2. letnik 3. letnik 4. letnik skupaj zadovoljen 35 45 35 20 135 % 25,9 % 33,3 % 25,9 % 14,8 % 100 % nezadov. 15 15 10 50 90 % 16,7 % 16,7 % 11,1 % 55,6 % 100 % skupaj 50 60 55 70 225 % 22,2 % 26,7 % 20,0 % 31,1 % 100 % Strukturo prikažite tudi grafično. 77 78 PRIMER 36 Odrasle moške in ženske so vprašali, ali imajo vozniški izpit ali ne. Podatki so zbrani v spodnji tabeli. Oblikujte kontingenčno tabelo. Izračunajte strukturo podatkov po spolu in strukturo po imetju vozniškega izpita ter ju prikažite grafično. spol moški ženska ženska moški moški ženska ženska moški ženska ženska moški vozniški izpit da da ne ne da da da da ne da ne Nalogo rešite s programom Excel (vrtilna tabela). 79 80