STATISTIKA 1. OSNOVNI POJMI
Transcription
STATISTIKA 1. OSNOVNI POJMI
1. OSNOVNI POJMI STATISTIKA Simona PUSTAVRH, ŠC Novo mesto Definicija 1: Statistika je veda, ki se ukvarja s proučevanjem množičnih pojavov v določenem prostoru in času. Množičen pojav: ocenjevanje dijakov merjenje višin dijakov branje knjig dijakov smučanje v Sloveniji merjenje krvnega tlaka promet skozi določeno križišče mesečne plače zaposlenih serijska proizvodnja določenega izdelka 1 Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje, kodiranje in razvrščanje podatkov, urejanje in grafično prikazovanje podatkov, povzemanje in sprejemanje zaključkev (odkrivanje lastnosti in zakonitosti populacije in napovedovanje vrednosti). 2 Definicija 2: Populacija je množica, ki jo želimo statistično proučiti. Statistična enota je en element populacije. Populacijo lahko sestavljajo živa bitja, predmeti, dogodki. Opredelitev populacije: stvarno (kdo ali kaj spada v populacijo in kdo ne) geografsko (kje je populacija opazovana) časovno (kdaj je zajeta) 3 4 Definicija 3: Vzorec je podmnožica (del) populacije. Vzorec je slučajen, če imajo vse enote populacije enako možnost (enako verjetnost) biti izbrane v vzorec. Slučajni vzorec predstavlja (reprezentira) celotno populacijo. Enostavno slučajno vzorčenje: žrebanje (loterijski način) vzorci s ponavljanjem (enota, ki je bila že izbrana v vzorec, je ponovno izbrana), vzorci brez ponavljanja (enota, ki je bila že izbrana v vzorec, ne more biti ponovno izbrana). Definicija 4: Preučevano lastnost (značilnost) enote imenujemo statistična spremenljivka. Vrednost statistične spremenljivke je lastnost ene opazovane enote in jo imenujemo podatek. PRIMER 1 Statistične spremenljivke: višina dijaka, ocena dijaka. Definicija 5: Parameter je statistična karakteristika populacije. PRIMER 2 Parametri: povprečna višina dijakov, povprečna ocena dijakov. Število enot populacije označimo z N. 6 5 Glede na način izražanja podatke ločimo na: opisne (ali kvalitativne): vrednosti le opišemo z besedami in jih ne moremo ovrednotiti numerično (npr. spol, kraj bivanja, barva avtomobila), vrstne (ali ordinalne): vrednosti lahko uredimo le po velikosti, njihova razmerja pa nimajo pomena (npr. šolska ocena, doseženo mesto na tekmi, zadovoljstvo z malico), številske (ali kvantitativne): vrednosti izrazimo numerično oz. številsko. Ločimo diskretne in zvezne številske podatke. Nezvezne (ali diskretne): zaloga vrednosti končna ali neskončna množica realnih števil (npr. število prometnih nesreč, št. prebranih knjig, št. dijakov v razredu). Zvezne: zavzamejo lahko vsako vrednost iz nekega intervala (npr. višina ali teža dijaka, višina žepnine, cena knjig). 7 PRIMER 3 V tabeli so zbrani nekateri podatki slučajnega vzorca dijakov Šolskega centra Novo mesto v šolskem letu 2009/2010: Zap.št. 1. 2. 3. 4. 5. 6. 7. 8. Spol moški ženski ženski moški moški moški ženski moški Letnik 1 3 1 2 3 4 4 2 Št. bratov/sester 1 2 0 2 3 1 0 1 8 Višina (cm) 174,3 169,7 164,2 182,9 186,2 180,1 172,8 177,7 Odgovorite na naslednja vprašanja: 1 Kaj je v tem primeru populacija? S katerimi pogoji je opredeljena (stvarno, časovno, krajevno)? 2 Kaj je statistična enota? Kako velik je vzorec? 3 Katere statistične spremenljivke so predstavljene v tabeli? 4 Kakšna je posamezna spremenljivka glede na način izražanja? 5 Katere parametre populacije bi lahko določili? PRIMER 4 Izvedeti želimo, kakšno je mnenje dijakov na ŠC Novo mesto o malici v šol. letu 2008/2009. Ker je število dijakov okoli 3000, ne moremo vprašati vsakega, zato se odločimo, da bomo oblikovali vzorec velikosti 200 dijakov, ki bo dobro predstavljal celo populacijo. Ali bi bil v ta namen ustrezen vzorec, ki bi zajemal prvih 200 dijakov, ki pridejo v torek zjutraj v šolo? 10 9 2. UREJANJE PODATKOV Kdo zbira podatke? šole bolnišnice podjetja .. . Spoznali bomo: SURS (uradna (državna) statistika) ranžirno vrsto EUROSTAT (evropska statistika) grupiranje podatkov EPICENTER, NINAMEDIA (javnomnenjske raziskave) .. . Programski paketi za obdelavo podatkov: Excel, SPSS, SAS, Minitab, Mathlab, S-Plus, . . . 11 12 RANŽIRNA VRSTA Ranžirno vrsto predstavljajo po velikosti urejeni številski podatki. Uporabljamo jo za urejanje majhnega števila številskih podatkov. Vsakemu podatku določimo zaporedno mesto v ranžirni vrsti, ki ga imenujemo rang. Enaki podatki stojijo v ranžirni vrsti skupaj in imajo enak rang. Izračunamo ga kot povprečje rangov, ki bi jih podatki imeli, če bi bili različni med seboj. PRIMER 5 Pot do šole. 12 dijakov smo vprašali, koliko časa porabijo za pot do šole. Rezultati v minutah so 20, 38, 28, 35, 30, 40, 22, 32, 35, 32, 45, 35. Zapiši podatke v ranžirno vrsto in jim določi rang. Rešitev: Čas (min) Rang 20 22 28 30 32 32 35 35 35 38 40 45 14 13 GRUPIRANJE PODATKOV Grupiranje: združevanje podatkov v skupine (razrede): PRIMER 6 Poraba mleka. 50 slovenskih družin v neki vasi smo vprašali, koliko mleka so porabili v prejšnjem tednu. Zbrani podatki v litrih so: 1,1 1,7 1 0,5 0,9 2,1 2,3 2,3 2,6 3,1 3,7 3,9 3,1 2,5 3,3 3,3 3,9 3,8 4,1 4 4,3 4,4 4,4 5,1 5,9 5,3 5,2 5,7 4,7 4,3 4,2 4,3 4,7 4,2 7,1 7,2 7,5 7,5 7,6 6,3 6,2 6,1 6,9 8,1 8,2 8,5 9,3 9,2 9,1 9,8 najprej določimo skupne lastnosti enot v posameznih razredih (od 5 do 20 razredov), vsaka enota mora biti v natanko enem razredu (ne sme se zgoditi, da bi ista enota ustrezala lastnostim dveh razredov ali pa da za kakšno enoto ne bi obstajal razred, v katerega bi jo uvrstili), enote porazdelimo po razredih. Ali so podatki dovolj pregledni, da lahko povemo kaj o porabi mleka? 15 16 I. Grupiranje številskih spremenljivk v r razredov: Najmanjša vrednost, ki še sodi v i-ti razred: xi,min Največja vrednost, ki še sodi v i-ti razred: xi,max (Absolutna) frekvenca razreda fi : število enot v i-tem razredu Frekvenčna tabela ali frekvenčna porazdelitev: predstavitev razredov in pripadajočih frekvenc: Razred 1. 2. .. . Vrednost spr. x1,min − x1,max x2,min − x2,max fi f1 f2 .. . r. Skupaj xr ,min − xr ,max / fr N PRIMER 7 Poraba mleka. 50 slovenskih družin v neki vasi smo vprašali, koliko mleka so porabili v prejšnjem tednu. Zbrani podatki v litrih so: 1,1 1,7 1 0,5 0,9 2,1 2,3 2,3 2,6 3,1 3,7 3,9 3,1 2,5 3,3 3,3 3,9 3,8 4,1 4 4,3 4,4 4,4 5,1 5,9 5,3 5,2 5,7 4,7 4,3 4,2 4,3 4,7 4,2 7,1 7,2 7,5 7,5 7,6 6,3 6,2 6,1 6,9 8,1 8,2 8,5 9,3 9,2 9,1 9,8 Zbrane podatke grupiraj v pet razredov in vsakemu razredu določi frekvenco. Frekvenčna porazdelitev številske spremenljivke 17 18 Kaj lahko izračunamo za grupirane podatke? Rešitev: Razred 1. 2. 3. 4. 5. Skupaj Poraba mleka v l 0−pod 2 2−pod 4 4−pod 6 6−pod 8 8−pod 10 / fi Relativna frekvenca fi ◦ : delež enot v i-tem razredu glede na število vseh enot N, ki smo jih opazovali: fi ◦ = fi N Strukturni odstotek fi %: relativna frekvenca fi ◦ pomnožena s 100 %: fi % = fi ◦ · 100 % 19 20 Kumulativna frekvenca Fi : število enot, ki imajo manjše vrednosti od spodnje meje i-tega razreda: Spodnja meja xi,s in zgornja meja xi,z razreda: zgornja meja razreda i-tega razreda enaka spodnji meji (i + 1)-vega razreda: F1 = 0 in Fi = Fi−1 + fi−1 (za i > 1) Relativna kumulativna frekvenca Fi◦ : delež vseh opazovanih enot, ki imajo manjše vrednosti od spodnje meje i-tega razreda: Fi◦ = Fi N xi,z = xi+1,s Zvezna spremenljivka: xi,s = xi,min in xi,z = xi,max Celoštevilska spremenljivka(dve zaporedni celi števili se razlikujeta za 1 - enotski razmik): xi,s = xi,min − 0, 5 xi,z = xi,max + 0.5 21 Širina razreda di : razlika med zgornjo in spodnjo mejo razreda di = xi,z − xi,s Sredina razreda xi : aritmetična sredina spodnje in zgornje meje razreda: xi,s + xi,z xi = 2 Z grupiranjem enot v frekvenčne razrede dodelimo vsem enotam v i-tem razredu isto vrednost xi , s čimer izgubimo nekaj natančnosti pri obdelavi podatkov. 22 PRIMER 8 Poraba mleka - nadaljevanje. Za grupirane podatke iz primera o porabi mleka izračunaj fi ◦ , fi %, Fi , Fi◦ , xi,s , xi,z , di , xi . Rešitev: Raz. 1. 2. 3. 4. 5. Skupaj Poraba mleka (l) 0−pod 2 2−pod 4 4−pod 6 6−pod 8 8−pod 10 / fi 5 13 16 9 7 50 fi ◦ fi % Fi Fi◦ xi,s xi,z Excel: grupiranje: FREQUENCY, nato CTRL-SHIFT-ENTER 23 24 di xi PRIMER 9 Starost oseb. V okulistični ambulanti so včeraj pregledali 45 oseb. Njihove starosti v letih so: 33 32 34 37 18 12 36 38 22 24 27 27 28 29 21 24 25 27 23 15 3 4 16 13 15 41 17 19 8 44 45 6 2 7 38 26 25 47 42 25 48 31 35 35 33 Podatke grupiraj v razrede, kot so oblikovani v tabeli, nato pa za vsak razred izračunaj fi ◦ , fi %, Fi , Fi◦ , xi,s , xi,z , di , xi . 25 Rešitev: Raz. 1. 2. 3. 4. 5. Skupaj Starost 1−10 11−20 21−30 31−40 41−50 / fi fi ◦ fi % Fi Fi◦ xi,s xi,z di 26 II. Grupiranje opisnih podatkov Za vsak razred lahko določimo le relativno frekvenco in strukturni odstotek vsakega razreda. Razred 1. 2. .. . Lastnost spr. lastnost 1 lastnost 2 fi f1 f2 .. . r. Skupaj lastnost r / fr N fi ◦ f1◦ f2◦ .. . fr◦ 1 fi % f1 % f2 % .. . fr % 100 Frekvenčna porazdelitev opisne spremenljivke PRIMER 10 Potniki na vlaku. Na vlaku so želeli ugotoviti strukturo potnikov. Razdelili so jih na dijake, študente, delavce, brezposelne in upokojence. Zbrani podatki so: dijak dijak dijak delavec brezposelen brezposelen brezposelen upokojenec upokojenec dijak dijak dijak dijak dijak dijak dijak študent študent študent študent delavec delavec delavec delavec dijak dijak dijak dijak dijak dijak študent študent študent študent študent študent dijak dijak dijak dijak dijak študent študent študent delavec delavec dijak dijak dijak dijak delavec delavec delavec delavec delavec delavec brezposelen brezposelen brezposelen študent študent študent delavec delavec delavec upokojenec upokojenec brezposelen brezposelen študent študent študent upokojenec upokojenec delavec upokojenec upokojenec študent študent študent študent dijak dijak dijak dijak dijak upokojenec upokojenec upokojenec upokojenec Oblikuj frekvenčno porazdelitev podatkov, nato pa za vsak razred izračunaj fi ◦ in fi %. 27 xi 28 3. GRAFIČNO PRIKAZOVANJE PODATKOV Razred 1. 2. 3. 4. 5. Skupaj Potniki dijak študent delavec brezposelen upokojenec / fi fi ◦ fi % Excel: COUNTIF (pogoj je posamezna kategorija) Št. družin Rešitev: Histogram je prikaz grupiranih številskih podatkov v pravokotnem koordinatnem sistemu s stolpci, kjer vsak stolpec ustreza enemu razredu. Če so razredi enako široki, so višine stolpcev premosorazmerne s frekvencami razredov, sicer so s frekvencami premosorazmerne ploščine pravokotnikov. 18 16 14 12 10 8 6 4 2 0 16 13 9 7 5 0-2 2-4 4-6 6-8 8 - 10 Poraba mleka v l Excel: Stolpični diagram (zmanjšamo presledke med stolpci, primeren za prikaz zveznih številskih podatkov) 30 29 18 16 14 12 10 8 6 4 2 0 Strukturni stolpec uporabljamo za prikaz strukturnih odstotkov. Narišemo stolpec poljubne širine in poljubne višine. Višino stolpca proglasimo za 100 %, nato pa jo razdelimo v razmerju strukturnih odstotkov. Posamezne dele stolpca ponavadi šrafiramo ali pobarvamo z različnimi barvami, zato za pojasnitev dodamo legendo. 16 100% 13 80% 9 7 Odstotek Št. družin Frekvenčni poligon je linijski poligon v pravokotnem koordinatnem sistemu, ki povezuje točke, katerih abscise so enake sredinam frekvenčnih razredov, ordinate pa frekvencam: (xi , fi ). Da grafikon povežemo z abscisno osjo, dodamo še točki (x0 , 0) in (xr +1 , 0). 5 0 -1 60% 40% upokojenci brezposelni delavci študenti dijaki 0 1 3 5 7 9 11 20% Poraba mleka v l 0% Excel: Črtni diagram (primeren za prikaz vrstnih in številskih podatkov) 31 Excel: Stolpični diagram (primeren za prikaz vrstnih in opisnih podatkov) 32 Tudi strukturni krog uporabljamo za prikaz strukturnih odstotkov. Delež enot v posameznem razredu je prikazan s krožnim izsekom. Velikost središčnega kota za vsak razred izračunamo kot odstotek polnega kota: fi % · 360◦ . Tudi strukturni krog opremimo z legendo. Prikaz s stolpci je podoben histogramu, uporabljamo pa ga lahko za prikaz grupiranih opisnih ali številskih podatkov. Širina stolpca je poljubna, višina stolpca pa je premosorazmerna s frekvenco razreda. 35 13,3% 30 dijaki študenti delavci brezposelni upokojenci Število oseb 25 33,3% 8,9% 20 15 10 18,9% 5 0 dijaki 25,6% Excel: Tortni diagram (primeren za prikaz vrstnih in opisnih podatkov) 33 PRIMER 11 Spodnji grafikon prikazuje zaslužke dijaka preko študentskega servisa v enem letu. Primerjaj zaslužke dijaka po mesecih. 35 študenti delavci brezposelni upokojenci Excel: Stolpični diagram (primeren za prikaz vrstnih in opisnih podatkov) 34 PRIMER 12 Spodnji grafikon prikazuje iste zaslužke dijaka preko študentskega servisa v enem letu kot prejšnji grafikon. V čem je razlika? Kaj lahko zdaj povemo o višinah zaslužkov dijaka po mesecih? 36 4. SREDNJE VREDNOSTI MEDIANA Srednja vrednost je mera za osredinjenost podatkov. Pove, kje se nahajajo podatki. Obravanali bomo tri srednje vrednosti: mediana Definicija 6: Mediana (ali središčnica) je srednja vrednost, od katere ima polovica enot manjše ali enake vrednosti, polovica pa večje ali enake. Označili jo bomo z Me. Mediano za majhno število podatkov najhitreje določimo tako, da podatke najprej uredimo po velikosti v ranžirno vrsto, nato izračunamo mesto, na katerem se nahaja mediana: N+1 2 . Če ta vrednost ni celo število, je mediana povprečje sosednjih dveh vrednosti. modus aritmetična sredina (povprečje) 37 38 MODUS PRIMER 13 Določi mediano zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Rezultat komentiraj. PRIMER 14 Določi mediano zamud avtobusa v šestih dneh: 2, 2, 6, 7, 10, 15 min. Rezultat komentiraj. Mediana je določena z mestom v ranžirni vrsti, zato ekstremno veliki (ali majhni) podatki ne vplivajo na njeno vrednost. Definicija 7: Modus (ali gostiščnica) je srednja vrednost, ki je enaka tisti vrednosti spremenljivke, ki se najpogosteje pojavlja. Označili ga bomo z Mo. PRIMER 15 Določi modus zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Rezultat komentiraj. Med podatki je lahko tudi več modusov (tiste vrednosti, ki se enakomnogokrat pojavljajo največkrat). Excel: MEDIAN Excel: MODE 39 40 ARITMETIČNA SREDINA Definicija 8: Aritmetična sredina (povprečje) je srednja vrednost, ki jo dobimo tako, da vsoto vseh vrednosti spremenljivke delimo s številom enot v populaciji N. Označili jo bomo z µ ali x : x1 + x2 + · · · + xN Σ N xi µ= ali µ = i=1 N N Excel: AVERAGE PRIMER 16 Izračunaj aritmetično sredino zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. 1 Rezultat komentiraj. 2 Kako bi se spremenila aritmetična sredina, če bi vsakemu podatku prišteli 5 min? 3 Kako bi se spremenila aritmetična sredina, če bi podatek pomnožili s 5? 4 Kolišna bi bila vsota podatkov, če bi vsakega nadomestili z aritmetično sredino? 5 Od vsakega podatka odštej aritmetično sredino. Kolikšna je vsota teh vrednosti? 42 41 Lastnosti aritmetične sredine: Če vsakemu podatku prištejemo isto vrednost a, a > 0, se tudi aritmetična sredina poveča za a. Če vsakemu podatku odštejemo a, se aritmetična sredina zmanjša za a. Če vsak podatek pomnožimo z a, se tudi aritmetična sredina pomnoži z a. Če vsak podatek nadmestimo z aritmetično sredino, ostane vsota podatkov nespremenjena. Če od vsakega podatka odštejemo aritmetično sredino (izračunamo odklon od aritmetične sredine), je vsota vseh odklonov enaka 0. PRIMER 17 Ali je smiselno izračunati aritmetično sredino spremenljivke spol ali pa spremenljivke kraj bivanja? Odgovor obrazloži. 43 PRIMER 18 V skupini je 5 dijakov. Njihova povprečna starost je 15 let. Kaj lahko sklepamo? 1 Da je največ dijakov starih 15 let. 2 Da so vsi dijaki stari približno 15 let. 3 Da so vsi dijaki stari 15 let. 4 Da je polovica dijakov starih manj kot 15 let, polovica pa več kot 15 let. 5 Da je vsota starosti vseh otrok v skupini 75 let. PRIMER 19 Povprečna ocena pisne naloge iz matematike petih dijakov je 3,2. Kaj lahko poveš o ocenah pisne naloge posameznih dijakov? 44 5. RAZPRŠENOST PODATKOV VARIACIJSKI RAZMIK Razpršenost (ali variabilnost) je lastnost podatkov, da lahko zavzamejo različne vrednosti. Podatki so lahko bolj ali manj razpršeni, kar je videti na sliki: Definicija 9: Variacijski razmik je razlika med največjo in najmanjšo vrednostjo v populaciji. Označimo ga z VR. VR = xmax − xmin Obravnavali bomo naslednje mere za razpršenost: variacijski razmik standardni odklon (standardna deviacija) medčetrtinski razmik PRIMER 20 Izračunaj variacijski razmik zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Rezultat komentiraj. Excel: VR = MAX - MIN (izračunamo, ker ni posebnega ukaza) 45 STANDARDNI ODKLON Definicija 10: Standardni odklon (ali standardna deviacija) je enaka korenu povprečja kvadratov odklonov vrednosti od aritmetične sredine. Označimo ga s σ: σ= 2 ΣN i=1 (xi − µ) N 46 PRIMER 21 Izračunaj standardni odklon zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. 1 Rezultat komentiraj. 2 Kaj bi se zgodilo s standardnim odklonom, če bi vsem vrednostim prišteli 5 min? 3 Kako bi se spremenil standardni odklon, če bi vsak podatek pomnožili s 5? Za uporabo je bolj preprosta formula: σ= Če vsakemu podatku prištejemo a, se standardni odklon ne spremeni. 2 ΣN i=1 xi − µ2 N Dokaz. Če vsak podatek pomnožimo z a, a > 0, se tudi standardni odlklon pomnoži z a. Excel: standardni odklon: STDEVP 47 48 Uporaba žepnega računala Kaj pove standardni odklon? Spoznajmo najprej normalno porazdelitev podatkov: Vnos podatkov: vključimo statistiko (na ekranu se izpiše STAT ali S ali SD) vsak podatek posebej vnesemo tako, da ga vtipkamo, nato pa pritisnemo tipko DATA (ali D ali x ) Branje rezultatov: število podatkov: tipka n aritmetična sredina: tipka x standardni odklon: tipka σn PRIMER 22 S pomočjo žepnega računala izračunaj aritmetično sredino in standardni odklon zamud avtobusa v petih vožnjah: 2,2,6,7,10 min. Rezultata primerjaj s prejšnjima rezultatoma. 49 Primeri normalno porazdeljenih podatkov: IQ ljudi 50 ARITMETIČNA SREDINA IN STANDARDNI ODKLON GRUPIRANIH PODATKOV teža odraslih ljudi čas, ki ga potrebuje avtobus od Novega mesta do Ljubljane dolžina žebljev pri serijski proizvodnji Splošno: Če je porazdelitev podatkov približno normalna (simetričen histogram), se približno 23 podatkov nahaja na intervalu [µ − σ, µ + σ]. 51 PRIMER 23 Dijaki v T1A, T1B in T1C so pisali pisno nalogo iz matematike. Povprečna ocena dijakov iz T1A je 3,4, povprečna ocena v T1B je 3,2, v T1C pa 2,9. Kolikšna je povprečna ocena dijakov vseh treh razredov? 52 Aritmetična sredina (povprečje) grupiranih podatkov (tudi tehtana aritmetična sredina): Pri izračunu si pomagamo z razširjeno frekvenčno porazdelitvijo: Σr fi xi f1 x1 + f2 x2 + · · · + fr xr ali µ = i=1 µ= N N Standardni odklon grupiranih podatkov: σ= Σri=1 fi xi2 − µ2 N razred 1. 2. .. . vrednost x1,min − x1,max x2,min − x2,max fi f1 f2 .. . xi x1 x2 .. . fi xi f1 x1 f2 x2 .. . r. Skupaj xr ,min − xr ,max / fr N xr / fr xr Σri=1 fi xi 53 54 Aritmetična sredina: PRIMER 24 Poraba mleka - nadaljevanje primera. Izračunaj aritmetično sredino in standardni odklon porabe mleka 50 slovenskih družin prejšnji teden v neki vasi. Rezultat obrazloži. Standardni odklon: Obrazložitev rezultata: Rešitev: Frekvenčno tabelo dopolnimo s stolpcema fi xi in fi xi2 : razred 1. 2. 3. 4. 5. Skupaj poraba mleka v l 0−pod 2 2−pod 4 4−pod 6 6−pod 8 8−pod 10 / fi 5 13 16 9 7 50 55 xi 1 3 5 7 9 / fi xi fi xi2 56 fi xi2 f1 x12 f2 x22 .. . fr xr2 r Σi=1 fi xi2 Aritmetična sredina: PRIMER 25 Starost oseb - nadaljevanje primera Izračunaj aritmetično sredino in standardni odklon starosti oseb, ki so bile včeraj pregledane v okulistični ambulanti. Rezultat obrazloži. Standardni odklon: Rešitev: razred 1. 2. 3. 4. 5. Skupaj starost 1−10 11−20 21−30 31−40 41−50 / fi 6 8 14 11 6 45 xi 5,5 15,5 25,5 35,5 45,5 / fi xi fi xi2 57 6. KVARTILI IN ŠKATLA Z BRKI Definicija 11: Trije kvartili razdelijo številske podatke v ranžirni vrsti v štiri skupine: 58 S pomočjo kvartilov lahko nazorno pokažemo razpršenost podatkov tako, da narišemo škatlo z brki, za katero potrebujemo poleg kvartilov še najmanjšo in največjo vrednost med podatki. prvi kvartil Q1 je tista vrednost, od katere je 25 % podatov manjših (ali enakih) in 75 % podatkov večjih (ali enakih) - nahaja se na N+1 4 -tem mestu drugi kvartil Q2 je tista vrednost, od katere je 50 % podatov manjših (ali enakih) in 50 % podatkov večjih (ali enakih) (tudi mediana) nahaja se na 2(N+1) -tem mestu 4 tretji kvartil Q3 je tista vrednost, od katere je 75 % podatov manjših (ali enakih) in 25 % podatkov večjih (ali enakih) - nahaja se na 3(N+1) - tem mestu 4 2(N+1) in 3(N+1) niso celoštevilske, vzamemo za kvartil Če vrednosti N+1 4 , 4 4 povprečje sosednjih vrednosti. 59 Škatlo z brki imenujemo tudi okvir z ročaji ali grafikon kvartilov (ang. box-and-whiskers plot ali box-plot). Definicija 12: Medčertinski razmik Q je razlika med tretjim in prvim kvartilom. (Med Q1 in Q3 se nahaja 50 % podatkov.) 60 Rešitev: PRIMER 26 V T1A so dijaki zbrali podatke o številu ur, ki so jih prejšnji teden preživeli za računalnikom. Zbrani podatki so: 2, 2, 3, 4, 5, 6, 6, 7, 7, 8, 9, 10, 11, 11, 12, 12, 15, 15, 16, 17, 18, 21, 21, 21, 22, 24, 25, 28, 30, 30, 34 1 Izračunaj vse tri kvartile in jih obrazloži. 2 Izračunaj medčetrtinski razmik. 3 Nariši škatlo z brki. 62 61 Rešitev: PRIMER 27 Na zdravniškem pregledu so stehtali 17 dijakov manjšega razreda. Njihove teže v kg so: 50, 52, 53, 55, 56, 56, 60, 61, 64, 64, 65, 67, 71, 72, 73, 73, 80 1 Izračunaj vse tri kvartile in jih obrazloži. 2 Izračunaj medčetrtinski razmik. 3 Nariši škatlo z brki. 63 64 PRIMER 28 Primerjaj osebne dohodke moških in žensk v nekem podjetju na spodnjem grafikonu. Kaj lahko sklepaš iz slike? PRIMER 29 Primerjaj osebne dohodke moških in žensk v nekem podjetju na spodnjem grafikonu. Kaj lahko sklepaš iz slike? 65 66 7. POVEZANOST OPISNIH SPREMENLJIVK IN KONTINGENČNA TABELA Definicija 13: Kontingenčna ali dvorazsežna tabela prikazuje podatke po vrednostih dveh opisnih spremenljivk hkrati. PRIMER 30 Z anketo smo želeli raziskati zadovoljstvo srednješolcev s šolsko malico, zato smo anketirali 225 dijakov. Rezultati so zbrani v tabeli: Zadovoljstvo/Letnik Zadovoljen Nezadovoljen 1. letnik 35 15 2. letnik 45 15 3. letnik 35 10 Struktura anketiranih dijakov po zadovoljstvu s šolsko malico za vsak letnik: Zadov. Nezadov. Skupaj 1. l. 35 15 50 % 2. l. 45 15 60 % 3. l. 35 10 45 4. letnik 20 50 Kaj lahko povemo o zadovoljstvu anketiranih dijakov z malico? Ali se mnenja razlikujejo po letnikih? 67 68 % 4. l. 20 50 70 % Sk. 135 90 225 % 8. POVEZANOST ŠTEVILSKIH SPREMENLJIVK Grafični prikaz strukture PRIMER 31 Voznik beleži število kilometrov, ki jih prevozi s svojim avtomobilom, in porabo goriva pri vsaki vožnji. Ugotoviti želi, kako je poraba goriva povezana s številom prevoženih kilometrov. Kateri statistični spremenljivki nastopata v primeru? Ali bo pri različnih vožnjah, ko bo prevozil enako število kilometrov, vedno porabil enako količino goriva? Koliko goriva bo porabil za vožnje, pri katerih bo prevozil manj km, v primerjavi z vožnjami, pri katerih bo prevozil več km? Razmisli, kaj vpliva na porabo goriva. 69 70 Razsevni diagram: Spremenljivka X : število prevoženih kilometrov Spremenljivka Y : količina porabljenega goriva Povezanost med številskima spremenljivkama X in Y imenujemo korelacija. Povezanost spremenljivk lahko prikažemo v pravokotnem koordinatnem sistemu, če eno od spremenljivk proglasimo za neodvisno in drugo za odvisno. Tako dobljeni diagram imenujemo razsevni diagram. Razsevni diagram Excel: Raztreseni (XY) 71 72 Linearna povezanost Spremenljivki X in Y sta povezani linearno, če točke v razsevnem diagramu ležijo na isti premici ali pa se od nje bolj ali manj odklanjajo (ovalna oblika množice točk v razsevnem diagramu). Premico, ki se najbolj prilega točkam, imenujemo regresijska premica. Ločimo pozitivno in negativno linearno povezanost. Pozitivna linearna povezanost: večje vrednosti spremenljivke X so povezane z v povprečju večjimi vrednostmi spremenljivke Y . (regresijska premica je naraščajoča) 73 74 Negativna linearna povezanost: večje vrednosti spremenljivke X so povezane z v povprečju manjšimi vrednostmi spremenljivke Y . (regresijska premica je padajoča) Ni povezanosti 75 76 Rešitev: PRIMER 32 Voznik je za 12 voženj zabeležil število prevoženih kilometrov in porabo goriva v litrih. Rezultati so prikazani v tabeli: Pot (km) Gorivo (l) 20 2,5 35 3,8 60 6 35 4 65 5,5 50 4 40 3,5 25 2,5 25 3 45 4 10 1,8 15 2 a) Nariši razsevni diagram (v zvezek in z Excel ali z Graph). Ali je med spremenljivkama opaziti linearno povezanost? b) Določi enačbo regresijske premice (z Excel ali Graph). Premico vriši v razsevni diagram. c) Koliko goriva bo v povprečju porabil voznik za 42 km? 77 78 PRIMER 33 Poraba električne energije. Dijak je doma 7 tednov beležil tedensko porabo električne energije. Podatki v kWh so zbrani v tabeli: Zap. št. (k) 1 2 3 4 5 6 7 teden 1. teden 2. teden 3. teden 4. teden 5. teden 6. teden 7. teden kWh 109 98 102 103 95 90 92 a) Nariši linijski diagram (v zvezek in z Excel ali Graph). Katera krivulja bi se prilegala porabi električne energije? b) Določi enačbo te krivulje (z Excel ali Graph). Vriši jo v diagram. c) Kolikšno porabo električne energije lahko pričakujemo 8. teden? 79 80 Nelinearna povezanost Rešitev: a) PRIMER 34 Ali spodnji grafikon prikazuje linearno povezanost spremenljivk? Excel: Črtni grafikon b) Enačba linearnega trenda je y = −2, 6429x + 109. c) Napoved za 8. teden: y = −2, 6429 · 8 + 109 = 87, 9 kWh. 81 82 PRIMER 36 Ali spodnji grafikon prikazuje linearno povezanost spremenljivk? 80 700 70 600 60 Vrednost delnice (EUR) Višina kaktusa (mm) PRIMER 35 Ali spodnji grafikon prikazuje linearno povezanost spremenljivk? 50 40 30 20 500 400 300 200 100 10 0 0 0 1 2 3 4 5 Leto 83 6 7 8 9 10 0 2 4 6 8 Mesec 84 10 12 14