STATISTIKA 1. OSNOVNI POJMI

Transcription

STATISTIKA 1. OSNOVNI POJMI
1. OSNOVNI POJMI
STATISTIKA
Simona PUSTAVRH,
ŠC Novo mesto
Definicija 1:
Statistika je veda, ki se ukvarja s proučevanjem množičnih pojavov v
določenem prostoru in času.
Množičen pojav:
ocenjevanje dijakov
merjenje višin dijakov
branje knjig dijakov
smučanje v Sloveniji
merjenje krvnega tlaka
promet skozi določeno križišče
mesečne plače zaposlenih
serijska proizvodnja določenega izdelka
1
Osnovne naloge statistike:
zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje)
čiščenje, kodiranje in razvrščanje podatkov,
urejanje in grafično prikazovanje podatkov,
povzemanje in sprejemanje zaključkev (odkrivanje lastnosti in
zakonitosti populacije in napovedovanje vrednosti).
2
Definicija 2:
Populacija je množica, ki jo želimo statistično proučiti. Statistična
enota je en element populacije.
Populacijo lahko sestavljajo živa bitja, predmeti, dogodki.
Opredelitev populacije:
stvarno (kdo ali kaj spada v populacijo in kdo ne)
geografsko (kje je populacija opazovana)
časovno (kdaj je zajeta)
3
4
Definicija 3:
Vzorec je podmnožica (del) populacije. Vzorec je slučajen, če imajo vse
enote populacije enako možnost (enako verjetnost) biti izbrane v vzorec.
Slučajni vzorec predstavlja (reprezentira) celotno populacijo.
Enostavno slučajno vzorčenje: žrebanje (loterijski način)
vzorci s ponavljanjem (enota, ki je bila že izbrana v vzorec, je
ponovno izbrana),
vzorci brez ponavljanja (enota, ki je bila že izbrana v vzorec, ne more
biti ponovno izbrana).
Definicija 4:
Preučevano lastnost (značilnost) enote imenujemo statistična
spremenljivka. Vrednost statistične spremenljivke je lastnost ene
opazovane enote in jo imenujemo podatek.
PRIMER 1
Statistične spremenljivke: višina dijaka, ocena dijaka.
Definicija 5:
Parameter je statistična karakteristika populacije.
PRIMER 2
Parametri: povprečna višina dijakov, povprečna ocena dijakov.
Število enot populacije označimo z N.
6
5
Glede na način izražanja podatke ločimo na:
opisne (ali kvalitativne): vrednosti le opišemo z besedami in jih ne
moremo ovrednotiti numerično (npr. spol, kraj bivanja, barva
avtomobila),
vrstne (ali ordinalne): vrednosti lahko uredimo le po velikosti,
njihova razmerja pa nimajo pomena (npr. šolska ocena, doseženo
mesto na tekmi, zadovoljstvo z malico),
številske (ali kvantitativne): vrednosti izrazimo numerično oz.
številsko. Ločimo diskretne in zvezne številske podatke.
Nezvezne (ali diskretne): zaloga vrednosti končna ali neskončna
množica realnih števil (npr. število prometnih nesreč, št. prebranih
knjig, št. dijakov v razredu).
Zvezne: zavzamejo lahko vsako vrednost iz nekega intervala (npr.
višina ali teža dijaka, višina žepnine, cena knjig).
7
PRIMER 3
V tabeli so zbrani nekateri podatki slučajnega vzorca dijakov Šolskega
centra Novo mesto v šolskem letu 2009/2010:
Zap.št.
1.
2.
3.
4.
5.
6.
7.
8.
Spol
moški
ženski
ženski
moški
moški
moški
ženski
moški
Letnik
1
3
1
2
3
4
4
2
Št. bratov/sester
1
2
0
2
3
1
0
1
8
Višina (cm)
174,3
169,7
164,2
182,9
186,2
180,1
172,8
177,7
Odgovorite na naslednja vprašanja:
1
Kaj je v tem primeru populacija? S katerimi pogoji je opredeljena
(stvarno, časovno, krajevno)?
2
Kaj je statistična enota? Kako velik je vzorec?
3
Katere statistične spremenljivke so predstavljene v tabeli?
4
Kakšna je posamezna spremenljivka glede na način izražanja?
5
Katere parametre populacije bi lahko določili?
PRIMER 4
Izvedeti želimo, kakšno je mnenje dijakov na ŠC Novo mesto o malici v
šol. letu 2008/2009. Ker je število dijakov okoli 3000, ne moremo vprašati
vsakega, zato se odločimo, da bomo oblikovali vzorec velikosti 200 dijakov,
ki bo dobro predstavljal celo populacijo. Ali bi bil v ta namen ustrezen
vzorec, ki bi zajemal prvih 200 dijakov, ki pridejo v torek zjutraj v šolo?
10
9
2. UREJANJE PODATKOV
Kdo zbira podatke?
šole
bolnišnice
podjetja
..
.
Spoznali bomo:
SURS (uradna (državna) statistika)
ranžirno vrsto
EUROSTAT (evropska statistika)
grupiranje podatkov
EPICENTER, NINAMEDIA (javnomnenjske raziskave)
..
.
Programski paketi za obdelavo podatkov:
Excel, SPSS, SAS, Minitab, Mathlab, S-Plus, . . .
11
12
RANŽIRNA VRSTA
Ranžirno vrsto predstavljajo po velikosti urejeni številski podatki.
Uporabljamo jo za urejanje majhnega števila številskih podatkov.
Vsakemu podatku določimo zaporedno mesto v ranžirni vrsti, ki ga
imenujemo rang.
Enaki podatki stojijo v ranžirni vrsti skupaj in imajo enak rang.
Izračunamo ga kot povprečje rangov, ki bi jih podatki imeli, če bi bili
različni med seboj.
PRIMER 5
Pot do šole. 12 dijakov smo vprašali, koliko časa porabijo za pot do šole.
Rezultati v minutah so
20, 38, 28, 35, 30, 40, 22, 32, 35, 32, 45, 35.
Zapiši podatke v ranžirno vrsto in jim določi rang.
Rešitev:
Čas (min)
Rang
20
22
28
30
32
32
35
35
35
38
40
45
14
13
GRUPIRANJE PODATKOV
Grupiranje: združevanje podatkov v skupine (razrede):
PRIMER 6
Poraba mleka. 50 slovenskih družin v neki vasi smo vprašali, koliko mleka
so porabili v prejšnjem tednu. Zbrani podatki v litrih so:
1,1 1,7 1 0,5 0,9 2,1 2,3 2,3 2,6 3,1 3,7 3,9 3,1 2,5 3,3 3,3 3,9 3,8 4,1 4
4,3 4,4 4,4 5,1 5,9 5,3 5,2 5,7 4,7 4,3 4,2 4,3 4,7 4,2 7,1 7,2 7,5 7,5 7,6
6,3 6,2 6,1 6,9 8,1 8,2 8,5 9,3 9,2 9,1 9,8
najprej določimo skupne lastnosti enot v posameznih razredih (od 5
do 20 razredov),
vsaka enota mora biti v natanko enem razredu (ne sme se zgoditi, da
bi ista enota ustrezala lastnostim dveh razredov ali pa da za kakšno
enoto ne bi obstajal razred, v katerega bi jo uvrstili),
enote porazdelimo po razredih.
Ali so podatki dovolj pregledni, da lahko povemo kaj o porabi mleka?
15
16
I. Grupiranje številskih spremenljivk v r razredov:
Najmanjša vrednost, ki še sodi v i-ti razred: xi,min
Največja vrednost, ki še sodi v i-ti razred: xi,max
(Absolutna) frekvenca razreda fi : število enot v i-tem razredu
Frekvenčna tabela ali frekvenčna porazdelitev: predstavitev razredov in
pripadajočih frekvenc:
Razred
1.
2.
..
.
Vrednost spr.
x1,min − x1,max
x2,min − x2,max
fi
f1
f2
..
.
r.
Skupaj
xr ,min − xr ,max
/
fr
N
PRIMER 7
Poraba mleka. 50 slovenskih družin v neki vasi smo vprašali, koliko mleka
so porabili v prejšnjem tednu. Zbrani podatki v litrih so:
1,1 1,7 1 0,5 0,9 2,1 2,3 2,3 2,6 3,1 3,7 3,9 3,1 2,5 3,3 3,3 3,9 3,8 4,1 4
4,3 4,4 4,4 5,1 5,9 5,3 5,2 5,7 4,7 4,3 4,2 4,3 4,7 4,2 7,1 7,2 7,5 7,5 7,6
6,3 6,2 6,1 6,9 8,1 8,2 8,5 9,3 9,2 9,1 9,8
Zbrane podatke grupiraj v pet razredov in vsakemu razredu določi
frekvenco.
Frekvenčna porazdelitev številske spremenljivke
17
18
Kaj lahko izračunamo za grupirane podatke?
Rešitev:
Razred
1.
2.
3.
4.
5.
Skupaj
Poraba mleka v l
0−pod 2
2−pod 4
4−pod 6
6−pod 8
8−pod 10
/
fi
Relativna frekvenca fi ◦ : delež enot v i-tem razredu glede na število vseh
enot N, ki smo jih opazovali:
fi ◦ =
fi
N
Strukturni odstotek fi %: relativna frekvenca fi ◦ pomnožena s 100 %:
fi % = fi ◦ · 100 %
19
20
Kumulativna frekvenca Fi : število enot, ki imajo manjše vrednosti od
spodnje meje i-tega razreda:
Spodnja meja xi,s in zgornja meja xi,z razreda: zgornja meja razreda
i-tega razreda enaka spodnji meji (i + 1)-vega razreda:
F1 = 0 in Fi = Fi−1 + fi−1 (za i > 1)
Relativna kumulativna frekvenca Fi◦ : delež vseh opazovanih enot, ki
imajo manjše vrednosti od spodnje meje i-tega razreda:
Fi◦ =
Fi
N
xi,z = xi+1,s
Zvezna spremenljivka: xi,s = xi,min in xi,z = xi,max
Celoštevilska spremenljivka(dve zaporedni celi števili se razlikujeta za
1 - enotski razmik):
xi,s = xi,min − 0, 5
xi,z = xi,max + 0.5
21
Širina razreda di : razlika med zgornjo in spodnjo mejo razreda
di = xi,z − xi,s
Sredina razreda xi : aritmetična sredina spodnje in zgornje meje razreda:
xi,s + xi,z
xi =
2
Z grupiranjem enot v frekvenčne razrede dodelimo vsem enotam v i-tem
razredu isto vrednost xi , s čimer izgubimo nekaj natančnosti pri obdelavi
podatkov.
22
PRIMER 8
Poraba mleka - nadaljevanje. Za grupirane podatke iz primera o porabi
mleka izračunaj fi ◦ , fi %, Fi , Fi◦ , xi,s , xi,z , di , xi .
Rešitev:
Raz.
1.
2.
3.
4.
5.
Skupaj
Poraba mleka (l)
0−pod 2
2−pod 4
4−pod 6
6−pod 8
8−pod 10
/
fi
5
13
16
9
7
50
fi ◦
fi %
Fi
Fi◦
xi,s
xi,z
Excel: grupiranje: FREQUENCY, nato CTRL-SHIFT-ENTER
23
24
di
xi
PRIMER 9
Starost oseb. V okulistični ambulanti so včeraj pregledali 45 oseb.
Njihove starosti v letih so:
33 32 34 37 18 12 36 38 22 24 27 27 28 29 21 24 25 27 23 15 3 4 16 13
15 41 17 19 8 44 45 6 2 7 38 26 25 47 42 25 48 31 35 35 33
Podatke grupiraj v razrede, kot so oblikovani v tabeli, nato pa za vsak
razred izračunaj fi ◦ , fi %, Fi , Fi◦ , xi,s , xi,z , di , xi .
25
Rešitev:
Raz.
1.
2.
3.
4.
5.
Skupaj
Starost
1−10
11−20
21−30
31−40
41−50
/
fi
fi ◦
fi %
Fi
Fi◦
xi,s
xi,z
di
26
II. Grupiranje opisnih podatkov
Za vsak razred lahko določimo le relativno frekvenco in strukturni odstotek
vsakega razreda.
Razred
1.
2.
..
.
Lastnost spr.
lastnost 1
lastnost 2
fi
f1
f2
..
.
r.
Skupaj
lastnost r
/
fr
N
fi ◦
f1◦
f2◦
..
.
fr◦
1
fi %
f1 %
f2 %
..
.
fr %
100
Frekvenčna porazdelitev opisne spremenljivke
PRIMER 10
Potniki na vlaku. Na vlaku so želeli ugotoviti strukturo potnikov.
Razdelili so jih na dijake, študente, delavce, brezposelne in upokojence.
Zbrani podatki so:
dijak dijak dijak delavec brezposelen brezposelen brezposelen upokojenec
upokojenec dijak dijak dijak dijak dijak dijak dijak študent študent študent
študent delavec delavec delavec delavec dijak dijak dijak dijak dijak dijak
študent študent študent študent študent študent dijak dijak dijak dijak
dijak študent študent študent delavec delavec dijak dijak dijak dijak
delavec delavec delavec delavec delavec delavec brezposelen brezposelen
brezposelen študent študent študent delavec delavec delavec upokojenec
upokojenec brezposelen brezposelen študent študent študent upokojenec
upokojenec delavec upokojenec upokojenec študent študent študent
študent dijak dijak dijak dijak dijak upokojenec upokojenec upokojenec
upokojenec
Oblikuj frekvenčno porazdelitev podatkov, nato pa za vsak razred
izračunaj fi ◦ in fi %.
27
xi
28
3. GRAFIČNO PRIKAZOVANJE PODATKOV
Razred
1.
2.
3.
4.
5.
Skupaj
Potniki
dijak
študent
delavec
brezposelen
upokojenec
/
fi
fi ◦
fi %
Excel: COUNTIF (pogoj je posamezna kategorija)
Št. družin
Rešitev:
Histogram je prikaz grupiranih številskih podatkov v pravokotnem
koordinatnem sistemu s stolpci, kjer vsak stolpec ustreza enemu razredu.
Če so razredi enako široki, so višine stolpcev premosorazmerne s
frekvencami razredov, sicer so s frekvencami premosorazmerne ploščine
pravokotnikov.
18
16
14
12
10
8
6
4
2
0
16
13
9
7
5
0-2
2-4
4-6
6-8
8 - 10
Poraba mleka v l
Excel: Stolpični diagram (zmanjšamo presledke med stolpci, primeren za
prikaz zveznih številskih podatkov)
30
29
18
16
14
12
10
8
6
4
2
0
Strukturni stolpec uporabljamo za prikaz strukturnih odstotkov.
Narišemo stolpec poljubne širine in poljubne višine. Višino stolpca
proglasimo za 100 %, nato pa jo razdelimo v razmerju strukturnih
odstotkov. Posamezne dele stolpca ponavadi šrafiramo ali pobarvamo z
različnimi barvami, zato za pojasnitev dodamo legendo.
16
100%
13
80%
9
7
Odstotek
Št. družin
Frekvenčni poligon je linijski poligon v pravokotnem koordinatnem
sistemu, ki povezuje točke, katerih abscise so enake sredinam frekvenčnih
razredov, ordinate pa frekvencam: (xi , fi ). Da grafikon povežemo z
abscisno osjo, dodamo še točki (x0 , 0) in (xr +1 , 0).
5
0
-1
60%
40%
upokojenci
brezposelni
delavci
študenti
dijaki
0
1
3
5
7
9
11
20%
Poraba mleka v l
0%
Excel: Črtni diagram (primeren za prikaz vrstnih in številskih podatkov)
31
Excel: Stolpični diagram (primeren za prikaz vrstnih in opisnih podatkov)
32
Tudi strukturni krog uporabljamo za prikaz strukturnih odstotkov. Delež
enot v posameznem razredu je prikazan s krožnim izsekom. Velikost
središčnega kota za vsak razred izračunamo kot odstotek polnega kota:
fi % · 360◦ . Tudi strukturni krog opremimo z legendo.
Prikaz s stolpci je podoben histogramu, uporabljamo pa ga lahko za
prikaz grupiranih opisnih ali številskih podatkov. Širina stolpca je
poljubna, višina stolpca pa je premosorazmerna s frekvenco razreda.
35
13,3%
30
dijaki
študenti
delavci
brezposelni
upokojenci
Število oseb
25
33,3%
8,9%
20
15
10
18,9%
5
0
dijaki
25,6%
Excel: Tortni diagram (primeren za prikaz vrstnih in opisnih podatkov)
33
PRIMER 11
Spodnji grafikon prikazuje zaslužke dijaka preko študentskega servisa v
enem letu. Primerjaj zaslužke dijaka po mesecih.
35
študenti
delavci
brezposelni
upokojenci
Excel: Stolpični diagram (primeren za prikaz vrstnih in opisnih podatkov)
34
PRIMER 12
Spodnji grafikon prikazuje iste zaslužke dijaka preko študentskega servisa v
enem letu kot prejšnji grafikon. V čem je razlika? Kaj lahko zdaj povemo
o višinah zaslužkov dijaka po mesecih?
36
4. SREDNJE VREDNOSTI
MEDIANA
Srednja vrednost je mera za osredinjenost podatkov. Pove, kje se
nahajajo podatki. Obravanali bomo tri srednje vrednosti:
mediana
Definicija 6:
Mediana (ali središčnica) je srednja vrednost, od katere ima polovica
enot manjše ali enake vrednosti, polovica pa večje ali enake. Označili jo
bomo z Me.
Mediano za majhno število podatkov najhitreje določimo tako, da podatke
najprej uredimo po velikosti v ranžirno vrsto, nato izračunamo mesto, na
katerem se nahaja mediana: N+1
2 . Če ta vrednost ni celo število, je
mediana povprečje sosednjih dveh vrednosti.
modus
aritmetična sredina (povprečje)
37
38
MODUS
PRIMER 13
Določi mediano zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Rezultat
komentiraj.
PRIMER 14
Določi mediano zamud avtobusa v šestih dneh: 2, 2, 6, 7, 10, 15 min.
Rezultat komentiraj.
Mediana je določena z mestom v ranžirni vrsti, zato ekstremno veliki (ali
majhni) podatki ne vplivajo na njeno vrednost.
Definicija 7:
Modus (ali gostiščnica) je srednja vrednost, ki je enaka tisti vrednosti
spremenljivke, ki se najpogosteje pojavlja. Označili ga bomo z Mo.
PRIMER 15
Določi modus zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Rezultat
komentiraj.
Med podatki je lahko tudi več modusov (tiste vrednosti, ki se
enakomnogokrat pojavljajo največkrat).
Excel: MEDIAN
Excel: MODE
39
40
ARITMETIČNA SREDINA
Definicija 8:
Aritmetična sredina (povprečje) je srednja vrednost, ki jo dobimo tako,
da vsoto vseh vrednosti spremenljivke delimo s številom enot v populaciji
N. Označili jo bomo z µ ali x :
x1 + x2 + · · · + xN
Σ N xi
µ=
ali µ = i=1
N
N
Excel: AVERAGE
PRIMER 16
Izračunaj aritmetično sredino zamud avtobusa v petih dneh: 2, 2, 6, 7, 10
min.
1
Rezultat komentiraj.
2
Kako bi se spremenila aritmetična sredina, če bi vsakemu podatku
prišteli 5 min?
3
Kako bi se spremenila aritmetična sredina, če bi podatek pomnožili s
5?
4
Kolišna bi bila vsota podatkov, če bi vsakega nadomestili z
aritmetično sredino?
5
Od vsakega podatka odštej aritmetično sredino. Kolikšna je vsota teh
vrednosti?
42
41
Lastnosti aritmetične sredine:
Če vsakemu podatku prištejemo isto vrednost a, a > 0, se tudi
aritmetična sredina poveča za a. Če vsakemu podatku odštejemo a,
se aritmetična sredina zmanjša za a.
Če vsak podatek pomnožimo z a, se tudi aritmetična sredina pomnoži
z a.
Če vsak podatek nadmestimo z aritmetično sredino, ostane vsota
podatkov nespremenjena.
Če od vsakega podatka odštejemo aritmetično sredino (izračunamo
odklon od aritmetične sredine), je vsota vseh odklonov enaka 0.
PRIMER 17
Ali je smiselno izračunati aritmetično sredino spremenljivke spol ali pa
spremenljivke kraj bivanja? Odgovor obrazloži.
43
PRIMER 18
V skupini je 5 dijakov. Njihova povprečna starost je 15 let. Kaj lahko
sklepamo?
1
Da je največ dijakov starih 15 let.
2
Da so vsi dijaki stari približno 15 let.
3
Da so vsi dijaki stari 15 let.
4
Da je polovica dijakov starih manj kot 15 let, polovica pa več kot 15
let.
5
Da je vsota starosti vseh otrok v skupini 75 let.
PRIMER 19
Povprečna ocena pisne naloge iz matematike petih dijakov je 3,2. Kaj
lahko poveš o ocenah pisne naloge posameznih dijakov?
44
5. RAZPRŠENOST PODATKOV
VARIACIJSKI RAZMIK
Razpršenost (ali variabilnost) je lastnost podatkov, da lahko zavzamejo
različne vrednosti. Podatki so lahko bolj ali manj razpršeni, kar je videti na
sliki:
Definicija 9:
Variacijski razmik je razlika med največjo in najmanjšo vrednostjo v
populaciji. Označimo ga z VR.
VR = xmax − xmin
Obravnavali bomo naslednje mere za razpršenost:
variacijski razmik
standardni odklon (standardna deviacija)
medčetrtinski razmik
PRIMER 20
Izračunaj variacijski razmik zamud avtobusa v petih dneh: 2, 2, 6, 7, 10
min. Rezultat komentiraj.
Excel: VR = MAX - MIN (izračunamo, ker ni posebnega ukaza)
45
STANDARDNI ODKLON
Definicija 10:
Standardni odklon (ali standardna deviacija) je enaka korenu povprečja
kvadratov odklonov vrednosti od aritmetične sredine. Označimo ga s σ:
σ=
2
ΣN
i=1 (xi − µ)
N
46
PRIMER 21
Izračunaj standardni odklon zamud avtobusa v petih dneh: 2, 2, 6, 7, 10
min.
1
Rezultat komentiraj.
2
Kaj bi se zgodilo s standardnim odklonom, če bi vsem vrednostim
prišteli 5 min?
3
Kako bi se spremenil standardni odklon, če bi vsak podatek pomnožili
s 5?
Za uporabo je bolj preprosta formula:
σ=
Če vsakemu podatku prištejemo a, se standardni odklon ne spremeni.
2
ΣN
i=1 xi
− µ2
N
Dokaz.
Če vsak podatek pomnožimo z a, a > 0, se tudi standardni odlklon
pomnoži z a.
Excel:
standardni odklon: STDEVP
47
48
Uporaba žepnega računala
Kaj pove standardni odklon?
Spoznajmo najprej normalno porazdelitev podatkov:
Vnos podatkov:
vključimo statistiko (na ekranu se izpiše STAT ali S ali SD)
vsak podatek posebej vnesemo tako, da ga vtipkamo, nato pa
pritisnemo tipko DATA (ali D ali x )
Branje rezultatov:
število podatkov: tipka n
aritmetična sredina: tipka x
standardni odklon: tipka σn
PRIMER 22
S pomočjo žepnega računala izračunaj aritmetično sredino in standardni
odklon zamud avtobusa v petih vožnjah: 2,2,6,7,10 min. Rezultata
primerjaj s prejšnjima rezultatoma.
49
Primeri normalno porazdeljenih podatkov:
IQ ljudi
50
ARITMETIČNA SREDINA IN STANDARDNI ODKLON
GRUPIRANIH PODATKOV
teža odraslih ljudi
čas, ki ga potrebuje avtobus od Novega mesta do Ljubljane
dolžina žebljev pri serijski proizvodnji
Splošno:
Če je porazdelitev podatkov približno normalna (simetričen histogram), se
približno 23 podatkov nahaja na intervalu [µ − σ, µ + σ].
51
PRIMER 23
Dijaki v T1A, T1B in T1C so pisali pisno nalogo iz matematike.
Povprečna ocena dijakov iz T1A je 3,4, povprečna ocena v T1B je 3,2, v
T1C pa 2,9. Kolikšna je povprečna ocena dijakov vseh treh razredov?
52
Aritmetična sredina (povprečje) grupiranih podatkov
(tudi tehtana aritmetična sredina):
Pri izračunu si pomagamo z razširjeno frekvenčno porazdelitvijo:
Σr fi xi
f1 x1 + f2 x2 + · · · + fr xr
ali µ = i=1
µ=
N
N
Standardni odklon grupiranih podatkov:
σ=
Σri=1 fi xi2
− µ2
N
razred
1.
2.
..
.
vrednost
x1,min − x1,max
x2,min − x2,max
fi
f1
f2
..
.
xi
x1
x2
..
.
fi xi
f1 x1
f2 x2
..
.
r.
Skupaj
xr ,min − xr ,max
/
fr
N
xr
/
fr xr
Σri=1 fi xi
53
54
Aritmetična sredina:
PRIMER 24
Poraba mleka - nadaljevanje primera. Izračunaj aritmetično sredino in
standardni odklon porabe mleka 50 slovenskih družin prejšnji teden v neki
vasi. Rezultat obrazloži.
Standardni odklon:
Obrazložitev rezultata:
Rešitev: Frekvenčno tabelo dopolnimo s stolpcema fi xi in fi xi2 :
razred
1.
2.
3.
4.
5.
Skupaj
poraba mleka v l
0−pod 2
2−pod 4
4−pod 6
6−pod 8
8−pod 10
/
fi
5
13
16
9
7
50
55
xi
1
3
5
7
9
/
fi xi
fi xi2
56
fi xi2
f1 x12
f2 x22
..
.
fr xr2
r
Σi=1 fi xi2
Aritmetična sredina:
PRIMER 25
Starost oseb - nadaljevanje primera Izračunaj aritmetično sredino in
standardni odklon starosti oseb, ki so bile včeraj pregledane v okulistični
ambulanti. Rezultat obrazloži.
Standardni odklon:
Rešitev:
razred
1.
2.
3.
4.
5.
Skupaj
starost
1−10
11−20
21−30
31−40
41−50
/
fi
6
8
14
11
6
45
xi
5,5
15,5
25,5
35,5
45,5
/
fi xi
fi xi2
57
6. KVARTILI IN ŠKATLA Z BRKI
Definicija 11:
Trije kvartili razdelijo številske podatke v ranžirni vrsti v štiri skupine:
58
S pomočjo kvartilov lahko nazorno pokažemo razpršenost podatkov tako,
da narišemo škatlo z brki, za katero potrebujemo poleg kvartilov še
najmanjšo in največjo vrednost med podatki.
prvi kvartil Q1 je tista vrednost, od katere je 25 % podatov manjših
(ali enakih) in 75 % podatkov večjih (ali enakih) - nahaja se na
N+1
4 -tem mestu
drugi kvartil Q2 je tista vrednost, od katere je 50 % podatov manjših
(ali enakih) in 50 % podatkov večjih (ali enakih) (tudi mediana) nahaja se na 2(N+1)
-tem mestu
4
tretji kvartil Q3 je tista vrednost, od katere je 75 % podatov manjših
(ali enakih) in 25 % podatkov večjih (ali enakih) - nahaja se na
3(N+1)
- tem mestu
4
2(N+1)
in 3(N+1)
niso celoštevilske, vzamemo za kvartil
Če vrednosti N+1
4 ,
4
4
povprečje sosednjih vrednosti.
59
Škatlo z brki imenujemo tudi okvir z ročaji ali grafikon kvartilov (ang.
box-and-whiskers plot ali box-plot).
Definicija 12:
Medčertinski razmik Q je razlika med tretjim in prvim kvartilom. (Med
Q1 in Q3 se nahaja 50 % podatkov.)
60
Rešitev:
PRIMER 26
V T1A so dijaki zbrali podatke o številu ur, ki so jih prejšnji teden preživeli
za računalnikom. Zbrani podatki so:
2, 2, 3, 4, 5, 6, 6, 7, 7, 8, 9, 10, 11, 11, 12, 12, 15, 15, 16, 17, 18, 21, 21,
21, 22, 24, 25, 28, 30, 30, 34
1
Izračunaj vse tri kvartile in jih obrazloži.
2
Izračunaj medčetrtinski razmik.
3
Nariši škatlo z brki.
62
61
Rešitev:
PRIMER 27
Na zdravniškem pregledu so stehtali 17 dijakov manjšega razreda. Njihove
teže v kg so:
50, 52, 53, 55, 56, 56, 60, 61, 64, 64, 65, 67, 71, 72, 73, 73, 80
1
Izračunaj vse tri kvartile in jih obrazloži.
2
Izračunaj medčetrtinski razmik.
3
Nariši škatlo z brki.
63
64
PRIMER 28
Primerjaj osebne dohodke moških in žensk v nekem podjetju na spodnjem
grafikonu. Kaj lahko sklepaš iz slike?
PRIMER 29
Primerjaj osebne dohodke moških in žensk v nekem podjetju na spodnjem
grafikonu. Kaj lahko sklepaš iz slike?
65
66
7. POVEZANOST OPISNIH SPREMENLJIVK IN
KONTINGENČNA TABELA
Definicija 13:
Kontingenčna ali dvorazsežna tabela prikazuje podatke po vrednostih dveh
opisnih spremenljivk hkrati.
PRIMER 30
Z anketo smo želeli raziskati zadovoljstvo srednješolcev s šolsko malico,
zato smo anketirali 225 dijakov. Rezultati so zbrani v tabeli:
Zadovoljstvo/Letnik
Zadovoljen
Nezadovoljen
1. letnik
35
15
2. letnik
45
15
3. letnik
35
10
Struktura anketiranih dijakov po zadovoljstvu s šolsko malico za vsak
letnik:
Zadov.
Nezadov.
Skupaj
1. l.
35
15
50
%
2. l.
45
15
60
%
3. l.
35
10
45
4. letnik
20
50
Kaj lahko povemo o zadovoljstvu anketiranih dijakov z malico? Ali se
mnenja razlikujejo po letnikih?
67
68
%
4. l.
20
50
70
%
Sk.
135
90
225
%
8. POVEZANOST ŠTEVILSKIH SPREMENLJIVK
Grafični prikaz strukture
PRIMER 31
Voznik beleži število kilometrov, ki jih prevozi s svojim avtomobilom, in
porabo goriva pri vsaki vožnji. Ugotoviti želi, kako je poraba goriva
povezana s številom prevoženih kilometrov.
Kateri statistični spremenljivki nastopata v primeru?
Ali bo pri različnih vožnjah, ko bo prevozil enako število kilometrov,
vedno porabil enako količino goriva?
Koliko goriva bo porabil za vožnje, pri katerih bo prevozil manj km, v
primerjavi z vožnjami, pri katerih bo prevozil več km?
Razmisli, kaj vpliva na porabo goriva.
69
70
Razsevni diagram:
Spremenljivka X : število prevoženih kilometrov
Spremenljivka Y : količina porabljenega goriva
Povezanost med številskima spremenljivkama X in Y imenujemo
korelacija.
Povezanost spremenljivk lahko prikažemo v pravokotnem koordinatnem
sistemu, če eno od spremenljivk proglasimo za neodvisno in drugo za
odvisno. Tako dobljeni diagram imenujemo razsevni diagram.
Razsevni diagram
Excel: Raztreseni (XY)
71
72
Linearna povezanost
Spremenljivki X in Y sta povezani linearno, če točke v razsevnem
diagramu ležijo na isti premici ali pa se od nje bolj ali manj odklanjajo
(ovalna oblika množice točk v razsevnem diagramu).
Premico, ki se najbolj prilega točkam, imenujemo regresijska premica.
Ločimo pozitivno in negativno linearno povezanost.
Pozitivna linearna povezanost: večje vrednosti spremenljivke X so
povezane z v povprečju večjimi vrednostmi spremenljivke Y . (regresijska
premica je naraščajoča)
73
74
Negativna linearna povezanost: večje vrednosti spremenljivke X so
povezane z v povprečju manjšimi vrednostmi spremenljivke Y . (regresijska
premica je padajoča)
Ni povezanosti
75
76
Rešitev:
PRIMER 32
Voznik je za 12 voženj zabeležil število prevoženih kilometrov in porabo
goriva v litrih. Rezultati so prikazani v tabeli:
Pot (km)
Gorivo (l)
20
2,5
35
3,8
60
6
35
4
65
5,5
50
4
40
3,5
25
2,5
25
3
45
4
10
1,8
15
2
a) Nariši razsevni diagram (v zvezek in z Excel ali z Graph). Ali je med
spremenljivkama opaziti linearno povezanost?
b) Določi enačbo regresijske premice (z Excel ali Graph). Premico vriši v
razsevni diagram.
c) Koliko goriva bo v povprečju porabil voznik za 42 km?
77
78
PRIMER 33
Poraba električne energije. Dijak je doma 7 tednov beležil tedensko
porabo električne energije. Podatki v kWh so zbrani v tabeli:
Zap. št. (k)
1
2
3
4
5
6
7
teden
1. teden
2. teden
3. teden
4. teden
5. teden
6. teden
7. teden
kWh
109
98
102
103
95
90
92
a) Nariši linijski diagram (v zvezek in z Excel ali Graph). Katera krivulja
bi se prilegala porabi električne energije?
b) Določi enačbo te krivulje (z Excel ali Graph). Vriši jo v diagram.
c) Kolikšno porabo električne energije lahko pričakujemo 8. teden?
79
80
Nelinearna povezanost
Rešitev: a)
PRIMER 34
Ali spodnji grafikon prikazuje linearno povezanost spremenljivk?
Excel: Črtni grafikon
b) Enačba linearnega trenda je y = −2, 6429x + 109.
c) Napoved za 8. teden: y = −2, 6429 · 8 + 109 = 87, 9 kWh.
81
82
PRIMER 36
Ali spodnji grafikon prikazuje linearno povezanost spremenljivk?
80
700
70
600
60
Vrednost delnice (EUR)
Višina kaktusa (mm)
PRIMER 35
Ali spodnji grafikon prikazuje linearno povezanost spremenljivk?
50
40
30
20
500
400
300
200
100
10
0
0
0
1
2
3
4
5
Leto
83
6
7
8
9
10
0
2
4
6
8
Mesec
84
10
12
14