VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN
Transcription
VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN
VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A Pa kk o ve si ja a Tu ul i- Yd in vo im at em M Ke nk ä tu us Pi Ik ä Vu os i t Tu nn i Ty ö Va rs i As uu Nr o Su ku pu ol i na in en KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä! 1 1 1 1 1 90 2014 24 180 42,0 4 4 2 2 2 2 1 2 1 130 1999 38 183 40,0 1 2 4 5 3 2 2 1 2 130 2015 46 175 39,0 3 4 4 2 4 2 1 1 2 35 2014 28 170 38,5 3 1 4 4 5 2 1 1 2 35 2015 24 165 38,0 3 2 4 5 6 1 2 1 2 80 2014 27 174 42,0 3 4 4 4 7 2 1 1 2 135 2015 25 175 40,0 3 3 4 4 8 2 1 1 1 60 2015 24 168 37,0 3 3 4 5 9 2 1 1 1 80 2015 21 169 38,0 5 4 2 5 10 2 2 1 2 60 2015 38 158 38,0 3 1 4 5 11 2 1 1 1 100 2013 38 170 39,0 4 5 3 5 1. Kurssikyselyaineistossa on 11 tilastoyksikköä. a) Montako muuttujaa on? b) Mitkä muuttujat ovat kvalitatiivisia eli laadullisia? Mitkä muuttujat ovat kvantitatiivisia eli määrällisiä? c) Mitä merkitsee aineiston käsittelyn kannalta se, että havaintomatriisissa kaksi saraketta vaihtaa paikkaa keskenään? d) Entä, jos kaksi vaakariviä vaihtaa paikkaa keskenään? e) Mitä merkitsee aineiston käsittelyn kannalta se, jos puuttuvan tiedon merkkinä on luku 0? f) Entä, jos puuttuvan tiedon paikalle ei laiteta mitään? 2. Mitkä ovat kurssikyselyaineiston muuttujien tilastolliset mitta-asteikot? Mitkä muuttujat jatkuvia? Mitkä muuttujat ovat diskreettejä eli epäjatkuvia? Perustele vastauksesi. 3. Eräällä kurssilla opetus tapahtui toiselle ryhmälle perinteisenä luento-opetuksena ja toiselle ryhmälle verkko-opetuksena. Osallistujille tehtiin osaamista mittaava testi sekä ennen että jälkeen kurssin. Näiden testien pistemäärien erotukset (jälkeen–ennen) olivat: Naiset: verkko-opetus luento-opetus Miehet: verkko-opetus luento-opetus 20.3 6.2 12.5 28.1 23.5 15.6 7.8 -6.2 4.7 25.0 21.9 14.1 21.9 4.7 -3.1 18.8 15.6 28.1 3.1 1.5 20.3 17.2 45.4 15.6 26.6 14.1 9.4 26.7 ovat -9.4 23.4 4.7 23.3 33.2 Mikä on tilastoyksikkö? Montako tilastoyksikköä on? Mitkä ovat muuttujat? Montako muuttujaa on? Miten tilastoyksikkö- ja muuttujamäärä näkyy havaintomatriisissa? Hahmottele aineiston avulla havaintomatriisi. Mitä aineistosta avulla voidaan tutkia? 4. Esitä kurssikyselyaineiston Ydinvoima-muuttujan frekvenssijakauma taulukkona. Esitä taulukossa myös suhteelliset ja prosentuaaliset frekvenssit absoluuttisten frekvenssien lisäksi. 5. Tarkastellaan kurssikyselyaineistosta Pituus-muuttujaa. a) Määritä aineistosta pituuden vaihteluväli ja pituuden vaihteluvälin pituus. b) Mikä olisi pituuden luokitteluun sopiva luokkien lukumäärä? c) Jos pituus luokitellaan neljään tasaväliseen luokkaan, mikä on pienin mahdollinen luokkavälin pituus? d) Luokittele pituusarvot neljään tasaväliseen luokkaan siten, että luokkavälin pituus on 7 cm ja ensimmäisen luokan alaraja on 158 cm. e) Määritä pituusluokkien frekvenssit, prosentuaaliset frekvenssit, summafrekvenssit ja prosentuaaliset summafrekvenssit. 6. Tarkastellaan tehtävän 3 aineistoa. Luokittele testipisteiden erotuksien arvot järkevästi luokkiin ja esitä testipisteiden erotuksen jakauma frekvenssijakaumataulukkona. 7. Piirrä tehtävän 5 perusteella Pituus-muuttujasta a) frekvenssihistogrammi b) frekvenssimonikulmio c) prosentuaalinen summakäyrä. 8. Muodosta kurssikyselyaineistosta Ikä-muuttujan runko-lehti -kuvio. 9. Laske kurssikyselyaineiston neljän ensimmäisen tilastoyksikön ikäkeskiarvo ja -keskihajonta. 10. Laske ja/tai määritä kurssikyselyaineiston pituuden keskiarvo, moodi, mediaani, keskihajonta, variaatiokerroin, vaihteluväli ja kvartiiliväli käyttäen alkuperäisiä havaintoja (ei siis tehtävän 5 frekvenssijakaumaa) (avuksi: x i = 1887 ja x i 2 = 324189). Kuvaile em. tunnuslukujen avulla pituuden jakaumaa. Muodosta myös laatikko-viikset –kuvio. 11. Tämän vuoden kesäkurssilaisten iän keskiarvo on 30.27 vuotta ja keskihajonta on 8.211 vuotta. a) Onko kesäopiskelijoiden pituuden vaihtelu suhteellisesti pienempää kuin iän vaihtelu? b) Kumman muuttujan osalta muistutat suhteellisesti enemmän ”keskiarvo-opiskelijaa” (keskiarvo-opiskelija olkoon sellainen opiskelija, jonka pituus ja ikä vastaavat ko. muuttujien keskiarvoja). 12. Laske/määritä Ydinvoima -muuttujan mediaani, alakvartiili, yläkvartiili, suurin arvo ja pienin arvo. 13. Laske seuraavasta frekvenssijakaumasta hinnan keskiarvo, varianssi ja mediaani. Mieti myös (laskea ei tarvitse), mitä muita keskilukuja ja hajontalukuja voisit hinnasta esittää. Hinta € 40 – 49 50 – 59 60 – 69 70 – 79 80 – 89 lukumäärä 5 3 11 15 13 14. Seuraavassa taulukossa on tilastoanalyysituloksia Kuntafakta-aineistosta, jossa tilastoyksikköinä ovat Suomen kunnat v. 2003. (HUOM. Tulostuksessa desimaalimerkkinä on pilkku, ja esim. merkintä ,65189 tarkoittaa lukua 0,65189.) a) Millä keskiluvulla olisi järkevä kuvata muuttujan ”Verotettavat tulot €/asukas” keskikohtaa? b) Millä muuttujalla on pienin suhteellinen vaihtelu? c) Minkä muuttujan jakauma on selvästi huipukkaampi kuin normaalijakauma? d) Minkä muuttujan jakauma on selvästi oikealle loiveneva? e) Minkä muuttujan jakauma muistuttaa eniten normaalijakaumaa? f) Vaasassa ko. muuttujien arvot olivat tuolloin 15.3, 19.00 ja 12469. Minkä muuttujan osalta Vaasa eroaa suhteellisesti ottaen vähiten ”keskimääräisestä Suomen kunnasta”? 15. Muodosta kurssikyselyaineistosta ristiintaulukko muuttujista Asuu ja Työ. Tutki muuttujien välistä riippuvuutta kontingenssikertoimen avulla. 16. Tutkimuslaitos tutki 75 erilaisen taloustavaran hinta-laatu-suhdetta. Tavarat luokiteltiin hinnan mukaan kolmeen ryhmään ja laadun perusteella kahteen ryhmään. Saatiin ristiintaulukko Laatu Huono Hyvä Hinta Yhteensä Edullinen 15 7 22 Keskihintainen 10 14 24 Kallis 5 24 29 Yhteensä 30 45 75 Tutki muuttujien välistä riippuvuutta kontingenssikertoimen avulla. Tulkitse tuloksesi. 17. Laske kurssikyselyaineiston neljälle ensimmäiselle tilastoyksikölle pituuden ja kengännumeron välinen Pearsonin korrelaatiokerroin. Tulkitse tulos. 18. Laske kurssikyselyaineistosta Spearmanin järjestyskorrelaatio muuttujista Ikä ja Matem. Tulkitse tulos. 19. Sähkölämmitteisen loma-asunnon sähkön kulutusta ja ulkoilman lämpötilaa seurattiin viikon ajan. Piirrä aineistosta pisteparvi ja laske tunnusluku, jolla mitataan lineaarisen riippuvuuden voimakkuutta. Ulkoilman lämpötila (ºC) Sähkön kulutus (kWh) 20. 5 32 8 28 12 24 10 19 -1 30 3 26 7 20 Yritys haluaa testata työnhakijansa soveltuvuustestillä. Tarjolla on kaksi eri testiä, joita kumpaakin halutaan kokeilla. Seitsemän työnhakijaa testattiin ja saatiin tulokset: testi 1 testi 2 14 162 6 65 17 81 17 159 2 90 8 44 10 123 Tutki sopivan tilastollisen tunnusluvun avulla, onko työnhakijoiden järjestyksillä yhteyttä eri testeissä. Mitä tulos tarkoittaa? 21. Suuren kauppaketjun johto suunnittelee laajentamista uusia myymälöitä avaamalla. Tätä varten se tarvitsee arvion myymälän pinta-alan (1000 m2) ja myynnin (milj. €) välisestä yhteydestä. Yhdentoista jo toimivan myymälän satunnaisotos tuotti seuraavan aineiston asian selvittämiseksi. Pinta-ala Myynti 1.7 3.7 1.6 3.9 2.8 6.7 5.6 9.5 1.3 3.4 2.2 5.6 1.3 3.7 1.1 2.7 3.2 5.5 1.5 2.9 5.2 10.7 a) Esitä aineisto tilastokuviona siten. että siitä selviää myynnin riippuvuus pinta-alasta. Kuvaa riippuvuus sanallisesti. b) Sovita aineistoon lineaarinen regressiomalli, jossa pinta-ala on selittävä muuttuja ja tulkitse malli. (Voit käyttää hyväksesi seuraavia tunnuslukuja: pinta-alan keskiarvo on 2.5 ja keskihajonta 1.58, myynnin keskiarvo on 5.3 ja keskihajonta 2.69, sekä pinta-alan ja myynnin välinen kovarianssi 4.085.) 22. Kurssikyselyaineistossa kengännumeron ja pituuden välinen (Pearsonin) korrelaatiokerroin on arvoltaan 0.688. Pituuden keskiarvo on 171.55 cm ja keskihajonta on 6.948 cm. Vastaavat luvut kengännumerolle ovat 39.227 ja 1.6335. a) Muodosta lineaarinen regressiomalli, jossa kengännumeron vaihtelua selitetään pituudella. b) Laske mallin selitysaste. c) Arvioi mallin avulla, minkä kokoinen kenkä pitäisi jalassasi olla.