4.1 Point Estimation
Transcription
4.1 Point Estimation
4.1 Point Estimation Q1 The mode of a distribution of discrete data is the value that occurs most often. It can be illustrated on a histogram. For example 64 is the mode of the following distribution. The question : A random sample of male students is taken and each is weighed. The weights (in kg to the nearest kg) are: 69, 69, 69, 70, 65, 66, 67, 68, 68, 69, 65, 65, 65, 65, 69, 65, 68, 68, 68, 70 Estimate the modal weight of the population of male students. (When you have got this right you will get a histogram of your data at the foot of the page.) Se vilket av elementen som förekommer mest, om t.ex. talet 65 förekommer flest gånger, då är detta ditt svar Q2 The following numbers represent a random sample of annual salaries (in SEK'000) of a number of staff in a manufacturing operation. It is one in which a small number of managers are very well paid and the majority of the rest of the staff have pay pretty typical of other shop floor rates. Estimate the population mean and the population median. (When you get three green ticks, you will get a scatter plot at the foot of the page with the median shown in yellow and the mean in green. Why is the sample mean well to the right of the sample median?) a) Svar: Markera hela tabellen och ctrl + c, ctrl + v in i wolfram alpha, skriv mean(inklistrat data) b) Svar: Markera hela tabellen och ctrl + c, ctrl + v in i wolfram alpha, skriv median(inklistrat data) Q3 Gör ingen sträcklista, det har du inte tid med. a-e) Svar: Svar: Avläs tabellen och se hur många förekomster av elementen det finns. Q4 Klassindelat data representeras ofta med hjälp av histogram (stapeldiagram). I ett histogram indikerar höjden av staplarna antalet element i behållaren - till skillnad från antalet sträck i en sträcklista. Gör ingen sträcklista, det har du inte tid med. a-g) Svar: Svar: Avläs tabellen och se hur många förekomster av elementen det finns. Q5 Den relativa frekvensen är frekvensen utryckt i decimalform (eller i procent). Föredrar man procent så multiplicerar man respektive relativa frekvensen med 100. Här följer resultatet efter ett statistik prov ( maxresultat 30 ) för en grupp elever . 16, 16, 14, 25, 11, 10, 24, 17, 11, 22, 22, 4, 12, 25, 24, 10, 10, 7, 15, 15 När man gör ett histogram med relativa frekvenser går man tillväga som följer : (1) Man gör en sträcklista (2) Jämte sträcklistan drar man ett kolumn med de uträknade relativa frekvenserna Relativa frekvensen beräknas enligt receptet : antalet element i behållaren delat på totala antalet element. Alltså antalet sträck på en rad delat med totala antalet sträck Gör ingen sträcklista, det har du inte tid med. a-e) Svar: Svar: T.ex. för området mellan 0 < resultat <=5: Räkna ut hur många element som finns, därefter blir ditt svar kvoten av: antal element som stämmer överens med kravet / totala antalet element i mängden 4.2 Confidence intervals - Confidence intervals for mean Q1 The following random sample is taken from a Normal distribution with standard deviation 0.29 . 1.018, 1.099, 1.074, 0.983, 1.212, 1.199, 0.856 a) What is the sample mean? Svar: Summera hela din tabell och dela med antalet element i tabellen. Summera genom att kopiera hela tabellen och klistra in den i wolframalpha sum(inklistrat data) / X(x är antalet element i tabellen) b) What is the standard deviation of the sample mean of random samples of 7? Svar: σ = sqrt(E[X2] - E[X]2) Det är totalt X element i tabellen. Dvs 1/X sannolikhet att ett av dem talen väljs. Expected value blir då(taln är ett godtyckligt tal i tabellen) E[X]2 = (1/X * tal1 + 1/X * tal2 + .... 1/x * taln)2 E[X2] = 1/X * tal12 + 1/X * tal22 + .... 1/x * taln2 c) Based on the sample, what is the lower 90% confidence limit for the population mean? Svar: x är sample mean (det du fick i svar a) För att beräkna Z: Välj table > Inverse Normal Both, skriv in: X = (1-p) Mean =0, Sdev =1 där p är lower t.ex. 90 % confidence. sigma får du i början av uppgiften (OBS inte från uppgift b) och n = längden på din tabell, dvs. antal element. OBS! i denna uppgiften skall du räkna ut lower limit, då använder du x MINUS z d) And what is the upper 90% confidence limit for the population mean? Svar: Exakt som c uppgiften men nu efterfrågas upper confidence limit, då blir det x PLUS z... Q2 The following random sample is taken from a Normal distribution with standard deviation 7.9 . Determine a 95% confidence interval for the population mean 37.9, 16.8, 30.3, 21.3, 28 a) Lower confidence limit. Svar: För att beräkna x (sample mean), ta sum(alla element i tabellen) dividerat med antal element i tabellen. För att beräkna Z: Välj table > Inverse Normal Both, skriv in: X = (1-p) Mean =0, Sdev =1 b) Upper confidence limit. Svar: Exakt som a uppgiften men nu efterfrågas upper confidence limit, då blir det x PLUS z... Q3 The time that students spend at part time jobs per week is approximately Normally distributed with standard deviation 6 hours. A random sample of 40 students is taken and the sample mean is 14.5 hours. a-e) Find the 90% lower confidence limit for the mean weekly time that students spend at part time jobs. Svar: Q4 The sample estimate s of standard deviation ( ) is reliable when the sample is big enough. (What is 'enough' depends on the population; but 100 and over is usually enough). In such cases we often use s for in calculating a confidence 2 interval. A sample of 150 gives a mean of 1.3 and variance s =0.25 . Calculate the 88 % confidence interval for the population mean ( ). Viktigt att du kan definitionerna: sqrt(variance) = standard deviation = sigma (lättare luring) Q5-Q7 Q8 Vi har ett stickprov på 24 individer då man testar ett träningsredskap för uthållighet på ett gym. Antalet minuter tills övervakningsinsapparaten avbryter övningen blev i snitt för deltagarna 11 minuter. Standardavvikelsen för genomsnittliga tiden beräknades vara: 2.2 minuter. Under förutsättningen att tiden för övningen är normalfördelad, beräkna en 99 % konfidenseintervall för populationens medeluthållighet i minuter enligt denna övning. Nu handlar detta om konfidensintervall: x = sample mean, snittet i minuter då övningen avbryts sigma = fås i uppgiften n= antal indidiver för att räkna ut t= table > inverse t both > p = 1 - antal %, v = antal personer - 1 Q9-Q10 Q9: Följande siffror visar temperaturen i grader celsius av reaktorkärnan för en kemisk reaktor, tagna vid olika tillfällen under en månads tid. Temperaturen anses vara normalfördelad. Katalysatorns effektivitet försämras snabbt om temperaturen i kärnan överstiger 854 grader celsius. Hitta en 99% konfidensintervall för medeltemperaturen av reaktorkärnan. Q10: Följande data kommer från en undersökning bland brittiska studenter om deras deltidsarbeten. Data visar den genomsnittliga veckolönen för respektive student med deltidsarbete, i engelska pund. Bestäm en 95% konfidensintervall för medelvärdet av studenternas veckolön. För att kunna svara på denna behöver du sample mean samt standard deviation (anges ej i uppgiften) För att räkna ut sample mean: wolframalpha > mean(klistra in hela tabellen här) För att räkna ut standard deviation: wolframalpha > std dev(klistra in hela tabellen här) För att beräkna ditt t table > inverse t both > p = 1- antal %, V = antal element i tabellen - 1 (MINUS ETT) x - ((Z*sigma)/sqrt(n)) Q11 En viss population följer normalfördelningen med variansen 399 och ett okänt medelvärde. Man vill ta ett stickprov för att få en approximation till medelvärdet. Hur stort stickprov behöver man, så att approximationen inte hamnar längre än 3 från det riktiga medelvärdet: a-c) med sannolikhet 90% . Svar: sigma = sqrt(variansen) Wolframalpha > ceil(((Z*sigma)/B)^2) B = antal fel Q12 En studie genomfördes där man ville skatta väntevärdet för en normalfördelad variabel med standardavvikelsen 4.7. Efter att ha undersökt 96 enheter så erhöll man konfidensintervallet: a) Vilken konfidensgrad har intervallet? Ange svaret i heltalsprocent. Svar: För att räkna ut mean: addera nedre- och högra intervallet (t.ex. 88.3 + 90.1) och dividera därefter med 2. Då får du fram mean. Nu när du har mean stoppar du in det i formeln ovanför: T.EX.: (88.3-MEAN)/ ((4.7)/sqrt(96)) Nu har du fått ut ett värde, detta stoppar du in i x: table > normal both därefter får du ut ett svar. 1 - DETTA SVARET är ditt svar i decimalform. Därefter skall du multiplicera med 100 för att få det i procentform, avrunda sedan för att svara i heltalsprocent. b) Hur många observationer borde man ha undersökt om man vill ha samma intervallängd men en 92%-ig konfidensgrad? Avrunda uppåt till närmaste heltal! Svar: Din uppgift är att bestämma ett möjligt n värde. Din vän woffe hjälper dig (wolframalpha) I din ekvation kommer du att ha en okänd, dvs n. resten har du. Använd Z som du använde i förra uppgiften. t.ex.: (88.3-89.2)/((4.7)/sqrt(n)) = 1.75069 OBS!! Table > INVERSE NORMAL BOTH > sätt in komplementsvärdet till det du får i uppgiften b. står det 92%-ig konfidensgrad då skriver du 0.08! 4.4 Central Limit Theorem Q1 Previous research has estimated that 24% of passengers travelling from the USA to Sweden carry more than their duty-free allowance. A plane carrying 109 passengers arrives at Landvetter airport and customs officers randomly select 12 passengers and search them. a) What is the probability that 3 passengers in the sample are carrying more than their limit (to 5 decimal places)? Svar: Öppna ett excelarc i google docs Skriv följande i en cell: =BINOMDIST(4;10;0,29;0) 4= x matchningar (t.ex. att 4 pers lala...) 10 = antal random som personer väljs ut 0,29 = sannolikhet att lyckas hitta en 0 = wolframs konstant (den berättar att b) Svar: Ändra om antalet i formeln ovan, notera att du får en annan mängd (antal personer i planet) c) Svar: Gör som i uppgift a, men ändra sökta värdet till 0 (x) Q2 Innehållet i en säck `ballast' (bergmaterial, krossad sten) för betongtillvärkning är normalfördelat med medelvikten 44 kg och en standardavvikelse på 1.6 kg. a) Vad är sannolikheten för en slumpmässigt vald säck att dess vikt understiger 43.5 kg ? Svar: Wolfram > N[CDF[NormalDistribution[mean,std dev],x]] b) Vad blir sannolikheten för 5 slumpmässigt valda säckar att säckmedelvikten understiger 43.5 kg Svar: Wolfram > N[CDF[NormalDistribution[mean,std dev],x]] OBS! std dev = x1/sqrt(n) c) Vad är sannolikheten för en slumpmässigt vald säck att dess vikt ligger mellan 43.5 och 44.5 kg ? Svar: Wolfram > N[CDF[NormalDistribution[mean,std dev],x2]] N[CDF[NormalDistribution[mean,std dev],x1]] Stora minus lilla :) d) Vad blir sannolikheten för 27 slumpmässigt valda säckar att säckmedelvikten ligger mellan 43.5 och 44.5 kg? Svar: Wolfram > N[CDF[NormalDistribution[mean,std dev],x2]] N[CDF[NormalDistribution[mean,std dev],x1]] Stora minus lilla :) OBS! std dev = x1/sqrt(n) Q3 Beloppet som en slumpmässigt vald kund spenderar per besök på ett nöjesfält är i genomsnitt 323 kronor med en standardavvikelse på 60 kronor. Hur stor är sannolikheten att en slumpmässigt vald grupp på 60 individer spenderar fler än 19300 kronor på ett besök? Svar: Table - normal high sdev = sqrt((stddev^2)/n) = sqrt((99^2)/65) mean = anges i uppgiften x = totalt antal kr/ n (t.ex. 20900/n) Q4 Antag att diametern hos tillverkade muttrar har en standardavvikelse på 0.35 mm. För utvärdering av tillverkningsprocessen genomförs en kvalitetskontroll varvid man tar ut 39 muttrar och mäter deras diameter Hur stor är risken att den genomsnittliga diametern i urvalet avviker från diameterns väntevärde med mer än 0.0875 mm? Svar: Table - normal both x = 0.0975 mean = 0 sdev = 0.39 / sqrt (n)