Föreläsning 8
Transcription
Föreläsning 8
MapleTA Repetition Exponenter Residualanalys Multipel reg. Matematisk statistik för B, K, N, BME och Kemister Föreläsning 8 Johan Lindström 23 september 2015 Johan Lindström - [email protected] FMS086/MASB02 F8 1/27 MapleTA Repetition Exponenter Residualanalys Multipel reg. MapleTA — Resultat I Testet åter tillgängligt om ni vill träna inför tentan. I Ni som inte klarat testet, gör det innan tentan (godkänt höjt från 6 till 7). I Vanligaste problem centrala gränsvärdessatsen och Poissonfördelning. Johan Lindström - [email protected] Försök Försök/student Medel Median Alla 451 2.75 3.97 4.00 Bästa 143 1.00 6.82 6.50 FMS086/MASB02 F8 2/27 MapleTA Repetition Exponenter Residualanalys Multipel reg. MapleTA — Exempel 1. Tiden det tar att betjäna en kund vid station A är en stokastisk variabel med väntevärde 5.4 minuter och standardavvikelse 4 minuter. Vid station B tar det i genomsnitt 3.7 minuter att betjäna en kund och standardavvikelsen är 1.75. Svara följande frågor med tre decimaler. b) Beräkna sannolikheten att det går snabbare att betjäna 50 kunder vid A än 80 kunder vid B. 2. Orterna A och B ligger på var sin sida av ett vattendrag och förbinds av en bro. Antalet fordon som under en minut färdas från A till B är poissonfördelat med väntevärde 3 medan antal fordon i andra riktningen är poissonfördelat med väntevärde 4. Beräkna sannolikheten att det under en minut kommer minst 13 fordon på bron. Svara med tre decimaler. Johan Lindström - [email protected] FMS086/MASB02 F8 3/27 MapleTA Repetition Exponenter Residualanalys Multipel reg. Modell Skattningar Intervall μ Linjär regression Modell (Kap. 10.2) Vi har n st par av mätvärden (xi , yi ), i = 1, . . . , n där yi är observationer av Yi = α + βxi + εi där εi är oberoende av varandra, och εi ∈ N 0, σ2 . Johan Lindström - [email protected] FMS086/MASB02 F8 MapleTA Repetition Exponenter Residualanalys Multipel reg. Modell Skattningar Intervall μ Parameterskattningarna α∗ , 4/27 (Kap. 10.4–10.5) Skattningarna av Pn Sxy (x − x̄)(yi − ȳ) ∗ Pn i β = i=1 = 2 Sxx i=1 (xi − x̄) β∗ σ2 ∈ N β, Sxx 1 x̄ 2 ∈ N α, σ2 + n Sxx α∗ = ȳ − β ∗ x̄ och s2 = (σ2 )∗ är n 2 X Sxy Q0 s = där Q0 = (yi − α∗ − β ∗ xi )2 = Syy − n−2 Sxx 2 i=1 Q0 ∈ χ2 (n − 2) σ2 Skattningarna α∗ och β ∗ är dock inte oberoende av varandra. Johan Lindström - [email protected] FMS086/MASB02 F8 MapleTA Repetition Exponenter Residualanalys Multipel reg. 5/27 Modell Skattningar Intervall μ Konfidens- & Prediktionsintervall (Kap. 10.6–10.7) Konfidensintervall för linjen, μ0 , vid x0 : ∗ ∗ Iμ0 = α + β x0 ± ta/2 (n − 2) · s · s 1 (x0 − x̄)2 + n Sxx Prediktionsintervall för en ny mätning, Y(x0 ), vid x0 : s 1 (x − x̄)2 ∗ ∗ IY(x0 ) = α + β x0 ± ta/2 (n − 2) · s · 1 + + 0 n Sxx Kalibreringsintervall Kalibreringsintervall för x0∗ = Ix0 = x0∗ (Kap. 10.8) −α∗ y0 β∗ givet en mätning y0 , s ± ta/2 (n − 2) · ∗ · |β | Johan Lindström - [email protected] s 1+ 1 (x0∗ − x̄)2 + n Sxx FMS086/MASB02 F8 6/27 MapleTA Repetition Exponenter Residualanalys Multipel reg. Linjärisering av exponentiella samband För att få ett linjärt samband yi = α + βxi + εi kan vissa exponent- och potenssamband logaritmeras. ln zi = a · eβxi · ε0i −→ zi = a · tiβ · ε0i −→ ln zi = ln a +β · xi + ln ε0i |{z} |{z} |{z} yi ln α εi ln zi = ln a +β ln ti + ln ε0i |{z} |{z} |{z} |{z} yi Johan Lindström - [email protected] xi α εi FMS086/MASB02 F8 7/27 MapleTA Repetition Exponenter Residualanalys Multipel reg. Antal transistorer hos Intelprocessorer 9 10 Intel® Itanium® 2 Intel® Itanium® 8 10 Intel® Pentium® 4 Intel® Pentium® III 7 Antal transistorer 10 Intel® Pentium® II Intel® Pentium® Intel486TM 6 10 Intel386TM 5 286 10 8086 4 10 3 10 8080 8008 4004 2 10 1970 1980 1990 2000 Lanseringsår Johan Lindström - [email protected] 2010 2020 FMS086/MASB02 F8 8/27 MapleTA Repetition Exponenter Residualanalys Multipel reg. Exempel: Moores lag Figuren på föregående slide är baserad på Moores Lag. 1965 framförde Gordon Moore (en av Intels grundare) tesen att antalet transistorer på ett chip fördubblas vartannat år (www.cs.utexas.edu/~fussell/courses/cs352h/papers/ moore.pdf). Genom att anpassa en exponential funktion till data fås följande ln zi = −691 + 0.35xi zi = 5.13 · 10−301 · exp(0.35xi ) där zi är antalet transistorer och xi är lanseringsår. Johan Lindström - [email protected] FMS086/MASB02 F8 9/27 MapleTA Repetition Exponenter Residualanalys Multipel reg. −301 x 10 0.35 x ⋅e Skattat samband: y = 5.13⋅10 8 5 4.5 4 Antal transistorer 3.5 3 2.5 2 1.5 1 0.5 0 1970 1980 1990 2000 Lanseringsår Johan Lindström - [email protected] 2010 2020 FMS086/MASB02 F8 10/27 MapleTA Repetition Exponenter Residualanalys Multipel reg. Samband vikt och hjärnstorlek 12 10 Elefant (Afr) Elefant (Ind) log(hjärnvikt) [g] 8 Människa Giraff Häst Chimpans Åsna GorillaKo Rhesus apa Får Gris Jaguar Varg Potar apa Get Känguru 6 4 Brachiosaurus ( ) Triceratops ( ) ( ) Diplodocus Katt Kanin Ekorrbäver Marsvin 2 Mullvad Råtta Hamster 0 Mus −2 −4 −2 0 2 4 log(kroppsvikt) [kg] Johan Lindström - [email protected] MapleTA Repetition Exponenter Residualanalys Multipel reg. 6 8 10 FMS086/MASB02 F8 12 11/27 Residualplottar Residualanalys/Modellvalidering (Kap. 10.10) För att undersöka hur bra modellen stämmer kan vi kan studera residualerna, dvs avvikelserna mellan observerade y-värden och den skattade linjen. ei = yi − α∗ − β ∗ xi , i = 1, . . . , n Dessa är observationer av εi , och residualerna bör alltså: I se ut att komma från en och samma normalfördelning I vara oberoende av varandra I vara oberoende av alla xi . Johan Lindström - [email protected] FMS086/MASB02 F8 12/27 MapleTA Repetition Exponenter Residualanalys Multipel reg. Residualplottar Residualplottar Residualer Residualer mot x 5 5 0 0 e 10 e 10 −5 −5 −10 0 −10 0 10 20 30 10 20 1:n 30 x Probability Normal Probability Plot 0.99 0.98 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.02 0.01 −5 0 Data Johan Lindström - [email protected] 5 FMS086/MASB02 F8 MapleTA Repetition Exponenter Residualanalys Multipel reg. 13/27 Residualplottar Mindre bra residualplottar Residualer, kvadratisk trend Residualer mot x, variansen ökar med x 300 100 200 50 e e 100 0 0 −100 −50 0 10 20 30 −200 0 10 1:n 20 30 x I en modellvalidering bör man även testa H0 : β =0 H1 : Johan Lindström - [email protected] MapleTA Repetition Exponenter Residualanalys Multipel reg. β 6= 0 FMS086/MASB02 F8 14/27 Skattningar Ex Intervall Kolinjäritet Polynomregression Multipel regression (Kap. 11.2) Modellen yi = β0 + β1 x1i + . . . + βp xpi + εi , εi ∈ N 0, σ2 oberoende kan skrivas på matrisform som Y = Xβ + E där Y och E är n × 1-vektorer, β en (p + 1) × 1-vektor och X en n × (p + 1)-matris y1 1 x11 · · · xp1 β0 ε1 y2 1 x12 · · · xp2 β1 .. y = . , X = . .. .. , β = .. ,E = . .. .. .. . . . . εn 1 x1n · · · xpn βp yn Johan Lindström - [email protected] FMS086/MASB02 F8 16/27 MapleTA Repetition Exponenter Residualanalys Multipel reg. Skattningar Ex Intervall Kolinjäritet Polynomregression Skattning av β och σ2 (Kap. 11.3) MK-skattningar av β0 , . . . , βp (elementen i β) blir V (β∗ ) = σ2 (X > X)−1 β∗ = (X > X)−1 X > Y och skattning av σ2 är s2 = Q0 n − (p + 1) där residualkvadratsumman ges av Q0 = n X i=1 yi − β0∗ − β1∗ x1i − . . . − βp∗ xpi = Y > Y − β∗> X > Y Johan Lindström - [email protected] MapleTA Repetition Exponenter Residualanalys Multipel reg. 2 FMS086/MASB02 F8 17/27 Skattningar Ex Intervall Kolinjäritet Polynomregression en.wikipedia.org/wiki/Ordinary_least_squares#/media/File: OLS_geometric_interpretation.svg Johan Lindström - [email protected] MapleTA Repetition Exponenter Residualanalys Multipel reg. FMS086/MASB02 F8 18/27 Skattningar Ex Intervall Kolinjäritet Polynomregression Exempel: Antal frostdagar I West Virginia har man under ett antal år mätt antalet frostdagar på olika orter. Följande data har registrerats Y: Medelantalet frostdagar per år. x1 : Ortens höjd över havet (ft). x2 Ortens nordlig breddgrad (◦ ). Skatta parametrarna i modellen y − Medelantal frostdagar Yi = β0 + β1 x1i + β2 x2i + εi 80 80 70 70 60 60 50 50 40 40 30 30 20 10 20 0 1000 2000 3000 x1 − Höjd över havet 4000 Johan Lindström - [email protected] 10 37 38 39 40 x2 − Nordlig latitud FMS086/MASB02 F8 41 19/27 MapleTA Repetition Exponenter Residualanalys Multipel reg. Skattningar Ex Intervall Kolinjäritet Polynomregression Exempel: Antal frostdagar För data fås följande värden: −27.0 X > Y = 1.89 · 105 Q0 = 1.7798 · 103 3 −1.07 · 10 1.59 · 102 −1.64 · 10−3 −4.06 (X > X)−1 = −1.64 · 10−3 9.14 · 10−8 3.91 · 10−5 −4.06 3.91 · 10−5 1.03 · 10−1 Bestäm: 1. Skattningar av β. 2. Konfidensintervall för β1 . Johan Lindström - [email protected] MapleTA Repetition Exponenter Residualanalys Multipel reg. FMS086/MASB02 F8 20/27 Skattningar Ex Intervall Kolinjäritet Polynomregression Det anpassade regressionplanet mellan antalet frostdagar och h.ö.h. samt latitud. Johan Lindström - [email protected] MapleTA Repetition Exponenter Residualanalys Multipel reg. FMS086/MASB02 F8 21/27 Skattningar Ex Intervall Kolinjäritet Polynomregression Konfidensintervall för βi (Kap. 11.5) Konfidensintervall för βi blir alltså Iβi = βi∗ ± ta/2 (n − p − 1) · d(βi∗ ) Där d(βi∗ ) är d(βi∗ ) = s · q element(ii) i (X > X)−1 Johan Lindström - [email protected] FMS086/MASB02 F8 22/27 MapleTA Repetition Exponenter Residualanalys Multipel reg. Skattningar Ex Intervall Kolinjäritet Polynomregression Skattning av punkt på ”planet” (Kap. 11.4–11.5) Y-s väntevärde i en punkt x10 x20 · · · xp0 ges nu av μ∗Y (x 0 ) = β0∗ + k X i=1 V(μ∗Y (x 0 )) 2 =σ ·x 0> βi∗ xi0 . X >X Ett konfidensintervall för μY (x 0 ) blir IμY (x0 ) = μ∗Y (x 0 ) ± ta/2 (n − p − 1) · s · −1 r x0 x0. > X >X −1 x0 För prediktionsintervallet fås, som tidigare, genom att lägga till en etta under kvadratroten r −1 > ∗ 0 IY(x0 ) = μY (x ) ± ta/2 (n − p − 1) · s · 1 + x 0 X > X x0 Johan Lindström - [email protected] MapleTA Repetition Exponenter Residualanalys Multipel reg. FMS086/MASB02 F8 23/27 Skattningar Ex Intervall Kolinjäritet Polynomregression Exempel: Antal frostdagar För data fås följande värden: −27.0 Q0 = 1.7798 · 103 X > Y = 1.89 · 105 3 −1.07 · 10 1.5945 · 102 −1.6445 · 10−3 −4.0590 (X > X)−1 = −1.6445 · 10−3 9.1434 · 10−8 3.9094 · 10−5 −4.0590 3.9094 · 10−5 1.0346 · 10−1 Skatta medelantalet frostdagar och ett 95%-konfidensintervall då x1 = 3 000 och x2 = 39. Johan Lindström - [email protected] MapleTA Repetition Exponenter Residualanalys Multipel reg. FMS086/MASB02 F8 24/27 Skattningar Ex Intervall Kolinjäritet Polynomregression Kolinjäritet (ex. två variabler) (Kap. 11.6) Man bör om möjligt välja sina (x1i , x2i )-värden så att de blir utspridda i (x1 , x2 )-planet och inte klumpar ihop sig längs en linje. Detta ger ”en mer stabil grund” åt regressionsplanet. Johan Lindström - [email protected] FMS086/MASB02 F8 25/27 MapleTA Repetition Exponenter Residualanalys Multipel reg. Skattningar Ex Intervall Kolinjäritet Polynomregression Polynomregression Om y är ett polynom av x, dvs vi har Yi = β0 + β1 xi + β2 xi2 + . . . + βp xip + εi och funktionen är linjär i βp . Genom att samla polynomen av x 1 x1 x12 1 x2 x 2 2 X = . . .. .. .. . i en matris · · · x1p · · · x2p . .. . .. 1 xn xn2 · · · xnp kan parametrar skattas på samma sätt som tidigare. Johan Lindström - [email protected] MapleTA Repetition Exponenter Residualanalys Multipel reg. FMS086/MASB02 F8 Skattningar Ex Intervall Kolinjäritet Polynomregression Förstagradsmodell Förstagradsmodell 360 4 Residualer CO2−halt 350 340 330 320 310 0 2 0 −2 −4 0 10 20 30 Tid [år] Andragradsmodell 380 1 360 0.5 Residualer CO2−halt 26/27 340 320 300 0 10 20 Tid [år] 30 10 20 30 1:n Andragradsmodell 0 −0.5 −1 0 10 20 1:n 30 Linjär y = α + βx, och kvadratisk, y = β0 + β1 x + β2 x 2 , anpassning av årlig CO2 -halten vid Mauna Loa som funktion av året (sedan 1960). Johan Lindström - [email protected] FMS086/MASB02 F8 27/27