abcabcdefgabcdefgabc dababcdabc
Transcription
abcabcdefgabcdefgabc dababcdabc
Soluzione degli (VHUFL]LDYDQ]DWLGHO&DSLWROR Es. a. Il candidato; 5 b. I caratteri sono: la graduatoria - qualitativo ordinato, l’altezza - quantitativo continuo, scala di rapporti, la residenza - qualitativo sconnesso, le precedenti esperienze - qualitativo sconnesso, 1.1 il punteggio al quiz – quantitativo discreto, scala di rapporti. c. 158 cm 1.2 a. b. c. d. e. f. qualitativo sconnesso: Maschio, Femmina; quantitativo discreto – scala di rapporti: 0,1,2,3,…..; quantitativo continuo – scala di rapporti: tutti i valori reali non negativi; quantitativo continuo – scala di rapporti: tutti i valori reali non negativi; quantitativo discreto – scala di rapporti: tutti i valori interi non negativi; qualitativo sconnesso: ad esempio, Economia, Ingegneria elettronica, Medicina, Scienze Politiche, Statistica, ecc.; g. quantitativo continuo – scala di rapporti: tutti i valori reali non negativi. Quello che segue non vuole essere un elenco esaustivo ma solo alcuni esempi di unità statistiche: 1.3 1.4 a. b. c. d. e. f. g. Individui e animali. Individui, famiglie, animali. Famiglie. Prodotti. Popolazioni residenti in un certo territorio al 31/12/94. Studenti. Imprese, industrie, società, enti pubblici. Quello che segue non vuole essere un elenco esaustivo ma solo alcuni esempi di caratteristiche individuali presenti nell’archivio anagrafico: sesso, data di nascita, luogo di nascita, stato civile, residenza, data di decesso, luogo di decesso, ecc. a. Mezzo di trasporto per raggiungere il luogo di lavoro; taxi. b. Regione di nascita dei residenti nell’area metropolitana milanese; Veneto, Emilia Romagna, 1.5 1.6 1.7 Friuli-Venezia-Giulia. c. Stato civile; nubile, divorziato, separato. d. Ultimo titolo di studio conseguito; Master, Dottorato di ricerca. a. Si, la copertura telefonica delle famiglie residenti a Napoli è quasi totale. b. Si, ad esempio la lista anagrafica del Comune di Napoli. a. b. c. d. Non è possibile trasferire l’età di un individuo ad un altro. Non è trasferibile giacché non è quantitativo. È trasferibile da un’azienda ad un’altra. È trasferibile poiché la popolazione si può trasferire da un Comune ad un altro. Qui di seguito sono proposti alcuni esempi di suddivisione: a. Se consideriamo il reddito mensile, possiamo suddividere in: 0-1.000€; 1.000€-1.500€; 1.8 1.500€-2.000€;2.000€-2.500€; maggiore di 2.500€. b. Da 0 a 1; da 2 a 3; da 3 a 5; più di 5. c. Inferiore a -5; da -5 a 5; da 5 a 10; da 10 a 15; da 15 a 20; da 20 a 25; da 25 a 30; maggiore di 30. Soluzione degli Esercizi avanzati del Capitolo 2 Es. a. SessoFreq. ass. N.AutoFreq. ass. EtàFreq. ass. Età Freq. ass. M F Totale b. 12 0 3 33 1 53 1 8 1 7 35 2 54 1 20 2 6 37 1 55 1 3 3 38 2 56 1 4 1 41 1 59 1 Totale 20 44 1 60 1 46 1 62 1 50 1 63 1 51 1 71 1 Totale 20 Età Freq. ass.Freq. rel.Freq. perc. 6 0,30 30 30 - 40 40 - 50 3 0,15 15 50 - 60 7 0,35 35 60+ 4 0,20 20 Totale 20 1,00 100 c. Si noti che nel grafico per l'Età l'ultima classe è stata chiusa arbitrariamente a 70. 2.1 a. 2.2 Classi Amp. 0-500 500-1.000 1.000-2.000 2.000-3.000 3.000-4.000 classeFreq. rel.Freq. perc. 500 0,11 11 500 0,16 16 1000 0,25 25 1000 0,15 15 1000 0,10 10 4.000-5.000 5.000-10.000 Totale 1000 5000 0,07 0,16 1,00 7 16 100 (Si è arrotondato a due cifre decimali) b. Comuni Pop. Resid. Classi Amp. classeDensità*1000Densità*1000 0-500 500 0,22 0,02 500-1.000 500 0,32 0,08 1.000-2.000 1000 0,25 0,13 2.000-3.000 1000 0,15 0,14 3.000-4.000 1000 0,10 0,13 4.000-5.000 1000 0,07 0,12 5.000-10.000 5000 0,03 0,09 Si osservi che le densità, ottenuta dividendo la frequenza relativa per lampiezza della classe, è stata moltiplicata per 1000 al fine di facilitare la rappresentazione grafica dellistogramma. a. 2.3 b. AnnoSaldo 1984 -0,3 1985 -0,5 1986 1 1987 0,8 1988 0,9 1989 0,6 Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 3 home - indice Es. 3.1 3.2 a. b. X = 6,7 X = 8,04 a. numero medio omicidi per Comune X = 5,33 ; numero medio abitanti per Comune X = 81266,67 b. (2 − 5,33) + (4 − 5,33) + .... + (1 − 5,33) = 0,05 ; (30000 − 81266,67) + (21000 − 81266,67) + ... + (70000 − 81266,67) = −0,05 ; la somma non è esattamente pari a 0 a causa del valore approssimato del valore medio. c. Omicidi Freq. ass. 1 1 2 2 3 2 4 2 5 1 6 2 7 2 9 1 10 1 11 1 Totale 15 X= (2 / 30000) + (4 / 21000) + ... + (1 / 70000) = 5,49 (1 / 30000) + (1 / 21000) + ... + (1 / 70000) A causa degli arrotondamenti effettuati nei calcoli piccole differenze si possono riscontrare nei risultati finali. 3.3 a. X = 5,4 b. (1 − 5,4) 2 + (4 − 5,4) 2 + ... + (12 − 5,4) 2 = 404,4 < 616 = (1 − 10) 2 + (4 − 10) 2 + ... + (12 − 10) 2 c. Numero totale di pezzi difettosi è 3,5 ⋅ 25 = 87,5 Dalla proprietà 4 della media aritmetica si ha: 3.4 X= 12 ⋅ 20,5 + 81 ⋅ 8,5 = 10,05 93 Classe superf. 0-1 1-2 2-3 3-5 5-10 10-20 20-40 40-60 Totale 3.5 X= cj ⋅ nj cj nj 0,5 1,5 2,5 4 7,5 15 30 50 120 60 160 240 220 550 212 848 205 1537,5 110 1650 65 1950 21 1050 1113 7885,5 7885,5 = 7,08 1113 Si noti che l’ultima classe è stata chiusa a 60. a. 3.6 9 ⋅ 7 + 1 ⋅ ( X + 5) = 10 ⋅ X da cui X = enciclopedie. b. 10 ⋅ 7,556 = 75,56 enciclopedie. c. X= 3.7 X = 69 3.8 X = 1,84 10 ⋅ 7,556 + 12 = 7,96 11 68 = 7,556 9 e quindi il decimo venditore vende mediamente 7,556 + 5 = 12,556 a. 1,017; 1,067; 1,054 3.9 b. X g = 1,046 c. Poiché Xg = 3 360 384 405 ⋅ ⋅ 354 360 384 , si ha ( X g )3 ⋅ 354 = 405 . a. 1 2 3 4 5 6 Mese Rapporto 1,018 0,994 1,013 1,026 1,036 0,989 3.10 b. X g = 1,013 ; la variazione media mensile è stata dell’1,3%. c. Il prezzo delle azioni nel sesto mese è dato da ( X g )6 ⋅ 50 = 1,081 ⋅ 50 = 54,05 . Nj Fj Classe superf. n j 0-1 120 120 0,108 1-2 160 280 0,252 2-3 220 500 0,449 3-5 212 712 0,640 5-10 205 917 0,824 10-20 110 1027 0,923 20-40 65 1092 0,981 40-60 21 1113 0,108 Totale 1113 3.11 La classe mediana è la 3-5. Considerando la formula 3.5.1 per il calcolo approssimato della mediana si ha: Me = 3,534 Considerando la formula 3.7.1 per il calcolo approssimato dei quartili si ha: Q1 = 1,986 e Q3 = 7,989 . Riordinando i lotti rispetto al numero di difetti si ottiene: Lotto 3 5 1 8 4 2 7 9 10 6 N.difetti 0 0 1 1 2 4 5 8 12 21 3.12 Si ottengono due valori mediani: 2 e 4 che possiamo sintetizzare con la semisomma M = 3 . e Come si può notare, la somma degli scarti in valore assoluto per c=2 è pari a 46, un valore uguale a quello che si ottiene considerando gli scarti dalla mediana. Tuttavia ciò non contraddice la proprietà della mediana. 3.13 X1 = 2 e X2 = 8 Soluzione Esercizio 3.14 a. Per le imprese la moda del Settore di attività economica è “Altri Servizi”; per individuare la classe modale è necessario prima di tutto chiudere l’ultima classe, ad esempio a 500, e rendere contigue le classi di addetti diminuendo di 0,5 l’estremo inferiore e aumentando di 0,5 l’estremo superiore di ciascuna classe. Poi, dividendo ogni frequenza per la corrispondente ampiezza della classe, si perviene all’individuazione della classe modale che risulta essere la prima, formata da un solo addetto. Classi di addetti 0,5-1,5 1,5-9,5 9,5-19,5 19,5-49,5 49,5-249,5 249,5-500,5 Ampiezza 1 8 10 30 200 251 Imprese Freq./amp. 2555566 2555566,0 1594136 199267,0 141065 14106,5 54963 1832,1 21922 109,6 3435 13,7 b. Per calcolare la mediana si deve applicare la formula per un carattere suddiviso in classi. Considerando la suddivisione in classi utilizzata al punto precedente, si ottiene che la classe mediana è la prima e poiché formata da sole imprese con un addetto M e = 1 . Considerando il numero totale di imprese e di addetti, la media aritmetica del carattere Addetti è X= 16.813.193 = 3,85 . 4.371.087 c. Come visto al punto b., bisognerà applicare la formula per un carattere suddiviso in classi. Poiché la frequenza relativa cumulata corrispondente alla prima classe è 0,58, il valore del primo quartile coincide con quello del secondo quartile (la Mediana) ossia a 1. La frequenza relativa cumulata della seconda classe è 0,95, pertanto il terzo quartile è dato da ⎛ 0,75 − 0,585 ⎞ Q3 = 1,5 + ⎜ ⎟ ⋅ 8 = 5,13 . ⎝ 0,949 − 0,585 ⎠ 6.553.294 = 5,90 ; Il numero 1.109.893 4.445.084 = = 2,92 ; Il numero 1.522.145 d. Il numero medio di addetti del settore “Industria” è X Ind = medio di addetti del settore “Commercio e alberghi” è X Com medio di addetti del settore “Altri servizi” è X Alt = 5.814.815 = 3,34 . 1.739.049 Soluzione Esercizio 3.15 Classe superf. cj nj cj ⋅nj 0-1 1-2 2-3 3-5 5-10 10-20 20-40 40 Totale 0,5 1,5 2,5 4 7,5 15 30 40 120 160 220 212 205 110 65 21 1113 60 240 550 848 1537,5 1650 1950 840 7675,5 La superficie media delle aziende è X = 7675,5 = 6,90 . 1113 Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 4 home - indice Es. In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali. 4.1 a. Utilizzando le formule 3.2.3 e 4.3.1 rispettivamente per la media e la varianza si ottiene: X = 88,82 e σ 2 = 3117,64 b. Dalla 4.3.7 si ottiene CV = (55,84 / 88,82) ⋅100 = 62,87% 4.2 a. Utilizzando le formule 3.2.3 e 4.3.1 si ottiene: per il Piemonte X = 38,08 e σ 2 = 479,54 da cui CV = 57,51% ; per la Campania X = 31,80 e σ 2 = 459,47 da cui CV = 67,41% . b. Come si può evincere dai valori della varianza, il Piemonte possiede una variabilità assoluta maggiore di quella della Campania. c. Guardando al valore del coefficiente di variazione si può concludere, diversamente da quanto si poteva evincere dalla varianza, che la Campania possiede una variabilità relativa maggiore di quella del Piemonte. 4.3 a. R = 18 e W = 3 . b. Supponiamo che il valore 18 è errato e, ad esempio, in realtà il vero valore fosse 8. In questo caso il campo di variazione darebbe sempre un altro valore (in questo caso R = 8 ). Nel caso della differenza interquartilica il valore rimane inalterato se il vero valore è, come in questo caso, un valore estremo; potrebbe invece dare un diverso valore se il vero valore cadesse all’interno del 50% di quelli più centrali (ad esempio se fosse pari a 1, si avrebbe W = 2 ). 4.4 a. Disponendo dell’ammontare di ferro per ogni classe, per calcolare la media e la varianza si utilizza al posto del valore centrale il valore medio della classe (si veda nota pag.75). Utilizzando le formule 3.2.3 e 4.3.1 si ottiene: per il terreno A, X = 31,93 e σ 2 = 1055,43 ; per il terreno B, X = 41,36 e σ 2 = 420,01 . Pertanto, il terreno A ha una maggiore variabilità della quantità di ferro rispetto al terreno B. b. Utilizzando la formula approssimata 4.7.7 si ottiene: per il terreno A, R = 0,54 ; per il terreno B, R = 0,27 . Pertanto nel terreno A è maggiore la concentrazione di ferro. Dal grafico della curva di Lorenz si può osservare che la curva corrispondente al terreno A dista dalla bisettrice più di quella del terreno B, indicando una maggiore concentrazione di ferro. Curva di Lorenz - Terreno B 1 1 0,9 0,9 0,8 0,8 0,7 0,7 0,6 0,6 Qi Qi Curva di Lorenz - Terreno A 0,5 0,5 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0 0 0 0,2 0,4 0,6 0,8 1 0 0,2 0,4 0,6 0,8 1 Fi Fi 4.5 a. Considerando i dati delle tre ripartizioni per il 1971, si hanno i seguenti risultati: Nord Centro X = 3,07 X = 3,29 σ 2 = 2,02 σ 2 = 2,04 CV = 46,29% CV = 43,41% 2 X = 3,53 σ = 2,53 CV = 45,06% Mezzogiorno pertanto, sulla base dei coefficienti di variazione, il Nord possiede la maggiore variabilità anche se non molto diversa da quelle delle altre due ripartizioni. b. Considerando i dati delle tre ripartizioni per il 1981, si hanno i seguenti risultati: Nord Centro X = 2,80 X = 2,97 σ 2 = 1,81 σ 2 = 1,87 CV = 48,05% CV = 46,04% 2 X = 3,24 σ = 2,35 CV = 47,31% Mezzogiorno Pertanto, sulla base dei coefficienti di variazione, il Nord possiede ancora la maggiore variabilità anche se non molto diversa da quelle delle altre due ripartizioni. c. E’ da notare come in un decennio il numero medio di componenti per nucleo famigliare sia sceso di numero in tutte e tre le ripartizioni territoriali. Dal punto di vista della variabilità questa è diminuita in termini assoluti, ma leggermente aumentata in termini relativi. Guardando al confronto tra l’Italia nel 1971 e nel 1981 si ha: Italia, ‘71 Italia, ‘81 4.6 X = 3,26 X = 2,98 σ 2 = 2,22 σ 2 = 2,03 CV = 45,70% CV = 47,81% a. Per i pesci maschi si ha: σ = 1,05 ; W = 1,1 ; S x = 0,79 ; S Me = 0,79 ; R = 4 ; mentre per le femmine si ha: σ = 0,30 ; W = 0,4 ; S x = 0,252 ; S Me = 0,25 ; R = 1 . Tutti gli indici di variabilità segnalano che il peso dei pesci di sesso femminile ha una minore variabilità rispetto a quello dei pesci di sesso maschile. b. Il grafico che segue evidenzia una forte differenza tra le due distribuzioni dei pesi dei pesci. In particolare i maschi pesano in generale di più delle femmine (si veda il valore della mediana) ma possiedono anche una maggiore variabilità (si veda la diversa altezza del box). c. Avendo impostato il valore del coefficiente λ = 1,5 , si può osservare dal grafico sottostante che la distribuzione dei pesci maschi presenta un peso di valore anomalo. Infatti si ha che: valori anomali per i maschi: x < 1,55 e x > 5,95 valori eccedenti per i maschi: x < −0,1 e x > 7,6 valori anomali per le femmine: x < 1,1 e x > 2,7 x < 0,5 e x > 3,3 valori eccedenti per le femmine: Pertanto l’unico valore anomalo è dato dal peso 1,2 tra i pesci maschi. 4.7 a. Dalla 4.4.1 si ricava con facili passaggi la disuguaglianza f ( x i − x ≤ kσ ) > 1 − kσ = 2,5 , ossia k = 2,5 da cui la frequenza minima pari a 0,84. b. Dalla 4.4.1 si ricava che kσ = 2 , k = 1 e la frequenza massima pari a 1. 4.8 1 k2 . Pertanto si ha che a. Per la proprietà della media aritmetica in appendice A4.2 si ha: 2 x + 1 = 25 e quindi la media dell’età corrente è x = 12 . b. Per la proprietà 4.3.5 si ha: 4σ 2 = 10,24 e quindi la varianza dell’età corrente è σ 2 = 2,56 . c. Il coefficiente di variazione dell’età corrente è CV = 13,33% . 4.9 4.10 1 n 2 ∑ x , quindi dalla 4.3.3 si ottiene: n i =1 i σ 2 = 173 − (13) 2 = 4 e dunque σ = 2. b. Dalla proprietà della media aritmetica in appendice A4.2 e dalla proprietà 4.3.5 si ottiene: x = 3(13) = 39 e σ = 3(2) = 6 . a. Il momento non centrato di ordine due è dato da a. La media e la deviazione standard sono rispettivamente: x = 21,811 e σ = 3,159 -1,934 -0,098 0,281 -0,003 -0,415 0,756 -0,352 2,054 -0,288 b. Il valore 2,054 può essere considerato un valore anomalo. c. Si ha k = 2 e la frequenza massima è pari a 0,25 . 4.11 4.12 a. Si ha x = 0,05 e σ = 1,20 . b. La frequenza minima è data da 0,56 nel primo caso e 0,84 nel secondo caso. c. Nel primo caso, la frequenza relativa delle unità che cadono tra -1,75 e 1,85 è pari a 0,75; nel secondo caso, la frequenza relativa delle unità che cadono tra -2,95 e 3,05 è pari a 1. Poiché k = 1,4 , si ha che la frequenza massima è data da: 1⎛ 1 ⎜ 2 ⎜⎝ k 2 ⎞ ⎟⎟ = 0,255 . ⎠ 4.13 Applicando la 4.4.2 si ha che la frequenza massima di bambini con altezza superiore a 140 cm è pari a 0,54. Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 5 home - indice Es. In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali. 5.1 a. Il grafico dei redditi da lavoro dipendente e indipendente mostra un andamento crescente per entrambe le serie storiche. In particolare, I redditi da lavoro dipendente sono sempre superiori a quelli da lavoro indipendente e la differenza sembra aumentare nel tempo. Redditi (mld di lire) 120000 100000 80000 60000 40000 20000 0 1970 1971 1972 1973 1974 lav. dip. 1975 1976 1977 lav. indip. b. La seguente tabella mostra i tassi percentuali di variazione per i redditi da lavoro dipendente e indipendente: 1971/70 1972/71 1973/72 1974/73 1975/74 1976/75 1977/76 Tassi % di variazione Lav. Dip. Lav. Indip. 114,4 109,7 111,1 107,8 121,6 119,1 124,4 126,0 121,4 126,1 121,9 121,2 122,0 123,8 Il grafico mostra che entrambe le serie dal 1972 al 1974 sono aumentate in modo crescente e poi, dal 1974 in poi, la crescita si stabilizza fino a rallentare leggermente. Tassi % di variazione 130 125 120 115 110 105 100 95 71/70 72/71 73/72 74/73 lav. dip. 75/74 76/75 77/76 lav. indip. Tutte le operazioni per il calcolo della soluzione sono disponibili in una cartella Excel. 5.2 a. La serie storica del Numero di dipendenti è: anno Num. dipendenti 1983 295079,8 1984 312784,5 1985 362830,1 1986 446281 1987 540000 Dalla serie dei tassi di variazione si ottiene il numero di dipendenti del 1986 nel seguente modo: b. ⎛ 121 ⎞ 540000⎜ ⎟ ⎝ 100 ⎠ −1 = 446281 . Numero di dipendenti 600000 500000 400000 300000 200000 100000 0 1983 5.3 1984 1985 1986 1987 a. Olio A Olio B anno Base fissa Base mobile Base fissa Base mobile 2000 100,0 100,0 2001 109,4 102,4 109,4 102,4 2002 112,5 114,3 102,9 111,6 2003 143,8 138,1 127,8 120,8 b. La variazione relativa percentuale dal 2002 al 2003 è del 43,8%. c. Per ottenere la variazione relativa dei numeri indici bisogna dividere il numero indice dell’anno t per quello dell’anno precedente t-1, ad esempio 112,5 / 109,4 = 1,03 . Olio A anno Base fissa Variazione Base mobile 2000=100 relativa 2003=100 2000 100,0 69,6 2001 109,4 1,09 76,1 2002 112,5 1,03 78,3 2003 143,8 1,28 100,0 Variazione relativa 1,09 1,03 1,28 Le variazioni relative delle due serie di numeri indici a base fissa sono uguali. In altre parole, passando da una base fissa a un’altra, la variazione relativa dei numeri indici rimane inalterata. 5.4 ⎛ 108 ⎞ ⎛ 107,4 ⎞ a. Si ottengono i prezzi dal 2001 al 2003 nel seguente modo: 2,5 ⋅ ⎜ ⎟ = 2,7 ; 2,7 ⋅ ⎜ ⎟ = 2,9 ; ⎝ 100 ⎠ ⎝ 100 ⎠ ⎛ 150 ⎞ 2,9 ⋅ ⎜ ⎟ = 4,4 . ⎝ 100 ⎠ b. Si ottengono i numeri indice a base mobile del 1999 e 2000 nel seguente modo: (2,3 2,1) ⋅100 = 109,5 ; (2,5 2,3) ⋅100 = 108,7 . c. La serie dei numeri indice a base fissa 2001 è la seguente: anno Prezzo Base fissa 1998 2,1 77,8 1999 2,3 85,2 2000 2,5 92,6 2001 2002 2003 5.5 2,7 2,9 4,4 100,0 107,4 163,0 a. La serie a base fissa 1993 è data nella seguente tabella. anno base mobile base fissa 1993 1989 0,55 1990 1,06 0,58 1991 1,12 0,65 1992 1,20 0,78 1993 1,28 1,00 1994 1,34 1,34 1995 1,45 1,94 1996 1,55 3,01 Per il passaggio dai numeri indici a base mobile a quelli a base fissa si è applicata la proprietà 3. 5.6 a. Le tre serie dei numeri indici semplici a base mobile sono mostrate nella seguente tabella: Data A B C 5/4/2004 6/4/2004 89,4 100,8 96,5 7/4/2004 128,6 102,8 93,3 8/4/2004 102,1 106,0 90,2 b. La serie dei numeri indici complessi con il metodo delle somme ponderate con base 5/4/2004 e pesi uguali alle quantità medie è mostrata nella seguente tabella: Data 5/4/2004 100,0 6/4/2004 96,3 7/4/2004 102,9 8/4/2004 103,7 c. La serie dei numeri indici dei prezzi di Laspeyres è mostrata nella seguente tabella: Data 5/4/2004 100,0 6/4/2004 95,8 7/4/2004 104,3 8/4/2004 105,7 d. La serie dei numeri indici dei prezzi di Paasche è mostrata nella seguente tabella: Data 5/4/2004 100,0 6/4/2004 96,3 7/4/2004 101,6 8/4/2004 99,0 5.7 a. La seguente tabella mostra la paga media settimanale espressa a prezzi correnti e prezzi costanti: anno 1983 1984 1985 1986 Paga prezzi prezzi caro vita correnti costanti 83,27 200 240,2 92,08 220 238,9 100,0 250 250,0 106,1 290 273,3 1987 5.8 111,0 310 279,3 Le serie dei numeri indici a base fissa e a base mobile delle quantità di produzione rispettivamente di Filati e Tessuti sono mostrate nella seguente tabella: Quantità anno 1983 1984 1985 1986 1987 Filati 216578 230540 221115 230323 261271 Tessuti 205958 231391 226401 226692 224311 Num. Ind. Filati Base Base fissa mobile 97,9 104,3 106,4 100,0 95,9 104,2 104,2 118,2 113,4 Num. Ind. Tessuti Base Base fissa mobile 91,0 102,2 112,3 100,0 97,8 100,1 100,1 99,1 99,0 Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 6 home - indice Es. In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali. 6.1 a. Le distribuzioni relative condizionate dell’Età rispetto all’Abitudine al fumo sono mostrate nella seguente tabella: Età Abitudine al fumo 14 - 30 30 - 50 50 - 90 Totale 0,24 0,41 0,35 1 Fumatore 0,20 0,40 0,40 1 Ex fumatore 0,25 0,28 0,47 1 Non Fumatore 0,24 0,33 0,43 1 Totale b. Considerando le distribuzioni condizionate trovate al punto precedente, si ottengono i seguenti valori: Y X =Fumatore = 22 ⋅ 0,24 + 40 ⋅ 0,41 + 70 ⋅ 0,35 = 46,35 σ Y2 / X =Fumatore = (22 − 46,35) 2 ⋅ 0,24 + (40 − 46,35) 2 ⋅ 0,41 + (70 − 46,35) 2 ⋅ 0,35 = 353,52 In modo analogo si ottengono: Y X =Ex −Fumatore = 48,4 σ Y2 / X =Ex −Fumatore = 354,24 Y X =Non −Fumatore = 49,56 σ Y2 / X =Non −Fumatore = 411,43 c. Età Abitudine al fumo 14 - 30 30 - 50 50 - 90 Totale Fumatore 35 65 45 145 Ex fumatore 7 15 17 39 Non Fumatore 90 115 147 352 Totale 132 195 209 536 d. Età Abitudine al fumo 14 - 30 30 - 50 50 - 90 Totale Fumatore 0,24 0,45 0,31 1 Ex fumatore 0,18 0,38 0,44 1 Non Fumatore 0,26 0,33 0,41 1 Totale 0,25 0,36 0,39 1 Considerando le distribuzioni condizionate, si ottengono i seguenti valori: Y X =Fumatore = 22 ⋅ 0,24 + 40 ⋅ 0,45 + 70 ⋅ 0,31 = 44,97 σ Y2 / X =Fumatore = (22 − 44,97) 2 ⋅ 0,24 + (40 − 44,97) 2 ⋅ 0,45 + (70 − 44,97) 2 ⋅ 0,31 = 332,86 In modo analogo si ottengono: Y X =Ex −Fumatore = 49,85 σ Y2 / X =Ex −Fumatore = 353,51 Y X =Non −Fumatore = 47,93 σ Y2 / X =Non −Fumatore = 395,87 Tutte le operazioni per il calcolo della soluzione sono disponibili in una cartella Excel. 6.2 a. Nella seguente tabella sono mostrate le distribuzioni condizionate della Statura rispetto alle classi di Peso dei Maschi e delle Femmine: Maschi cj 162,5 167,5 172,5 180 40 – 50 0,6 0,3 0,1 0 50 - 75 0,27 0,35 0,29 0,09 Femmine 75 - 90 0,09 0,12 0,33 0,46 40 – 50 0,62 0,24 0,12 0,02 50 - 75 0,26 0,41 0,22 0,11 75 - 90 0,05 0,27 0,26 0,42 Da tali distribuzioni si ricavano le medie condizionate, in particolare: Statura Media Maschi Femmine 165,0 165,3 168,7 168,7 174,5 173,8 Peso 40 – 50 50 - 75 75 - 90 Si può osservare che al crescere di classe di Peso, la Statura media aumenta sia per i maschi sia per le femmine; inoltre, nella prima classe di Peso la statura media delle femmine è leggermente superiore a quella dei maschi; sono praticamente uguali nella classe di Peso centrale; la statura media dei maschi è decisamente superiore a quella delle femmine nell’ultima classe di Peso. b. Nella seguente tabella sono mostrate le distribuzioni condizionate del Peso rispetto alle classi di la Statura dei Maschi e delle Femmine: Statura 45 160-165 165-170 170-175 175-185 0,14 0,06 0,01 0,00 Maschi 62,5 82,5 45 Femmine 62,5 82,5 0,63 0,68 0,43 0,15 0,23 0,26 0,56 0,85 0,53 0,21 0,18 0,06 0,45 0,69 0,64 0,50 0,02 0,10 0,18 0,44 Da tali distribuzioni si ricavano le medie condizionate, in particolare: Peso Medio Maschi Femmine 64,7 53,6 66,7 60,8 73,5 63,0 79,5 70,3 Statura 160-165 165-170 170-175 175-185 Si può osservare che al crescere di classe di Statura, il Peso medio aumenta sia per i maschi sia per le femmine; inoltre, per tutte le classi di Statura, il Peso medio dei maschi è sempre superiore a quello delle femmine. c. Per calcolare il baricentro dei maschi e delle femmine rispetto ai due caratteri Statura e Peso dobbiamo calcolare la media dei due caratteri rispetto alle distribuzioni marginali. Quindi: 45 62,5 82,5 Peso Maschi 10 99 112 Femmine 41 81 19 Tot. 221 141 cj Si ottiene allora: • Baricentro Maschi • Baricentro Femmine (71,8 Kg; 171,5 cm) (60,1 Kg; 168,4 cm) cj 162,5 167,5 172,5 180 Tot. Statura Maschi 43 50 67 61 221 Femmine 47 48 28 18 141 d. La seguente tabella mostra le distribuzioni di frequenze doppie cumulate rispettivamente dei maschi e delle femmine. maschi 40-50 50-75 75-90 160-165 6 33 43 165-170 9 70 93 170-175 10 100 160 175-185 10 109 221 40-50 25 35 40 41 femmine 50-75 75-90 46 47 89 95 112 123 122 141 Per semplificare il confronto si possono considerare le distribuzioni di frequenze relative: 160-165 165-170 170-175 175-185 6.3 40-50 0,03 0,04 0,05 0,05 maschi 50-75 0,15 0,32 0,45 0,49 75-90 0,19 0,42 0,72 1 40-50 0,18 0,25 0,28 0,29 femmine 50-75 75-90 0,33 0,33 0,63 0,67 0,79 0,87 0,87 1 a. Il baricentro dato da: (175,25; 4388,29) b. Dal grafico di dispersione si può osservare che all’aumentare della Densità di popolazione aumenta, anche se lievemente, il Numero di delitti. 14000 Numero di delitt 12000 10000 8000 6000 4000 2000 0 0 50 100 150 200 250 300 350 400 450 Densità della popolazione 6.4 a. La seguente tabella mostra la distribuzione semplice del carattere Durata del periodo di disoccupazione: Durata 1-7 8-14 15-30 >30 totale Freq. 57 35 17 16 125 b. La seguente tabella mostra le distribuzioni percentuali condizionate del carattere Durata del periodo di disoccupazione rispetto alle classi d’Età: Età <35 Durata 1-7 45,00 8-14 37,50 15-30 8,75 >30 8,75 Totale 100,00 >=35 46,67 11,11 22,22 20,00 100,00 c. Dalla precedente tabella si può notare che passando dalla prima classe di Età alla seconda, la percentuale di individui il cui periodo di disoccupazione dura più di 14 giorni è più del doppio passando dal 17,5% (8,75+8,75) al 42,22% ( 22,22+20). Ciò mette in luce una relazione tra i due caratteri per la quale passando la disoccupati giovani (meno di 35 anni) a disoccupati adulti la durata della disoccupazione tende a crescere. 6.5 a. Si hanno i seguenti risultati: moglie marito media 31,6 35,8 Età varianza 118,44 97,56 Pertanto le mogli sono mediamente più giovani dei mariti e possiedono una maggiore variabilità. b. Dal grafico di dispersione si evince che all’aumentare dell’età della moglie aumenta quella del marito. 60 55 50 Età marito 45 40 35 30 25 20 15 10 15 20 25 30 35 40 45 50 55 Età moglie 6.6 a. Logicamente dipendenti. Infatti, è noto che la temperatura incide sulla produzione degli agrumi e che sue b. c. d. e. f. g. h. i. j. k. variazioni possono, in assenza di tecnologie idonee (serre, processi di irrigazione, ecc), far variare sensibilmente la produzione. Logicamente dipendenti. L’acquisto di automobili da parte delle famiglie è logicamente dipendente dal loro reddito medio. Logicamente indipendenti. Il numero mensile di nati certamente non dipende dal numero di incidenti stradali. Logicamente dipendenti. Tuttavia, in questo caso la relazione può essere molto complessa e coinvolgere altre grandezze economiche. Logicamente indipendenti. Chiaramente l’uno non può influire sull’altro. Tuttavia sussiste una relazione spuria se si considera che l’appartenenza a una razza può rendere più frequenti alcuni tratti somatici. Logicamente indipendenti. Ciò naturalmente è vero a parità di condizioni (professione, progressione in carriera, titolo di studio, età, …). La discriminazione tra i due sessi si può invece verificare nell’accesso alle professioni e nella progressione in carriera. Vi possono comunque essere eccezioni in paesi e culture particolari. Logicamente indipendenti. Anche in questo caso si possono avere delle associazioni spurie indotte dal reddito individuale nella regione considerata. Ad esempio, se si verifica una crisi economica ci si attende un aumento del numero di disoccupati, una diminuzione del reddito pro-capite e una conseguente riduzione della spesa procapite per vacanze. Logicamente dipendenti. Anche in questo caso si è ha conoscenza che il fertilizzante influisce sull’altezza dei fusti delle piante. Logicamente indipendenti. In questo caso si può notare un’associazione spuria tra i due caratteri dovuta alla situazione economica del paese. Logicamente dipendenti. E’ noto che all’aumentare del livello d’istruzione aumenta anche la propensione alla lettura. Logicamente dipendenti. Il livello di istruzione della donna influisce in modo rilevante sul desiderio di maternità, portando a dei modi e tempi diversi nella scelta di procreare. Molti studi demografici hanno mostrato l’influenza del livello di istruzione sul comportamento riproduttivo della donna. In particolare, a parità di altre condizioni, all’aumentare del livello di istruzione della donna diminuisce il numero di figli. 6.7 Per poter calcolare la tabella doppia di frequenze nel caso d’indipendenza attraverso le distribuzioni di frequenze semplici utilizziamo la formula 6.5.2. Gradimento Musica molto abbastanza poco per niente molto Gradimento Film abbastanza poco per niente 33,339 37,224 33,016 19,421 123 42,013 14,095 13,553 103 46,908 15,737 15,132 115 41,605 13,958 13,421 102 24,474 8,211 7,895 60 155 52 50 380 6.8 Considerando le tabelle da sinistra verso destra e dall’alto verso il basso, si ha che: • nella prima tabella i due caratteri non sono indipendenti ma neppure perfettamente associati; • nella seconda tabella i due caratteri sono indipendenti; le righe (o colonne) sono fra loro proporzionali. • nella terza tabella i due caratteri sono indipendenti; le righe (o colonne) sono fra loro proporzionali. • nella quarta tabella i due caratteri non sono indipendenti ma neppure perfettamente associati; • nella quinta tabella i due caratteri sono perfettamente associati; • nella sesta tabella i due caratteri non sono indipendenti ma neppure perfettamente associati; • nella settima tabella i due caratteri non sono indipendenti ma neppure perfettamente associati; • nell’ottava tabella i due caratteri sono perfettamente associati; 6.9 La tabella di indipendenza tra i due caratteri è la seguente: Livello di traffico Basso Medio Alto Sereno 39,781 49,726 31,493 Tempo Variabile 51,287 64,110 40,603 Pioggia 28,932 36,164 22,904 Tot. 120 150 95 Tot. 121 156 88 365 Applicando le formule 6.6.1, 6.6.3, 6.6.6 si ottengono i seguenti risultati: χ 2 = 169,2 ; Φ 2 = 0,46 ; V = 0,48 ; alla luce dei risultati ottenuti possiamo concludere che si è osservata una discreta associazione tra il livello di traffico e il tempo meteorologico. 6.10 La tabella di indipendenza tra i due caratteri è la seguente: Colore Rosso Verde Blu Tot. Quadrata 1115,85 750 1134,15 3000 Forma Rettangolare 1022,87 687,5 1039,63 2750 Esagonale 911,28 612,5 926,22 2450 Tot. 3050 2050 3100 8200 I due caratteri esaminati sono di tipo qualitativo sconnesso, pertanto per misurare l’associazione si potrà utilizzare l’indice Chi-quadrato o i corrispondenti indici relativi. Applicando le formule 6.6.1, 6.6.3, 6.6.6 si ottengono i seguenti risultati: χ 2 = 5273,88 ; Φ 2 = 0,64 ; V = 0,57 . Alla luce dei risultati ottenuti possiamo concludere che si è osservata una discreta associazione tra la forma e il colore delle confezioni. Particolarmente significative risultano le combinazioni Esagonale-Rossa, Rettangolare-Blu e Quadrata-Verde. 6.11 a. Utilizzando la tabella d’indipendenza sottostante: Sesso maschi femmine 14-30 19,52 16,48 30-45 49,88 42,12 45-60 78,61 66,39 si ottiene, χ 2 = 1,06 ; calcolando l’indice V = 0,004 possiamo concludere che tra i due caratteri sussiste l’indipendenza. b. Utilizzando la tabella d’indipendenza sottostante: Sesso maschi femmine basso 56,38 47,62 Reddito medio 74,81 63,19 alto 16,81 14,19 si ottiene, χ 2 = 3,52 ; calcolando l’indice V = 0,013 possiamo concludere che tra i due caratteri sussiste l’indipendenza. c. La tabella di frequenze doppia tra Reddito ed Età è la seguente: Reddito Età basso medio alto 11 3 14-30 22 49 11 30-45 32 78 17 45-60 50 Le formule 6.7.1 e 6.7.2 richiedono il calcolo del numero di coppie di unità ordinate allo stesso modo su entrambi i caratteri, N s ; di quelle ordinate in modo differente sui due caratteri, N d ; del numero di quelle che rispetto a uno dei due caratteri presentano uguale modalità, T x e T y . Si trova quindi: N s = 3410 + 308 + 3040 + 833 = 7591 ; N d = 627 + 902 + 1408 + 2450 = 5387 ; T x = 308 + 33 + 1920 + 539 + 4750 + 1326 = 8876 ; Ty = 1804 + 1600 + 1397 + 3822 + 84 + 187 = 8894 , da cui si ottiene: γ = 0,17 e τ b = 0,10 . Dai valori dei due indici si può concludere che ci troviamo quasi in assenza di associazione tra i due caratteri. d. Le distribuzioni relative condizionate dell’Età rispetto al Sesso sono mostrate nella seguente tabella: Età Sesso 14-30 30-45 45-60 Totale 1 maschi 0,115 0,331 0,554 1 femmine 0,152 0,344 0,504 6.12 a. Si ha: χ 2 = 5,396 ; V = 0,115 ossia quasi assenza di associazione tra i due caratteri. Anche l’indice λ = 0,013 indica che il Tempo occorso per trovare lavoro dopo la laurea non dipende dal luogo di Residenza. b. Si ha: χ 2 = 23,528 ; V = 0,376 ossia una debole associazione tra i due caratteri. L’indice λ = 0,058 indica che il Voto dipende molto debolmente dal Sesso. c. Si ha: χ 2 = 0,781 ; V = 0,076 ossia i due caratteri sono praticamente indipendenti. L’indice λ = 0 indica che il Tempo occorso per trovare lavoro non dipende dal Sesso. d. Si ha: χ 2 = 10,588 ; V = 0,253 ossia una debole associazione tra i due caratteri. L’indice λ = 0 indica che la Condizione occupazionale non dipende dal Sesso. e. Si ha: χ 2 = 3,675 ; V = 0,111 ossia quasi assenza di associazione tra i due caratteri. L’indice λ = 0 indica che f. il Numero di figli non dipende dalla Posizione nella professione. Si ha: γ = −0,044 ; τ b = −0,034 ossia quasi assenza di associazione tra i due caratteri. g. Si ha: χ 2 = 4,551 ; V = 0,117 ossia quasi assenza di associazione tra i due caratteri. L’indice λ = 0 indica che il Numero di anni non dipende dal Tipo di diploma. 6.13 Dalla 6.7.3 si ha ρ s = 0,847 . Considerando il suo quadrato (ρ s )2 = 0,717 possiamo dire che l’errore nel prevedere il rango di arrivo di uno sciatore rispetto allo Slalom speciale può essere ridotto del 71,7% se si tiene conto del rango di arrivo del medesimo sciatore rispetto allo Slalom gigante. 6.14 a. Consideriamo i valori centrali delle classi del Voto ossia: 83, 88, 93, 98, 103, 108. Applicando la 6.8.6 si 2 ottiene: ηVoto laurea / Sesso = 0,107 . Si può concludere che il Voto non dipende dal Sesso. b. Consideriamo i valori centrali delle classi del Voto ossia: 83, 88, 93, 98, 103, 108. Applicando la 6.8.6 si 2 ottiene: ηVoto laurea / Tit.studio = 0,013 . Si può concludere che il Voto non dipende dal Titolo di studio del padre. Il seguente grafico mostra la spezzata di regressione: 110 105 Voto 100 95 90 85 80 Lic. Elem. Lic. Media Diploma Laurea Titolo di studio del padre 6.15 Consideriamo i valori centrali delle classi delle Ore lavorative ossia: 170, 190, 210, 230. La media e la varianza del Voto è: y = 203,91 e σ y2 = 386,14 ; mentre le medie condizionate del Voto rispetto alla Posizione sono: y ricerc. = 201,16 y 1° ricerc. = 207,78 2 y dirig . = 210,00 . Si ricava che σ Media ( y / x ) = 12,92 e quindi dalla 6.8.6, 2 ηVoto laurea / Posizione = 0,033 . Il valore è molto vicino a 0, che coincide con l’indipendenza in media (perché tutte le medie condizionate sono uguali tra loro). Se ne deduce che il Numero di ore di lavoro è indipendente in media dalla Posizione professionale. 6.16 Le medie e le deviazioni standard dei due caratteri sono rispettivamente: xTal = 57,63 σ Tal = 4,680 x Pil / ab = 5,1 σ Pil / abl = 1,185 . Applicando la formula 6.9.1 otteniamo il valore della covarianza: σ xy = −3,613 . Dalla 6.9.4 si ottiene: ρ xy = −0.651 . Si può concludere che i due caratteri sono tra loro correlati negativamente. 6.17 Per poter risolvere il problema occorre conoscere il valore di n. In realtà è facile verificare che qualsiasi valore di n maggiore di 1 porterebbe al calcolo di un valore negativo della varianza della Y. Assumeremo quindi che 1 1 2 2 ∑ x i = 18 e ∑ y i = 42 n i n i a differenza di quanto riportato nel testo dell’esercizio. Possiamo riscrivere il coefficiente di correlazione nella seguente forma: σ xy Media( XY ) − x ⋅ y ρ xy = = σ xσ y ⎛1 2 2 ⎞⎛ 1 2 2⎞ ⎜ ∑ x i − x ⎟⎜ ∑ y i − y ⎟ ⎝n i ⎠⎝ n i ⎠ da cui facilmente si ottiene: ρ xy = 20 − (2,5 ⋅ 6,2) (1,8 − (2,5) )(42 − (6,2) ) 2 2 = 0,696 6.18 Si ottengono i seguenti valori: ρ Francia = 0,993 ρ Germania = 0,987 ρGrecia = 0,894 ρ Spagna = 0,960 Come si può notare, per tutti i paesi considerati la correlazione tra importazioni ed esportazioni è molto elevata e positiva. Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 8 Es. 8.1 . a. L’insieme degli eventi elementari è: , 15),(16 ),(21)( , 22 ),(23),(24 ),(25),(26 ),(31),(32 ),(33),(34 ),(35),(36 ), ⎫ ⎧(11),(12),(13),(14)( Ω=⎨ ⎬ , 64 ),(65),(66 )⎭ ⎩(41),(42),(43),(44),(45),(46 ),(51),(52 ),(53),(54 ),(55),(56 ),(61),(62 ),(63)( b. Detto A l’evento “punteggio complessivo >6” o equivalentemente “somma dei due dadi > 6”: n. di casi favorevoli 21 P ( A) = = n. di casi possibili 36 8.2 Ε sono: ({ }) = 14 P ({CC}) = 14 Le probabilità degli eventi appartenenti a ( ) ({ }) 1 P (∅ ) = 0 P TT = P TC 4 P 1 = P CT 4 ({(TT ), (TC )}) = 24 P ({(TT ), (CC )}) = 24 P ({(TC ), (CT )}) = 24 P ({(TT ), (CC )}) = 24 P ({(TC ), (CC )}) = 24 P ({(CT ), (CC )}) = 24 ({(TT ), (TC ), (CT )}) = 34 P ({(TT ), (TC ), (CC )}) = 34 P ({(TT ), (CT ), (CC )}) = 34 P ({(TC ), (CT ), (CC )}) = 34 P (Ω ) = 1 P 8.3 a. L’insieme degli eventi elementari è: Ω = {(TTT ),(TTC ),(TCT ),(CTT ),(CCT ),(CTC ),(TCC )( , CCC )} b. Detto A l’evento “almeno una volta testa” e A l’evento complementare “nessuna testa nei tre lanci”: 1 7 P ( A) = 1 - P ( A ) = 1 − = 8 8 8.4 Detto A l’evento “punteggio = 6” e B l’evento “punteggio pari”: casi favorevoli a ( A ∩ B ) : {(6)} casi favorevoli a B : {(2), (4), (6)} P ( A ∩ B ) n. dei casi favorevoli ad (A ∩ B ) 1 = = P (A B) = n. dei casi favorevoli a B 3 P (B ) 8.5 Detto A l’evento “punteggio di uno dei due dati = 5” e B l’evento “punteggio complessivo = 9”: P ( A ∩ B) 2 I casi favorevoli a B sono Ω = {(36 ), (45), (54 ), (63)} da cui P ( A B ) = = . 4 P (B ) 8.6 Detto A l’evento “persona estratta maschio”, B l’evento “persona estratta credente”: 600 1000 700 b. P (B ) = 1000 350 c. P (A ∩ B ) = , 1000 a. P ( A) = d. P (B A ) = 8.7 ( ) n. dei casi favorevoli ad A ∩ B 50 = . 400 n. dei casi favorevoli a A Detto B l’evento “seconda pallina estratta rossa”, A l’evento “prima pallina estratta rossa” (dunque A è l’evento “prima pallina estratta non rossa, cioè bianca”: P (B ) = P (B ∩ ( A ∪ A )) = P ( A ∩ B ) + P ( A ∩ B ) , e utilizzando la formula (8.6.2) segue che, 60 59 40 60 5940 P ( A) = ⋅ + ⋅ = 100 99 100 99 9900 8.8 a. La probabilità degli eventi elementari è: P (prima, seconda e terza pallina estratta nera ) = 30 30 30 27 = 100 100 100 1000 P (prima e seconda pallina estratta nera, terza pallina estratta bianca ) = 30 100 30 P (prima e terza pallina estratta nera, seconda pallina estratta bianca ) = 100 30 P (prima pallina estratta bianca, seconda e terza pallina estratta nera ) = 100 30 P (prima pallina estratta nera, seconda e terza pallina estratta bianca ) = 100 70 P (prima e terza pallina estratta bianca, seconda pallina estratta nera ) = 100 70 P (prima e seconda pallina estratta bianca, terza pallina estratta nera ) = 100 70 70 70 343 P (prima, seconda e terza pallina estratta bianca ) = = 100 100 100 1000 30 100 70 100 30 100 70 100 30 100 70 100 70 100 30 100 70 100 70 100 70 100 30 100 = = = = = = 63 1000 63 1000 63 1000 147 1000 147 1000 147 1000 b. Dato che le palline si reimmettono nell’urna dopo la loro estrazione, si ha che l’informazione sul colore delle palline uscite nelle prime due estrazioni non influenza la probabilità di uscita di una pallina bianca alla terza estrazione. Dunque: P (terza pallina estratta bianca | prima e seconda pallina estratta bianca P (terza pallina estratta bianca 8.9 )= )= 70 100 Detto A1 l’evento “primo biglietto estratto vincente”, A2 l’evento “secondo biglietto estratto vincente”, B l’evento “almeno un biglietto estratto vincente”: 995 994 P (B ) = 1-P (B ) = 1-P (A1 ∩ A2 ) = 1-P (A1 )P (A2|A1 ) = 1 − 1000 999 8.10 Si consideri che le estrazioni, che determinano gli eventi, sono tra loro indipendenti e che non si tiene conto dell’ordine di estrazione. Si noti inoltre che nella Fig.8.2.1 non sono riportate tutte le possibili permutazioni: ad esempio, per l’evento A si ha che le possibili quaterne che presentano una pallina rossa, una nera e due bianche sono le seguenti: NRBB, NBRB, NBBR RNBB, BNRB, BNBR RBNB, BRNB, BBNR RBBN, BRBN, BBRN Nella Fig, 8.2.1 abbiamo riportato solamente una di queste possibili configurazioni (l’ultima). Quindi, in definitiva, per quanto riguarda l’evento A , abbiamo 12 possibili configurazioni tutte con uguale probabilità. Il calcolo si può effettuare nel modo seguente. a. P(A ) = P (siano estratte 2 bianche, 1 rossa, 1 nera ) = = P (nera, rossa, bianca, bianca ) × numero possibili combinazioni = ⎛ 20 30 50 50 ⎞ =⎜ ⎟ × 12 = 0,18 ⎝ 100 100 100 100 ⎠ b. In questo caso è possibile una notevole semplificazione dei calcoli considerando la probabilità di estrarre una pallina che non sia nera. P (B ) = P (non sia mai nera nelle quattro estrazioni ) = 20 ⎞⎛ 20 ⎞⎛ 20 ⎞⎛ 20 ⎞ ⎛ 80 80 80 80 ⎞ ⎛ = ⎜1 − ⎟⎜1 − ⎟⎜1 − ⎟⎜1 − ⎟=⎜ ⎟ = 0,4096 ⎝ 100 ⎠⎝ 100 ⎠⎝ 100 ⎠⎝ 100 ⎠ ⎝ 100 100 100 100 ⎠ c. In analogia a quanto detto per l’evento del punto a., si ottiene: ⎛ 50 50 50 50 ⎞ ⎛ 50 50 50 20 ⎞ ⎛ 50 50 50 30 ⎞ P (C ) = ⎜ ⎟ + 4×⎜ ⎟+ ⎟ + 4×⎜ ⎝ 100 100 100 100 ⎠ ⎝ 100 100 100 100 ⎠ ⎝ 100 100 100 100 ⎠ ⎛ 50 50 20 20 ⎞ ⎛ 50 50 30 30 ⎞ ⎛ 50 50 30 20 ⎞ + 4×⎜ ⎟ + 4×⎜ ⎟ + 12 × ⎜ ⎟ = 0,6225 ⎝ 100 100 100 100 ⎠ ⎝ 100 100 100 100 ⎠ ⎝ 100 100 100 100 ⎠ 8.11 Poichè siamo a conoscenza che la vettura estratta è difettosa, dalla formula (8.7.1) segue che: P ( proviene dallo stabilimento A vettura difettosa) = 0,1 ⋅ 0,1 0,01 = = 0,18 (0,1 ⋅ 0,1) + (0.05 ⋅ 0,3) + (0.05 ⋅ 0,6) 0,055 0,05 ⋅ 0,3 0,015 = = 0,27 ( 0,1 ⋅ 0,1) + (0.05 ⋅ 0,3) + (0.05 ⋅ 0,6) 0,055 0,05 ⋅ 0,6 0,015 P ( proviene dallo stabilimento C vettura difettosa) = = = 0,55 (0,1 ⋅ 0,1) + (0.05 ⋅ 0,3) + (0.05 ⋅ 0,6) 0,055 P ( proviene dallo stabilimento B vettura difettosa) = 8.12 In questo caso lo spazio campionario è Ω = {1,2,3,4,5,6} 4 3 ; P (B ) = ; dalla formula (8.4.1) si ha che 6 6 P (C ) = P (punteggio divisibile per 3) + P (punteggio divisibile per 5) − P (punteggio divisibile per 3 e per 5) = 3 2 1 = + −0 = 6 6 6 a. P (A ) = b. Dalla formula (8.6.1) si ha che 3 P (C ∩ A ) 6 3 P (C | A ) = = = 4 4 P (A ) 6 I tre eventi non sono indipendenti. Per dimostrare ciò, occorre dimostrare che non vale almeno una delle condizioni descritte nell’ultima nota del paragrafo (8.6). Ad esempio, si ha che: P (C ∩ B ) = 2 33 ≠ = P (B )P (C ) 6 66 Gli eventi A e C non sono indipendenti: infatti si ha P (C | A ) ≠ P (C ) 8.13 Detto A l’evento “lo studente conosce la risposta” e B l’evento “lo studente sceglie la risposta esatta”, si vuole determinare P(A | B) = probabilità che lo studente conosce la risposta sapendo che ha risposto esattamente. Sappiamo che P(B | A) = probabilità che sceglie la risposta esatta dato che conosce la risposta = 1 P(B | A ) = probabilità che sceglie la risposta esatta dato che non conosce la risposta = 1 = 0.25 4 Sulla base della formula (8.7.1), si ha che P (A | B ) = P (A ) ⋅ P (B | A ) ( ) ( P (A ) ⋅ P (B | A ) + P A ⋅ P B | A ) = 0 .4 ⋅ 1 = 0.72 0.4 ⋅ 1 + 0.6 ⋅ 0.25 Se la domanda ha 8 possibili risposte, si ha che P(B | A ) = probabilità che sceglie la risposta esatta dato che non conosce la risposta = 1 = 0.125 8 e dunque, dalla formula (8.7.1) P (A | B ) = = 0. 4 ⋅ 1 = 0.84 0.4 ⋅ 1 + 0.6 ⋅ 0.125 8.14 Detto A l’evento “l’individuo è fumatore”, B l’evento “l’individuo è affetto dalla patologia”, si ha: P (B ) = P (B ∩ A ) + P B ∩ A = P (A ) ⋅ P (B | A ) + P A ⋅ P B | A = 0.15 ⋅ 0.20 + 0.85 ⋅ 0.05 = 0.0725 ( ) ( ) ( ) 8.15 Dalla formula (8.6.3) i due eventi sono indipendenti se P ( A ∩ B ) = P ( A) ⋅ P (B ) = 0,1 pertanto si deve avere che P (B ) = 0,1 P ( A) = 0,1 0,2 = 0,5 , inoltre se sono indipendenti P (B A) = P (B ) = 0,5 . 8.16 Sia E1=Il primo laureato è in una delle tre squadre, E2=il secondo laureato è in una squadra diversa da quella del primo, E3= il terzo laureato è in una squadra diversa da quella degli altri due. Allora, 20 10 P(E1 ∩ E 2 ∩ E 3 ) = P(E1 ) ⋅ P(E 2 E1 ) ⋅ P(E3 E1 ∩ E 2 ) e poiché P(E1 ) = 1 , P (E 2 E1 ) = , P(E3 E1 ∩ E 2 ) = 29 28 20 10 si ha P(E1 ∩ E 2 ∩ E3 ) = 1 ⋅ ⋅ = 0,246 . 29 28 8.17 Dai dati si ottiene P(B ) = 0,2 ⋅ 0,5 + 0,5 ⋅ 0,4 + 0,8 ⋅ 0,1 = 0,38 e quindi applicando il teorema di Bayes si ha: 0,2 ⋅ 0,5 0,5 ⋅ 0,4 0,8 ⋅ 0,1 P( A1 B ) = = 0,26 , P (A2 B ) = = 0,53 , P (A3 B ) = = 0,21 . 0,38 0,38 0,38 Il medico prescriverà le medicine per la malattia A2 . 8.18 Dai dati si ottiene P (B ) = 0,7 ⋅ 0,5 + 0,3 ⋅ 0,1 + 0,5 ⋅ 0,4 = 0,58 e quindi applicando il teorema di Bayes si ha: 0,7 ⋅ 0,5 0,3 ⋅ 0,1 0,5 ⋅ 0,4 P( A1 B ) = = 0,60 , P (A2 B ) = = 0,05 , P ( A3 B ) = = 0,35 . 0,58 0,58 0,58 Si conclude che è più probabile che sia occupato. 8.19 Consideriamo i tre eventi: A=il tesoro si trova dietro la prima porta, B=il tesoro si trova dietro la seconda porta, C=il tesoro si trova dietro la terza porta. All’inizio del gioco il primo giocatore avrà 1 P( A) = P(B ) = P(C ) = . Il primo giocatore indica la prima porta e il secondo giocatore risponde aprendo la 3 seconda. A questo punto si ha che: 1 P (il secondo giocatore apre la seconda porta A ) = 2 P (il secondo giocatore apre la seconda porta B) = 0 P (il secondo giocatore apre la seconda porta C ) = 1 Applicando il teorema di Bayes si ottiene: (1 2) ⋅ (1 3) 1 = (1 2) ⋅ (1 3) + (0) ⋅ (1 3) + (1) ⋅ (1 3) 3 (1) ⋅ (1 3) 2 = P(C il secondo giocatore apre la seconda porta ) = (1 2) ⋅ (1 3) + (0) ⋅ (1 3) + (1) ⋅ (1 3) 3 P(A il secondo giocatore apre la seconda porta ) = Quindi al giocatore converrà sempre cambiare porta. Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 9 Es. 9.1 In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali. a. Si, X , il numero di parassiti su una foglia è possibile considerarla come una variabile casuale. b. La distribuzione di probabilità di X è data da: P(X P(X P(X P( X = 0) = P ( X < 1) = 1 − P ( X ≥ 1) = 1 − 70 100 = 30 100 = 1) = P ( X ≥ 1) − P ( X ≥ 2) = 70 100 − 65 100 = 5 100 = 2) = P ( X ≥ 2) − P ( X ≥ 1) = 65 100 − 55 100 = 10 100 = 3) = 55 100 0 X P ( X ) 30 1 2 5 10 100 100 100 3 55 100 c. La funzione di ripartizione di X è: −∞<x<0 ⎧ 0 ⎪0,30 0 ≤ x <1 ⎪⎪ F (x ) = ⎨0,35 1≤ x < 2 ⎪0,45 2≤ x <3 ⎪ ⎪⎩ 1 x ≥3 d. P (foglia presenta 1 o 2 parassiti ) = 9.2 2 5 10 15 ∑ P ( X = w ) = 100 + 100 = 100 w =1 a. E’ una v.c. discreta. b. Dalla formula (9.5.1) si ha che: 6 E ( X ) = ∑ iP (i ) = 1 ⋅ i =1 1 1 1 1 21 1 1 + 2⋅ + 3⋅ + 4⋅ + 5⋅ + 6⋅ = = 3,5 6 6 6 6 6 6 6 Dalla formula (9.5.3) si ha che: 6 V ( X ) = ∑ (i − 3,5)2 P (i ) = i =1 1 1 1 1 1 1 + (2 − 3,5)2 ⋅ + (3 − 3,5)2 ⋅ + (4 − 3,5)2 ⋅ + (5 − 3,5)2 ⋅ + (6 − 3,5)2 ⋅ = 6 6 6 6 6 6 1 1 1 1 1 1 1 ⋅ + (− 1,5)2 ⋅ + (− 0,5)2 ⋅ + (0,5)2 ⋅ + (1,5)2 ⋅ + (2,5)2 ⋅ = 17,5 ⋅ = 2,92 6 6 6 6 6 6 6 = (1 − 3,5)2 ⋅ = (− 2,5)2 c. E’ una funzione di probabilità uniforme discreta. ⎧ 0 −∞ < x <1 ⎪1 ⎪ 6 1≤ x < 2 ⎪2 2≤x<3 ⎪ 6 ⎪3 d. F (x ) = ⎨ 3≤x<4 6 ⎪4 ⎪ 6 4≤x<5 ⎪5 ⎪ 6 5≤x<6 ⎪⎩ 1 x≥6 e. P ( X > 4 ) = 1 − P ( X ≤ 4 ) = 1 − F (4 ) = 1 − 4 1 = 6 3 9.3 se 0 ≤ x ≤ 1 ⎧1 a. Si ha f (x ) = ⎨ ⎩0 altrove che coincide con la formula (9.8.1) per a =0 e b =1. b. f(x) 1 0 0 1 c. Si tratta della funzione di densità della distribuzione uniforme continua in [0,1] x2 d. Dalla formula (9.5.2) si ha che: E ( X ) = ∫ x ⋅ 1 dx = 2 0 1 1 = 0 1 . 2 1 2 ⎛ x3 x 2 x ⎞ 1⎞ 1 ⎛ . Dalla formula (9.5.4) si ha che: V ( X ) = ∫ ⎜ x − ⎟ ⋅ 1 dx = ⎜ − + ⎟ = ⎜ 3 2⎠ 2 4 ⎟⎠ 12 0⎝ ⎝ 0 1 Agli stessi risultati si può giungere osservando che (si veda il paragrafo 9.8.1) E ( X ) = V (X ) = 9.4 (0 − 1) 12 2 = (0 + 1) = 2 1 e 2 1 . 12 a. Si tratta di una v.c. Binomiale (formula 9.7.3) con π = 0,5 e n = 5. Pertanto si ha: X 0 1 2 3 4 5 P(X ) 1 32 5 32 10 32 10 32 5 32 1 32 b. Dalla formula (9.5.1) si ha che: 5 E ( X ) = ∑ iP (i ) = 0 ⋅ i =1 1 5 10 10 5 1 80 + 1⋅ + 2⋅ + 3⋅ + 4⋅ + 5⋅ = = 2,5 32 32 32 32 32 32 32 Dalla formula (9.5.3) si ha che: V (X ) = 5 2 ∑ (i − 2.5) P (i ) = x =1 1 5 10 10 5 1 + (1 − 2,5)2 ⋅ + (2 − 2,5)2 ⋅ + (3 − 2,5)2 ⋅ + (4 − 2,5)2 ⋅ + (5 − 2,5)2 ⋅ = 32 32 32 32 32 32 1 40 5 10 10 5 1 = (− 2,5)2 ⋅ + (− 1,5)2 ⋅ + (− 0,5)2 ⋅ + (0,5)2 ⋅ + (1,5)2 ⋅ + (2,5)2 ⋅ = = 1,25 32 32 32 32 32 32 32 Agli stessi risultati si può giungere osservando che (si veda il paragrafo 9.7.3) E ( X ) = nπ = 5 ⋅ 0,5 = 2,5 e V ( X ) = nπ (1 − π ) = 5 ⋅ 0,5 ⋅ (1 − 0,5) = 1,25 = (0 − 2,5)2 ⋅ 9.5 a. Dal paragrafo 9.7.4 si ha che il numero medio di telefonate che arrivano al centralino è E ( X ) = λ = 3,5 . b. Dal paragrafo 9.7.4 si ha che V ( X ) = λ = 3,5 e dunque la deviazione standard è 9.6 λ = 3,5 = 1,87 . a. Si tratta di una v.c. uniforme continua in [300,400]. Dunque la funzione di densità è ⎧ 1 se 300 ≤ x ≤ 400 ⎪ f (x ) = ⎨100 che coincide con la formula (9.8.1) per a =300 e b =400. ⎪ 0 altrove ⎩ Per calcolare media e varianza si può operare allo stesso modo dell’esercizio 9.3 modificando i limiti degli integrali necessari per il calcolo della media e varianza, oppure si possono utilizzare i risultati noti relativi alla distribuzione uniforme continua. Dunque si ha (si veda il paragrafo 9.8.1) E ( X ) = V (X ) = (300 − 400) 12 2 (300 + 400 ) = 350 e 2 = 833,33 . b. Si tratta di una v.c. uniforme continua in [300,400]. Dunque la funzione di ripartizione è ⎧ 0 x ≤ 300 ⎪ x − 300 F (x) = ⎨ 300 < x ≤ 400 da cui P (80 ≤ X ≤ 150 ) = F (150 ) − F (180 ) = 0 − 0 = 0 . ⎪ 100 1 > 400 ⎩ 9.7 a. Dalla formula (9.7.4) con λ=3,8, si ha che P (periodo vita particella A non superiore a 2) = P ( x = 0) + P ( x = 1) + P ( x = 2) = 3,8 0 −3,8 3,81 −3,8 3,8 2 −3,8 e + e + e = 0,3799 0! 1! 2! Poiché per la v.c. Chi-quadrato la media corrisponde ai gradi di libertà, utilizzando il Software StatEasy si ottiene che: P (periodo vita particella B non superiore a 2) = 0,26424 . Si può pertanto concludere che una durata di vita non superiore a 2 giorni è più probabile per le particelle della sostanza A. b. Dalla formula (9.7.4) con λ=3,8, si ha che P (periodo vita particella A superiore o uguale a 4) = 1 − (P (0) + P (1) + P (2) + P (3) ) = = 1 − 0,6025 = 0,3975 Utilizzando il Software StatEasy si ottiene che: P (periodo vita particella B superiore o uguale a 4) = 0,4060 . Si può pertanto concludere che una durata di vita superiore o uguale a 4 giorni è più probabile per le particelle della sostanza B. c. Si ha che per la v.c. di Poisson con λ=3,8, la varianza è λ=3,8, mentre per la v.c. Chi-quadrato con g=4, la varianza è 2g=8, che dunque è maggiore. 9.8 Utilizzando le tavole della Normale o il Software StatEasy si ottiene: ⎛ −1 − 1 X − 1 1 − 1 ⎞ a. X ~ N (1; 4 ) , P (− 1 ≤ X ≤ 1) = P ⎜ ≤ ≤ ⎟ = P (− 1 ≤ Z ≤ 0) = P (0 ≤ Z ≤ 1) = Φ (1) − Φ (0 ) = 0,3413 2 2 ⎠ ⎝ 2 b. X ~ N (1; 4 ) , P (X > 1) = 0,5 per la simmetria della v.c. normale rispetto al valore x = 1 . ⎛ X − 0,5 − 1 − 0,5 ⎞ X ~ N (0,5; 4) , P (X < −1) = P ⎜ < ⎟ = P (Z < −0,75) = Φ (− 0,75) = 1 − Φ (0,75) = 0,2266 2 ⎝ 2 ⎠ ⎛ − 3 + 1 X + 1 1 + 1⎞ d. X ~ N (- 1; 1) , P (− 3 ≤ X ≤ 1) = P ⎜ ≤ ≤ ⎟ = P (− 2 ≤ Z ≤ 2 ) = 1 1 ⎠ ⎝ 1 Φ(2 ) − Φ (− 2 ) = Φ (2 ) − [1 − Φ (2 )] = 2Φ (2 ) − 1 = 2 ⋅ 0,977 − 1 = 0,954 c. e. f. 9.9 ( ) ( ) ⎛0−0 X −0 σ −0⎞ X ~ N 0; σ 2 , P (0 ≤ X ≤ σ ) = P ⎜ ≤ ≤ ⎟ = P (0 ≤ Z ≤ 1) = Φ (1) − Φ (0) = 0,3413 σ σ ⎠ ⎝ σ ⎛ μ − μ X − μ μ +σ − μ ⎞ X ~ N μ ; σ 2 , P (μ ≤ X ≤ μ + σ ) = P ⎜ ≤ ≤ ⎟ = P (0 ≤ Z ≤ 1) = Φ(1) − Φ (0 ) = 0,3413 σ σ ⎠ ⎝ σ Il peso delle confezioni è una v.c. che si distribuisce come X ~ N (500; 64) . Utilizzando le tavole della Normale o il Software StatEasy si ottiene: ⎛ 480 − 500 X − 500 490 − 500 ⎞ ≤ ≤ ⎟ = P (− 2,50 ≤ Z ≤ −1,25) = 8 8 8 ⎝ ⎠ Φ(− 1,25) − Φ(− 2,50) = [1 − Φ(1,25)] − [1 − Φ(2,50)] = 0,1056 − 0,0062 = 0,0994 a. P (480 ≤ X ≤ 490 ) = P ⎜ b. P (il peso di una scatola differisca dalla media per più di 20 grammi) = = P ( X > 520) + P ( X < 480) = ⎛ X − 500 520 − 500 ⎞ ⎛ X − 500 480 − 500 ⎞ = P ( X > 520 ) + P ( X < 480 ) = P ⎜ > < ⎟ + P⎜ ⎟= 8 8 8 8 ⎝ ⎠ ⎝ ⎠ = P (Z > 2,50 ) + P (Z < −2,50 ) = [1 − P (Z ≤ 2,50 )] + P (Z < −2,50 ) = = [1 − Φ(2,50 )] + [1 − Φ (2,50 )] = 2[1 − Φ (2,50 )] = 0,0124 9.10 Derivando si ha f (x ) = 1 − x 1 ⎛ 1 ⎞ e 2000 , da cui X ~ Esp⎜ ⎟. 2000 ⎝ 2000 ⎠ a. P ( X ≤ 1000 ) = F (1000) = 1 − e − 1 1000 2000 = 1− e − 1 2 = 0,39 b. P ( X > 2000 ) = 1 − P ( X ≤ 2000 ) = 1 − F (2000) = 1 − (1 − e 9.11 a. Dalla formula (9.5.1) si ha che: E ( X ) = − 1 2000 2000 ) = e −1 = 0,37 4 ∑ xP (x ) = −1 ⋅ 0,1 + 0 ⋅ 0,2 + 1 ⋅ 0,3 + 2 ⋅ 0,2 + 3 ⋅ 0,1 + 4 ⋅ 0,1 = 1,3 x = −1 Dalla formula (9.5.3) si ha che: V (X ) = 4 2 ∑ (x − 1,3) P (x ) = x = −1 2 = (− 1 − 1,3) ⋅ 0,1 + (0 − 1,3)2 ⋅ 0,2 + (1 − 1,3)2 ⋅ 0,3 + (2 − 1,3)2 ⋅ 0,2 + (3 − 1,3)2 ⋅ 0,1 + (4 − 1,3)2 ⋅ 0,1 = = (− 2,3)2 ⋅ 0,1 + (− 1,3)2 ⋅ 0,2 + (0,3)2 ⋅ 0,3 + (0,7 )2 ⋅ 0,2 + (1,7 )2 ⋅ 0,1 + (2,7 )2 ⋅ 0,1 = 2,01 b. E (Y ) = 4 ⋅ E ( X ) − 3 = 2,2 ; V (Y ) = 4 2 ⋅ V ( X ) = 16 ⋅ 2,01 = 32,16 da cui (formula 9.5.7) si ha SD (Y ) = V (Y ) = 5,67 c. E (Y ) = −2 ⋅ E ( X ) + 7 = 4,4 ; V (Y ) = −2 2 ⋅ V ( X ) = 4 ⋅ 2,01 = 8,04 da cui (formula 9.5.7) si ha SD(Y ) = V (Y ) = 2,84 d. E (2 X − 3Y ) = E (2 X ) − E (3Y ) = 2 ⋅ E ( X ) − 3 ⋅ E (Y ) = −1,3 e per l’indipendenza tra le due variabili si ha V (2 X − 3Y ) = V (2 X ) + V (3Y ) = 4 ⋅ V ( X ) + 9 ⋅ V (Y ) = 26,13 9.12 a. P ( X ≥ 2 ) = 1 − P ( X ≤ 1) = 1 − P ( X = 1) = 1 − 0,05 = 0,95 b. Dalla formula (9.5.1) si ha che: E ( X ) = 6 ∑ xP (x ) = 1 ⋅ 0,05 + 2 ⋅ 0,05 + 3 ⋅ 0,05 + 4 ⋅ 0,2 + 5 ⋅ 0,4 + 6 ⋅ 0,25 = 4,6 x =1 Dalla formula (9.5.3) si ha che: V (X ) = 6 2 ∑ (x − 4,6) P (x ) = x =1 2 = (1 − 4,6 ) ⋅ 0,05 + (2 − 4,6 )2 ⋅ 0,05 + (3 − 4,6 )2 ⋅ 0,05 + (4 − 4,6 )2 ⋅ 0,2 + (5 − 4,6 )2 ⋅ 0,4 + (6 − 4,6 )2 ⋅ 0,25 = = (− 3,6 )2 ⋅ 0,05 + (− 2,6 )2 ⋅ 0,05 + (− 1,6 )2 ⋅ 0,05 + (− 0,6 )2 ⋅ 0,2 + (0,4 )2 ⋅ 0,4 + (1,4 )2 ⋅ 0,25 = = 1,74 c. E (Guadagno mensile ) = 1100 + (400 ⋅ 0.08 ) ⋅ E ( X ) = 1247,2 V (Guadagno mensile ) = (400 ⋅ 0.08 ) ⋅ V ( X ) = 1781,76 da cui (formula 9.5.7) si ha 2 SD(Guadagno mensile ) = V (Guadagno mensile ) = 42,21 d. Dalla formula (9.5.1) si ha che: E ( X ) = 6 ∑ xP (x ) = 1 ⋅ 0,25 + 2 ⋅ 0,25 + 3 ⋅ 0,2 + 4 ⋅ 0,15 + 5 ⋅ 0,15 = 2,7 x =1 Dalla formula (9.5.3) si ha che: 6 V (X ) = 2 2 2 2 2 ∑ (x − 2 ,7 ) P (x ) = (1 − 2 ,7 ) ⋅ 0 ,25 + (2 − 2 ,7 ) ⋅ 0 ,25 + (3 − 2 ,7 ) ⋅ 0 ,2 + (4 − 2 ,7 ) ⋅ 0 ,15 x =1 2 + (5 − 2 ,7 ) ⋅ 0 ,15 = (− 1,7 ) ⋅ 0 ,25 + (− 0 ,7 ) ⋅ 0 ,25 + (0 ,3) ⋅ 0 ,2 + (1,3) ⋅ 0 ,15 + 2 2 2 2 + (2 ,3) ⋅ 0 ,15 = 1,91 2 e dunque E (Guadagno mensile) = 1150 + (900 ⋅ 0.08) ⋅ E ( X ) = 1344,4 V (Guadagno mensile ) = (900 ⋅ 0.08 ) ⋅ V (X ) = 9901 ,44 da cui (formula 9.5.7) si ha 2 SD(Guadagno mensile) = V (Guadagno mensile) = 99 ,51 e. Conviene vendere il nuovo prodotto (il guadagno mensile atteso è maggiore) 9.13 a. Dalla formula (9.5.1) si ha che: E ( X ) = 3 xP (x ) = 0 ⋅ 0,65 + 1 ⋅ 0,31 + 2 ⋅ 0,03 + 3 ⋅ 0,01 = 0,4 ∑ x= 0 Dalla formula (9.5.3) si ha che: V (X ) = 3 ∑ (x − 0,4) P (x ) = (0 − 0,4) 2 2 ⋅ 0,65 + (1 − 0,4 ) ⋅ 0,31 + (2 − 0,4 ) ⋅ 0,03 + (3 − 0,4 ) ⋅ 0,01 = 0,36 2 2 2 x =0 b. E (Y ) = 60 ⋅ E ( X ) = 24 , V (Y ) = 60 2 ⋅ V ( X ) = 1296 da cui (formula 9.5.7) si ha SD(Y ) = V (Y ) = 36 9.14 a. Le v.c. X e Y non sono indipendenti poiché non vale P (x, y ) = P ( x )P ( y ) . b. E ( X ) = 2 1 ∑ xP (x ) = 0 ⋅ 0,5 + 1 ⋅ 0,4 + 2 ⋅ 0,1 = 0,6 , E (Y ) = y∑=0 yP (y ) = 0 ⋅ 0,4 + 1 ⋅ 0,6 = 0,6 x =0 c. Dalla formula (9.11.6) si ha che E ( X + Y ) = E ( X ) + E (Y ) = 0,6 + 0,6 = 1,2 d. E ( X ⋅ Y ) = 2 1 ∑ ∑ (x ⋅ y )P ( x, y ) = 0 ⋅ 0,2 + 0 ⋅ 0,1 + 0 ⋅ 0,1 + 0 ⋅ 0,3 + 1 ⋅ 0,3 + 2 ⋅ 0,0 = 0,3 x =0 y =0 9.15 a. Sia X la v.c. “stipendio medio” con E ( X ) = 20000 e V ( X ) = 500 e sia Y la v.c. “reddito medio netto”. Poiché è Y = (1 − 0,2) ⋅ ( X − 100 ) , segue che E (Y ) = (1 − 0,2) ⋅ (E ( X ) − 100 ) = 15920 e V (Y ) = (1 − 0,2) ⋅ V ( X ) = 320 . 2 b. Dalla formula (9.6.2), essendo SD (Y ) = 17,89 , discende che (k=5,59) ( ) P Y − 15920 < 100 ≥ 1 − 1 = 0,97 . k2 9.16 Possiamo pensare “il numero di volte che viene superato lo stock su 52 settimane” come una v.c. X ~ Binomiale(π = 0,013; n = 52) . ⎛ 52 ⎞ ⎟⎟ ⋅ 0,013 0 ⋅ 0,987 52 = 0,506 ⎝0⎠ a. Dalla formula (9.7.3) si ha che P (0 ) = ⎜⎜ b. Dalla formula (9.7.3) si ha che: ⎛ 52 ⎞ ⎛ 52 ⎞ ⎛ 52 ⎞ P (0) + P (1) + P (2) = ⎜⎜ ⎟⎟ ⋅ 0,013 0 ⋅ 0,987 52 + ⎜⎜ ⎟⎟ ⋅ 0,0131 ⋅ 0,987 51 + ⎜⎜ ⎟⎟ ⋅ 0,013 2 ⋅ 0,987 50 = 0,970 ⎝0⎠ ⎝1⎠ ⎝2⎠ 9.17 a. Per la macchina A si ha: X ~ Binomiale(π = 0,003; n = 30) . Dalla formula (9.7.3) si ha che: ⎛ 30 ⎞ P (almeno 1 volta ) = 1 - P (mai )=1 − ⎜⎜ ⎟⎟ ⋅ 0,003 0 ⋅ 0,997 30 = 1 − 0,997 30 = 0,086 ⎝0⎠ ( b. Si, in particolare X 1 ~ Binomiale π 1 = 1 − (0,997 ) ; n1 = 60 30 ) ( ) c. Essendo anche X 2 ~ Binomiale π 2 = 1 − (0,999 ) ; n 2 = 50 , si ha per la (9.11.7) 30 E ( X ) = E ( X 1 + X 2 ) = E ( X 1 ) + E ( X 2 ) = n1π 1 + n 2π 2 = = 60 ⋅ (1 − 0,997 30 ) + 50 ⋅ (1 − 0,999 30 ) = 5,17 + 1,48 = 6,65 e per la (9.11.12) V ( X ) = V ( X1 + X 2 ) = V ( X1 ) + V ( X 2 ) = = 60 ⋅ (1 − 0,997 30 )0,997 30 + 50 ⋅ (1 − 0,999 30 )0,999 30 = 5,16 + 1,48 = 6,64 d. X = X 1 + X 2 non si distribuisce come una binomiale. Infatti, la variabile X è la somma di n1 + n 2 variabili casuali bernoulliane non identicamente distribuite poiché π 1 ≠ π 2 . e. Utilizzando il software sulla binomiale che si trova sul sito web del libro, possiamo ottenere le probabilità corrispondenti ai singoli valori delle due variabili casuali: P ( X 1 = 0) = 0,835 , P ( X 1 = 1) = 0,151 , P ( X 1 = 2) = 0,013 , P ( X 1 = 3) = 0,001 P ( X 2 = 0) = 0,951 , P ( X 2 = 1) = 0,048 , P ( X 2 = 2) = 0,001 , P ( X 2 = 3) = 0,000 e quindi: P ( X ≥ 4) = 1 − P ( X < 4) = 1 − {[P ( X 1 = 0) ⋅ P ( X 2 = 0)] + [P ( X 1 = 0) ⋅ P ( X 2 = 1)] + [P ( X 1 = 0) ⋅ P ( X 2 = 2)] + [P ( X 1 = 0) ⋅ P ( X 2 = 3)] + [P ( X 1 = 1) ⋅ P ( X 2 = 0)] + + [P ( X 1 = 1) ⋅ P ( X 2 = 1)] + [P ( X 1 = 1) ⋅ P ( X 2 = 2)] + [P ( X 1 = 2) ⋅ P ( X 2 = 0)] + + [P ( X 1 = 2) ⋅ P ( X 2 = 1)] + [P ( X 1 = 3) ⋅ P ( X 2 = 0)]} = = 1 − (0,7941 + 0,0401 + 0,0008 + 0 + 0,1436 + 0,0072 + 0,0002 + 0,0124 + 0,0006 + 0,0010) = 0 f. Dal software sulla binomiale si trova che: P ( X 1 = 4) = P ( X 1 = 5) = P ( X 1 = 6) = P ( X 1 = 7) = P ( X 1 = 8) = 0 P ( X 2 = 4) = P ( X 2 = 5) = P ( X 2 = 6) = P ( X 2 = 7) = P ( X 2 = 8) = 0 P (4 ≤ X ≤ 8) = = [P ( X 1 = 4) ⋅ P ( X 2 = 0)] + [P ( X 1 = 4) ⋅ P ( X 2 = 1)] + [P ( X 1 = 4) ⋅ P ( X 2 = 2)] + + [P ( X 1 = 4) ⋅ P ( X 2 = 3)] + [P ( X 1 = 4) ⋅ P ( X 2 = 4)] + [P ( X 1 = 5) ⋅ P ( X 2 = 0)] + + [P ( X 1 = 5) ⋅ P ( X 2 = 1)] + [P ( X 1 = 5) ⋅ P ( X 2 = 2)] + [P ( X 1 = 5) ⋅ P ( X 2 = 3)] + + [P ( X 1 = 6) ⋅ P ( X 2 = 0)] + [P ( X 1 = 6) ⋅ P ( X 2 = 1)] + [P ( X 1 = 6) ⋅ P ( X 2 = 2)] + + [P ( X 1 = 7) ⋅ P ( X 2 = 0)] + [P ( X 1 = 7) ⋅ P ( X 2 = 1)] + [P ( X 1 = 8) ⋅ P ( X 2 = 0)] + + [P ( X 1 = 0) ⋅ P ( X 2 = 4)] + [P ( X 1 = 1) ⋅ P ( X 2 = 4)] + [P ( X 1 = 2) ⋅ P ( X 2 = 4)] + + [P ( X 1 = 3) ⋅ P ( X 2 = 4)] + [P ( X 1 = 0) ⋅ P ( X 2 = 5)] + [P ( X 1 = 1) ⋅ P ( X 2 = 5)] + + [P ( X 1 = 2) ⋅ P ( X 2 = 5)] + [P ( X 1 = 3) ⋅ P ( X 2 = 5)] + [P ( X 1 = 0) ⋅ P ( X 2 = 6)] + + [P ( X 1 = 1) ⋅ P ( X 2 = 6)] + [P ( X 1 = 2) ⋅ P ( X 2 = 6)] + [P ( X 1 = 0) ⋅ P ( X 2 = 7)] + + [P ( X 1 = 1) ⋅ P ( X 2 = 7)] + [P ( X 1 = 0) ⋅ P ( X 2 = 8)] = 0 9.18 X ~ N (3,5; 0,01) a ⎞ ⎛ 3,5 − a − 3,5 X − 3,5 3,5 + a − 3,5 ⎞ ⎛ a ≤ ≤ ≤ Z≤ a. P (3,5 − a ≤ X ≤ 3,5 + a ) = P ⎜ ⎟ = P⎜ − ⎟ = 0,95 0,1 0,1 0,1 0,1 ⎠ ⎝ ⎠ ⎝ 0,1 ⎛ a ⎞ ⎛ a ⎞ ⎛ a ⎞ ⎡ ⎛ a ⎞⎤ ⎛ a ⎞ Φ⎜ ⎟ − Φ⎜ − ⎟ = Φ⎜ ⎟ − ⎢1 − Φ⎜ ⎟⎥ = 0,95 da cui Φ⎜ ⎟ = 0,975 . ⎝ 0,1 ⎠ ⎝ 0,1 ⎠ ⎝ 0,1 ⎠ ⎣ ⎝ 0,1 ⎠⎦ ⎝ 0,1 ⎠ Dalle tavole (o dal software per la normale) si ha che a = 1,96 e dunque a = 0,196 . 0,1 b ⎞ ⎛ 3,5 − b − 3,5 X − 3,5 3,5 + b − 3,5 ⎞ ⎛ b ≤ ≤ ≤Z≤ b. P (3,5 − b ≤ X ≤ 3,5 + b ) = P ⎜ ⎟ = P⎜ − ⎟ = 0,99 0,1 0,1 0,1 0,1 ⎠ ⎝ ⎠ ⎝ 0,1 ⎛ b ⎞ ⎛ b ⎞ ⎛ b ⎞ ⎡ ⎛ b ⎞⎤ ⎛ b ⎞ Φ⎜ ⎟ − Φ⎜ − ⎟ = Φ⎜ ⎟ − ⎢1 − Φ⎜ ⎟⎥ = 0,99 da cui Φ⎜ ⎟ = 0,995 . ⎝ 0,1 ⎠ ⎣ ⎝ 0,1 ⎠⎦ ⎝ 0,1 ⎠ ⎝ 0,1 ⎠ ⎝ 0,1 ⎠ Dalle tavole (o dal software per la normale) si ha che b = 2,58 e dunque b = 0,258 . 0,1 9.19 5 −μ⎞ 5−μ ⎛ ⎛ 5 −μ⎞ P (X ≥ 5) = 1 − P (X < 5) = 1 − P ⎜ Z < = 1,00 ⎟ = 0,8413 da cui Φ⎜ − ⎟ = 0,8413 e dunque − σ σ ⎠ σ ⎠ ⎝ ⎝ 10 − μ ⎞ 10 − μ ⎛ ⎛ 10 − μ ⎞ = 1,16 P ( X ≤ 10 ) = P ⎜ Z ≤ ⎟ = 0,8770 e dunque ⎟ = 0,8770 da cui Φ⎜ σ σ σ ⎠ ⎝ ⎠ ⎝ Risolvendo il sistema ⎧ 5−μ ⎪− σ = 1,00 ⎨ 10 − μ ⎪ = 1,16 ⎩⎪ σ si ottiene μ = 7,315 e σ = 2,315 . 9.20 Sia X la v.c. “guadagno” a. X P(x) -5 0.25 1 0.5 2 0.25 b. E ( X ) = −5 ⋅ 0,25 + 1 ⋅ 0,5 + 2 ⋅ 0,25 = −0.25 . Poichè E ( X ) < 0 , non conviene giocare perché in media si perde. 9.21 Sia X ~ Binomiale (π = 0,5; n = 3) la v.c. “numero di teste in tre lanci” ⎛3⎞ a. Dalla formula (9.7.3) si ha che P ( X = 3 ) = ⎜⎜ ⎟⎟ ⋅ 0,5 3 ⋅ 0,5 0 = 0,125 ⎝3⎠ ⎛3⎞ b. Dalla formula (9.7.3) si ha che P ( X ≥ 1) =1 − P ( X = 0 ) = ⎜⎜ ⎟⎟ ⋅ 0,5 0 ⋅ 0,5 3 = 0,125 ⎝0⎠ ⎛3⎞ c. Dalla formula (9.7.3) si ha che P ( X = 1) = ⎜⎜ ⎟⎟ ⋅ 0,5 1 ⋅ 0,5 2 = 0,375 ⎝ 1⎠ d. La v. c. X ha E ( X ) = nπ = 120 2 = 60 e varianza V ( X ) = nπ (1 − π ) = 120 4 = 30 . Per il teorema del limite centrale, si ha X ~ N (60; 30 ) . Essendo X approssimata ad una v.c. continua sappiamo che P ( X = 40) = 0 . Tuttavia, si può migliorare l’approssimazione considerando la probabilità di un intervallo unitario centrato rispetto a 40, ossia P ( X = 40) ≈ P (39,5 ≤ X ≤ 40,5) = 0,0001 . Confrontando il valore non approssimato calcolato con il software della binomiale con n = 120 e π = 0,5 si ottiene P ( X = 40) = 0,00009 . e. Per il teorema del limite centrale, si ha X ~ N (60,30 ) . Risulta P (50 ≤ X ≤ 70) = P ( 50 − 60 ≤ X − 60 30 = P ( −1,83 ≤ Z ≤ 1,83) = 0,9288 30 ≤ 70 − 60 30 ) = P( 50 − 60 30 ≤ X − 60 30 ≤ 70 − 60 30 )= Analogamente a quanto visto nel punto precedente, possiamo migliorare l’approssimazione considerando P (49,5 ≤ X ≤ 70,5) = 0,9448 . Il valore esatto, calcolato con il software della binomiale con n = 120 e π = 0,5 , è P (50 ≤ X ≤ 70) = 0,94522 . 9.22 Dato che si risponde a caso, X ~ Binomiale(0,5;100 ) . Per il teorema del limite centrale, si ha X ~ N (50,25 ) . a. Si ha, per la simmetria della v.c. Normale rispetto al valore x = 50 , P ( X ≤ 50) = 0,5 . b. P ( X ≥ 80) = P ( 9.23 X − 50 25 X − 50 ≥ 80 − 50 25 90 − 50 ) = P ( Z ≥ 6) = 1 − P (Z < 6) = 0 c. P ( X ≥ 90) = P ( d. Dato che si risponde a caso, X ~ Binomiale(0,25;100). Per il teorema del limite centrale, si ha X ~ N(25; X − 25 50 − 25 ) = 1 − P (Z ≤ 5,77 ) = 0 e 18,75). Quindi, P ( X > 50) = 1 − P ( X ≤ 50) = 1 − P ( ≤ 18,75 18,75 X − 25 30 − 25 P ( X ≤ 30) = P ( ≤ ) = P (Z ≤ 1,15) = 0,8749 . 18,75 18,75 X ~ N (23;49 ) 25 ≥ 25 ) = P ( Z ≥ 8 ) = 1 − P ( Z < 8) = 0 ⎛ 21 − 23 X − 23 25 − 23 ⎞ a. P (21 ≤ X ≤ 25 ) = P ⎜ ≤ ≤ ⎟ = P (− 0,29 ≤ Z ≤ 0,29 ) 7 7 ⎝ 7 ⎠ Φ(0,29 ) − Φ(− 0,29 ) = Φ(0,29 ) − [1 − Φ(0,29 )] = 2 ⋅ Φ(0,29 ) − 1 = 2 ⋅ 0,6141 − 1 = 0,2282 ⎛ X − 23 30 − 23 ⎞ b. P (X > 30 ) = P ⎜ > ⎟ = P (Z > 1) = 1 − P (Z ≤ 1) = 1 − Φ(1) = 1 − 0,8413 = 0,1587 7 ⎝ 7 ⎠ 9.24 X ~ N (280;6400 ) ⎛ X − 280 60 − 280 ⎞ a. P (X ≤ 60 ) = P ⎜ ≤ ⎟ = P (Z ≤ −2,75 ) = Φ(− 2,75 ) = 1 − Φ(2,75 ) = 1 − 0,9970 = 0,0030 80 ⎝ 80 ⎠ b. P (X < 280 ) = 0.5 per la simmetria della v.c. Normale rispetto al valore x = 280 . ⎛ 240 − 280 X − 280 320 − 280 ⎞ ≤ ≤ ⎟ = P (− 0,5 ≤ Z ≤ 0,5) 80 80 80 ⎝ ⎠ c. P (240 ≤ X ≤ 320 ) = P ⎜ Φ(0,5 ) − Φ(− 0,5 ) = Φ(0,5 ) − [1 − Φ(0,5 )] = 2 ⋅ Φ(0,5 ) − 1 = 2 ⋅ 0,6915 − 1 = 0,3830 x − 280 ⎞ x − 280 ⎛ x − 280 ⎞ ⎛ d. P ( X < x ) = P ⎜ Z < = 1,04 . Ne ⎟ = 0,15 da cui Φ⎜ − ⎟ = 1 − 0,15 = 0,85 e dunque − 80 80 80 ⎝ ⎠ ⎝ ⎠ segue che x = 196,8 . 9.25 Sia X la v.c. “differenza tra il numero di teste e il numero di croci” a. -3 -1 1 3 0,125 0,375 0,375 0,125 X P(x) x < −3 ⎧ 0 ⎪0,125 − 3 ≤ x < −1 ⎪⎪ b. F ( x ) = ⎨ 0,5 −1≤ x <1 ⎪0,875 1≤ x < 3 ⎪ ⎪⎩ 1 x ≥3 c. Dalla formula (9.5.1) si ha che: E ( X ) = −3 ⋅ 0,125 − 1 ⋅ 0,375 + 1 ⋅ 0,375 + 3 ⋅ 0,125 = 0 Dalla formula (9.5.3) si ha che: V ( X ) = 3 2 (0,25) + 12 (0,75) = 3 , da cui (formula 9.5.7) si ha SD ( X ) = V ( X ) = 1,732 9.26 Sia X la v.c. “peso medio dei due uomini estratti”. Consideriamo estrazioni senza ripetizioni, allora: a. X P(x) 52,5 55 57,5 60 62,5 2/15 2/15 4/15 4/15 2/15 65 1/15 b. Dalla formula (9.5.1) si ha che: E ( X ) = 52,5 ⋅ 2 2 4 4 2 1 + 55 ⋅ + 57,5 ⋅ + 60 ⋅ + 62,5 ⋅ + 65 ⋅ = 58,33 15 15 15 15 15 15 Dalla formula (9.5.3) si ha che: 2 2 4 4 2 2 2 + (55 − 58,33 ) ⋅ + (57,5 − 58,33 ) ⋅ + (60 − 58,33 ) ⋅ + 15 15 15 15 2 1 2 ⋅ + (65 − 58,33 ) ⋅ = 12,22 15 15 V ( X ) = (52,5 − 58,33 ) ⋅ 2 (62,5 − 58,33)2 9.27 2 1 2 x2 a. P (0 < X < 2) = ∫ f ( x )dx = ∫ xdx = + ∫ (2 − x )dx = 2 0 0 1 1,2 0 1 1,2 1 0 2 ⎛ x2 ⎞ ⎟ =1 + ⎜⎜ 2 x − 2 ⎟⎠ ⎝ 1 x2 b. P ( X < 1,2) = ∫ f ( x )dx = ∫ 0dx + ∫ xdx + ∫ (2 − x )dx = 2 −∞ −∞ 0 1 1 0 1,2 ⎛ x2 ⎞ ⎟ = 0,68 + ⎜⎜ 2 x − 2 ⎟⎠ ⎝ 1 c. 0 x≤0 ⎧ ⎪ x2 0 < x ≤1 ⎪⎪ 2 F(x) = ⎨ 2 ⎪2 x − x − 1 1 < x ≤ 2 2 ⎪ 1 x>2 ⎩⎪ 9.28 Sia X la v.c. “media giornaliera di nati” con E ( X ) = 12 e V ( X ) = 4,5 a. E (numero bambini nati in un periodo di tre giorni ) = 3 ⋅ E ( X ) = 36 V (numero bambini nati in un periodo di tre giorni ) = 3 2 ⋅ V ( X ) = 40,5 1 b. E (numero maschi nati in un giorno ) = ⋅ E ( X ) = 6 2 1 V (numero bambini nati in un giorno ) = 2 ⋅ V ( X ) = 1,125 2 9.29 a. Poiché le tre variabili sono indipendenti si ha: P ( X ⋅ Y ⋅ W ) = P ( X )P (Y )P ( W ) e la corrispondente distribuzione di probabilità: 1 2 4 8 X ⋅Y ⋅ W P ( X ⋅ Y ⋅ W ) 1/8 3/8 3/8 1/8 b. la corrispondente distribuzione di probabilità è: X ⋅Y + X ⋅ W + Y ⋅ W P( X ⋅Y + X ⋅ W + Y ⋅ W ) 3 5 8 12 1/8 3/8 3/8 1/8 c. la corrispondente distribuzione di probabilità è: X 2 + Y ⋅W P( X 2 + Y ⋅ W ) 9.30 2 3 5 6 8 1/8 1/4 1/4 1/4 1/8 a. La distribuzione della X è la seguente: -2 -1 1 2 1/4 1/4 1/4 1/4 La v.c. Y può assumere solo i valori 1 e 4 con probabilità: 1 4 Y P (Y ) 1/2 1/2 X P( X ) b. La funzione di probabilità congiunta è la seguente: Y c. Dalla distribuzione congiunta si possono calcolare: E ( X ) = 0 , E (Y ) = 2,5 , E ( XY ) = −8 ⋅ 1 1 1 1 − 1⋅ + 1⋅ + 8 ⋅ = 0 4 4 4 4 X , -2 -1 1 2 totale 1 0 1/4 1/4 0 1/2 4 1/4 0 0 1/4 1/2 totale 1/4 1/4 1/4 1/4 Cov ( X ,Y ) = E ( XY ) − E ( X ) ⋅ E (Y ) = 0 − 0 ⋅ 2,5 = 0 Cor ( X ,Y ) = 0 d. No. Infatti, se X e Y fossero indipendenti ogni probabilità congiunta potrebbe calcolarsi come prodotto tra le corrispondenti probabilità marginali. E’ immediato constatare dalla distribuzione congiunta del punto b. che in questo caso ciò non è vero. Questo esempio mostra che sebbene Y sia una funzione di X è possibile che la covarianza e la correlazione siano nulle e questo può accadere anche se le due variabili casuali non sono indipendenti. 9.31 Ricordiamo che Var ( X 1 ) = E ( X 12 ) − E ( X 1 ) e quindi E ( X 12 ) = Var ( X 1 ) + E ( X1 ) = 4 + 1 = 5 ; Cov ( X 1, X 2 ) = E ( X 1, X 2 ) − E ( X 1 )E ( X 2 ) e poiché le due v.c. sono indipendenti E ( X 1, X 2 ) = E ( X 1 )E ( X 2 ) = 1 . 1 1 1 1 5 5 E (Y ) = E ( X 12 + X 22 − X 1 X 2 ) = E ( X 12 ) + E ( X 22 ) − E ( X 1 X 2 ) = + − 1 = 4 2 2 2 2 2 2 9.32 Partendo dall’espressione data nella definizione (9.10.8): Cov ( X 1 − X 2 , 2 X 2 − X 3 ) = E {[( X 1 − X 2 ) − E ( X 1 − X 2 )][( 2 X 2 − X 3 ) − E ( 2 X 2 − X 3 )]} la possiamo riscrivere nel modo seguente: E {[( X 1 − X 2 ) − E ( X 1 − X 2 )][( 2 X 2 − X 3 ) − E ( 2 X 2 − X 3 )]} = = E {[( X 1 − E ( X 1 )) − ( X 2 − E ( X 2 ))][2( X 2 − E ( X 2 )) − ( X 3 − E ( X 3 ))]} = = 2E {( X 1 − E ( X 1 ))( X 2 − E ( X 2 ))} − 2E {( X 2 − E ( X 2 ))( X 2 − E ( X 2 ))} − − E {( X 1 − E ( X 1 ))( X 3 − E ( X 3 ))} + E {( X 2 − E ( X 2 ))( X 3 − E ( X 3 ))} = = 2Cov ( X 1, X 2 ) − 2Var ( X 2 ) − Cov ( X 1, X 3 ) + Cov ( X 2 , X 3 ) = = 2 ⋅ 0 − 2 ⋅ 2 − 1 − 1 = −6 9.33 a. La v.c. Y essendo la somma dei quadrati di 13 v.c. Normali standardizzate indipendenti, si distribuisce come a una v.c. Chi-quadrato con 13 gradi di libertà. b. E (Y ) = 13 e V (Y ) = 2 ⋅ 13 = 26 . c. Dalla tavola del Chi-quadrato si trova che P (Y ≤ 5,0087 ) = 0,975 P (Y > 5) = 1 − P (Y ≤ 5) ≈ 1 − 0,975 = 0,025 e quindi la Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 10 Es. In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali. 10.1 La risposta esatta è d.. Infatti, la variabile casuale X , “punteggio del test”, nella popolazione degli infermieri ha E ( X ) = 80 e σ 2 = 100 . Approssimando la v.c. a una Normale, ossia applicando il teorema del limite centrale, si ha che: X si può approssimare a una v.c. normale con E ( X ) = 80 e σ X2 = σ 2 n = 100 36 e quindi σ X = 10 6 = 1,667 . ⎛ a − 80 X − E ( X ) b − 80 ⎞ ⎟ = P ⎛⎜ a − 80 ≤ Z ≤ b − 80 ⎞⎟ = 0,99 ≤ ≤ P a ≤ X ≤ b = P⎜ ⎜ 1,667 ⎜ 1,667 1,667 ⎟⎠ 1,667 ⎟⎠ σ n ⎝ ⎝ e dalle tavole della normale standardizzata (o dal software per la normale) si trova: b − 80 a − 80 = z 0,005 = 2,576 ; = −z 0,005 = −2,576 1,667 1,667 e quindi b = 84,29 ; a = 75,71 . ( 10.2 ) a. Lo spazio campionario Ω costituito da tutti i campioni di dimensione campionaria pari a 2, estratti senza ripetizione, senza tener conto dell’ordine, è: c1 = 150 100 c2 = 150 60 c3 = 150 50 c4 = 100 60 c5 = 100 50 c6 = 60 50 Si osservi che se si fosse tenuto conto anche dell’ordine, il numero di possibili campioni sarebbe raddoppiato poiché per ogni campione considerato si doveva tener conto anche della sua permutazione. b. Lo spazio campionario Ω costituito da tutti i campioni di dimensione campionaria pari a 2, estratti con ripetizione senza tener conto dell’ordine, è: c1 = 150 c6 = 100 150 100 c7 = 100 50 150 60 c8 = 60 60 c4 = 150 50 c9 = 60 50 c5 = 100 100 c10 = 50 50 c2 = c3 = 150 60 Come nel punto precedente, se avessimo considerato l’ordine di estrazione, il numero di campioni sarebbe aumentato a 16. c. La distribuzione di probabilità di X è: X 55 75 80 100 105 125 P X 1 6 1 6 1 6 1 6 1 6 1 6 ( ) ( ) V (X ) = 516,67 E X = 90 Si noti che, anche se avessimo considerato l’ordine di estrazione nei campioni, saremmo giunti alla stessa distribuzione di probabilità per la media campionaria. d. La distribuzione di probabilità di X è: X 50 55 60 75 80 100 105 125 150 P X 1 10 1 10 1 10 1 10 1 10 2 1 10 1 10 1 10 ( ) ( ) V (X ) = 930 E X = 90 10 Si noti che, anche se avessimo considerato l’ordine di estrazione nei campioni, saremmo giunti a una diversa distribuzione di probabilità per la media campionaria. e. La varianza ottenuta al punto d. è maggiore di quella ottenuta al punto c. Le medie sono uguali e coincidono anche con la media della popolazione. Il valore della varianza della X nel punto c. coincide con il valore che si ottiene applicando la formula 10.7.1. 10.3 La risposta esatta è la d. Infatti: ⎛ X − E ( X ) 195 − 190 ⎞ ⎟ = P (Z > 2,5) P X > 195 = P ⎜ > ⎟ ⎜ σ n 10 5 ⎠ ⎝ ( ) 10.4 Sia X la v.c. “altezza media dei 9 setter selezioniati”. Utilizzando le tavole della normale o il software, si ha: ⎛ X − 30 21 − 30 ⎞ ⎟ = 1 − P (Z ≤ −9 ) = 1 − Φ (−9) = 1 − [1 − Φ (9)] = 1 P X > 21 = 1 − P X ≤ 21 = 1 − P ⎜⎜ ≤ ⎟ 1 1 ⎠ ⎝ ( ) ( ) 10.5 La risposta esatta è la b., infatti σ = σ X ( n = 10 3600 = 1 6 ) 10.6 Sia X ~ N μ = 45; σ 2 = 25 la v.c. “salario”. Utilizzando le tavole della normale o il software, si ha: ⎛ X − 45 40 − 45 ⎞ a. P ( X < 40 ) = P ⎜ ≤ ⎟ = P (Z ≤ −1) = Φ( −1) = 1 − Φ(1) = 0,1587 5 ⎝ 5 ⎠ ( ) ⎛ X − 45 40 − 45 ⎞ ⎟ = P (Z ≤ −4,47 ) = Φ (−4,47) = 1 − Φ (4,47) = 0 ≤ ⎟ ⎝ 5 4,47 5 4,47 ⎠ ( ) ⎛ X − 45 40 − 45 ⎞ ⎟⎟ = P (Z ≤ −7,75) = Φ (−7,75) = 1 − Φ (7,75) = 0 ≤ ⎝ 5 7,75 5 / 7,75 ⎠ b. P X < 40 = P ⎜⎜ c. P X < 40 = P ⎜⎜ 10.7 a. V ( X ) = 1550 b. La distribuzione di probabilità della varianza campionaria è: σˆ 2 25 400 P σ̂ 2 1 6 1 6 ( ) 625 2 6 2025 2500 1 6 1 6 c. Il valore atteso della varianza campionaria è 1033,33 che non coincide con la varianza della popolazione. 10.8 La v.c. X “numero di persone su cinque che prendono la metropolitana” è binomiale con π = 0,35 e n = 5 . Utilizzando il software per la binomiale, si ha: a. Seguendo la distribuzione (10.6.4) la probabilità è data da P ( X = 0,4) = 5! (0,35) 2 (0,65) 3 = 0,336 . 2!3! b. Si cerca la Pr (più di un terzo prendono la metropolitana) , quindi, indicato con Y = X 5 la quota campionaria, sia ha P (Y > 1 3) = P ( X > 5 3) . D’altra parte, la binomiale assume valori solo interi e dunque: ⎡⎛ 5 ⎞ ⎤ ⎛ 5⎞ P ( X > 1,67) = P ( X ≥ 2 ) = 1 − P ( X = 0 o X = 1) = 1 − ⎢⎜⎜ ⎟⎟0,35 0 ⋅ 0,65 5 + ⎜⎜ ⎟⎟0,351 ⋅ 0,65 4 ⎥ = 0,57 ⎝1⎠ ⎣⎝ 0 ⎠ ⎦ X c. Indichiamo con Y = la variabile casuale “quota campionaria”. Pertanto, n nπ 1 E (Y ) = E ( X n ) = E ( X ) = = π = 0,35 e n n nπ (1 − π ) π (1 − π ) 1 SD(Y ) = V (Y ) = V ( X n ) = V (X ) = = = 0,21 . 2 2 n n n 10.9 “percentuale di laureati” ha valore atteso E ( X ) = π = 0,2 e varianza V ( X ) = π (1 − π ) = 0,0032 . Per n n = 50 possiamo approssimarla a una v.c. N (0,2; 0,0032 ) . Utilizzando le tavole della normale o il software statistico, si trova: La v.c. X a. P ( X > 0,2 ) = 0,5 per la simmetria della v.c. normale rispetto al suo valore medio x = 0,2 . ⎛ 0 − 0,20 X − 0,20 0,10 − 0,20 ⎞ ≤ ≤ ⎟ = P (− 3,33 ≤ Z ≤ −1,66 ) = 0,06 0,06 ⎠ ⎝ 0,06 Φ(− 1,66 ) − Φ (− 3,33) = [1 − Φ (1,66 )] − [1 − Φ (3,33)] = [1 − 0,9515] − [1 − 0,99952] = 0,048 b. P (0 ≤ X ≤ 0,10 ) = P ⎜ ⎛ X − 0,20 0,3 0 − 0,20 ⎞ < ⎟ = 1 − P (Z < 1,66 ) = 0,0485 0,06 ⎠ ⎝ 0,06 c. P ( X ≥ 0,30 ) = 1 − P ( X < 0,30 ) = 1 − P ⎜ ⎛ X − 0,20 0,15 − 0,20 ⎞ P ( X ≤ 0,15) = P ⎜⎜ ≤ ⎟ = P (Z ≤ −0,83) = 0,06 ⎟⎠ ⎝ 0,06 Φ(− 0,83) = [1 − Φ(0,83)] = 1 − 0,7967 = 0,2033 quindi è più probabile osservare una frequenza di laureati minore o uguale a 0,15. 10.10 a. Il valore atteso della statistica è uguale nelle due indagini (ed in particolare coincide con la percentuale di persone della popolazione favorevole al provvedimento). b. La deviazione standard dell’indagine compiuta su 100 individui è inferiore a quella compiuta su 50 individui; in particolare, si ha che π (1 − π ) < π (1 − π ) . Questo risultato conferma che all’aumentare della numerosità 100 50 campionaria, la precisione della stima aumenta (e dunque la deviazione standard diminuisce). 10.11 a. X ~ N (100;69,44 ) , utilizzando le tavole della normale o il software statistico si trova: ⎛ X − 100 90 − 100 ⎞ ⎟ = P (Z ≤ −1,20 ) = Φ (− 1,20 ) = 1 − Φ (1,20 ) = 1 − 0,8849 = 0,1151 P X < 90 = P ⎜⎜ < 8,33 ⎟⎠ ⎝ 8,33 ⎛ X − 100 115 − 100 ⎞ ⎟ = 1 − P (Z ≤ 1,80 ) = 1 − Φ (1,80 ) = 1 − 0,9641 = 0,0359 P X > 115 = 1 − P X ≤ 115 = 1 − P ⎜⎜ ≤ 8,33 ⎟⎠ ⎝ 8,33 E’ più probabile osservare valori della media campionaria inferiori a 90. ( ) ( ) ( ) X ~ N (100;25) e dalle tavole della normale o mediante il software statistico si trova che la probabilità diminuisce. Infatti: ⎛ X − 100 115 − 100 ⎞ P X > 115 = 1 − P (X ≤ 115) = 1 − P ⎜ ≤ ⎟ = 1 − P (Z ≤ 3) = 1 − Φ (3) = 1 − 0,99865 = 0,00135 Ciò 5 5 ⎝ ⎠ si spiega osservando che all’aumentare della numerosità campionaria, il valore medio campionario tende ad avvicinarsi al valore incognito della popolazione. b. ( ) c. La deviazione standard della media campionaria è σ n 10.12 . Si ha 25 = 2,5 da cui n = 100 . n a. Ogni intervistato ha due sole possibilità di risposta, che possiamo indicare con 1=”vota A” e 0=”non vota A”, quindi il numero di persone che nel campione si esprime a favore di A può andare da 0 a 3500. Poiché nella popolazione π = 0,55 , la v.c. si distribuisce come una Binomiale con n = 3500 e π = 0,55 e il suo valore atteso è μ = nπ = 1925 . Pertanto ci si attende nel campione 1925 intervistati che si dicono a favore di A. Tuttavia, poiché la deviazione standard è σ = nπ (1 − π ) = 29,4 nel campione probabilmente non si osserveranno esattamente 1925 persone a favore di A ma per esempio un numero oscillante tra μ ± σ ossia tra 1896 e 1954. b. La proporzione di intervistati nel campione che vota per A, X , è una v.c. binomiale divisa per 3500. Questa v.c. assume i valori 0, 1/3500, …, 3499/3500, 1. Poiché nella popolazione π = 0,55 , allora la distribuzione della X ha valore atteso uguale a π = 0,55 e deviazione standard π (1 − π ) 0,55 ⋅ 0,45 = 0,0084 . Quindi con buona probabilità si osserverà nel campione una quota 3500 all’interno dei valori μ ± σ ossia tra 0,54 e 0,56. n 10.13 = a. Poiché la popolazione dei negozi è finita la media campionaria dell’orario di apertura è ⎛ 5000 − 50 ⎞ (0,3) 2 E ( X ) = μ = 8,30 e la varianza Var ( X ) = ⎜ = 0,00178 . ⎟ ⎝ 5000 − 1 ⎠ 50 50 b. Sia la dimensione campionaria, n = 50 , che il rapporto = 0,01 sono sufficienti per poter affermare 5000 che la media campionaria si distribuisce come una v.c. Normale con μ = 8,30 e σ 2 = 0,00178 . c. Poiché la media P (8,30 ≤ X ≤ 8,384) = P ( campionaria 8,30 − 8,30 distribuisce come X −μ 8,384 − 8,30 ≤ ⎛N −n⎞σ 2 ⎜ ⎟ ⎝ N −1 ⎠ n = P ( 0 ≤ Z ≤ 1,99) = Φ(1,99) − Φ(0) = 0,9767 − 0,5 = 0,4767 . 10.14 0,00178 ≤ si 0,00178 una v.c. Normale, si ha: )= a. La quota attesa di intervistati che si dicono interessati all’offerta commerciale è E ( X ) = π = 0,05 . b. Considerata la popolazione infinita, la media campionaria X è distribuita π (1 − π ) come ⎛120 ⎞ ⎟⎟(0,05) 6 (0,95)120−6 con media π = 0,05 e deviazione standard P ( X = x ) = ⎜⎜ = 0,02 . 6 n ⎝ ⎠ Tuttavia, poiché la numerosità campionaria è sufficientemente ampia e nπ > 5 , n(1 − π ) > 5 , la distribuzione si può approssimare a quella di una v.c. Normale. c. P ( X > 50) = P ( X − 0,05 0,08 − 0,05 > )) = P (Z > 1,5) = 1 − P (Z ≤ 1,5) = 1 − 0,9332 = 0,0668 . 0,02 0,02 Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 11 Es. . 11.1 La risposta esatta è la c., infatti dalla 11.4.3 si ha: 23 = V (T ) + 3 2 da cui ricaviamo V (T ) = 23 − 9 = 14 . 11.2 a. E’ corretto. Infatti E (T ) = E (0,2 ⋅ X 1 + 0,3 ⋅ X 2 + 0,3 ⋅ X 3 + 0,2 ⋅ X 4 ) = E (0,2 ⋅ X 1 ) + E (0,3 ⋅ X 2 ) + E (0,3 ⋅ X 3 ) + E (0,2 ⋅ X 4 ) = 0,2 ⋅ E ( X 1 ) + 0,3 ⋅ E ( X 2 ) + 0,3 ⋅ E ( X 3 ) + 0,2 ⋅ E ( X 4 ) = 0,2 ⋅ μ + 0,3 ⋅ μ + 0,3 ⋅ μ + 0,2 ⋅ μ = μ b. Sì, dalla formula (11.4.3) essendo B (T ) = E (T ) − μ = μ − μ = 0 . c. Sì, infatti in questo caso MSE (T ) = Var (T ) = = Var (0,2 ⋅ X 1 + 0,3 ⋅ X 2 + 0,3 ⋅ X 3 + 0,2 ⋅ X 4 ) = = Var (0,2 ⋅ X 1 ) + Var (0,3 ⋅ X 2 ) + Var (0,3 ⋅ X 3 ) + Var (0,2 ⋅ X 4 ) = = 0,4 ⋅ Var ( X 1 ) + 0,9 ⋅ Var ( X 2 ) + 0,9 ⋅ Var ( X 3 ) + 0,4 ⋅ Var ( X 4 ) = = 0,4 ⋅ σ 2 + 0,9 ⋅ σ 2 + 0,9 ⋅ σ 2 + 0,4 ⋅ σ 2 = 0,26 ⋅ σ 2 11.3 ( ) a. Per qualsiasi dimensione n del campione vale: E X = ( ) n⋅μ 1 1 E ( X 1 + L + X n ) = (μ + L + μ ) = =μ n n n pertanto in questo caso E X = 1000 . b. Per qualsiasi dimensione n del campione vale: n ⋅σ 2 σ 2 1 1 Var X = 2 Var ( X 1 + L + X n ) = 2 σ 2 + L + σ 2 = = e quindi per n = 150 si ha: n n n n2 40000 Var X = = 266,67 . 150 c. In virtù del teorema del Limite Centrale, anche se non abbiamo informazioni sulla distribuzione dei salari, possiamo affermare che la media campionaria è distribuita secondo una Normale. ( ( ) ) ( ) 11.4 n a. Essendo X ~ N (μ ;4 ) , si ha che L( μ ) = ∏ i =1 1 2 ⋅ 2π 1 ⎛ x −μ ⎞ − ⎜ i ⎟ e 2⎝ 2 ⎠ Considerando la funzione log L( μ ) si ha log L( μ ) = cos t − 2 . 1 n ∑ (x i − μ )2 . Derivando rispetto a μ ed 8 i =1 uguagliando a 0, si ottiene n 1 n ∑ (x i − μ ) = 0 , da cui μˆ = 4 i =1 xi ∑ i =1 n =x. n b. μˆ = 11.5 ∑x i =1 n i = 2 + 5 + 2 + 7 + 8 + 3 + 6 + 1 34 = = 4,25 8 8 X1 + X 2 + X 3 1 1 ) = E ( X 1 + X 2 + X 3 ) = [E ( X 1 ) + E ( X 2 ) + E ( X 3 )] = μ 3 3 3 X1 + 2X 3 1 1 2 E (T2 ) = E ( ) = E ( X1 + 2X 3 ) = E ( X1 ) + E ( X 3 ) = μ 3 3 3 3 X 1 + 3X 2 − 2 X 3 1 1 3 E (T3 ) = E ( ) = E ( X 1 + 3X 2 − 2 X 3 ) = E ( X 1 ) + E ( X 2 ) − E ( X 3 ) = μ 2 2 2 2 E (T4 ) = E ( 2 + X 3 ) = 2 + E ( X 3 ) = 2 + μ E (T1 ) = E ( E (T5 ) = E ( X 1 ⋅ X 3 ) = E ( X 1 ) ⋅ E ( X 3 ) = μ ⋅ μ = μ 2 poiché X1 e X 3 sono v.c. indipendenti. Dunque, solo i primi tre stimatori sono corretti. 11.6 La varianza della popolazione sia pari a σ 2 . X1 + X 2 + X 3 1 1 σ2 ) = Var ( X 1 + X 2 + X 3 ) = [Var ( X 1 ) + Var ( X 2 ) + Var ( X 3 )] = 3 9 9 3 X1 + 2X 3 1 4 5 MSE (T 2 ) = Var (T 2 ) = Var ( ) = Var ( X 1 ) + Var ( X 3 ) = σ 2 3 9 9 9 X1 + 3X 2 − 2X 3 1 9 7 MSE (T3 ) = Var (T3 ) = Var ( ) = Var ( X 1 ) + Var ( X 2 ) + Var ( X 3 ) = σ 2 2 4 4 2 MSE (T1 ) = Var (T1 ) = Var ( Var (T4 ) = Var (2 + X 3 ) = Var ( X 3 ) = σ 2 da cui (formula 11.4.3) MSE (T4 ) = 4 + σ 2 Dall’analisi dei 4 valori dell'MSE, segue che lo stimatore più efficiente è T1 11.7 a. La popolazione di riferimento è quella degli elettori italiani. b. La v.c. più idonea a rappresentare il carattere osservato è la v.c. Binomiale. Tuttavia poiché la dimensione campionaria è elevata, n = 1500 , per il Teorema del Limite Centrale si può utilizzare l’approssimazione Normale. c. Sui 1500 rispondenti al questionario, 870 (58%) è insoddisfatto della politica estera portata avanti dal governo. 11.8 a. Utilizzando come stimatore la media campionaria si ha: 35 + 47 + 30 + 42 + 21 + 44 = 36,5 Dicembre: x = 6 28 + 33 + 40 + 30 + 31 + 25 Aprile: x = = 31,2 6 b. Utilizzando lo stimatore della formula (11.8.1), si ottiene (35 − 36,5) 2 + ( 47 − 36,5) 2 + (30 − 36,5) 2 + ( 42 − 36,5) 2 + (21 − 36,5) 2 + ( 44 − 36,5) 2 = 96,3 Dicembre: S 2 = 5 (28 − 31,2) 2 + (33 − 31,2) 2 + ( 40 − 31,2) 2 + (30 − 31,2) 2 + (31 − 31,2) 2 + (25 − 31,2) 2 Aprile: S 2 = = 26,2 5 c. Ad Aprile il tempo medio di percorrenza è più basso di quello relativo al mese di Dicembre. La variabilità dei tempi di percorrenza del mese di Aprile è minore di quella relativa al mese di Dicembre. 11.9 λ2 + 5 +1+1+ 2 + 2 + 3 λ16 e −7 λ = e −7λ . 2!⋅5!⋅1!⋅1!⋅2!⋅2!⋅3! 5760 216 −14 3 16 − 21 e > e = L(3 ) E’ più verosimile λ = 2 perché L(2) = 5760 5760 a. Per il campione osservato, si ha: L(λ ) = b. Calcolando la funzione log L(λ ) si ha log L(λ ) = (x 1 + x 2 + L + x n ) log(λ ) − nλ + cos t . Derivando ed uguagliando a 0, si ottiene c. Si ha (x 1 + x 2 + L + x n ) − n = 0 λ (x + x 2 + L + x n ) da cui λˆ = 1 . (2 + 5 + 1 + 1 + 2 + 2 + 3) = 2,29 λˆ = n 7 11.10 a. Il valore atteso dello stimatore non è diverso nelle due indagini e coincide con la formula (11.7.1). b. Si modifica invece la deviazione standard dello stimatore che è uguale alla radice del rapporto tra la varianza della popolazione e la numerosità n. Dunque, lo stimatore ottenuto dal campione con n = 500 ha deviazione standard minore di quella dello stimatore ottenuto dal campione con n = 200 . 11.11 a. Sono tutti stimatori corretti. Infatti E (T1 ) = E ( X 1 ) = μ E (T2 ) = E ( X 2 ) = μ E (T3 ) = E ( X1 + X 2 1 1 ) = E ( X 1 + X 2 ) = [E ( X 1 ) + E ( X 2 )] = μ 2 2 2 E (T4 ) = E ( n1 X1 + n2 X 2 1 1 )= E (n1 X1 + n2 X 2 ) = [n1 ⋅ E ( X 1 ) + n2 ⋅ E ( X 2 )] = n1 + n2 n1 + n2 n1 + n2 1 [n1 ⋅ μ + n2 ⋅ μ ] = μ n1 + n2 b. Utilizzando le proprietà della media campionaria e il fatto che i due campioni sono indipendenti: σ2 Var (T1 ) = Var ( X 1 ) = n1 = Var (T2 ) = Var ( X 2 ) = σ2 n2 Var (T3 ) = Var ( X1 + X 2 σ2 1 1 1 1 ) = Var ( X 1 + X 2 ) = [Var ( X 1 ) + Var ( X 2 )] = ( + ) 2 4 4 4 n1 n2 Var (T4 ) = Var ( n1 X 1 + n2 X 2 1 )= Var (n1 X 1 + n2 X 2 ) = n1 + n2 (n1 + n2 )2 = 1 (n1 + n2 )2 1 (n1 + n2 )2 [n12 ⋅ Var ( X 1 ) + n22 ⋅ Var ( X 2 )] = [n12 ⋅ σ2 n1 + n22 ⋅ σ2 n2 ]= 1 (n1 + n2 )2 [n1 ⋅ σ 2 + n2 ⋅ σ 2 ] = σ2 n1 + n2 c. Essendo i 4 stimatori corretti, per verificare la consistenza occorre considerare la formula (11.5.3). lim n1 → +∞ lim n2 → +∞ lim n1 → +∞ n2 → +∞ lim n1 → +∞ n2 → +∞ σ2 n1 σ2 n2 σ2 4 =0 =0 ( 1 1 + )=0 n1 n2 σ2 n1 + n2 =0 d. T 4 è lo stimatore più efficiente poiché è Var (T 4 ) ≤ Var (T1 ) , Var (T 4 ) ≤ Var (T 2 ) e Var (T 4 ) ≤ Var (T3 ) . 11.12 25 + 30 + 27 + 22 + 30 + 28 + 26 + 20 + 28 + 26 = 26,2 10 b. Utilizzando lo stimatore della formula (11.8.1), si ottiene (25 − 26,2) 2 + (30 − 26,2) 2 + K + (26 − 26,2) 2 S2 = = 10,4 9 c. Utilizzando la media campionaria che in questo caso (si tratta di una v.c. di Bernoulli dato che siamo interessati all’aver preso o meno il voto 30) non è altro che la proporzione campionaria delle osservazioni che hanno 2 = 0,2 preso 30. Dunque si ha πˆ = x = 10 a. Utilizzando la media campionaria si ha x = 11.13 Dobbiamo verificare se vale la formula (11.5.1) o, in alternativa, le formule (11.5.2) e, se lo stimatore è corretto, la (11.5.3). E (T1 ) = E ( X ) = μ , Var (T1 ) = Var ( X ) = lim n→ +∞ σ2 n = 0. σ2 n . Essendo corretto, vale la consistenza poiché la (11.5.3) è soddisfatta: n−1 E (T2 ) = E ( B(T2 ) = − ∑ xi i =1 n 2μ n n−1 ∑ xi xn x n−2 1 n−1 1 1 μ da cui − ) = E ( i =1 ) − E ( n ) = E ( ∑ x i ) − E ( x n ) = [(n − 1) μ − μ ] = n n n n i =1 n n n n−1 Var (T2 ) = Var ( = 1 n2 ∑ xi i =1 n n−1 ∑ xi n−1 x xn 1 1 − ) = Var ( i =1 ) + Var ( n ) = 2 Var ( ∑ x i ) + 2 Var ( x n ) = n n n . n n i =1 [(n − 1)σ 2 + σ 2 ] = σ2 n vale la consistenza poiché la (11.5.2) è soddisfatta: lim n→ +∞ 2μ σ2 = 0 e lim = 0. n→ +∞ n n X1 − X n 1 1 ) = E ( X 1 − X n ) = [E ( X 1 ) − E ( X n )] = 0 da cui B(T3 ) = − μ . Lo stimatore non è consistente 2 2 2 perchè, per la formula (11.5.2) si ha che lim -μ = − μ ≠ 0 . E (T3 ) = E ( n→+∞ 11.14 Il database REDDITI (in formato Excel e Spss) contiene nella prima colonna il Reddito Netto, nella seconda colonna il Sesso (0=femmina; 1=maschio) e nella terza colonna l’Età. a. Il reddito medio del totale degli individui stimato attraverso la media campionaria è: 29392,1. b. La varianza del reddito, stimata attraverso la varianza campionaria corretta (11.8.1) è: 730458508,7. c. La proporzione di individui di sesso maschile, stimata attraverso la media campionaria della variabile Sesso, è: 0,53. d. Il reddito medio dei maschi e delle femmine, stimato attraverso le corrispondenti medie campionarie sono, rispettivamente: 36521,7 e 21354,2, ossia i maschi hanno un reddito medio superiore a quello delle femmine. 11.15 Il database DIABETE (in formato Excel e Spss) contiene nella prima colonna la Pressione diastolica, nella seconda colonna l’Età e nella terza colonna la presenza di Diabete (0=assenza; 1=presenza). L’età media è stimata pari a 33,2 anni mentre la pressione diastolica è stimata pari a 69,1. 11.16 1 n 1 n 2 E ( X i − μ ) = ∑ σ 2 = σ 2 è uno stimatore per la varianza della popolazione. ∑ n i =1 n i =1 b. Aggiungendo e togliendo la media campionaria, si ha: 2 1 n 1 n 1 n T = ∑ ( X i − μ )2 = ∑ ( X i − X + X − μ )2 = ∑ ( X i − X ) + ( X − μ ) = n i =1 n i =1 n i =1 n n n 1 1 2 = ∑ ( X i − X ) 2 + ∑ ( X − μ ) 2 + ∑ ( X − μ )( X i − X ) = n i =1 n i =1 n i =1 a. Poiché E (T ) = [ = ] 1 n n( X − μ ) 2 2( X − μ ) n + ( X i − X )2 + ∑ ∑( Xi − X ) n i =1 n n i =1 = σˆ 2 + ( X − μ ) 2 + 0 = σˆ 2 + ( X − μ ) 2 Da cui si ottiene che lo stimatore T è dato dalla varianza campionaria più una quantità mai negativa e quindi la stima ottenuta da T sarà sempre maggiore o uguale a quella data da σˆ 2 11.17 n nμ 1 E (∑ X i ) = lo stimatore non è corretto e la sua distorsione è pari a n − 3 i =1 n −3 nμ nμ − nμ + 3μ 3 μ. B(T ) = −μ = = n −3 n −3 n −3 n 1 nσ 2 b. V (T ) = . V (∑ X i ) = (n − 3)2 i =1 (n − 3)2 a. Poiché E (T ) = 2 σ2 n ⎛ 3 ⎞ 2 c. MSE (T ) = V (T ) + B(T ) = +⎜ ⎟ μ = 2 (n − 3)2 ⎝ n − 3 ⎠ ⎛ 3⎞ ⎜1 − ⎟ ⎝ n⎠ consistente poiché per n → +∞ l’errore quadratico medio tende a zero. 2 11.18 nσ 2 ⎞ ⎛ ⎜ 3n ⎟ ⎟ μ 2 quindi lo stimatore è +⎜ 3⎟ ⎜ ⎜1− ⎟ n⎠ ⎝ 2 a. Si. Infatti, bisogna ricordare che: E ( X i2 ) = σ 2 + E ( X i ) 2 = σ 2 + μ 2 per i=1,2 e che la covarianza tra due variabili indipendenti: Cov ( X 1, X 2 ) = E ( X 1 ⋅ X 2 ) − E ( X 1 )E ( X 2 ) è pari a zero e quindi E ( X 1 ⋅ X 2 ) = E ( X 1 )E ( X 2 ) = μ 2 . Pertanto si ha: 1 1 1 1 E (T ) = E ( X 12 ) + E ( X 22 ) − E ( X 1 X 2 ) = σ 2 + μ + σ 2 + μ − μ 2 = σ 2 . 2 2 2 2 ( 11.19 ) ( ) n ∑ xi −n n a. La funzione di verosimiglianza è: L(π ) = ∏ π (1 − π ) x i −1 = π n (1 − π ) i =1 i =1 ⎛ n ⎞ e la log-verosimiglianza, l (π ) = ln L(π ) = n ln(π ) + ⎜ ∑ x i − n ⎟ ln(1 − π ) ; quindi ⎜ ⎟ ⎝ i =1 ⎠ ⎛ n ⎞ ⎛ n ⎞ ⎜ ∑ x − n ⎟ n(1 − π ) − ⎜ ∑ x − n ⎟π i i ⎟ ⎜ ⎟ ∂l (π ) n ⎜⎝ i =1 i =1 ⎠ ⎝ ⎠ =0 = − = ∂π π (1 − π ) π (1 − π ) n ⎛ n ⎞ ⎜ ⎟ n(1 − π ) − ∑ x i − n π = 0 da cui n − nπ − π ∑ x i + πn = 0 e ⎜ ⎟ i =1 ⎝ i =1 ⎠ n 1 πˆ = = 0 , perciò lo stimatore di massima verosimiglianza è = x . n πˆ ∑ xi i =1 11.20 a. La funzione di verosimiglianza è: L(θ ) = θ n ∏ i =1 (1 + X i )1+θ = θn n , passando alla log1+ θ ∏ (1 + X i ) i =1 ⎛ ⎞ verosimiglianza, l (θ ) = ln L(θ ) = n ln(θ ) − (1 + θ )⎜ ∑ ln(1 + X i ) ⎟ e derivando, ⎜ ⎟ ⎝ i =1 ⎠ ⎞ ∂l (θ ) n ⎛⎜ n = − ∑ ln(1 + X i ) ⎟ = 0 si ottiene lo stimatore di massima verosimiglianza, ⎟ ∂θ θ ⎜⎝ i =1 ⎠ n θˆ = . n n ∑ ln(1 + X i ) i =1 Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 12 Es. . 12.1 Considerata una v.c. t-Student con 15 gradi di libertà e sapendo che il valore di t 0 ,05 = 1,7531 , dalla formula (12.4.2) si ottiene l’intervallo: [88 ,685 ; 91,315 ]. 12.2 Considerato che il valore di z 0 ,025 = 1,96 , dalla formula (12.3.1) si ha [168 ,728 ; 171,372 12.3 ]. a. Considerata una v.c. t-Student con 24 gradi di libertà e sapendo che il valore di t 0 ,025 = 2 ,0639 , dalla formula (12.4.2) si ha [90 ,9361 ; 95,0639 ] . b. L’intervallo di confidenza ottenuto, al livello del 95%, non contiene il valore medio della popolazione (pari a 90). Dunque, si può affermare che la pressione media degli individui di tipo A è diversa da quella della popolazione. 12.4 Considerata una v.c. t-Student con 24 gradi di libertà e sapendo che il valore di t 0 ,01 = 2 ,4922 , dalla formula (12.4.2) si ha [91,323 ; 105,477 ]. 12.5 Anche se la varianza della popolazione è incognita, possiamo utilizzare l’approssimazione normale essendo la numerosità campionaria sufficientemente elevata, in virtù del teorema del Limite Centrale. Considerato che il valore di z 0 ,005 = 2,5758 , dalla formula (12.4.3) si ha [973 ,25 ; 987,75 ] . 12.6 Possiamo utilizzare l’approssimazione normale essendo la numerosità campionaria sufficientemente elevata, in virtù del teorema del Limite Centrale. Utilizzando dunque la formula (12.5.1), si ha [0 ,528 ; 0,629 ] . 12.7 a. Considerata una v.c. t-Student con 49 gradi di libertà e sapendo che il valore di t 0 ,025 = 2 ,0096 , dalla formula (12.4.2) si ha [6,074 ; 6,926 ] b. L’intervallo di confidenza al 99% è più grande di quello al 95% perché cresce la probabilità che l’intervallo contenga il parametro della popolazione. Infatti, considerata una v.c. t-Student con 49 gradi di libertà e sapendo che il valore di t 0 ,005 = 2,68 , dalla formula (12.4.2), si ha [5 ,931 ; 7,069 ] . c. A parità di livello di confidenza, all’aumentare della numerosità campionaria, si riduce la variabilità della stima e, di conseguenza, si riduce l’ampiezza dell’intervallo. Infatti, dalla formula (12.4.2), si ha [6 ,199 ; 6,801 ] . 12.8 E’ x = 925,5 e s = 89,02 . Dalla formula (12.4.2), sapendo che per una t-Student con 9 gradi di libertà t 0 ,025 = 2 ,2622 , si ha [861 ,82 ; 989,18 ] 12.9 Possiamo utilizzare l’approssimazione normale essendo la numerosità campionaria sufficientemente elevata, in virtù del teorema del Limite Centrale. Utilizzando dunque la formula (12.5.1), si ha: a. [0,367 ; 0,413 ] b. [0,397 ; 0,443 ] c. Essendo i due intervalli non disgiunti, non si può affermare che la coalizione di Centro-destra è veramente in vantaggio. 12.10 a. E’ x = 1,95 . Dalla formula (12.3.1) si ha [1,754; 2,146 ] . b. Dalla formula (12.7.1), si ha n = 10 . 12.11 E’ x = 0,5 e s = 1,160 (e s 2 = 1,345 ). a. Dalla formula (12.4.2), considerando una t-Student con 4 gradi di libertà e che t 0 ,025 = 2 ,7765 , si ha [− 0,940 ; 1,940 ] . b. Dalla formula (12.6.1), considerando un Chi-quadrato con 4 gradi di libertà e i valori χ 02,025 = 11,1433 e χ 02,975 = 0,4844 , si ha [0,483 ; 11,107 ] . 12.12 a. Dalla formula (12.4.2), considerando una t-Student con 63 gradi di libertà e che t 0 ,025 = 1,9983 (che possiamo approssimare con il valore sulla tavola corrispondente a 60 g.d.l.), si ha [127; 137 ] . L’intervallo di confidenza ottenuto, al livello del 95%, non contiene (in particolare supera) il valore limite (pari a 120 km/h) e quindi possiamo affermare che mediamente in quel tratto di strada la velocità della auto supera i limiti di velocità. b. Dalla formula (12.7.2), si ha n = 96 . 12.13 E’ x = 24,71 e s = 1,98 (e s 2 = 3,90 ). Considerando una t-Student con 6 g.d.l. e che t 0 ,05 = 1,9432 , dalla formula (12.4.2), per la media si ha [23,26; 26,16] . Considerando un Chi-quadrato con 6 gradi di libertà e i valori χ 02,05 = 12 ,5916 e χ 02,95 = 1,6354 , dalla formula (12.6.1), per la varianza, si ha [1,86; 34,63 ] . 12.14 a. L’intervallo di confidenza al 95% per il reddito medio è [28921,82; 29862,38] . b. L’intervallo di confidenza al 90% per la varianza del reddito è [715675735,4; 745864859,0] c. L’intervallo di confidenza al 95% per la proporzione di individui di sesso maschile è [0 ,52; 0,54] . d. L’intervallo di confidenza al 95% per il reddito medio delle femmine è [20928,5; 21779,8] , mentre per i maschi è [35757 ,9; 37285,4] . 12.15 a. L’intervallo di confidenza al 95% per l’età media è [32 ,4; 34,1] mentre per la pressione media è [67 ,7; 70,5] . b. Possiamo considerare la formula (12.7.2) da cui otteniamo che la numerosità necessaria è n = 2938 . 12.16 a. Poiché la dimensione campionaria è sufficientemente elevata (infatti, nx = 300 ⋅ 0,45 = 135 e n(1 − x ) = 300 ⋅ 0,55 = 165 ) possiamo applicare la formula (12.5.1). In questo caso, poiché z0,025 = 1,96 , l’intervallo di confidenza è 0,45 ± 1,96 ⋅ 0,0287 ossia [0,39 ; 0,51] . b. L’ampiezza dell’intervallo è: 0,51 − 0,39 = 0,12 . c. Utilizzando le formule (12.5.2) si trova lo stesso intervallo di confidenza trovato al punto precedente. d. In questo caso l’intervallo di confidenza diventerebbe: 0,45 ± 2,57 ⋅ 0,0287 ossia 0,376; 0,524 e [ ] poiché ricade al suo interno il valore π = 0,5 , il candidato A può ritenere plausibile la possibilità di avere la maggioranza dei consensi. 12.17 a. Utilizzando la formula (12.7.1) con δ = 0,5 e z0,025 = 1,96 si ottiene una numerosità pari a 2 1,95 ⎞ ⎛ n = ⎜1,96 ⋅ ⎟ = 58,43 ≈ 59 e quindi un costo totale di 590 euro. 0,5 ⎠ ⎝ b. Con un livello di confidenza del 99% si ottiene: z0,005 = 2,576 e quindi 2 1,95 ⎞ ⎛ n = ⎜ 2,576 ⋅ ⎟ = 100,93 ≈ 101 da cui un costo totale di 1010 euro. 0,5 ⎠ ⎝ c. Non potendo superare un budget di 1010 euro si possono effettuare al massimo n = 1010 / 15 ≈ 67 interviste. Poiché z0,005 = 2,576 e σ = 1,95 dalla formula (12.7.1) si ottiene δ = z0,005 2δ = 1,22 . 1,95 σ = 2,576 = 0,61 e dunque la precisione, ossia l’ampiezza dell’intervallo è pari a n 67 Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 13 Es. . 13.1 a. b. c. d. e. f. 13.2 a. Il parametro di interesse è θ : prezzo di mercato dell’immobile; H 0 : θ = 0,5 ; H 1 : θ ≠ 0,5 . Semplice Semplice Semplice Composta Composta Semplice b. Il parametro di interesse è θ : percentuale di persone che praticano almeno una attività sportiva; H 0 : θ = 0,2 ; H 1 : θ ≠ 0,2 . c. Il parametro di interesse è θ : numero medio di ingressi giornalieri nelle sale cinematografiche; H 0 : θ = 31500 ; H 1 : θ > 31500 . d. Il parametro di interesse è θ : quantità di raccolto danneggiata; H 0 : θ = θ 0 ; H 1 : θ < θ 0 . 13.3 Deve essere sempre soddisfatta la condizione a; ciò non è vero invece per la condizione b. 13.4 a. Il sistema d’ipotesi è: H 0 : μ = μ 0 ; H1 : μ ≠ μ 0 . b. La probabilità di commettere un errore del Iº tipo (che coincide con il livello di significatività del test) quando si rifiuta H 0 se la statistica test supera il valore 1,6449 è data da: P( ( X − μ 0 ) ( σ n ) ≥ 1,6449 ) = P ( Z ≥ 1,6449 ) = 0 ,05 , quindi α = 5% . c. La probabilità di commettere un errore del Iº tipo (che coincide con il livello di significatività del test) quando si rifiuta H 0 se la statistica test supera il valore 2,5758 è data da: P( ( X − μ 0 ) ( σ n ) ≥ 2,5758 ) = P ( Z ≥ 2,5758 ) = 0,005 , quindi α = 0 ,5% . 13.5 Rifiutiamo l’ipotesi nulla se α > 0,09 . Il massimo valore di α affinché il test sia corretto è α = 0,05 . 13.6 Risposta esatta: c. 13.7 Risposta esatta: e. Infatti, possiamo solamente dire che si dovrebbe accettare H 0 se il livello di significatività α è stato fissato ad un valore inferiore a 0,3. 13.8 Risposta esatta: d. Infatti, non è possibile stabilire un valore di β se non si è a conoscenza dell’ipotesi alternativa formulata dal test d’ipotesi. 13.9 Risposta esatta: b. Infatti, l’intervallo di confidenza per μ , a un livello di confidenza 1 − α = 0 ,95 , costruito a partire dagli stessi dati campionari non conterrà il valore μ 0 ipotizzato in H 0 . 13.10 a. Lo spazio parametrico è Θ = [0 , 1500] ( b. Sotto l’ipotesi nulla, la statistica test Z = X − μ 0 ) (σ ) ( )( n = X − 1500 18 ) ( ) 9 = X − 1500 6 si distribuisce come una Normale standardizzata. c. Il valore critico per α = 0,01 è − zα = − z 0 ,01 = −2 ,33 , infatti P (Z ≤ −2 ,33) = 0 ,01 = α . d. La regione critica per α = 0,05 è data da Z ≤ −1,65 (ossia per X ≤ 1490,1 ). e. Dalla d. la regione di accettazione è data da tutti i valori della media campionaria tali che X > 1490,1 , pertanto: X − 1498 1490 ,1 − 1498 > )= 6 6 = P ( Z > −1,32 ) = 1 − P ( Z ≤ −1,32 ) = 1 − Φ( −1,32 ) = Φ( 1,32 ) = 0,9066 β = P ( X > 1490 ,1 H 0 falsa ) = P ( 13.11 a. Il sistema d’ipotesi considerato è H 0 : μ = 5 ; H1 : μ < 5 . b. Il valore della statistica test è –2,83. Il corrispondente p-value è P ( Z ≤ −2 ,83 ) = Φ( −2 ,83 ) = 1 − Φ( 2 ,83 ) = 0 ,0023 . c. Essendo il livello di significatività α = 0 ,025 > 0 ,0023 , si rifiuta l’ipotesi nulla. d. Si mantiene la stessa decisione fino a che α ≥ 0,0023 . 13.12 a. Il p-value è 0,2006, mentre il livello di significatività è 0,05, infatti: P (Z ≤ −1,28) + P (Z ≥ 1,28) = 0,1003 + 0 ,1003 = 0 ,2006 = p − value P Z ≤ − zα 2 + P Z ≥ zα 2 = P (Z ≤ −1,96 ) + P (Z ≥ 1,96 ) = 0 ,025 + 0,025 = 0 ,05 = α ( ) ( ) b. Essendo il p-value maggiore del livello di significativà, si accetta l’ipotesi nulla. c. Il p-value è 0,017, mentre il livello di significatività è 0,05. Infatti, supposto ad esempio che H o : μ = μ 0 e H1 : μ > μ 0 , si ha: P (Z ≥ 2 ,12 ) = 0 ,017 = p − value P (Z ≥ zα ) = P (Z ≥ 1,645) = 0 ,05 = α d. Essendo il p-value minore del livello di significativà, si rifiuta l’ipotesi nulla. Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 14 Es. . ( 14.1 Il sistema d’ipotesi è: H : μ = 7,1 H : μ ≠ 7,1 . Il valore della statistica test è t = (7,07 − 7,1) 0,0265 0 1 ) 5 = −2,53 . Essendo t = 2,53 < 2,7765 = t 0,025 (4 g.d.l.) , si accetta l’ipotesi nulla. 14.2 Il sistema d’ipotesi è (riferito a una durata in termini di chilometri): H 0 : μ = 20000 H1 : μ > 20000 . ( ) Il valore della statistica test è t = (22000 − 20000 ) 63,25 64 = 252 ,96 e il valore soglia è t 0 ,01 = 2,3901 (si è approssimato a 60 g.d.l.). Pertanto t > t 0,01 (o anche x = 22000 > 20018 ,90 = μ 0 + t 0 ,01 ⋅ s / n ) e si rifiuta l’ipotesi nulla, ossia si può ritenere che le nuove guarnizioni siano migliori delle precedenti. 14.3 Il sistema d’ipotesi è: H 0 : μ = 500 H1 : μ > 500 . ( ) Il valore della statistica test è t = (510 − 500 ) 10 25 = 5 e il valore soglia è t 0 ,01 = 2,4922 (con 24 g.d.l.). Pertanto t > t 0,01 (o anche x = 510 > 504 ,98 = μ 0 + t 0 ,01 ⋅ s / n ) e si rifiuta l’ipotesi nulla, ossia si può ritenere che il peso medio dei pacchi sia superiore a quello prefissato. 14.4 Il sistema d’ipotesi è: H 0 : μ = 1000 H1 : μ > 1000 . ( Il valore della statistica test è t = (1100 − 1000 ) 9 ) 16 = 44 ,44 e il valore soglia è t 0 ,05 = 1,7531 (con 15 g.d.l.). Pertanto t > t 0,05 (o anche x = 1100 > 1003,94 = μ 0 + t 0 ,05 ⋅ s / n ) e si rifiuta l’ipotesi nulla, ossia si può ritenere che le lampadine prodotte dalla nuova macchina abbiano una durata media superiore. 14.5 Il sistema d’ipotesi è: H 0 : π = 0 ,25 H1 : π ≠ 0 ,25 . Ricorrendo all’approssimazione Normale e alla 14.3.1 si ha: z = 0 ,048 ( 0 ,25 )( 0 ,75 ) 80 = 0 ,99 < 1,96 = z 0 ,025 pertanto si accetta l’ipotesi nulla (la differenza osservata è frutto del caso). 14.6 Il sistema d’ipotesi è: H 0 : μ = 8 H1 : μ ≠ 8 . Ricorrendo 14.2.1 si ha: z = − 1 (1 9 ) = −9 e z = 9 > 1,96 = z 0,025 , pertanto si rifiuta l’ipotesi nulla, cioè la macchina non è tarata correttamente. 14.7 Il sistema d’ipotesi è: H 0 : π = 0 ,25 H1 : π ≠ 0 ,25 . Ricorrendo all’approssimazione Normale e alla 14.3.1 si ha: z = 0 ,03 ( 0 ,1)( 0 ,9 ) 120 = 1,09 e quindi z = 1,09 < 1,65 = z 0,05 , pertanto si accetta l’ipotesi nulla (la proporzione osservata tra gli operai non è significativamente maggiore di quella della popolazione). 14.8 Il sistema d’ipotesi è: H : σ 2 = 122500 H : σ 2 > 122500 . 0 1 2 ( ) n − 1S = 45,14 > 19,6752 = χ 02,05 , pertanto si rifiuta l’ipotesi nulla (il prezzo delle case è più Dalla 14.4.1, essendo 2 σ0 variabile). 14.9 Dalla 14.5.2 si ha: t = x1 − x 2 S p2 (1 / n1 + 1 / n2 ) nulla. = 7 ,20 >2 ,68 = t 0 ,005 (con 49 g.d.l.), pertanto si rifiuta l’ipotesi 14.10 Il sistema d’ipotesi è: H 0 : π M = π F H1 : π M ≠ π F . ⎛ 1 1 ⎞ ⎟⎟ = 1,97 > 1,96 = z 0 ,025 , pertanto si rifiuta l’ipotesi nulla. + x p 1 − x p ⎜⎜ ⎝ n1 n2 ⎠ ( Dalla 14.5.3 si ha: (x1 − x 2 ) ) 14.11 Il sistema d’ipotesi è: H 0 : μ = 7 ,5 H1 : μ < 7 ,5 . Dalla 14.2.1 si ha x = 7,2 < 7,29 = μ 0 − zα σ / n , pertanto si rifiuta l’ipotesi nulla (il nuovo motore ha un consumo inferiore) 14.12 Il sistema d’ipotesi è: H 0 : μ1 = μ 2 H1 : μ1 > μ 2 . Dalla 14.5.2, si ha t = x1 − x 2 S p2 (1 / n1 + 1 / n2 ) = 0 ,86 <1,6794 = t 0 ,05 (con 45 g.d.l.), pertanto si accetta l’ipotesi nulla (il gradimento del nuovo shampoo non è significativamente diverso dal precedente). 14.13 Il sistema d’ipotesi è: H 0 : π 1 = π 2 H1 : π 1 > π 2 . x1 − x2 = 1,54 < 1,65 = z0 ,05 , pertanto si accetta l’ipotesi nulla (la proporzione ⎛1 1 ⎞ ⎟⎟ x p (1 − x p )⎜⎜ + ⎝ n1 n2 ⎠ delle ventenni favorevoli al contraccettivo non è significativamente diverso da quella delle quarantenni) Dalla 14.5.5 si ha 14.14 a. Dalla 14.2.2 si ha t = 2 > 1,7109 = t 0,05 (con 24 g.d.l.), pertanto si rifiuta l’ipotesi nulla. b. Il p-value è approssimativamente 0,025 (infatti dalle tavole della t-student con 24 g.d.l. si ha P ( t > 2 ,0639 ) = 0 ,025 ). c. Essendo il p-value maggiore di α = 0,01 , si accetta l’ipotesi nulla. 14.15 Si ha s = 1 . Essendo n = 400 si ricorre all’approssimazione Normale. a. Essendo z = 20 > 1,96 = z 0,025 , si rifiuta l’ipotesi nulla. b. Possiamo rifiutare l’ipotesi nulla solo per un livello minimo di significatività prossimo a 0. c. Dal punto precedente concludiamo che a maggior ragione possiamo rifiutare l’ipotesi nulla. Infatti, in questo caso, si ha z = 20 > 1,65 = z 0,05 e pertanto si deve rifiutare l’ipotesi nulla. 14.16 a. Maschio Femmina Totale 2 χ2 Preferenza Aspetto esterno Prestazione Totale 75 125 200 150 100 250 225 225 450 2 2 2 200 ⋅ 225 ⎞ 200 ⋅ 225 ⎞ 250 ⋅ 225 ⎞ 250 ⋅ 225 ⎞ ⎛ ⎛ ⎛ ⎛ ⎜ 75 − ⎟ ⎜125 − ⎟ ⎜150 − ⎟ ⎜100 − ⎟ 450 450 450 450 ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ = + + + = 22,5 200 ⋅ 225 200 ⋅ 225 250 ⋅ 225 250 ⋅ 225 450 450 450 450 b. Essendo χ 2 = 22 ,5 > 3 ,8415 = χ 02,05 (con 1 g.d.l.), si rifiuta l’ipotesi nulla di indipendenza. 14.17 a. Essendo t = −2,46 < −1,6991 = t 0,05 (con 29 g.d.l.), si rifiuta l’ipotesi nulla che il punteggio medio sia lo stesso. b. Essendo t = −2,46 > −2,4620 = t 0,01 (con 29 g.d.l.), si accetta l’ipotesi nulla che il punteggio medio sia lo stesso. c. Considerando l’ α = 0,01 del punto b. e essendo z β = 0,25 , si ha che: 2 ⎡12( 2 ,33 + 0 ,25 ) ⎤ n=⎢ ⎥ = 38 ,3 e quindi con n = 39 si è sicuri di soddisfare la richiesta. ⎣ (100 − 105 ) ⎦ Si noti che per α = 0,05 sarebbe stato necessario un numero inferiore di unità statistiche pari a n = 21 . 14.18 a. Essendo s12 = 1288,24 e s 22 = 2655,88 da cui s12 s22 = 0 ,48 . Considerando una v.c. F-Fisher con 30 e 8 gradi di libertà, si ha: f 0 ,025 (30 , 8) = 3,89 e f 0 ,975 (30 , 8) = 1 f 0 ,025 (8 , 30) = 1 2,65 = 0 ,38 . Poiché f 0 ,975 < s12 s 22 < f 0 ,025 si accetta l’ipotesi nulla (le varianze sono uguali). b. Essendo x 1 = 66,65 , x 2 = 33,50 e s p2 = 1576 ,16 si ha: t = x1 − x 2 s p2 (1 / n1 + 1 / n2 ) = 2 ,21 > 2 ,0244 = t 0 ,025 (con 38 g.d.l.) e pertanto si rifiuta l’ipotesi nulla che le due medie sono uguali. c. Al rifiuto dell’ipotesi nulla arriviamo anche con test unidirezionale t = 2 ,21 > 1,6860 = t 0 ,05 e pertanto possiamo concludere che la raffineria ha sovrastimato le misurazioni. 14.19 Grave 1 5 5 15 26 control bran combo gum Totale 2 χ2 26 ⋅ 26 ⎞ 26 ⋅ 24 ⎞ ⎛ ⎛ ⎜2 − ⎟ ⎜1 − ⎟ 100 ⎠ 100 ⎝ ⎝ ⎠ +K+ = 26 ⋅ 26 26 ⋅ 24 100 100 Medio 3 4 15 6 28 Leggero 5 9 3 3 20 Assente 15 7 2 2 26 Totale 24 25 25 26 100 2 = 51,59 Essendo χ 2 = 51,59 > 21,666 = χ 02,01 (con 9 g.d.l.), si rifiuta l’ipotesi nulla di indipendenza. 14.20 Dai dati si ottiene che: x G = 33 ,98 , x L = 74 ,58 e x P = 38 ,38 , sG = 10 ,17 , s L = 4 ,76 e s P = 11,52 . a. Essendo t = −1,54 > −1,6706 = −t0 ,05 (approssimando a una t_Student con 60 g.d.l.), si accetta l’ipotesi nulla (la temperatura media di gennaio non è significativamente inferiore a quella dell’anno precedente). b. Essendo t = 7 ,45 > 1,6706= t0 ,05 (approssimando a una t_Student con 60 g.d.l.), si rifiuta l’ipotesi nulla (la temperatura media di luglio è significativamente superiore a quella dell’anno precedente). c. Essendo t = 1,09 < 2 ,0003= t0 ,025 (approssimando a una t_Student con 60 g.d.l.), si accetta l’ipotesi nulla (la caduta media di pioggia non è significativamente diversa da quella dell’anno precedente). 14.21 a. Essendo s12 = 127237 ,1 e s02 = 120182 ,4 da cui s02 s12 = 0 ,945 e, approssimando a una v.c. F-fisher con gradi di libertà (200, 200), si ha f 0 ,975 = 0 ,76 e f 0 ,025 = 1,32 e pertanto si accetta l’ipotesi nulla (le varianze sono uguali). b. Il sistema d’ipotesi è il seguente: H 0 : μ 0 = μ1 contro H1 : μ 0 < μ1 . Essendo x1 = 1637 ,5 e x 0 = 1566 ,4 , dalla (14.5.3) si ha z = 2 ,26 > 1,645 = z 0 ,05 da cui si rifiuta l’ipotesi nulla (la promozione ha avuto effetto). 14.22 Campione 1 2 3 4 5 6 7 8 s 0.011 0.011 0.010 0.007 0.009 0.009 0.008 0.011 x 321,999 322,014 321,998 321,995 322,004 322,002 322,006 321,997 I valori critici sono Campione 1 2 3 4 5 6 7 8 t 0.533 5.333 0.656 2.615 1.852 1.136 2.642 1.714 Si rifiuta l’ipotesi nulla se t ≥ 2 ,1315 = t0 ,025 (con 15 g.d.l.). Dunque si rifiuta l’ipotesi nulla per i campioni 2,4 e 7. 14.23 ⎛ ⎞ n ij2 ⎜ ⎟ − 1⎟n = 15,16 . a. Utilizzando la formula (6.6.2) si ha χ = ⎜ ∑∑ ⎜ i j ni .n. j ⎟ ⎝ ⎠ 2 b. Poiché si ha che con 4 gradi di libertà χ 02,05 = 9,4877 possiamo rigettare l’ipotesi nulla di indipendenza tra i due caratteri. c. Il test porta a rigettare l’ipotesi nulla. Tuttavia, con una dimensione del campione così grande, anche una debole associazione potrebbe risultare statisticamente significativa. d. La frazione dei poco felici tra coloro che hanno un basso titolo di studio è 36/203=0,177, mentre tra coloro che hanno un alto titolo di studio è 29/341=0,085. La differenza è 0,092. Quindi passando da un basso ad un elevato titolo di istruzione il livello di felicità aumenta. e. Indichiamo con π 1 la quota dei poco felici tra coloro che nella popolazione hanno un basso titolo di studio e con π 2 la quota dei poco felici tra coloro che hanno un elevato grado di istruzione. Si vuole verificare l’ipotesi nulla H 0 : π 1 = π 2 , contro l’ipotesi alternativa H1 : π 1 ≠ π 2 . La numerosità campionaria dei due gruppi, n1 = 203 e n 2 = 341 , è sufficientemente grande per poter applicare la 0,092 statistica test (14.5.5). Da cui risulta = 3,21 . Pertanto, poiché 1 ⎞ ⎛ 1 + 0,119(1 − 0,119)⎜ ⎟ ⎝ 203 341 ⎠ z0,025 = 1,96 si rigetta l’ipotesi nulla. 14.24 a. Utilizzando la formula (6.6.2) si ha per la prima indagine χ = 0,08 e per la seconda χ 2 = 4 . χ 02,05 = 3,8415 , l’ipotesi nulla di indipendenza tra i due caratteri viene rigettata dai dati della prima indagine mentre non viene rifiutata dai dati della seconda indagine. In entrambe le tabelle, la quota di coloro che vedono il programma tra le femmine è pari a 0,51 mentre tra i maschi è 0,49. La differenza tra queste due quote, pari a 0,02, è molto modesta rilevando una assai debole associazione tra i due caratteri in entrambe le indagini. Da notare che nel precedente punto, per la seconda indagine l’associazione tra i due caratteri risulta significativa a causa b. Poiché si ha che con 1 grado di libertà c. 2 principalmente dell’elevata numerosità campionaria. π 1 la quota di femmine che, nella popolazione, vede il programma e con π 2 la corrispondente quota di maschi. Si vuole verificare l’ipotesi nulla H 0 : π 1 = π 2 , contro l’ipotesi alternativa H1 : π 1 ≠ π 2 . La numerosità campionaria dei due gruppi nella prima indagine, n1 = 100 e n 2 = 100 , è sufficientemente grande per poter applicare la statistica test (14.5.5). Da cui risulta 0,02 = 0,28 . Pertanto, poiché z0,025 = 1,96 non si rigetta l’ipotesi nulla. Al 1 1 ⎞ ⎛ + 0,5(1 − 0,5)⎜ ⎟ ⎝ 100 100 ⎠ contrario, considerando i dati della seconda indagine, il valore della statistica test diventa 0,02 = 2 e quindi rigettiamo l’ipotesi nulla di indipendenza. Come si può 1 1 ⎛ ⎞ + 0,5(1 − 0,5)⎜ ⎟ ⎝ 5000 5000 ⎠ notare, anche in questo caso la differenza tra i due risultati è dovuta esclusivamente alla diversa dimensione campionaria, che nel secondo caso porta alla significatività anche in presenza di una debole associazione tra i due caratteri. d. Indichiamo con Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 15 Es. 15.1 . ⎛ 20 ⎞ Essendo B = 6 , n = 20 e P (Ai ) = 1 3 per i = 1,2,3 , si ha: P (B = 6 Ai ) = ⎜⎜ ⎟⎟π i6 (1 − π i ) 20−6 per i = 1,2,3 e ⎝6⎠ quindi [ [( 0,1) ( 0,9 ) [( 0,1) ( 0,9 ) ] ]= 0,933 ] = 0,024 P (A1 B = 6 ) = ( 0,1) 6 ( 0,9 )14 ( 0,1) 6 ( 0,9 )14 + ( 0,3 ) 6 ( 0,7 )14 + ( 0,6 ) 6 ( 0,4 )14 = 0,043 P (A2 B = 6 ) = ( 0,3 ) 6 ( 0,7 )14 P (A3 B = 6 ) = ( 0,6 ) 6 ( 0,4 )14 6 14 + ( 0,3 ) 6 ( 0,7 )14 + ( 0,6 ) 6 ( 0,4 )14 6 14 + ( 0,3 ) 6 ( 0,7 )14 + ( 0,6 ) 6 ( 0,4 )14 15.2 Poichè n = 100 e a = 20 , la distribuzione a posteriori è una Beta (α , β ) = Beta (a + 1, n − a + 1) = Beta (21,81) . a. Il valore atteso è pari a α (α + β ) = 21 102 = 0,206 b. La distribuzione a posteriori diventa una Beta (a + α , n − a + β ) = Beta (25,85) con valore atteso pari a 25 110 = 0,227 . 15.3 Poiché la distribuzione a priori è non-informativa impropria (ad esempio pari a una costante) la distribuzione 2⎞ ⎛ σ ⎟ ; pertanto per a posteriori è proporzionale alla verosimiglianza e quindi in questo caso h(μ x ) = N ⎜ x , ⎜ ⎟ n ⎝ ⎠ n = 100 e x = 22,7 si ha: a. μ ˆ = 22,7 b. Con 1 − α = 0,95 si ottiene zα 2 = 1,96 e quindi un intervallo di credibilità HPD per la media 22,7 ± 1,96 410 100 = 22,7 ± 3,97 c. Le stime sono uguali a quelle ottenibili con un approccio frequentista. 15.4 ( a. In questo caso la distribuzione a priori è informativa h(μ ) = N α , β ( ) distribuzione a posteriori diventa: h(μ x ) = N ϑ ,ω 2 con ~ ( ) 2 ) = N (85,400) , pertanto la −1 −2 ⎡ ⎤ ⎡ ⎤ −2 ⎡ 1 ⎤ n σ 1 β 2 ⎥x + ⎢ ⎥α e ω = ⎢ + ϑ =⎢ ⎥ . Quindi la stima 2 2 ⎢ β −2 + σ n −2 ⎥ ⎢ β −2 + σ n −2 ⎥ ⎢ ⎥⎦ σ n β ⎣ ⎣ ⎦ ⎣ ⎦ 0,16 ⎤ ⎡ 0,0025 ⎤ ~ ⎡ puntuale di μ è ϑ = ⎢ 80 + ⎢ ⎥85 = 80,08 . ⎥ ⎣ 0,0025 + 0,16 ⎦ ⎣ 0,0025 + 0,16 ⎦ ~ ( ) ( ) b. Con 1 − α = 0,99 si ottiene zα 2 = 2,58 e quindi un intervallo di credibilità HPD per la media 80,08 ± 2,58 (1 6,25 + 1 400)−1 = 22,7 ± 2,48 . 15.5 La distribuzione a posteriori è una Normale. Pertanto, poiché è una funzione di densità simmetrica, moda, mediana e media aritmetica coincidono e valgono in questo caso 80,08. Considerando, ad esempio, una popolazione iniziale distribuita come una Poisson e una distribuzione a priori di tipo Gamma, si otterrebbe una distribuzione a posteriori ancora di tipo Gamma, non necessariamente simmetrica, e quindi con media, mediana e moda con valori fra loro diversi. 15.6 Considerando che lo stimatore è dato da una media ponderata tra l’informazione campionaria e quella a ( ) −2 ⎡ ⎤ σ n ⎢ ⎥ , si vuole fissare p ≥ 0,5 . Perciò priori, del tipo: ϑ = px + (1 − p )α con peso p = ⎢ β −2 + σ n −2 ⎥ ⎣ ⎦ −2 2 ⎡ ⎤ 1 −2 σ n ⎛ 40 ⎞ 2 −2 ⎢ ⎥ ≥ e quindi σ n ≥ β , da cui (σ β ) ≤ n e quindi n ≥ ⎜ ⎟ = 16 . ⎢ β −2 + σ n −2 ⎥ 2 ⎝ 10 ⎠ ⎣ ⎦ ~ ( ( ) ( ) ( ) ) 15.7 Dal problema si ha: n = 30 e x = 6 . a. La distribuzione a posteriori è ( ) h(λ x ) = Gamma ∑ i x i + α ; β + n = Gamma(6 ⋅ 30 + 5; 1 + 30 ) = Gamma(185; 31) ∑i x i +α 185 = 5,97 . n+β 31 b. La distribuzione a posteriori è da cui λˆ = ( = ) h(λ x ) = Gamma ∑ i x i ; n = Gamma(180; 30 ) da cui λˆ = 15.8 a. ∑i xi n =x= 180 = 6. 30 La verosimiglianza sotto l’ipotesi nulla è data da L(π 0 x , H 0 ) = (0,3)∑ i x i (0,7 )n − ∑i x i = (0,3)45 (0,7 )55 . Poiché l’ipotesi alternativa è composta, si deve considerare al denominatore del fattore di Bayes la verosimiglianza media data da: Γ(α + β ) Γ(α + ∑i x i )Γ(β + n − ∑i x i ) Av (L(π x , H1 )) = . Ricordando che Γ(n + 1) = n! si ha: Γ(α + β + n ) Γ(α )Γ(β ) 4! 46! 57! Γ(2 + 3) Γ(2 + 45)Γ(3 + 100 − 45) Av (L(π x , H1 )) = = . La probabilità a posteriori 2! 3! 104! Γ(2 + 3 + 100) Γ(2 )Γ(3) dell’ipotesi nulla è dunque: 1 h(π 0 x ) = (0,3)45 (0,7 )55 0,5 = 0,034 in cui c = L(π 0 x , H 0 )P (H 0 ) + L (π x , H1 )P (H1 ) . c [ ] b. Il fattore di Bayes è dato da: B (H 0 , H1 ( 0,3)45 (0,7 )55 )= = 0,034 . 4! 46! 57! 2! 3! 104! c. Il valore del fattore di Bayes è inferiore a 1 e pertanto si rifiuta l’ipotesi nulla. 15.9 −1 ⎡ 1 ⎛ 1 ⎤ 1 1 1 ⎞⎟ 2 + Poiché si vuole ω = ⎢ + ≥ 1 e quindi n ≥ ⎜1 − σ . Sostituendo i ⎥ ≤ 1 , allora 2⎟ ⎜ ⎢⎣σ 2 n β 2 ⎥⎦ σ2 n β2 β ⎝ ⎠ 1⎞ ⎛ valori delle varianze si ottiene: n ≥ ⎜1 − ⎟72 = 66 . ⎝ 12 ⎠ Per ottenere una varianza non superiore a 0,1 si riapplica lo stesso procedimento ottenendo: 1⎞ ⎛ n ≥ ⎜10 − ⎟72 = 714 . 12 ⎠ ⎝ 2 Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 16 Es. 16.1 In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali. ˆ1 = a. Poiché β σ T1T2 σ T2 1 = σ T1T2 σ T1 σ T2 ⋅ σ T2 σ T1 = ρ T1T2 ⋅ 0 ,49 si ha βˆ1 = 0 ,24 ⋅ = 0 ,294 e 0 ,40 Dunque T2 = 2 ,16 + 0 ,294 ⋅ T1 . ( b. Si ha RT2 T = ρ T1T2 1 2 σ T2 σ T1 βˆ0 = xT2 − βˆ1 xT1 = 3,11 − (0 ,294 ⋅ 3,23) = 2 ,16 . )2 = (0 ,24)2 = 0 ,058 . c. Dal coefficiente di determinazione possiamo concludere che la quota di variabilità di T2 spiegata dalla variabile T1 attraverso la retta è molto modesta. d. Il punteggio medio previsto è pari a 2,748. 16.2 a. Poiché il coefficiente di correlazione è negativo, ne consegue che la covarianza è negativa e dunque la retta di regressione ha pendenza negativa, pertanto sussiste una relazione lineare inversa tra l’avarizia e l’arroganza. b. L’indice di determinazioni corrisponde al quadrato del coefficiente di correlazione lineare e pertanto si ha: 2 R XY = (ρ XY )2 = ( −0,4 ) 2 = 0,16 . c. Si ha: βˆ1 = ρ XY σY ⎛ 1,2 ⎞ = −0,4⎜ ⎟ = −0,53 e βˆ 0 = y − βˆ1 x = 6 + 0,53 ⋅ 4 = 8,12 , quindi la retta di σX ⎝ 0,9 ⎠ regressione Ŷ = 8,12 − 0,53 X 16.3 a. No, ad un valore di X corrisponde anche più di un valore di Y . b. Per il grafico 1, è la iii. Per il grafico 2, è la ii. ˆ0 = y . c. Essendo una retta parallela all’asse delle ascisse si ha che β̂1 = 0 e naturalmente β 16.4 a. La retta stimata è yˆ i = −3,60 + 3,10 x i . 2 b. Sì, essendo RYX = 76 ,6% . c. Sì poiché β̂ 1 > 0 anche la covarianza sarà positiva. d. Dato che l’equazione stimata per X dipendente è: X = 2.2948+0.2470*Y la larghezza media prevista è 2.2948+0.2470*7 = 4.02 16.5 a. 250 200 150 100 50 0 0 1 2 3 4 5 6 7 b. La retta stimata è ŷ i = 3 ,57 + 32 ,14 x i . Ne segue ŷ 1 = 35 ,71 , ŷ 2 = 67 ,85 , ŷ 3 = 99 ,99 , ŷ 4 = 196 ,41 . 2 RYX = 99 ,07% mentre SQE = 135,71 . d. La durata media è pari a 3 ,57 + 32 ,14 ⋅ 4 = 132 ,13 . c. 16.6 a. Essendo σ YX = ρYX σ X σ Y = 41,04 , si ha che la retta che pone il peso in funzione dell’altezza è ŷ i = −51,28 + 0 ,71x i 2 = (ρ XY b. RYX )2 = 0 ,36. c. La retta che pone l’altezza in funzione del peso è x̂ i = 133 ,32 + 0 ,51y i d. Il peso medio è 62,32 Kg, poiché dalla retta stimata in a. si ha − 51,28 + 0 ,71 ⋅ 160 = 62 ,32 . e. L’altezza media è 166,47 cm, poiché dalla retta stimata in c. si ha 133 ,32 + 0 ,51 ⋅ 65 = 166 ,47 . 16.7 a. La retta stimata risulta essere ŷ i = 289 ,91 − 14 ,56 x i b. All’aumentare di una unità della X , corrisponde una riduzione della Y pari a 14,56. La bontà di 2 adattamento è molto elevata infatti è pari a RYX = 89.8% . 16.8 a. La retta stimata risulta essere ŷi = 4 ,43 + 2 ,70 xi 2 b. Il modello si adatta bene ai dati, infatti risulta RYX = 68% . c. E’ la sesta osservazione, ossia quella che presenta la coppia di valori (x=10, y=60). d. La retta stimata risulta essere ŷ i = −0 ,759 + 0 ,472 x i . 2 e. Sì, infatti RYX = 91,8% . 16.9 a. La retta stimata risulta essere ŷ i = 1,60 + 0 ,10 xi 2 b. Il valore del coefficiente di determinazione, pari a RYX = 94 ,8% , indica un elevatissimo grado di adattamento della retta stimata ai dati osservati. 16.10 a. La retta stimata risulta essere ŷ i = 0 ,4848 + 0 ,4848 x i . b. Sì, essendo βˆ1 = 0,48 . Sui dati, tale risultato si osserva meglio per redditi elevati. 2 c. No, infatti RYX = 45 ,6% . d. Il consumo medio è 2,424, infatti 0 ,4848 + (0 ,4848 ⋅ 4) = 2 ,424 . 16.11 a. La retta stimata è ŷ i = 2 ,32 + 0 ,26 xi . b. Dalla formula (16.6.1) e considerando la formula (16.6.3) si ottiene: 171,61 ⎤ ⎡ 1 s( Β0 ) = 12,23⎢ + ⎥ = 0 ,348 e s( Β1 ) = ⎣ 500 21766 ,68 ⎦ 12 ,23 = 0 ,024 . 21766 ,68 2 c. No, infatti RYX = 19 ,2% . d. Il punteggio medio nel test VISUAL è 6,22, infatti 2 ,32 + (0 ,26 ⋅ 15) = 6 ,22 . 16.12 a. La retta stimata è ŷ i = 2 ,74 + 0 ,80 x i . b. Da una sigaretta con 10 mg di catrame la quantità media di monossido di carbonio emessa è 10,74, infatti 2 ,74 + (0 ,8 ⋅ 10) = 10 ,74 . 2 c. No, di più infatti RYX = 91,7% . d. La retta stimata è ŷ i = 1,66 + 12 ,40 x i . 2 e. E’ più evidente la relazione che lega il monossido di carbonio al catrame ( RYX = 91,7% del catrame contro 2 RYX = 85 ,7% della nicotina). 16.13 a. La retta stimata è ŷi = 2 ,04 + 1,01xi . b. Sì, poiché βˆ > 0 . 1 c. La regione del Southeast; infatti in corrispondenza dei valori di questa regione si osserva il residuo più grande pari a 0,63. 2 = 61,5% , pertanto vi è un buon adattamento ai d. Il coefficiente di determinazione risulta essere RYX dati. 16.14 a. La retta stimata è ŷ SAi = 182 ,2 + 0 ,57 xTi . b. La retta stimata è ŷ LDi = 3759 ,28 + 36 ,36 xTi . c. La retta stimata è ŷ SLi = 719 ,97 + 1,56 xTi . 2 2 d. Guardando ai coefficienti di determinazione si trova rispettivamente: RSA ,T = 90 ,9% , RLD ,T = 97 ,9% , 2 RSL ,T = 75 ,7% . Pertanto la relazione lineare stimata tra le performance del Lancio del Disco e il Tempo è quella che si adatta meglio ai dati osservati. 16.15 a. Il grafico di dispersione è il seguente: prezzo medio (mq) abit. signorile 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 prezzo m edio (m q) abit. standard b. La retta di regressione stimata è: Ŷ = 0,73 + 1,03 X . 2 c. Il coefficiente di determinazione è R = 0,89 . d. Il prezzo medio (per mq) di un’abitazione signorile in una località balneare previsto da modello quando il prezzo medio Ŷ = 0,73 + 1,03 ⋅ 3,5 = 3,82 . 16.16 (per a. Il grafico di dispersione è il seguente: mq) di un’abitazione standard è di 3500 euro è 55 % raccolta differenziata 2005 50 45 40 35 30 25 20 20 25 30 35 40 45 % raccolta differenziata 2000 b. La retta di regressione stimata è: Ŷ = 8,31 + 0,93 X . 2 c. Il coefficiente di determinazione è R = 0,59 . d. La percentuale di raccolta differenziata nel 2005 prevista dal modello per un capoluogo con una percentuale nel 2000 del 30% è Ŷ = 8,31 + 0,93 ⋅ 30 = 36,21 . e. Se nel 2000 tra due capoluoghi si è osservata una differenza nella percentuale di raccolta differenziata pari a Δx = x 2 − x1 = 5 allora in base al modello stimato nel 2005 tale differenza è diminuita ed è pari al Δy = ŷ 2 − ŷ1 = ( βˆ 0 - βˆ 0 ) + βˆ1 ( x 2 − x1 ) = 0,93 ⋅ 5 = 4,65 . 16.17 a. Il grafico di dispersione è il seguente: 3 2,5 Variazione PIL 2 1,5 1 0,5 0 -1 -0,5 0 0,5 1 1,5 -0,5 Variazione Spesa per fam iglia b. La retta di regressione stimata è: Ŷ = 0,46 + 0,87 X 2 c. Il coefficiente di determinazione è: R = 0,76 16.18 a. La retta di regressione stimata è: Ŷ = 0,28 + 1,26 X 2 b. Il coefficiente di determinazione è: R = 0,91 c. Il grafico di dispersione e la retta stimata sono: 2 2,5 7 Fatturato gennaio 2008 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Fatturato gennaio 2007 d. La differenza del fatturato tra due tipologie di strumenti nel 2007 non rimane la stessa nel 2008. Infatti, Δy = ŷ 2 − ŷ1 = ( βˆ 0 - βˆ 0 ) + βˆ1 ( x 2 − x1 ) = 1,26 ⋅ Δx e quindi aumenta in media del 26% rispetto all’anno precedente. a. La retta di regressione stimata che pone il Prezzo (Y) in funzione della Potenza (X) è: Ŷ = −2,36 + 0,28 X 2 = 0,775 . c. Il grafico di dispersione e la retta stimata sono: b. Il coefficiente di determinazione è: R 35,0 30,0 25,0 20,0 Prezzo 16.19 15,0 10,0 5,0 0,0 0 20 40 60 80 100 120 Potenza d. Guardando alla tabella dei residui riportata di seguito, si osserva che alla prima auto corrisponde il maggior residuo. Si noti che la somma dei residui vale zero (a meno di una piccola differenza dovuta alle approssimazioni). Potenza 108,0 55,0 55,0 80,0 103,0 Prezzo 32,6 14,2 17,2 18,0 25,9 Y prevista 27,90 13,05 13,05 20,05 26,50 Residui 4,70 1,15 4,15 -2,05 -0,6 67,0 76,0 76,0 76,0 56,0 13,9 17,0 15,8 17,3 15,2 16,41 18,93 18,93 18,93 13,33 -2,51 -1,93 -3,13 -1,63 1,87 e. Entrambi i coefficienti di regressione vengono moltiplicati per 1000: Ŷ = −2360 + 280 X Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Soluzione degli Esercizi avanzati del Capitolo 17 Es. 17.1 In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali. a. Dalla formula (16.6.1) e considerando la formula (16.6.3) si ottiene s( Β0 ) =19 ,5412 e s( Β1 ) = 0 ,0118 . b. Dalla formula (16.6.1) e considerando la formula (16.6.3) si ottiene côv( Β0 , Β1 ) = −0 ,2223 e quindi ρ ˆB0B1 = cov (B0 , B1 ) s( B0 ) s( B1 ) = −0 ,9641 . c. Considerando un livello di confidenza pari a 1 − α = 0 ,95 , si ha che per una t-Student con 68 g.d.l. t 0 ,025 = 1,9955 (utilizzando la tavola si può approssimare a 70 g.d.l. ed è pari a 1,9944). Quindi, dalla formula (17.2.2), si ottiene [-41,59; 36,40]. d. Considerando una t-Student con 68 g.d.l. si ha t 0 ,005 = 2 ,6501 (utilizzando la tavola si può approssimare a 70 g.d.l. ed è pari a 2,6479). Essendo t = 0 ,399 = 33,81 > 2 ,6501 = t 0 ,005 , si rifiuta l’ipotesi nulla (il coefficiente 0 ,0118 β 1 è significativamente diverso da 0). e. Ottenendo per x i = 1750 il valore Yˆi = 695,652 , dalla formula (17.4.1), essendo t 0 ,025 = 1,9955 e s(Ŷ ) = 5,2 si ottiene l’intervallo 695 ,652 ± (1,9955 ⋅ 5 ,2) , ossia [685,27; 706,03]. f. Ottenendo per x i = 1500 il valore Ŷi = 595,90 , dalla formula (17.4.2), essendo t 0 ,025 = 1,9955 e s(Yi − Ŷi ) = 41,53 , si ottiene l’intervallo 595 ,90 ± (1,9955 ⋅ 41,53) , ossia [513,02; 678,78]. 17.2 a. Si vuole verificare se il valore ( Y ) è funzione lineare della superficie quadrata ( X ) dell’abitazione. Dalla 2 2 = (ρ XY ) = 0 ,1082 , si ottiene SQR = R XY formula (16.5.2) ed essendo RXY ⋅ SQT = 188056518 ,2 . Utilizzando nuovamente la formula (16.5.2), si ha SQE = 1549988936,8 . 2 b. Tavola ANOVA Sorgente di Somma dei variazione quadrati Regressione 188056518,2 Residuo 1549988936,8 Totale 1738045455,0 Gradi di libertà 1 9 Media dei quadrati 188056518,2 172220993,0 F 1,092 10 c. Essendo f = 1,092 < 10 ,56 = F0 ,01 accettiamo l’ipotesi nulla β 1 = 0 (non esiste una relazione lineare). 17.3 2 a. La retta stimata è: ŷ i = 10 ,364 + 0 ,173x i e il coefficiente di determinazione è pari a R XY = 0 ,03 indicando un pessimo adattamento. b. Nella seguente tabella sono mostrati i residui e i residui standardizzati (i residui hanno media praticamente nulla mentre l’errore standard di regressione è pari a s = 3,12 ). A causa degli errori di approssimazione si potranno ottenere leggere variazioni nei risultati. Seguono i corrispondenti grafici: X Y 20 22 26 27 27 25 23 20 22 11 13 16 16 14 12 13 14 21 Y stimata residuo 13,824 14,170 14,862 15,035 15,035 14,689 14,343 13,824 14,170 -2,824 -1,170 1,138 0,965 -1,035 -2,689 -1,343 0,176 6,830 Residuo standardizzato -0,903 -0,374 0,364 0,309 -0,331 -0,861 -0,430 0,056 2,186 residui 8 6 4 2 0 13.6 -2 13.8 14 14.2 14.4 14.6 14.8 15 15.2 Y stimata -4 2.5 residui standardizzati 2 1.5 1 0.5 0 -0.513.6 13.8 14.0 14.2 14.4 14.6 14.8 15.0 15.2 Y stimata -1 -1.5 c. Il valore del residuo corrispondente all’ultima unità statistica appare anomalo (nei grafici corrisponde al punto con la più alta ordinata) ciò è confermato dall’analisi dei residui standardizzati avendo mostrando un valore superiore a 2. d. Eliminando l’ultima unità statistica ( X=22; Y=21) e stimando il modello sulle rimanenti otto unità statistiche si ottiene: ŷ i = 4 ,744 + 0 ,374 x i . e. L’intercetta β 0 è più che dimezzata mentre il coefficiente angolare β 1 è all’incirca raddoppiato e la bontà di 2 = 0 ,38 . adattamento è nettamente aumentata passando a RXY 17.4 a. Si ha: SQR = MQR = 40 poiché si ha 1 g.d.l.; SQE = SQT − SQR = 58 − 40 = 18 con n − 2 = 17 g.d.l. e pertanto MSE = 18 17 = 1,06 ; infine, F = 40 1,06 = 37 ,7 . Tavola ANOVA Sorgente di variazione Regressione Residuo Totale Somma dei quadrati 40 18 Gradi di libertà 1 17 58 18 Media dei quadrati 40 1,06 F 37,7 b. Considerando il valore della F-Fisher con 1 e 17 g.d.l. per un α = 0,05 si ha F0 ,05 = 4 ,45 (se si utilizza la tavola si può approssimare al valore di una F con 1 e 15 g.d.l. pari a 4,54), si ottiene f = 37 ,7 > 4 ,45 = F0 ,05 pertanto rifiutiamo l’ipotesi nulla β 1 = 0 (esiste una relazione lineare). 2 c. Dalla (16.5.2) è R XY = SQR SQT = 40 58 = 0 ,69 , quindi si può affermare che la retta di regressione si adatta sufficientemente bene ai dati poiché spiega il 69% della variabilità totale. 17.5 a. La nuova variabile è attraverso la seguente trasformazione: Tempo = Anno – 1998. Tempo 1 2 3 4 Spesa sanitaria 82,0 89,8 96,5 101,7 b. Dal seguente grafico si può assumere una relazione di tipo lineare: 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 80 85 90 95 100 105 2 c. La retta di regressione stimata è yˆ i = 76,05 + 6,58 x i con un coefficiente di determinazione pari a R XY = 99% . Si può pertanto concludere che il modello è appropriato a descrivere il fenomeno studiato. d. Il coefficiente β 1 indica che la spesa sanitaria incrementa mediamente di 6,58 milioni di euro all’anno. e. Il valore previsto è 108,95 milioni di euro. a. La retta di regressione stimata è: ŷ i = 4 ,812 + 0 ,002 x i . 2 b. No, infatti R XY = 39% . c. Guardando ai residui e ai residui standardizzati mostrati nelle seguente tabella: Osservazione 1 2 3 4 5 6 7 8 9 10 11 12 Previsto Y 4,961 5,046 4,906 4,942 4,946 5,043 4,884 5,048 4,825 4,928 4,940 4,931 Residui 0,039 -0,046 0,094 -0,042 -0,146 0,057 0,116 -0,048 -0,125 -0,028 0,060 0,069 Residui standard 0,463 -0,540 1,103 -0,499 -1,724 0,666 1,372 -0,564 -1,466 -0,327 0,702 0,814 si può concludere che non sono presenti casi anomali. Ciò è confermato dal seguente grafico dei residui standardizzati: 2.000 Residui standardizzati 17.6 1.500 1.000 0.500 0.000 4.800 -0.500 -1.000 4.850 4.900 4.950 5.000 5.050 5.100 Y stimata -1.500 -2.000 d. I valori osservati sono molto pochi per poter arrivare a delle conclusioni attendibili, tuttavia, guardando al grafico dei residui standardizzati (si veda punto precedente), all’istogramma dei residui standardizzati e al grafico di normalità P-P, possiamo ritenere che i valori osservati siano da considerare compatibili con l’ipotesi di normalità. 5 Frequenza 4 3 2 1 0 -1.50 -1.00 -.50 0.00 .50 1.00 1.50 Residuo standardizzato 1.00 .75 Prob cum attesa .50 .25 0.00 0.00 .25 .50 .75 1.00 Prob cum osservata a. Dal seguente diagramma di dispersione, risulta ragionevole ipotizzare una modello di tipo lineare. 15 10 5 0 Y 17.7 -5 0 5 10 15 20 X -10 -15 -20 b. Dall’analisi del grafico dei residui, si può osservare che non è appropriata l’ipotesi di omoschedasticità (infatti all’aumentare del valore della Y stimata la variabilità dei residui tende a diminuire). 10 8 6 residui 4 2 -15 -10 0 -2 0 -5 5 10 -4 15 Y stim ata -6 -8 c. Dall’analisi del grafico dei residui standardizzati, si può affermare che i residui standardizzati sono in accordo con l’ipotesi di normalità ((il 64% dei punti ricade tra -1 e +1 e il 100% tra -2 e +2) 2.5 residui standardizzati 2 1.5 1 0.5 0 -15 -10 -5 -0.5 0 5 10 15 -1 Y stimata -1.5 -2 d. Dal grafico dei residui rispetto al tempo, si può affermare che i residui sono autocorrelati positivamente. 10 8 6 residui 4 2 0 1 -2 2 3 4 5 6 7 8 9 10 11 12 13 14 tempo -4 -6 -8 a. Dal grafico di dispersione si suppone che sussista una relazione di tipo lineare tra Y e X . 40 35 30 25 Y 17.8 20 15 10 5 0 0 10 20 30 X b. La retta di regressione stimata è: ŷ i = 37 ,663 − 0 ,449 x i . 40 50 60 c. Come si può notare, essendo β 1 negativo, all’aumentare della spesa per svago/divertimento diminuisce quella per ristorante. 2 = 86% . d. Sì, il coefficiente di determinazione è pari a R XY e. In corrispondenza di una spesa pari a 15 per svago/divertimento corrisponde mediamente una spesa per ristorante di 30,93. a. La retta di regressione stimata è: ŷ i = −0 ,0352 + 0 ,0207 x i . b. Dal segno di β̂1 possiamo affermare che all’aumentare dell’indice di produzione industriale aumenta il tasso di disoccupazione. c. Dalla (17.2.1) si ha che il valore della statistica test è t = B1 s (B1 ) = 0 ,0207 0 ,0222 = 0 ,9324 . Inoltre, sapendo che il valore della t-Student con 8 g.d.l. per α 2 = 0 ,025 è t 0 ,025 = 2 ,3060 , si ha t = 0 ,9324 < 2 ,306 = t 0 ,025 e quindi non si può rifiutare l’ipotesi nulla. Pertanto, il valore di β1 non risulta significativamente diverso da zero. 2 d. No, il coefficiente di determinazione è pari a R XY = 9 ,8% . e. La tavola ANOVA è la seguente: Tavola ANOVA Sorgente di variazione Regressione Residuo Somma dei quadrati 0,819310345 7,556689655 Gradi di libertà 1 8 Media dei quadrati F 0,819310345 0,867 0,944586207 8,376 9 Totale Considerando una F-Fisher con 1 e 8 g.d.l. si ha F0 ,05 = 5 ,32 segue che f = 0 ,867 < 5 ,32 = F0 ,05 e quindi β 1 non è significativamente diverso da zero. Ritorna come atteso lo stesso risultato ottenuto al punto c. f. Dal grafico dei residui 2 1.5 residuo 1 0.5 0 -0.5 2 2.2 2.4 2.6 2.8 3 3.2 3.4 Y stimata -1 -1.5 possiamo considerare appropriata l’assunzione di linearità. g. Dal grafico dei residui standardizzati: 2.5 2 Residui standardizzati 17.9 1.5 1 0.5 0 -0.5 2 -1 2.2 2.4 2.6 2.8 3 3.2 3.4 Y stimata -1.5 possiamo osservare che il 100% dei punti ricade nella fascia [-2; +2] quindi non vi è evidenza di valori anomali. h. La retta di regressione stimata che pone il tasso di disoccupazione in funzione dell’anno è: ŷ i = −404 ,664 + 0 ,208 x i . Dal segno di β̂1 possiamo affermare che al crescere del tempo aumenta il tasso di disoccupazione. Il valore della statistica test è t = B1 s(B1 ) = 0 ,208 0 ,085 = 2 ,447 . Sapendo che il valore della t-Student con 8 g.d.l. per α 2 = 0 ,025 è t 0 ,025 = 2 ,306 , si ha t = 2 ,447 > 2 ,306 = t 0 ,025 e quindi si può rifiutare l’ipotesi nulla. Pertanto, il valore di β 1 risulta significativamente diverso da zero. La bontà di 2 = 42 ,8% . La tavola ANOVA è la adattamento della retta ai dati è sufficientemente elevata dato che RXY seguente: Tavola ANOVA Sorgente di Somma dei variazione quadrati Regressione 7,249764 Residuo 1,126236 Totale Gradi di libertà Media dei quadrati F 2 3,624882 22,53006 7 9 0,160891 8,376 Considerando una F-Fisher con 1 e 8 g.d.l. si ha F0 ,05 = 5 ,32 segue che f = 22 ,53 > 5 ,32 = F0 ,05 e quindi β 1 è significativamente diverso da zero. Dal grafico dei residui: 1.5 1 Residuo 0.5 0 1.5 2 2.5 3 3.5 4 -0.5 Y previsto -1 -1.5 possiamo considerare appropriata l’assunzione di linearità. Dal grafico dei residui standardizzati: residuo standardizzato 2 1.5 1 0.5 0 -0.5 1.5 2 2.5 3 3.5 4 Y stimata -1 -1.5 possiamo osservare che il 100% dei punti ricade nella fascia [-2; +2] quindi non vi è evidenza di valori anomali. 17.10 a. La retta di regressione stimata che pone il Reddito pro-capite in funzione della Percentuale di Forza Lavoro nell’agricoltura è: ŷ i = 1317 ,905 − 18 ,858 x i . b. No. Dal segno di β̂1 possiamo affermare che al crescere della Percentuale di Forza Lavoro nell’agricoltura diminuisce mediamente il Reddito pro-capite. c. Il valore della statistica test è t = B1 s (B1 ) = −18 ,858 3 ,395 = 5 ,555 . Sapendo che il valore della t-Student con 18 g.d.l. per α 2 = 0 ,025 è t 0 ,025 = 2 ,1009 , si ha t = 5 ,555 > 2 ,1009 = t 0 ,025 e quindi si può rifiutare l’ipotesi nulla. Pertanto, il valore di β 1 risulta significativamente diverso da zero. 2 d. La bontà di adattamento della retta ai dati è piuttosto elevata dato che R XY = 63,2% . e. La tavola ANOVA è la seguente: Tavola ANOVA Sorgente di Somma dei variazione quadrati Regressione 2301076,801 Residuo 1342727,749 Totale Gradi di libertà 3643804,550 Media dei quadrati F 1 2301076,801 18 19 74595,986 30,847 Considerando una F-Fisher con 1 e 18 g.d.l. si ha F0 ,05 = 4 ,41 segue che f = 30 ,847 > 4 ,41 = F0 ,05 e quindi β 1 è significativamente diverso da zero. f. Dal grafico dei residui: 800 600 Residuo 400 200 0 -500 -200 0 500 1000 -400 1500 Y stimato non sembra sia possibile sostenere l’assunzione di linearità. g. Dal grafico dei residui standardizzati: Residuo standardizzato 2.5 2 1.5 1 0.5 -400 0 -200 -0.5 0 200 400 600 800 1000 1200 1400 -1 -1.5 Y stimata Il grafico mostra due punti a cui corrispondono dei valori del residuo standardizzato prossimi o superiori a +2. Essi corrispondono alla Svezia e al Canada. I valori presentati da questi due paesi non sono comunque tali da ritenerli anomali anche se è opportuno considerarne la diversità rispetto agli altri paesi. h. Eliminando la Svezia e il Canada si ottiene la seguente retta: ŷ i = 1197 ,567 − 16 ,563x i . La bontà di adattamento 2 = 71% . aumenta passando a RXY 17.11 a. La retta di regressione stimata che pone l’Aspettativa di vita in funzione del Logaritmo del numero medio di persone per TV è: ŷ i = 77 ,887 − 9 ,808 x i . b. Per l’intercetta, il valore della statistica test è t 0 = B0 s(B0 ) = 77 ,887 1,220 = 63 ,842 mentre per il coefficiente angolare il valore della statistica test è t1 = B1 s(B1 ) = −9 ,808 0 ,991 = −9 ,897 . Sapendo che il valore della t- Student con 18 g.d.l. per α 2 = 0 ,025 è t 0 ,025 = 2 ,1009 , sia t 0 sia t1 sono maggiori, in valore assoluto, di t 0 ,025 e quindi per entrambi i coefficienti di regressione si può rifiutare l’ipotesi nulla. Pertanto, i valori di β 0 e β 1 risultano significativamente diversi da zero. c. No. Dal segno del coefficiente angolare possiamo affermare che al crescere del Logaritmo del numero medio di persone che guardano la TV diminuisce mediamente l’Aspettativa di vita. d. In generale, un modello di regressione non permette di convalidare con certezza un legame di causa-effetto. In questo caso specifico, anche dal punto di vista logico non è possibile ipotizzare un legame di causa-effetto tra le due variabili prese in esame. Si tratta piuttosto di un legame spurio, in quanto la variabile Logaritmo del numero medio di persone che guardano la TV può essere considerata come un indicatore di status socio-economico dei paesi considerati nell’analisi. 2 e. Il coefficiente di determinazione è piuttosto elevato e pari a R XY = 73,2% . f. La retta di regressione stimata che pone l’Aspettativa di vita in funzione del Logaritmo del numero di persone per medico è: ŷ i = 103 ,281 − 11,597 x i . g. Per l’intercetta, il valore della statistica test è t 0 = B0 s(B0 ) = 103 ,281 4 ,521 = 22 ,845 mentre per il coefficiente angolare il valore della statistica test è t1 = B1 s(B1 ) = −11 ,597 1,454 = −7 ,976 . Sapendo che il valore della t-Student con 18 g.d.l. per α 2 = 0 ,025 è t 0 ,025 = 2 ,1009 , sia t 0 sia t1 sono maggiori, in valore assoluto, di t 0 ,025 e quindi per entrambi i coefficienti di regressione si può rifiutare l’ipotesi nulla. Pertanto, i h. i. j. k. valori di β 0 e β 1 risultano significativamente diversi da zero. Anche in questo caso vale quanto detto al punto d. 2 No. Infatti, il valore del coefficiente di determinazione pur essendo piuttosto elevato, pari a RXY = 63,8% , è inferiore a quello del modello precedente. Dal punto di vista dell’adattamento ai dati (ciò rispetto al del coefficiente di determinazione) è migliore la variabile Logaritmo del numero medio di persone che guardano la TV. Evidentemente la presenza e diffusione del mezzo televisivo tra le famiglie e gli individui di un paese è un indicatore molto preciso dello sviluppo socio-economico dello stesso. In effetti, i valori più piccoli del Logaritmo del numero medio di persone che guardano la TV corrispondono ai paesi più sviluppati quali Stati Uniti, Canada, Giappone, Francia, mentre i valori più grandi ai paesi meno sviluppati quali Burma, Etiopia, Bangladlesh. Anche la seconda variabile, Logaritmo del numero di persone per medico, è un buon indicatore dello sviluppo socioeconomico, tuttavia risente anche dell’organizzazione della struttura pubblica sanitaria dei paesi a prescindere dal loro sviluppo economico. Ad esempio, risulta dai dati che l’Ucraina, la Russia, l’Argentina, al pari dell’Italia, hanno un numero più basso di persone per medico di quanto non abbiano gli Stati Uniti e il Giappone. 17.12 a. La statistica test è t = B1 s (B1 ) = 1,03 0,13 = 7,92 , mentre t8,0,025 = 2,306 e quindi l’ipotesi nulla viene rifiutata. b. L’intervallo di confidenza è dato da: 1,03 ± 2,306 ⋅ 0,13 = 1,03 ± 0,3 , ossia [0,73 ; 1,33]. c. Dal grafico dei residui standardizzati si può notare che in corrispondenza del valore = 4,5 si ha un residuo piuttosto elevato anche se nei limiti di accettabilità. L’andamento dei residui, in parte condizionato dal valore più grande, non sembra presentare un andamento del tutto casuale. Residui standardizzati 2 1 0 -1 0,00 2,00 4,00 6,00 8,00 Y d. Dal grafico di normalità si evince la poca conformità all’ipotesi che la distribuzione osservata dei residui sia di tipo Normale. 1,0 Prob. cum attesa 0,8 0,6 0,4 0,2 0,0 0,0 0,2 0,4 0,6 Prob. cum. osservata 0,8 1,0 17.13 Dalla tabella ANOVA si deduce che: a. Il valore di F = 302,78 22,94 = 13,20 può essere considerato, rispetto a una distribuzione F-Fisher con 1 e 9 gradi di libertà, un valore piuttosto “raro” come è evidenziato dal valore del p-value. Poiché si ha pvalue<0,01 l’ipotesi nulla che β1 = 0 viene rifiutata. b. La stima di σ 2 è s 2 = MQE = 27,94 . 2 = 302,78 509,26 = 0,59 . d. Il grafico dei residui non presenta valori anomali. c. Il coefficiente di determinazione vale R Residui standardizzati 2 1 0 -1 25,00 30,00 35,00 40,00 45,00 50,00 55,00 Y = 3,05 e quindi l’intervallo di confidenza per β 0 è dato da: 0,46 ± 3,05 ⋅ 0,179 = 0,46 ± 0,55 , ossia [-0,09 ; 1,01]; mentre per β1 è dato da: 0,87 ± 3,05 ⋅ 0,143 = 0,87 ± 0,44 , ossia [0,43 ; 1,31]; b. Dal punto a. si può vedere che il valore 0 cade all’interno dell’intervallo di confidenza per β 0 quindi l’ipotesi nulla non può essere rifiutata per un livello di significatività α = 0,01 . c. Il grafico dei residui presenta valori nella norma. 17.14 a. Il valore della t 0,005 con 12 gradi di libertà è t 0,005,12 2 Residui standardizzati 1 0 -1 -2 0,00 1,00 2,00 3,00 pil d. 17.15 a. Dal grafico di normalità si può osservare che i residui non sembrano essere conformi all’ipotesi di normalità. Dato il valore di t n − 2; ˆ ˆ α = t 8; 0,025 = 2,31 e le stime puntuali β 0 = −2,358 e β1 = 0,280 , si ottiene per 2 β 0 : − 2,358 ± 2,31 ⋅ 4,124 ossia [-11,88; 7,17]; per β1 : 0,28 ± 2,31 ⋅ 0,053 ossia [0,16; 0,40]. Si può notare che l’intervallo di confidenza per l’intercetta include lo zero, pertanto per un livello di significatività α = 0,05 tale parametro non risulta significativamente diverso da zero. Al contrario, β1 risulta significativamente diverso da zero. b. La seguente tabella mostra i residui. Dal corrispondente grafico non risultano presenti valori anomali. Prezzo 32,6 14,2 17,2 18,0 25,9 13,9 17,0 15,8 17,3 15,2 Y prevista 27,90 13,05 13,05 20,05 26,50 16,41 18,93 18,93 18,93 13,33 Residui 4,70 1,15 4,15 -2,05 -0,6 -2,51 -1,93 -3,13 -1,63 1,87 Residui standardizzati 2 1 0 -1 15,00 20,00 25,00 30,00 prezzo c. Sulla base della Tavola ANOVA cosa si può dire circa la bontà di adattamento del modello e la stima del coefficiente β1 ? ANOVA Regressione Errore Totale Somma dei quadrati 245,334 71,255 316,589 Gradi di libertà 1 8 9 Somma dei quadrati 245,334 8,907 F 27,544 p-value ,001 La bontà di adattamento è misurata dall’indice R 2 = 245,334 316,589 = 0,775 , quindi più del 77% della variabilità totale è spiegata dal modello di regressione. In accordo con il risultato ottenuto dall’intervallo di confidenza per β1 , poiché il p-value è inferiore a 0,05, β1 risulta significativamente diverso da zero per α = 0,05 ma anche per un valore più piccolo, ad esempio, α = 0,01 . 17.16 Da un campione di 54 individui si sono rilevate l’età ( X ) e la pressione media sanguigna ( Y ). L’output del modello di regressione stimato è il seguente: ANOVA Regressione Errore Totale Somma dei quadrati 2374,968 3450,365 5825,333 Gradi di libertà 1 52 53 Media dei quadrati 2374,968 66,353 F 35,793 p-value ,000 Coefficienti di regressione (Constant) età a. B 56,157 ,580 Std. Error 3,994 ,097 Il modello di regressione stimato è: Ŷ = 56,157 + 0,58 X Il valore del coefficiente di determinazione è R 2 = 2374,968 5825,333 = 0,408 . c. Attraverso il valore Valutare di F = 35,793 e il corrispondente valore del p-value, poiché p-value<0,01, possiamo rifiutare l’ipotesi nulla. d. Poiché t 52; 0,025 = 2,01 , per β 0 l’intervallo di confidenza è dato da: 56,157 ± 2,01 ⋅ 3,994 ossia [48,13; b. 64,18], mentre per β1 è dato da: 0,58 ± 2,01 ⋅ 0,097 e. L’istogramma dei residui standardizzati sembra concordare abbastanza bene con l’ipotesi di normalità, anche se nella parte centrale dell’istogramma è visibile una leggera deviazione dalla distribuzione teorica. Questa deviazione è confermata anche dal grafico successivo dove i maggiori scostamenti dalla bisettrice sono nella parte centrale del grafico. f. Il grafico dei residui standardizzati rispetto all’età non presenta valori anomali, tuttavia la forma a “imbuto” segnala la non conformità all’ipotesi di omoschedasticità dei residui.