abcabcdefgabcdefgabc dababcdabc

Transcription

abcabcdefgabcdefgabc dababcdabc
Soluzione degli (VHUFL]LDYDQ]DWLGHO&DSLWROR
Es.
a. Il candidato; 5
b. I caratteri sono: la graduatoria - qualitativo ordinato, l’altezza - quantitativo continuo, scala di
rapporti, la residenza - qualitativo sconnesso, le precedenti esperienze - qualitativo sconnesso,
1.1
il punteggio al quiz – quantitativo discreto, scala di rapporti.
c. 158 cm
1.2
a.
b.
c.
d.
e.
f.
qualitativo sconnesso: Maschio, Femmina;
quantitativo discreto – scala di rapporti: 0,1,2,3,…..;
quantitativo continuo – scala di rapporti: tutti i valori reali non negativi;
quantitativo continuo – scala di rapporti: tutti i valori reali non negativi;
quantitativo discreto – scala di rapporti: tutti i valori interi non negativi;
qualitativo sconnesso: ad esempio, Economia, Ingegneria elettronica, Medicina, Scienze
Politiche, Statistica, ecc.;
g. quantitativo continuo – scala di rapporti: tutti i valori reali non negativi.
Quello che segue non vuole essere un elenco esaustivo ma solo alcuni esempi di unità statistiche:
1.3
1.4
a.
b.
c.
d.
e.
f.
g.
Individui e animali.
Individui, famiglie, animali.
Famiglie.
Prodotti.
Popolazioni residenti in un certo territorio al 31/12/94.
Studenti.
Imprese, industrie, società, enti pubblici.
Quello che segue non vuole essere un elenco esaustivo ma solo alcuni esempi di caratteristiche
individuali presenti nell’archivio anagrafico:
sesso, data di nascita, luogo di nascita, stato civile, residenza, data di decesso, luogo di decesso, ecc.
a. Mezzo di trasporto per raggiungere il luogo di lavoro; taxi.
b. Regione di nascita dei residenti nell’area metropolitana milanese; Veneto, Emilia Romagna,
1.5
1.6
1.7
Friuli-Venezia-Giulia.
c. Stato civile; nubile, divorziato, separato.
d. Ultimo titolo di studio conseguito; Master, Dottorato di ricerca.
a. Si, la copertura telefonica delle famiglie residenti a Napoli è quasi totale.
b. Si, ad esempio la lista anagrafica del Comune di Napoli.
a.
b.
c.
d.
Non è possibile trasferire l’età di un individuo ad un altro.
Non è trasferibile giacché non è quantitativo.
È trasferibile da un’azienda ad un’altra.
È trasferibile poiché la popolazione si può trasferire da un Comune ad un altro.
Qui di seguito sono proposti alcuni esempi di suddivisione:
a. Se consideriamo il reddito mensile, possiamo suddividere in: 0-1.000€; 1.000€-1.500€;
1.8
1.500€-2.000€;2.000€-2.500€; maggiore di 2.500€.
b. Da 0 a 1; da 2 a 3; da 3 a 5; più di 5.
c. Inferiore a -5; da -5 a 5; da 5 a 10; da 10 a 15; da 15 a 20; da 20 a 25; da 25 a 30; maggiore
di 30.
Soluzione degli Esercizi avanzati del Capitolo 2
Es.
a.
SessoFreq. ass. N.AutoFreq. ass. EtàFreq. ass.
Età Freq. ass.
M
F
Totale
b.
12
0
3
33
1
53
1
8
1
7
35
2
54
1
20
2
6
37
1
55
1
3
3
38
2
56
1
4
1
41
1
59
1
Totale
20
44
1
60
1
46
1
62
1
50
1
63
1
51
1
71
1
Totale
20
Età
Freq. ass.Freq. rel.Freq. perc.
6
0,30
30
30 - 40
40 - 50
3
0,15
15
50 - 60
7
0,35
35
60+
4
0,20
20
Totale
20
1,00
100
c. Si noti che nel grafico per l'Età l'ultima classe è stata chiusa arbitrariamente a 70.
2.1
a.
2.2
Classi
Amp.
0-500
500-1.000
1.000-2.000
2.000-3.000
3.000-4.000
classeFreq. rel.Freq. perc.
500 0,11
11
500 0,16
16
1000 0,25
25
1000 0,15
15
1000 0,10
10
4.000-5.000
5.000-10.000
Totale
1000
5000
0,07
0,16
1,00
7
16
100
(Si è arrotondato a due cifre decimali)
b.
Comuni
Pop. Resid.
Classi
Amp. classeDensità*1000Densità*1000
0-500
500
0,22
0,02
500-1.000
500
0,32
0,08
1.000-2.000
1000
0,25
0,13
2.000-3.000
1000
0,15
0,14
3.000-4.000
1000
0,10
0,13
4.000-5.000
1000
0,07
0,12
5.000-10.000
5000
0,03
0,09
Si osservi che le densità, ottenuta dividendo la frequenza relativa per lampiezza della classe, è
stata moltiplicata per 1000 al fine di facilitare la rappresentazione grafica dellistogramma.
a.
2.3
b.
AnnoSaldo
1984 -0,3
1985 -0,5
1986
1
1987 0,8
1988 0,9
1989 0,6
Statistica - metodologie per le scienze economiche e sociali
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 3
home - indice
Es.
3.1
3.2
a.
b.
X = 6,7
X = 8,04
a. numero medio omicidi per Comune X = 5,33 ; numero medio abitanti per Comune X = 81266,67
b. (2 − 5,33) + (4 − 5,33) + .... + (1 − 5,33) = 0,05 ; (30000 − 81266,67) + (21000 − 81266,67) + ... + (70000 − 81266,67) = −0,05 ;
la somma non è esattamente pari a 0 a causa del valore approssimato del valore medio.
c.
Omicidi Freq. ass.
1
1
2
2
3
2
4
2
5
1
6
2
7
2
9
1
10
1
11
1
Totale
15
X=
(2 / 30000) + (4 / 21000) + ... + (1 / 70000)
= 5,49
(1 / 30000) + (1 / 21000) + ... + (1 / 70000)
A causa degli arrotondamenti effettuati nei calcoli piccole differenze si possono riscontrare nei risultati finali.
3.3
a.
X = 5,4
b. (1 − 5,4) 2 + (4 − 5,4) 2 + ... + (12 − 5,4) 2 = 404,4 < 616 = (1 − 10) 2 + (4 − 10) 2 + ... + (12 − 10) 2
c. Numero totale di pezzi difettosi è 3,5 ⋅ 25 = 87,5
Dalla proprietà 4 della media aritmetica si ha:
3.4
X=
12 ⋅ 20,5 + 81 ⋅ 8,5
= 10,05
93
Classe superf.
0-1
1-2
2-3
3-5
5-10
10-20
20-40
40-60
Totale
3.5
X=
cj ⋅ nj
cj
nj
0,5
1,5
2,5
4
7,5
15
30
50
120
60
160
240
220
550
212
848
205 1537,5
110
1650
65
1950
21
1050
1113 7885,5
7885,5
= 7,08
1113
Si noti che l’ultima classe è stata chiusa a 60.
a.
3.6
9 ⋅ 7 + 1 ⋅ ( X + 5) = 10 ⋅ X
da cui X =
enciclopedie.
b. 10 ⋅ 7,556 = 75,56 enciclopedie.
c.
X=
3.7
X = 69
3.8
X = 1,84
10 ⋅ 7,556 + 12
= 7,96
11
68
= 7,556
9
e quindi il decimo venditore vende mediamente 7,556 + 5 = 12,556
a. 1,017; 1,067; 1,054
3.9
b.
X g = 1,046
c. Poiché
Xg = 3
360 384 405
⋅
⋅
354 360 384
, si ha
( X g )3 ⋅ 354 = 405 .
a.
1
2
3
4
5
6
Mese
Rapporto 1,018 0,994 1,013 1,026 1,036 0,989
3.10
b.
X g = 1,013 ;
la variazione media mensile è stata dell’1,3%.
c. Il prezzo delle azioni nel sesto mese è dato da ( X g )6 ⋅ 50 = 1,081 ⋅ 50 = 54,05 .
Nj
Fj
Classe superf. n j
0-1
120
120 0,108
1-2
160
280 0,252
2-3
220
500 0,449
3-5
212
712 0,640
5-10
205
917 0,824
10-20
110 1027 0,923
20-40
65 1092 0,981
40-60
21 1113 0,108
Totale
1113
3.11
La classe mediana è la 3-5.
Considerando la formula 3.5.1 per il calcolo approssimato della mediana si ha: Me = 3,534
Considerando la formula 3.7.1 per il calcolo approssimato dei quartili si ha:
Q1 = 1,986
e
Q3 = 7,989 .
Riordinando i lotti rispetto al numero di difetti si ottiene:
Lotto
3 5 1 8 4 2 7 9 10 6
N.difetti 0 0 1 1 2 4 5 8 12 21
3.12 Si ottengono due valori mediani: 2 e 4 che possiamo sintetizzare con la semisomma M = 3 .
e
Come si può notare, la somma degli scarti in valore assoluto per c=2 è pari a 46, un valore uguale a quello
che si ottiene considerando gli scarti dalla mediana. Tuttavia ciò non contraddice la proprietà della mediana.
3.13
X1 = 2
e X2 = 8
Soluzione Esercizio 3.14
a. Per le imprese la moda del Settore di attività economica è “Altri Servizi”; per individuare la
classe modale è necessario prima di tutto chiudere l’ultima classe, ad esempio a 500, e
rendere contigue le classi di addetti diminuendo di 0,5 l’estremo inferiore e aumentando di
0,5 l’estremo superiore di ciascuna classe. Poi, dividendo ogni frequenza per la
corrispondente ampiezza della classe, si perviene all’individuazione della classe modale che
risulta essere la prima, formata da un solo addetto.
Classi di addetti
0,5-1,5
1,5-9,5
9,5-19,5
19,5-49,5
49,5-249,5
249,5-500,5
Ampiezza
1
8
10
30
200
251
Imprese Freq./amp.
2555566 2555566,0
1594136
199267,0
141065
14106,5
54963
1832,1
21922
109,6
3435
13,7
b. Per calcolare la mediana si deve applicare la formula per un carattere suddiviso in classi.
Considerando la suddivisione in classi utilizzata al punto precedente, si ottiene che la classe
mediana è la prima e poiché formata da sole imprese con un addetto M e = 1 . Considerando il
numero totale di imprese e di addetti, la media aritmetica del carattere Addetti è
X=
16.813.193
= 3,85 .
4.371.087
c. Come visto al punto b., bisognerà applicare la formula per un carattere suddiviso in classi.
Poiché la frequenza relativa cumulata corrispondente alla prima classe è 0,58, il valore del
primo quartile coincide con quello del secondo quartile (la Mediana) ossia a 1. La frequenza
relativa cumulata della seconda classe è 0,95, pertanto il terzo quartile è dato da
⎛ 0,75 − 0,585 ⎞
Q3 = 1,5 + ⎜
⎟ ⋅ 8 = 5,13 .
⎝ 0,949 − 0,585 ⎠
6.553.294
= 5,90 ; Il numero
1.109.893
4.445.084
=
= 2,92 ; Il numero
1.522.145
d. Il numero medio di addetti del settore “Industria” è X Ind =
medio di addetti del settore “Commercio e alberghi” è X Com
medio di addetti del settore “Altri servizi” è X Alt =
5.814.815
= 3,34 .
1.739.049
Soluzione Esercizio 3.15
Classe superf.
cj
nj
cj ⋅nj
0-1
1-2
2-3
3-5
5-10
10-20
20-40
40
Totale
0,5
1,5
2,5
4
7,5
15
30
40
120
160
220
212
205
110
65
21
1113
60
240
550
848
1537,5
1650
1950
840
7675,5
La superficie media delle aziende è X =
7675,5
= 6,90 .
1113
Statistica - metodologie per le scienze economiche e sociali
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 4
home - indice
Es.
In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali.
4.1
a. Utilizzando le formule 3.2.3 e 4.3.1 rispettivamente per la media e la varianza si ottiene: X = 88,82 e
σ 2 = 3117,64
b. Dalla 4.3.7 si ottiene CV = (55,84 / 88,82) ⋅100 = 62,87%
4.2
a. Utilizzando le formule 3.2.3 e 4.3.1 si ottiene:
per il Piemonte X = 38,08 e σ 2 = 479,54 da cui
CV = 57,51% ; per la Campania X = 31,80 e σ 2 = 459,47 da cui CV = 67,41% .
b. Come si può evincere dai valori della varianza, il Piemonte possiede una variabilità assoluta maggiore di quella
della Campania.
c. Guardando al valore del coefficiente di variazione si può concludere, diversamente da quanto si poteva evincere
dalla varianza, che la Campania possiede una variabilità relativa maggiore di quella del Piemonte.
4.3
a.
R = 18 e W = 3 .
b. Supponiamo che il valore 18 è errato e, ad esempio, in realtà il vero valore fosse 8. In questo caso il campo di
variazione darebbe sempre un altro valore (in questo caso R = 8 ). Nel caso della differenza interquartilica il
valore rimane inalterato se il vero valore è, come in questo caso, un valore estremo; potrebbe invece dare un
diverso valore se il vero valore cadesse all’interno del 50% di quelli più centrali (ad esempio se fosse pari a 1,
si avrebbe W = 2 ).
4.4
a. Disponendo dell’ammontare di ferro per ogni classe, per calcolare la media e la varianza si utilizza al posto del
valore centrale il valore medio della classe (si veda nota pag.75). Utilizzando le formule 3.2.3 e 4.3.1 si ottiene:
per il terreno A, X = 31,93 e σ 2 = 1055,43 ; per il terreno B, X = 41,36 e σ 2 = 420,01 . Pertanto, il terreno A
ha una maggiore variabilità della quantità di ferro rispetto al terreno B.
b. Utilizzando la formula approssimata 4.7.7 si ottiene: per il terreno A, R = 0,54 ; per il terreno B, R = 0,27 .
Pertanto nel terreno A è maggiore la concentrazione di ferro. Dal grafico della curva di Lorenz si può osservare
che la curva corrispondente al terreno A dista dalla bisettrice più di quella del terreno B, indicando una
maggiore concentrazione di ferro.
Curva di Lorenz - Terreno B
1
1
0,9
0,9
0,8
0,8
0,7
0,7
0,6
0,6
Qi
Qi
Curva di Lorenz - Terreno A
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
0
0
0,2
0,4
0,6
0,8
1
0
0,2
0,4
0,6
0,8
1
Fi
Fi
4.5
a. Considerando i dati delle tre ripartizioni per il 1971, si hanno i seguenti risultati:
Nord
Centro
X = 3,07
X = 3,29
σ 2 = 2,02
σ
2
= 2,04
CV = 46,29%
CV = 43,41%
2
X = 3,53
σ = 2,53
CV = 45,06%
Mezzogiorno
pertanto, sulla base dei coefficienti di variazione, il Nord possiede la maggiore variabilità anche se non molto
diversa da quelle delle altre due ripartizioni.
b. Considerando i dati delle tre ripartizioni per il 1981, si hanno i seguenti risultati:
Nord
Centro
X = 2,80
X = 2,97
σ 2 = 1,81
σ
2
= 1,87
CV = 48,05%
CV = 46,04%
2
X = 3,24
σ = 2,35
CV = 47,31%
Mezzogiorno
Pertanto, sulla base dei coefficienti di variazione, il Nord possiede ancora la maggiore variabilità anche se non
molto diversa da quelle delle altre due ripartizioni.
c. E’ da notare come in un decennio il numero medio di componenti per nucleo famigliare sia sceso di
numero in tutte e tre le ripartizioni territoriali. Dal punto di vista della variabilità questa è diminuita in
termini assoluti, ma leggermente aumentata in termini relativi. Guardando al confronto tra l’Italia nel 1971
e nel 1981 si ha:
Italia, ‘71
Italia, ‘81
4.6
X = 3,26
X = 2,98
σ 2 = 2,22
σ
2
= 2,03
CV = 45,70%
CV = 47,81%
a. Per i pesci maschi si ha: σ = 1,05 ; W = 1,1 ; S x = 0,79 ; S Me = 0,79 ; R = 4 ; mentre per le femmine si ha:
σ = 0,30 ; W = 0,4 ; S x = 0,252 ; S Me = 0,25 ; R = 1 . Tutti gli indici di variabilità segnalano che il peso dei
pesci di sesso femminile ha una minore variabilità rispetto a quello dei pesci di sesso maschile.
b. Il grafico che segue evidenzia una forte differenza tra le due distribuzioni dei pesi dei pesci. In particolare i
maschi pesano in generale di più delle femmine (si veda il valore della mediana) ma possiedono anche una
maggiore variabilità (si veda la diversa altezza del box).
c. Avendo impostato il valore del coefficiente λ = 1,5 , si può osservare dal grafico sottostante che la distribuzione
dei pesci maschi presenta un peso di valore anomalo.
Infatti si ha che:
valori anomali per i maschi:
x < 1,55 e x > 5,95
valori eccedenti per i maschi:
x < −0,1 e x > 7,6
valori anomali per le femmine:
x < 1,1 e x > 2,7
x < 0,5 e x > 3,3
valori eccedenti per le femmine:
Pertanto l’unico valore anomalo è dato dal peso 1,2 tra i pesci maschi.
4.7
a.
Dalla 4.4.1 si ricava con facili passaggi la disuguaglianza f ( x i − x ≤ kσ ) > 1 −
kσ = 2,5 , ossia k = 2,5 da cui la frequenza minima pari a 0,84.
b. Dalla 4.4.1 si ricava che kσ = 2 , k = 1 e la frequenza massima pari a 1.
4.8
1
k2
. Pertanto si ha che
a. Per la proprietà della media aritmetica in appendice A4.2 si ha: 2 x + 1 = 25 e quindi la media dell’età corrente è
x = 12 .
b. Per la proprietà 4.3.5 si ha: 4σ 2 = 10,24 e quindi la varianza dell’età corrente è σ 2 = 2,56 .
c. Il coefficiente di variazione dell’età corrente è CV = 13,33% .
4.9
4.10
1 n 2
∑ x , quindi dalla 4.3.3 si ottiene:
n i =1 i
σ 2 = 173 − (13) 2 = 4
e dunque
σ = 2.
b. Dalla proprietà della media aritmetica in appendice A4.2 e dalla proprietà 4.3.5 si ottiene: x = 3(13) = 39 e
σ = 3(2) = 6 .
a. Il momento non centrato di ordine due è dato da
a. La media e la deviazione standard sono rispettivamente: x = 21,811 e σ = 3,159
-1,934 -0,098 0,281 -0,003 -0,415 0,756 -0,352 2,054 -0,288
b. Il valore 2,054 può essere considerato un valore anomalo.
c. Si ha k = 2 e la frequenza massima è pari a 0,25 .
4.11
4.12
a. Si ha x = 0,05 e σ = 1,20 .
b. La frequenza minima è data da 0,56 nel primo caso e 0,84 nel secondo caso.
c. Nel primo caso, la frequenza relativa delle unità che cadono tra -1,75 e 1,85 è pari a 0,75; nel secondo caso, la
frequenza relativa delle unità che cadono tra -2,95 e 3,05 è pari a 1.
Poiché k = 1,4 , si ha che la frequenza massima è data da:
1⎛ 1
⎜
2 ⎜⎝ k 2
⎞
⎟⎟ = 0,255 .
⎠
4.13 Applicando la 4.4.2 si ha che la frequenza massima di bambini con altezza superiore a 140 cm è pari a 0,54.
Statistica - metodologie per le scienze economiche e sociali
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 5
home - indice
Es.
In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali.
5.1
a. Il grafico dei redditi da lavoro dipendente e indipendente mostra un andamento crescente per entrambe le serie
storiche. In particolare, I redditi da lavoro dipendente sono sempre superiori a quelli da lavoro indipendente e
la differenza sembra aumentare nel tempo.
Redditi
(mld di lire)
120000
100000
80000
60000
40000
20000
0
1970
1971
1972
1973
1974
lav. dip.
1975
1976
1977
lav. indip.
b. La seguente tabella mostra i tassi percentuali di variazione per i redditi da lavoro dipendente e indipendente:
1971/70
1972/71
1973/72
1974/73
1975/74
1976/75
1977/76
Tassi % di variazione
Lav. Dip. Lav. Indip.
114,4
109,7
111,1
107,8
121,6
119,1
124,4
126,0
121,4
126,1
121,9
121,2
122,0
123,8
Il grafico mostra che entrambe le serie dal 1972 al 1974 sono aumentate in modo crescente e poi, dal 1974 in poi, la
crescita si stabilizza fino a rallentare leggermente.
Tassi % di variazione
130
125
120
115
110
105
100
95
71/70
72/71
73/72
74/73
lav. dip.
75/74
76/75
77/76
lav. indip.
Tutte le operazioni per il calcolo della soluzione sono disponibili in una cartella Excel.
5.2
a. La serie storica del Numero di dipendenti è:
anno Num. dipendenti
1983
295079,8
1984
312784,5
1985
362830,1
1986
446281
1987
540000
Dalla serie dei tassi di variazione si ottiene il numero di dipendenti del 1986 nel seguente modo:
b.
⎛ 121 ⎞
540000⎜
⎟
⎝ 100 ⎠
−1
= 446281 .
Numero di dipendenti
600000
500000
400000
300000
200000
100000
0
1983
5.3
1984
1985
1986
1987
a.
Olio A
Olio B
anno Base fissa Base mobile Base fissa Base mobile
2000
100,0
100,0
2001
109,4
102,4
109,4
102,4
2002
112,5
114,3
102,9
111,6
2003
143,8
138,1
127,8
120,8
b. La variazione relativa percentuale dal 2002 al 2003 è del 43,8%.
c. Per ottenere la variazione relativa dei numeri indici bisogna dividere il numero indice dell’anno t per quello
dell’anno precedente t-1, ad esempio 112,5 / 109,4 = 1,03 .
Olio A
anno Base fissa Variazione
Base mobile
2000=100
relativa
2003=100
2000
100,0
69,6
2001
109,4
1,09
76,1
2002
112,5
1,03
78,3
2003
143,8
1,28
100,0
Variazione
relativa
1,09
1,03
1,28
Le variazioni relative delle due serie di numeri indici a base fissa sono uguali. In altre parole, passando da una base
fissa a un’altra, la variazione relativa dei numeri indici rimane inalterata.
5.4
⎛ 108 ⎞
⎛ 107,4 ⎞
a. Si ottengono i prezzi dal 2001 al 2003 nel seguente modo: 2,5 ⋅ ⎜
⎟ = 2,7 ; 2,7 ⋅ ⎜
⎟ = 2,9 ;
⎝ 100 ⎠
⎝ 100 ⎠
⎛ 150 ⎞
2,9 ⋅ ⎜
⎟ = 4,4 .
⎝ 100 ⎠
b. Si ottengono i numeri indice a base mobile del 1999 e 2000 nel seguente modo: (2,3 2,1) ⋅100 = 109,5 ;
(2,5 2,3) ⋅100 = 108,7 .
c. La serie dei numeri indice a base fissa 2001 è la seguente:
anno Prezzo Base fissa
1998
2,1
77,8
1999
2,3
85,2
2000
2,5
92,6
2001
2002
2003
5.5
2,7
2,9
4,4
100,0
107,4
163,0
a. La serie a base fissa 1993 è data nella seguente tabella.
anno base mobile base fissa 1993
1989
0,55
1990
1,06
0,58
1991
1,12
0,65
1992
1,20
0,78
1993
1,28
1,00
1994
1,34
1,34
1995
1,45
1,94
1996
1,55
3,01
Per il passaggio dai numeri indici a base mobile a quelli a base fissa si è applicata la proprietà 3.
5.6
a. Le tre serie dei numeri indici semplici a base mobile sono mostrate nella seguente tabella:
Data
A
B
C
5/4/2004
6/4/2004 89,4 100,8 96,5
7/4/2004 128,6 102,8 93,3
8/4/2004 102,1 106,0 90,2
b. La serie dei numeri indici complessi con il metodo delle somme ponderate con base 5/4/2004 e pesi uguali alle
quantità medie è mostrata nella seguente tabella:
Data
5/4/2004 100,0
6/4/2004 96,3
7/4/2004 102,9
8/4/2004 103,7
c. La serie dei numeri indici dei prezzi di Laspeyres è mostrata nella seguente tabella:
Data
5/4/2004 100,0
6/4/2004 95,8
7/4/2004 104,3
8/4/2004 105,7
d. La serie dei numeri indici dei prezzi di Paasche è mostrata nella seguente tabella:
Data
5/4/2004 100,0
6/4/2004 96,3
7/4/2004 101,6
8/4/2004 99,0
5.7
a.
La seguente tabella mostra la paga media settimanale espressa a prezzi correnti e prezzi costanti:
anno
1983
1984
1985
1986
Paga
prezzi
prezzi
caro vita correnti costanti
83,27
200
240,2
92,08
220
238,9
100,0
250
250,0
106,1
290
273,3
1987
5.8
111,0
310
279,3
Le serie dei numeri indici a base fissa e a base mobile delle quantità di produzione rispettivamente di Filati e Tessuti
sono mostrate nella seguente tabella:
Quantità
anno
1983
1984
1985
1986
1987
Filati
216578
230540
221115
230323
261271
Tessuti
205958
231391
226401
226692
224311
Num. Ind. Filati
Base
Base
fissa
mobile
97,9
104,3
106,4
100,0
95,9
104,2
104,2
118,2
113,4
Num. Ind. Tessuti
Base
Base
fissa
mobile
91,0
102,2
112,3
100,0
97,8
100,1
100,1
99,1
99,0
Statistica - metodologie per le scienze economiche e sociali
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 6
home - indice
Es.
In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali.
6.1
a. Le distribuzioni relative condizionate dell’Età rispetto all’Abitudine al fumo sono mostrate nella seguente
tabella:
Età
Abitudine al fumo 14 - 30 30 - 50 50 - 90 Totale
0,24
0,41
0,35
1
Fumatore
0,20
0,40
0,40
1
Ex fumatore
0,25
0,28
0,47
1
Non Fumatore
0,24
0,33
0,43
1
Totale
b. Considerando le distribuzioni condizionate trovate al punto precedente, si ottengono i seguenti valori:
Y X =Fumatore = 22 ⋅ 0,24 + 40 ⋅ 0,41 + 70 ⋅ 0,35 = 46,35
σ Y2 / X =Fumatore = (22 − 46,35) 2 ⋅ 0,24 + (40 − 46,35) 2 ⋅ 0,41 + (70 − 46,35) 2 ⋅ 0,35 = 353,52
In modo analogo si ottengono:
Y X =Ex −Fumatore = 48,4
σ Y2 / X =Ex −Fumatore = 354,24
Y X =Non −Fumatore = 49,56
σ Y2 / X =Non −Fumatore = 411,43
c.
Età
Abitudine al fumo 14 - 30 30 - 50 50 - 90 Totale
Fumatore
35
65
45
145
Ex fumatore
7
15
17
39
Non Fumatore
90
115
147
352
Totale
132
195
209
536
d.
Età
Abitudine al fumo 14 - 30 30 - 50 50 - 90 Totale
Fumatore
0,24
0,45
0,31
1
Ex fumatore
0,18
0,38
0,44
1
Non Fumatore
0,26
0,33
0,41
1
Totale
0,25
0,36
0,39
1
Considerando le distribuzioni condizionate, si ottengono i seguenti valori:
Y X =Fumatore = 22 ⋅ 0,24 + 40 ⋅ 0,45 + 70 ⋅ 0,31 = 44,97
σ Y2 / X =Fumatore = (22 − 44,97) 2 ⋅ 0,24 + (40 − 44,97) 2 ⋅ 0,45 + (70 − 44,97) 2 ⋅ 0,31 = 332,86
In modo analogo si ottengono:
Y X =Ex −Fumatore = 49,85
σ Y2 / X =Ex −Fumatore = 353,51
Y X =Non −Fumatore = 47,93
σ Y2 / X =Non −Fumatore = 395,87
Tutte le operazioni per il calcolo della soluzione sono disponibili in una cartella Excel.
6.2
a. Nella seguente tabella sono mostrate le distribuzioni condizionate della Statura rispetto alle classi di Peso dei
Maschi e delle Femmine:
Maschi
cj
162,5
167,5
172,5
180
40 – 50
0,6
0,3
0,1
0
50 - 75
0,27
0,35
0,29
0,09
Femmine
75 - 90
0,09
0,12
0,33
0,46
40 – 50
0,62
0,24
0,12
0,02
50 - 75
0,26
0,41
0,22
0,11
75 - 90
0,05
0,27
0,26
0,42
Da tali distribuzioni si ricavano le medie condizionate, in particolare:
Statura Media
Maschi
Femmine
165,0
165,3
168,7
168,7
174,5
173,8
Peso
40 – 50
50 - 75
75 - 90
Si può osservare che al crescere di classe di Peso, la Statura media aumenta sia per i maschi sia per le femmine;
inoltre, nella prima classe di Peso la statura media delle femmine è leggermente superiore a quella dei maschi; sono
praticamente uguali nella classe di Peso centrale; la statura media dei maschi è decisamente superiore a quella delle
femmine nell’ultima classe di Peso.
b.
Nella seguente tabella sono mostrate le distribuzioni condizionate del Peso rispetto alle classi di la Statura dei
Maschi e delle Femmine:
Statura
45
160-165
165-170
170-175
175-185
0,14
0,06
0,01
0,00
Maschi
62,5
82,5
45
Femmine
62,5
82,5
0,63
0,68
0,43
0,15
0,23
0,26
0,56
0,85
0,53
0,21
0,18
0,06
0,45
0,69
0,64
0,50
0,02
0,10
0,18
0,44
Da tali distribuzioni si ricavano le medie condizionate, in particolare:
Peso Medio
Maschi
Femmine
64,7
53,6
66,7
60,8
73,5
63,0
79,5
70,3
Statura
160-165
165-170
170-175
175-185
Si può osservare che al crescere di classe di Statura, il Peso medio aumenta sia per i maschi sia per le femmine;
inoltre, per tutte le classi di Statura, il Peso medio dei maschi è sempre superiore a quello delle femmine.
c. Per calcolare il baricentro dei maschi e delle femmine rispetto ai due caratteri Statura e Peso dobbiamo
calcolare la media dei due caratteri rispetto alle distribuzioni marginali. Quindi:
45
62,5
82,5
Peso
Maschi
10
99
112
Femmine
41
81
19
Tot.
221
141
cj
Si ottiene allora:
• Baricentro Maschi
• Baricentro Femmine
(71,8 Kg; 171,5 cm)
(60,1 Kg; 168,4 cm)
cj
162,5
167,5
172,5
180
Tot.
Statura
Maschi
43
50
67
61
221
Femmine
47
48
28
18
141
d. La seguente tabella mostra le distribuzioni di frequenze doppie cumulate rispettivamente dei maschi e delle
femmine.
maschi
40-50 50-75 75-90
160-165
6
33
43
165-170
9
70
93
170-175 10
100
160
175-185 10
109
221
40-50
25
35
40
41
femmine
50-75
75-90
46
47
89
95
112
123
122
141
Per semplificare il confronto si possono considerare le distribuzioni di frequenze relative:
160-165
165-170
170-175
175-185
6.3
40-50
0,03
0,04
0,05
0,05
maschi
50-75
0,15
0,32
0,45
0,49
75-90
0,19
0,42
0,72
1
40-50
0,18
0,25
0,28
0,29
femmine
50-75
75-90
0,33
0,33
0,63
0,67
0,79
0,87
0,87
1
a. Il baricentro dato da:
(175,25; 4388,29)
b. Dal grafico di dispersione si può osservare che all’aumentare della Densità di popolazione aumenta, anche se
lievemente, il Numero di delitti.
14000
Numero di delitt
12000
10000
8000
6000
4000
2000
0
0
50
100
150
200
250
300
350
400
450
Densità della popolazione
6.4
a. La seguente tabella mostra la distribuzione semplice del carattere Durata del periodo di disoccupazione:
Durata
1-7
8-14
15-30
>30
totale
Freq.
57
35
17
16
125
b. La seguente tabella mostra le distribuzioni percentuali condizionate del carattere Durata del periodo di
disoccupazione rispetto alle classi d’Età:
Età
<35
Durata
1-7 45,00
8-14 37,50
15-30
8,75
>30
8,75
Totale 100,00
>=35
46,67
11,11
22,22
20,00
100,00
c. Dalla precedente tabella si può notare che passando dalla prima classe di Età alla seconda, la percentuale di
individui il cui periodo di disoccupazione dura più di 14 giorni è più del doppio passando dal 17,5%
(8,75+8,75) al 42,22% ( 22,22+20). Ciò mette in luce una relazione tra i due caratteri per la quale passando la
disoccupati giovani (meno di 35 anni) a disoccupati adulti la durata della disoccupazione tende a crescere.
6.5
a. Si hanno i seguenti risultati:
moglie
marito
media
31,6
35,8
Età
varianza
118,44
97,56
Pertanto le mogli sono mediamente più giovani dei mariti e possiedono una maggiore variabilità.
b. Dal grafico di dispersione si evince che all’aumentare dell’età della moglie aumenta quella del marito.
60
55
50
Età marito
45
40
35
30
25
20
15
10
15
20
25
30
35
40
45
50
55
Età moglie
6.6
a. Logicamente dipendenti. Infatti, è noto che la temperatura incide sulla produzione degli agrumi e che sue
b.
c.
d.
e.
f.
g.
h.
i.
j.
k.
variazioni possono, in assenza di tecnologie idonee (serre, processi di irrigazione, ecc), far variare
sensibilmente la produzione.
Logicamente dipendenti. L’acquisto di automobili da parte delle famiglie è logicamente dipendente dal loro
reddito medio.
Logicamente indipendenti. Il numero mensile di nati certamente non dipende dal numero di incidenti stradali.
Logicamente dipendenti. Tuttavia, in questo caso la relazione può essere molto complessa e coinvolgere altre
grandezze economiche.
Logicamente indipendenti. Chiaramente l’uno non può influire sull’altro. Tuttavia sussiste una relazione spuria
se si considera che l’appartenenza a una razza può rendere più frequenti alcuni tratti somatici.
Logicamente indipendenti. Ciò naturalmente è vero a parità di condizioni (professione, progressione in carriera,
titolo di studio, età, …). La discriminazione tra i due sessi si può invece verificare nell’accesso alle professioni
e nella progressione in carriera. Vi possono comunque essere eccezioni in paesi e culture particolari.
Logicamente indipendenti. Anche in questo caso si possono avere delle associazioni spurie indotte dal reddito
individuale nella regione considerata. Ad esempio, se si verifica una crisi economica ci si attende un aumento
del numero di disoccupati, una diminuzione del reddito pro-capite e una conseguente riduzione della spesa procapite per vacanze.
Logicamente dipendenti. Anche in questo caso si è ha conoscenza che il fertilizzante influisce sull’altezza dei
fusti delle piante.
Logicamente indipendenti. In questo caso si può notare un’associazione spuria tra i due caratteri dovuta alla
situazione economica del paese.
Logicamente dipendenti. E’ noto che all’aumentare del livello d’istruzione aumenta anche la propensione alla
lettura.
Logicamente dipendenti. Il livello di istruzione della donna influisce in modo rilevante sul desiderio di
maternità, portando a dei modi e tempi diversi nella scelta di procreare. Molti studi demografici hanno mostrato
l’influenza del livello di istruzione sul comportamento riproduttivo della donna. In particolare, a parità di altre
condizioni, all’aumentare del livello di istruzione della donna diminuisce il numero di figli.
6.7
Per poter calcolare la tabella doppia di frequenze nel caso d’indipendenza attraverso le distribuzioni di frequenze
semplici utilizziamo la formula 6.5.2.
Gradimento Musica
molto abbastanza poco per niente
molto
Gradimento Film abbastanza
poco
per niente
33,339
37,224
33,016
19,421
123
42,013
14,095
13,553
103
46,908
15,737
15,132
115
41,605
13,958
13,421
102
24,474
8,211
7,895
60
155
52
50
380
6.8
Considerando le tabelle da sinistra verso destra e dall’alto verso il basso, si ha che:
• nella prima tabella i due caratteri non sono indipendenti ma neppure perfettamente associati;
• nella seconda tabella i due caratteri sono indipendenti; le righe (o colonne) sono fra loro proporzionali.
• nella terza tabella i due caratteri sono indipendenti; le righe (o colonne) sono fra loro proporzionali.
• nella quarta tabella i due caratteri non sono indipendenti ma neppure perfettamente associati;
• nella quinta tabella i due caratteri sono perfettamente associati;
• nella sesta tabella i due caratteri non sono indipendenti ma neppure perfettamente associati;
• nella settima tabella i due caratteri non sono indipendenti ma neppure perfettamente associati;
• nell’ottava tabella i due caratteri sono perfettamente associati;
6.9
La tabella di indipendenza tra i due caratteri è la seguente:
Livello di traffico
Basso Medio Alto
Sereno 39,781 49,726 31,493
Tempo Variabile 51,287 64,110 40,603
Pioggia 28,932 36,164 22,904
Tot.
120
150
95
Tot.
121
156
88
365
Applicando le formule 6.6.1, 6.6.3, 6.6.6 si ottengono i seguenti risultati:
χ 2 = 169,2 ; Φ 2 = 0,46 ; V = 0,48 ; alla luce dei risultati ottenuti possiamo concludere che si è osservata una discreta
associazione tra il livello di traffico e il tempo meteorologico.
6.10 La tabella di indipendenza tra i due caratteri è la seguente:
Colore
Rosso Verde
Blu
Tot.
Quadrata 1115,85
750 1134,15 3000
Forma Rettangolare 1022,87 687,5 1039,63 2750
Esagonale
911,28 612,5 926,22 2450
Tot.
3050 2050
3100 8200
I due caratteri esaminati sono di tipo qualitativo sconnesso, pertanto per misurare l’associazione si potrà utilizzare
l’indice Chi-quadrato o i corrispondenti indici relativi. Applicando le formule 6.6.1, 6.6.3, 6.6.6 si ottengono i seguenti
risultati: χ 2 = 5273,88 ; Φ 2 = 0,64 ; V = 0,57 . Alla luce dei risultati ottenuti possiamo concludere che si è osservata
una discreta associazione tra la forma e il colore delle confezioni. Particolarmente significative risultano le
combinazioni Esagonale-Rossa, Rettangolare-Blu e Quadrata-Verde.
6.11
a. Utilizzando la tabella d’indipendenza sottostante:
Sesso
maschi
femmine
14-30
19,52
16,48
30-45
49,88
42,12
45-60
78,61
66,39
si ottiene, χ 2 = 1,06 ; calcolando l’indice V = 0,004 possiamo concludere che tra i due caratteri sussiste
l’indipendenza.
b.
Utilizzando la tabella d’indipendenza sottostante:
Sesso
maschi
femmine
basso
56,38
47,62
Reddito
medio
74,81
63,19
alto
16,81
14,19
si ottiene, χ 2 = 3,52 ; calcolando l’indice V = 0,013 possiamo concludere che tra i due caratteri sussiste
l’indipendenza.
c.
La tabella di frequenze doppia tra Reddito ed Età è la seguente:
Reddito
Età basso medio alto
11
3
14-30 22
49
11
30-45 32
78
17
45-60 50
Le formule 6.7.1 e 6.7.2 richiedono il calcolo del numero di coppie di unità ordinate allo stesso modo su entrambi i
caratteri, N s ; di quelle ordinate in modo differente sui due caratteri, N d ; del numero di quelle che rispetto a uno
dei due caratteri presentano uguale modalità, T x e T y . Si trova quindi:
N s = 3410 + 308 + 3040 + 833 = 7591 ; N d = 627 + 902 + 1408 + 2450 = 5387 ;
T x = 308 + 33 + 1920 + 539 + 4750 + 1326 = 8876 ; Ty = 1804 + 1600 + 1397 + 3822 + 84 + 187 = 8894 , da cui si
ottiene: γ = 0,17 e τ b = 0,10 . Dai valori dei due indici si può concludere che ci troviamo quasi in assenza di
associazione tra i due caratteri.
d.
Le distribuzioni relative condizionate dell’Età rispetto al Sesso sono mostrate nella seguente tabella:
Età
Sesso
14-30 30-45 45-60 Totale
1
maschi 0,115 0,331 0,554
1
femmine 0,152 0,344 0,504
6.12
a. Si ha: χ 2 = 5,396 ; V = 0,115 ossia quasi assenza di associazione tra i due caratteri. Anche l’indice λ = 0,013
indica che il Tempo occorso per trovare lavoro dopo la laurea non dipende dal luogo di Residenza.
b. Si ha: χ 2 = 23,528 ; V = 0,376 ossia una debole associazione tra i due caratteri. L’indice λ = 0,058 indica che
il Voto dipende molto debolmente dal Sesso.
c. Si ha: χ 2 = 0,781 ; V = 0,076 ossia i due caratteri sono praticamente indipendenti. L’indice λ = 0 indica che
il Tempo occorso per trovare lavoro non dipende dal Sesso.
d. Si ha: χ 2 = 10,588 ; V = 0,253 ossia una debole associazione tra i due caratteri. L’indice λ = 0 indica che la
Condizione occupazionale non dipende dal Sesso.
e. Si ha: χ 2 = 3,675 ; V = 0,111 ossia quasi assenza di associazione tra i due caratteri. L’indice λ = 0 indica che
f.
il Numero di figli non dipende dalla Posizione nella professione.
Si ha: γ = −0,044 ; τ b = −0,034 ossia quasi assenza di associazione tra i due caratteri.
g. Si ha: χ 2 = 4,551 ; V = 0,117 ossia quasi assenza di associazione tra i due caratteri. L’indice λ = 0 indica che
il Numero di anni non dipende dal Tipo di diploma.
6.13
Dalla 6.7.3 si ha ρ s = 0,847 . Considerando il suo quadrato (ρ s )2 = 0,717 possiamo dire che l’errore nel prevedere
il rango di arrivo di uno sciatore rispetto allo Slalom speciale può essere ridotto del 71,7% se si tiene conto del
rango di arrivo del medesimo sciatore rispetto allo Slalom gigante.
6.14
a. Consideriamo i valori centrali delle classi del Voto ossia: 83, 88, 93, 98, 103, 108. Applicando la 6.8.6 si
2
ottiene: ηVoto
laurea / Sesso = 0,107 . Si può concludere che il Voto non dipende dal Sesso.
b. Consideriamo i valori centrali delle classi del Voto ossia: 83, 88, 93, 98, 103, 108. Applicando la 6.8.6 si
2
ottiene: ηVoto
laurea / Tit.studio = 0,013 . Si può concludere che il Voto non dipende dal Titolo di studio del padre.
Il seguente grafico mostra la spezzata di regressione:
110
105
Voto
100
95
90
85
80
Lic. Elem.
Lic. Media
Diploma
Laurea
Titolo di studio del padre
6.15
Consideriamo i valori centrali delle classi delle Ore lavorative ossia: 170, 190, 210, 230. La media e la varianza
del Voto è: y = 203,91 e σ y2 = 386,14 ; mentre le medie condizionate del Voto rispetto alla Posizione sono:
y ricerc. = 201,16
y 1° ricerc. = 207,78
2
y dirig . = 210,00 . Si ricava che σ Media
( y / x ) = 12,92 e quindi dalla 6.8.6,
2
ηVoto
laurea / Posizione = 0,033 . Il valore è molto vicino a 0, che coincide con l’indipendenza in media (perché tutte le
medie condizionate sono uguali tra loro). Se ne deduce che il Numero di ore di lavoro è indipendente in media
dalla Posizione professionale.
6.16
Le medie e le deviazioni standard dei due caratteri sono rispettivamente:
xTal = 57,63 σ Tal = 4,680 x Pil / ab = 5,1 σ Pil / abl = 1,185 . Applicando la formula 6.9.1 otteniamo il valore della
covarianza: σ xy = −3,613 . Dalla 6.9.4 si ottiene: ρ xy = −0.651 . Si può concludere che i due caratteri sono tra loro
correlati negativamente.
6.17 Per poter risolvere il problema occorre conoscere il valore di n. In realtà è facile verificare che qualsiasi valore di n
maggiore di 1 porterebbe al calcolo di un valore negativo della varianza della Y. Assumeremo quindi che
1
1
2
2
∑ x i = 18 e
∑ y i = 42
n i
n i
a differenza di quanto riportato nel testo dell’esercizio.
Possiamo riscrivere il coefficiente di correlazione nella seguente forma:
σ xy
Media( XY ) − x ⋅ y
ρ xy =
=
σ xσ y
⎛1
2
2 ⎞⎛ 1
2
2⎞
⎜ ∑ x i − x ⎟⎜ ∑ y i − y ⎟
⎝n i
⎠⎝ n i
⎠
da cui facilmente si ottiene: ρ xy =
20 − (2,5 ⋅ 6,2)
(1,8 − (2,5) )(42 − (6,2) )
2
2
= 0,696
6.18 Si ottengono i seguenti valori:
ρ Francia = 0,993 ρ Germania = 0,987 ρGrecia = 0,894 ρ Spagna = 0,960
Come si può notare, per tutti i paesi considerati la correlazione tra importazioni ed esportazioni è molto elevata e
positiva.
Statistica - metodologie per le scienze economiche e sociali /2e
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 8
Es.
8.1
.
a. L’insieme degli eventi elementari è:
, 15),(16 ),(21)(
, 22 ),(23),(24 ),(25),(26 ),(31),(32 ),(33),(34 ),(35),(36 ), ⎫
⎧(11),(12),(13),(14)(
Ω=⎨
⎬
, 64 ),(65),(66 )⎭
⎩(41),(42),(43),(44),(45),(46 ),(51),(52 ),(53),(54 ),(55),(56 ),(61),(62 ),(63)(
b. Detto A l’evento “punteggio complessivo >6” o equivalentemente “somma dei due dadi > 6”:
n. di casi favorevoli
21
P ( A) =
=
n. di casi possibili
36
8.2
Ε sono:
({ }) = 14 P ({CC}) = 14
Le probabilità degli eventi appartenenti a
( )
({ })
1
P (∅ ) = 0 P TT =
P TC
4
P
1
= P CT
4
({(TT ), (TC )}) = 24 P ({(TT ), (CC )}) = 24 P ({(TC ), (CT )}) = 24 P ({(TT ), (CC )}) = 24 P ({(TC ), (CC )}) = 24 P ({(CT ), (CC )}) = 24
({(TT ), (TC ), (CT )}) = 34 P ({(TT ), (TC ), (CC )}) = 34 P ({(TT ), (CT ), (CC )}) = 34 P ({(TC ), (CT ), (CC )}) = 34
P (Ω ) = 1
P
8.3
a. L’insieme degli eventi elementari è: Ω = {(TTT ),(TTC ),(TCT ),(CTT ),(CCT ),(CTC ),(TCC )(
, CCC )}
b. Detto A l’evento “almeno una volta testa” e A l’evento complementare “nessuna testa nei tre lanci”:
1 7
P ( A) = 1 - P ( A ) = 1 − =
8 8
8.4
Detto A l’evento “punteggio = 6” e B l’evento “punteggio pari”:
casi favorevoli a ( A ∩ B ) : {(6)}
casi favorevoli a B : {(2), (4), (6)}
P ( A ∩ B ) n. dei casi favorevoli ad (A ∩ B ) 1
=
=
P (A B) =
n. dei casi favorevoli a B
3
P (B )
8.5
Detto A l’evento “punteggio di uno dei due dati = 5” e B l’evento “punteggio complessivo = 9”:
P ( A ∩ B) 2
I casi favorevoli a B sono Ω = {(36 ), (45), (54 ), (63)} da cui P ( A B ) =
= .
4
P (B )
8.6
Detto A l’evento “persona estratta maschio”, B l’evento “persona estratta credente”:
600
1000
700
b. P (B ) =
1000
350
c. P (A ∩ B ) =
,
1000
a. P ( A) =
d. P (B A ) =
8.7
(
)
n. dei casi favorevoli ad A ∩ B
50
=
.
400
n. dei casi favorevoli a A
Detto B l’evento “seconda pallina estratta rossa”, A l’evento “prima pallina estratta rossa” (dunque A è l’evento
“prima pallina estratta non rossa, cioè bianca”:
P (B ) = P (B ∩ ( A ∪ A )) = P ( A ∩ B ) + P ( A ∩ B ) , e utilizzando la formula (8.6.2) segue che,
60 59 40 60 5940
P ( A) =
⋅
+
⋅
=
100 99 100 99 9900
8.8
a. La probabilità degli eventi elementari è:
P (prima, seconda e terza pallina estratta nera ) =
30 30 30
27
=
100 100 100
1000
P (prima e seconda pallina estratta nera, terza pallina estratta bianca ) =
30
100
30
P (prima e terza pallina estratta nera, seconda pallina estratta bianca ) =
100
30
P (prima pallina estratta bianca, seconda e terza pallina estratta nera ) =
100
30
P (prima pallina estratta nera, seconda e terza pallina estratta bianca ) =
100
70
P (prima e terza pallina estratta bianca, seconda pallina estratta nera ) =
100
70
P (prima e seconda pallina estratta bianca, terza pallina estratta nera ) =
100
70 70 70
343
P (prima, seconda e terza pallina estratta bianca ) =
=
100 100 100
1000
30
100
70
100
30
100
70
100
30
100
70
100
70
100
30
100
70
100
70
100
70
100
30
100
=
=
=
=
=
=
63
1000
63
1000
63
1000
147
1000
147
1000
147
1000
b. Dato che le palline si reimmettono nell’urna dopo la loro estrazione, si ha che l’informazione sul colore delle
palline uscite nelle prime due estrazioni non influenza la probabilità di uscita di una pallina bianca alla terza
estrazione. Dunque:
P (terza pallina estratta bianca | prima e seconda pallina estratta bianca
P (terza pallina estratta bianca
8.9
)=
)=
70
100
Detto A1 l’evento “primo biglietto estratto vincente”, A2 l’evento “secondo biglietto estratto vincente”, B l’evento
“almeno un biglietto estratto vincente”:
995 994
P (B ) = 1-P (B ) = 1-P (A1 ∩ A2 ) = 1-P (A1 )P (A2|A1 ) = 1 −
1000 999
8.10 Si consideri che le estrazioni, che determinano gli eventi, sono tra loro indipendenti e che non si tiene conto dell’ordine
di estrazione. Si noti inoltre che nella Fig.8.2.1 non sono riportate tutte le possibili permutazioni: ad esempio, per
l’evento A si ha che le possibili quaterne che presentano una pallina rossa, una nera e due bianche sono le seguenti:
NRBB, NBRB, NBBR
RNBB, BNRB, BNBR
RBNB, BRNB, BBNR
RBBN, BRBN, BBRN
Nella Fig, 8.2.1 abbiamo riportato solamente una di queste possibili configurazioni (l’ultima). Quindi, in definitiva, per
quanto riguarda l’evento A , abbiamo 12 possibili configurazioni tutte con uguale probabilità. Il calcolo si può
effettuare nel modo seguente.
a.
P(A ) = P (siano estratte 2 bianche, 1 rossa, 1 nera ) =
= P (nera, rossa, bianca, bianca ) × numero possibili combinazioni =
⎛ 20 30 50 50 ⎞
=⎜
⎟ × 12 = 0,18
⎝ 100 100 100 100 ⎠
b.
In questo caso è possibile una notevole semplificazione dei calcoli considerando la probabilità di
estrarre una pallina che non sia nera.
P (B ) = P (non sia mai nera nelle quattro estrazioni ) =
20 ⎞⎛
20 ⎞⎛
20 ⎞⎛
20 ⎞ ⎛ 80 80 80 80 ⎞
⎛
= ⎜1 −
⎟⎜1 −
⎟⎜1 −
⎟⎜1 −
⎟=⎜
⎟ = 0,4096
⎝ 100 ⎠⎝ 100 ⎠⎝ 100 ⎠⎝ 100 ⎠ ⎝ 100 100 100 100 ⎠
c.
In analogia a quanto detto per l’evento del punto a., si ottiene:
⎛ 50 50 50 50 ⎞
⎛ 50 50 50 20 ⎞
⎛ 50 50 50 30 ⎞
P (C ) = ⎜
⎟ + 4×⎜
⎟+
⎟ + 4×⎜
⎝ 100 100 100 100 ⎠
⎝ 100 100 100 100 ⎠
⎝ 100 100 100 100 ⎠
⎛ 50 50 20 20 ⎞
⎛ 50 50 30 30 ⎞
⎛ 50 50 30 20 ⎞
+ 4×⎜
⎟ + 4×⎜
⎟ + 12 × ⎜
⎟ = 0,6225
⎝ 100 100 100 100 ⎠
⎝ 100 100 100 100 ⎠
⎝ 100 100 100 100 ⎠
8.11 Poichè siamo a conoscenza che la vettura estratta è difettosa, dalla formula (8.7.1) segue che:
P ( proviene dallo stabilimento A vettura difettosa) =
0,1 ⋅ 0,1
0,01
=
= 0,18
(0,1 ⋅ 0,1) + (0.05 ⋅ 0,3) + (0.05 ⋅ 0,6) 0,055
0,05 ⋅ 0,3
0,015
=
= 0,27
( 0,1 ⋅ 0,1) + (0.05 ⋅ 0,3) + (0.05 ⋅ 0,6) 0,055
0,05 ⋅ 0,6
0,015
P ( proviene dallo stabilimento C vettura difettosa) =
=
= 0,55
(0,1 ⋅ 0,1) + (0.05 ⋅ 0,3) + (0.05 ⋅ 0,6) 0,055
P ( proviene dallo stabilimento B vettura difettosa) =
8.12 In questo caso lo spazio campionario è Ω = {1,2,3,4,5,6}
4
3
; P (B ) = ; dalla formula (8.4.1) si ha che
6
6
P (C ) = P (punteggio divisibile per 3) + P (punteggio divisibile per 5) − P (punteggio divisibile per 3 e per 5) =
3
2 1
= + −0 =
6
6 6
a. P (A ) =
b. Dalla formula (8.6.1) si ha che
3
P (C ∩ A ) 6 3
P (C | A ) =
=
=
4 4
P (A )
6
I tre eventi non sono indipendenti. Per dimostrare ciò, occorre dimostrare che non vale almeno una delle
condizioni descritte nell’ultima nota del paragrafo (8.6). Ad esempio, si ha che:
P (C ∩ B ) =
2 33
≠
= P (B )P (C )
6 66
Gli eventi A e C non sono indipendenti: infatti si ha P (C | A ) ≠ P (C )
8.13
Detto A l’evento “lo studente conosce la risposta” e B l’evento “lo studente sceglie la risposta esatta”, si vuole
determinare
P(A | B) = probabilità che lo studente conosce la risposta sapendo che ha risposto esattamente.
Sappiamo che
P(B | A) = probabilità che sceglie la risposta esatta dato che conosce la risposta = 1
P(B | A ) = probabilità che sceglie la risposta esatta dato che non conosce la risposta =
1
= 0.25
4
Sulla base della formula (8.7.1), si ha che
P (A | B ) =
P (A ) ⋅ P (B | A )
( ) (
P (A ) ⋅ P (B | A ) + P A ⋅ P B | A
)
=
0 .4 ⋅ 1
= 0.72
0.4 ⋅ 1 + 0.6 ⋅ 0.25
Se la domanda ha 8 possibili risposte, si ha che
P(B | A ) = probabilità che sceglie la risposta esatta dato che non conosce la risposta =
1
= 0.125
8
e dunque, dalla formula (8.7.1)
P (A | B ) = =
0. 4 ⋅ 1
= 0.84
0.4 ⋅ 1 + 0.6 ⋅ 0.125
8.14 Detto A l’evento “l’individuo è fumatore”, B l’evento “l’individuo è affetto dalla patologia”, si ha:
P (B ) = P (B ∩ A ) + P B ∩ A = P (A ) ⋅ P (B | A ) + P A ⋅ P B | A = 0.15 ⋅ 0.20 + 0.85 ⋅ 0.05 = 0.0725
(
)
( ) (
)
8.15 Dalla formula (8.6.3) i due eventi sono indipendenti se P ( A ∩ B ) = P ( A) ⋅ P (B ) = 0,1 pertanto si deve avere che
P (B ) = 0,1 P ( A) = 0,1 0,2 = 0,5 , inoltre se sono indipendenti P (B A) = P (B ) = 0,5 .
8.16 Sia E1=Il primo laureato è in una delle tre squadre, E2=il secondo laureato è in una squadra diversa da quella
del primo, E3= il terzo laureato è in una squadra diversa da quella degli altri due. Allora,
20
10
P(E1 ∩ E 2 ∩ E 3 ) = P(E1 ) ⋅ P(E 2 E1 ) ⋅ P(E3 E1 ∩ E 2 ) e poiché P(E1 ) = 1 , P (E 2 E1 ) =
, P(E3 E1 ∩ E 2 ) =
29
28
20 10
si ha P(E1 ∩ E 2 ∩ E3 ) = 1 ⋅ ⋅
= 0,246 .
29 28
8.17
Dai dati si ottiene P(B ) = 0,2 ⋅ 0,5 + 0,5 ⋅ 0,4 + 0,8 ⋅ 0,1 = 0,38 e quindi applicando il teorema di Bayes si ha:
0,2 ⋅ 0,5
0,5 ⋅ 0,4
0,8 ⋅ 0,1
P( A1 B ) =
= 0,26 , P (A2 B ) =
= 0,53 , P (A3 B ) =
= 0,21 .
0,38
0,38
0,38
Il medico prescriverà le medicine per la malattia A2 .
8.18
Dai dati si ottiene P (B ) = 0,7 ⋅ 0,5 + 0,3 ⋅ 0,1 + 0,5 ⋅ 0,4 = 0,58 e quindi applicando il teorema di Bayes si ha:
0,7 ⋅ 0,5
0,3 ⋅ 0,1
0,5 ⋅ 0,4
P( A1 B ) =
= 0,60 , P (A2 B ) =
= 0,05 , P ( A3 B ) =
= 0,35 .
0,58
0,58
0,58
Si conclude che è più probabile che sia occupato.
8.19
Consideriamo i tre eventi: A=il tesoro si trova dietro la prima porta, B=il tesoro si trova dietro la seconda
porta, C=il tesoro si trova dietro la terza porta. All’inizio del gioco il primo giocatore avrà
1
P( A) = P(B ) = P(C ) = . Il primo giocatore indica la prima porta e il secondo giocatore risponde aprendo la
3
seconda.
A questo punto si ha che:
1
P (il secondo giocatore apre la seconda porta A ) =
2
P (il secondo giocatore apre la seconda porta B) = 0
P (il secondo giocatore apre la seconda porta C ) = 1
Applicando il teorema di Bayes si ottiene:
(1 2) ⋅ (1 3)
1
=
(1 2) ⋅ (1 3) + (0) ⋅ (1 3) + (1) ⋅ (1 3) 3
(1) ⋅ (1 3)
2
=
P(C il secondo giocatore apre la seconda porta ) =
(1 2) ⋅ (1 3) + (0) ⋅ (1 3) + (1) ⋅ (1 3) 3
P(A il secondo giocatore apre la seconda porta ) =
Quindi al giocatore converrà sempre cambiare porta.
Statistica - metodologie per le scienze economiche e sociali /2e
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 9
Es.
9.1
In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali.
a. Si, X , il numero di parassiti su una foglia è possibile considerarla come una variabile casuale.
b. La distribuzione di probabilità di X è data da:
P(X
P(X
P(X
P( X
= 0) = P ( X < 1) = 1 − P ( X ≥ 1) = 1 − 70 100 = 30 100
= 1) = P ( X ≥ 1) − P ( X ≥ 2) = 70 100 − 65 100 = 5 100
= 2) = P ( X ≥ 2) − P ( X ≥ 1) = 65 100 − 55 100 = 10 100
= 3) = 55 100
0
X
P ( X ) 30
1
2
5
10
100 100 100
3
55
100
c. La funzione di ripartizione di X è:
−∞<x<0
⎧ 0
⎪0,30
0 ≤ x <1
⎪⎪
F (x ) = ⎨0,35
1≤ x < 2
⎪0,45
2≤ x <3
⎪
⎪⎩ 1
x ≥3
d. P (foglia presenta 1 o 2 parassiti ) =
9.2
2
5
10
15
∑ P ( X = w ) = 100 + 100 = 100
w =1
a. E’ una v.c. discreta.
b. Dalla formula (9.5.1) si ha che:
6
E ( X ) = ∑ iP (i ) = 1 ⋅
i =1
1
1
1
1 21
1
1
+ 2⋅ + 3⋅ + 4⋅ + 5⋅ + 6⋅ =
= 3,5
6
6
6
6
6
6 6
Dalla formula (9.5.3) si ha che:
6
V ( X ) = ∑ (i − 3,5)2 P (i ) =
i =1
1
1
1
1
1
1
+ (2 − 3,5)2 ⋅ + (3 − 3,5)2 ⋅ + (4 − 3,5)2 ⋅ + (5 − 3,5)2 ⋅ + (6 − 3,5)2 ⋅ =
6
6
6
6
6
6
1
1
1
1
1
1
1
⋅ + (− 1,5)2 ⋅ + (− 0,5)2 ⋅ + (0,5)2 ⋅ + (1,5)2 ⋅ + (2,5)2 ⋅ = 17,5 ⋅ = 2,92
6
6
6
6
6
6
6
= (1 − 3,5)2 ⋅
= (− 2,5)2
c. E’ una funzione di probabilità uniforme discreta.
⎧ 0 −∞ < x <1
⎪1
⎪ 6 1≤ x < 2
⎪2
2≤x<3
⎪ 6
⎪3
d. F (x ) = ⎨
3≤x<4
6
⎪4
⎪ 6 4≤x<5
⎪5
⎪ 6 5≤x<6
⎪⎩ 1
x≥6
e. P ( X > 4 ) = 1 − P ( X ≤ 4 ) = 1 − F (4 ) = 1 −
4 1
=
6 3
9.3
se 0 ≤ x ≤ 1
⎧1
a. Si ha f (x ) = ⎨
⎩0
altrove
che coincide con la formula (9.8.1) per a =0 e b =1.
b.
f(x)
1
0
0
1
c. Si tratta della funzione di densità della distribuzione uniforme continua in [0,1]
x2
d. Dalla formula (9.5.2) si ha che: E ( X ) = ∫ x ⋅ 1 dx =
2
0
1
1
=
0
1
.
2
1
2
⎛ x3 x 2 x ⎞
1⎞
1
⎛
.
Dalla formula (9.5.4) si ha che: V ( X ) = ∫ ⎜ x − ⎟ ⋅ 1 dx = ⎜
−
+ ⎟ =
⎜ 3
2⎠
2
4 ⎟⎠
12
0⎝
⎝
0
1
Agli stessi risultati si può giungere osservando che (si veda il paragrafo 9.8.1) E ( X ) =
V (X ) =
9.4
(0 − 1)
12
2
=
(0 + 1) =
2
1
e
2
1
.
12
a. Si tratta di una v.c. Binomiale (formula 9.7.3) con π = 0,5 e n = 5. Pertanto si ha:
X
0
1
2
3
4
5
P(X )
1
32
5
32
10
32
10
32
5
32
1
32
b. Dalla formula (9.5.1) si ha che:
5
E ( X ) = ∑ iP (i ) = 0 ⋅
i =1
1
5
10
10
5
1 80
+ 1⋅
+ 2⋅
+ 3⋅
+ 4⋅
+ 5⋅
=
= 2,5
32
32
32
32
32
32 32
Dalla formula (9.5.3) si ha che:
V (X ) =
5
2
∑ (i − 2.5) P (i ) =
x =1
1
5
10
10
5
1
+ (1 − 2,5)2 ⋅
+ (2 − 2,5)2 ⋅
+ (3 − 2,5)2 ⋅
+ (4 − 2,5)2 ⋅
+ (5 − 2,5)2 ⋅
=
32
32
32
32
32
32
1 40
5
10
10
5
1
= (− 2,5)2 ⋅
+ (− 1,5)2 ⋅
+ (− 0,5)2 ⋅
+ (0,5)2 ⋅
+ (1,5)2 ⋅
+ (2,5)2 ⋅ =
= 1,25
32 32
32
32
32
32
32
Agli stessi risultati si può giungere osservando che (si veda il paragrafo 9.7.3) E ( X ) = nπ = 5 ⋅ 0,5 = 2,5 e
V ( X ) = nπ (1 − π ) = 5 ⋅ 0,5 ⋅ (1 − 0,5) = 1,25
= (0 − 2,5)2 ⋅
9.5
a. Dal paragrafo 9.7.4 si ha che il numero medio di telefonate che arrivano al centralino è E ( X ) = λ = 3,5 .
b. Dal paragrafo 9.7.4 si ha che V ( X ) = λ = 3,5 e dunque la deviazione standard è
9.6
λ = 3,5 = 1,87 .
a. Si tratta di una v.c. uniforme continua in [300,400]. Dunque la funzione di densità è
⎧ 1
se 300 ≤ x ≤ 400
⎪
f (x ) = ⎨100
che coincide con la formula (9.8.1) per a =300 e b =400.
⎪ 0
altrove
⎩
Per calcolare media e varianza si può operare allo stesso modo dell’esercizio 9.3 modificando i limiti degli
integrali necessari per il calcolo della media e varianza, oppure si possono utilizzare i risultati noti relativi alla
distribuzione uniforme continua. Dunque si ha (si veda il paragrafo 9.8.1) E ( X ) =
V (X ) =
(300 − 400)
12
2
(300 + 400 ) = 350 e
2
= 833,33 .
b. Si tratta di una v.c. uniforme continua in [300,400]. Dunque la funzione di ripartizione è
⎧
0
x ≤ 300
⎪ x − 300
F (x) = ⎨
300 < x ≤ 400 da cui P (80 ≤ X ≤ 150 ) = F (150 ) − F (180 ) = 0 − 0 = 0 .
⎪ 100
1
> 400
⎩
9.7
a. Dalla formula (9.7.4) con λ=3,8, si ha che
P (periodo vita particella A non superiore a 2) = P ( x = 0) + P ( x = 1) + P ( x = 2) =
3,8 0 −3,8 3,81 −3,8 3,8 2 −3,8
e
+
e
+
e
= 0,3799
0!
1!
2!
Poiché per la v.c. Chi-quadrato la media corrisponde ai gradi di libertà, utilizzando il Software StatEasy si
ottiene che:
P (periodo vita particella B non superiore a 2) = 0,26424 .
Si può pertanto concludere che una durata di vita non superiore a 2 giorni è più probabile per le particelle della
sostanza A.
b. Dalla formula (9.7.4) con λ=3,8, si ha che
P (periodo vita particella A superiore o uguale a 4) = 1 − (P (0) + P (1) + P (2) + P (3) ) =
= 1 − 0,6025 = 0,3975
Utilizzando il Software StatEasy si ottiene che:
P (periodo vita particella B superiore o uguale a 4) = 0,4060 .
Si può pertanto concludere che una durata di vita superiore o uguale a 4 giorni è più probabile per le particelle
della sostanza B.
c. Si ha che per la v.c. di Poisson con λ=3,8, la varianza è λ=3,8, mentre per la v.c. Chi-quadrato con g=4, la
varianza è 2g=8, che dunque è maggiore.
9.8
Utilizzando le tavole della Normale o il Software StatEasy si ottiene:
⎛ −1 − 1 X − 1 1 − 1 ⎞
a. X ~ N (1; 4 ) , P (− 1 ≤ X ≤ 1) = P ⎜
≤
≤
⎟ = P (− 1 ≤ Z ≤ 0) = P (0 ≤ Z ≤ 1) = Φ (1) − Φ (0 ) = 0,3413
2
2 ⎠
⎝ 2
b. X ~ N (1; 4 ) , P (X > 1) = 0,5 per la simmetria della v.c. normale rispetto al valore x = 1 .
⎛ X − 0,5 − 1 − 0,5 ⎞
X ~ N (0,5; 4) , P (X < −1) = P ⎜
<
⎟ = P (Z < −0,75) = Φ (− 0,75) = 1 − Φ (0,75) = 0,2266
2
⎝ 2
⎠
⎛ − 3 + 1 X + 1 1 + 1⎞
d. X ~ N (- 1; 1) , P (− 3 ≤ X ≤ 1) = P ⎜
≤
≤
⎟ = P (− 2 ≤ Z ≤ 2 ) =
1
1 ⎠
⎝ 1
Φ(2 ) − Φ (− 2 ) = Φ (2 ) − [1 − Φ (2 )] = 2Φ (2 ) − 1 = 2 ⋅ 0,977 − 1 = 0,954
c.
e.
f.
9.9
(
)
(
)
⎛0−0 X −0 σ −0⎞
X ~ N 0; σ 2 , P (0 ≤ X ≤ σ ) = P ⎜
≤
≤
⎟ = P (0 ≤ Z ≤ 1) = Φ (1) − Φ (0) = 0,3413
σ
σ ⎠
⎝ σ
⎛ μ − μ X − μ μ +σ − μ ⎞
X ~ N μ ; σ 2 , P (μ ≤ X ≤ μ + σ ) = P ⎜
≤
≤
⎟ = P (0 ≤ Z ≤ 1) = Φ(1) − Φ (0 ) = 0,3413
σ
σ
⎠
⎝ σ
Il peso delle confezioni è una v.c. che si distribuisce come X ~ N (500; 64) . Utilizzando le tavole della Normale o il
Software StatEasy si ottiene:
⎛ 480 − 500 X − 500 490 − 500 ⎞
≤
≤
⎟ = P (− 2,50 ≤ Z ≤ −1,25) =
8
8
8
⎝
⎠
Φ(− 1,25) − Φ(− 2,50) = [1 − Φ(1,25)] − [1 − Φ(2,50)] = 0,1056 − 0,0062 = 0,0994
a. P (480 ≤ X ≤ 490 ) = P ⎜
b.
P (il peso di una scatola differisca dalla media per più di 20 grammi) =
= P ( X > 520) + P ( X < 480) =
⎛ X − 500 520 − 500 ⎞
⎛ X − 500 480 − 500 ⎞
= P ( X > 520 ) + P ( X < 480 ) = P ⎜
>
<
⎟ + P⎜
⎟=
8
8
8
8
⎝
⎠
⎝
⎠
= P (Z > 2,50 ) + P (Z < −2,50 ) = [1 − P (Z ≤ 2,50 )] + P (Z < −2,50 ) =
= [1 − Φ(2,50 )] + [1 − Φ (2,50 )] = 2[1 − Φ (2,50 )] = 0,0124
9.10
Derivando si ha f (x ) =
1
−
x
1
⎛ 1 ⎞
e 2000 , da cui X ~ Esp⎜
⎟.
2000
⎝ 2000 ⎠
a. P ( X ≤ 1000 ) = F (1000) = 1 − e
−
1
1000
2000
= 1− e
−
1
2
= 0,39
b. P ( X > 2000 ) = 1 − P ( X ≤ 2000 ) = 1 − F (2000) = 1 − (1 − e
9.11
a. Dalla formula (9.5.1) si ha che: E ( X ) =
−
1
2000
2000
)
= e −1 = 0,37
4
∑ xP (x ) = −1 ⋅ 0,1 + 0 ⋅ 0,2 + 1 ⋅ 0,3 + 2 ⋅ 0,2 + 3 ⋅ 0,1 + 4 ⋅ 0,1 = 1,3
x = −1
Dalla formula (9.5.3) si ha che:
V (X ) =
4
2
∑ (x − 1,3) P (x ) =
x = −1
2
= (− 1 − 1,3) ⋅ 0,1 + (0 − 1,3)2 ⋅ 0,2 + (1 − 1,3)2 ⋅ 0,3 + (2 − 1,3)2 ⋅ 0,2 + (3 − 1,3)2 ⋅ 0,1 + (4 − 1,3)2 ⋅ 0,1 =
= (− 2,3)2 ⋅ 0,1 + (− 1,3)2 ⋅ 0,2 + (0,3)2 ⋅ 0,3 + (0,7 )2 ⋅ 0,2 + (1,7 )2 ⋅ 0,1 + (2,7 )2 ⋅ 0,1 = 2,01
b. E (Y ) = 4 ⋅ E ( X ) − 3 = 2,2 ; V (Y ) = 4 2 ⋅ V ( X ) = 16 ⋅ 2,01 = 32,16 da cui (formula 9.5.7) si ha
SD (Y ) = V (Y ) = 5,67
c.
E (Y ) = −2 ⋅ E ( X ) + 7 = 4,4 ; V (Y ) = −2 2 ⋅ V ( X ) = 4 ⋅ 2,01 = 8,04 da cui (formula 9.5.7) si ha
SD(Y ) = V (Y ) = 2,84
d. E (2 X − 3Y ) = E (2 X ) − E (3Y ) = 2 ⋅ E ( X ) − 3 ⋅ E (Y ) = −1,3 e per l’indipendenza tra le due variabili si ha
V (2 X − 3Y ) = V (2 X ) + V (3Y ) = 4 ⋅ V ( X ) + 9 ⋅ V (Y ) = 26,13
9.12
a. P ( X ≥ 2 ) = 1 − P ( X ≤ 1) = 1 − P ( X = 1) = 1 − 0,05 = 0,95
b. Dalla formula (9.5.1) si ha che: E ( X ) =
6
∑ xP (x ) = 1 ⋅ 0,05 + 2 ⋅ 0,05 + 3 ⋅ 0,05 + 4 ⋅ 0,2 + 5 ⋅ 0,4 + 6 ⋅ 0,25 = 4,6
x =1
Dalla formula (9.5.3) si ha che:
V (X ) =
6
2
∑ (x − 4,6) P (x ) =
x =1
2
= (1 − 4,6 ) ⋅ 0,05 + (2 − 4,6 )2 ⋅ 0,05 + (3 − 4,6 )2 ⋅ 0,05 + (4 − 4,6 )2 ⋅ 0,2 + (5 − 4,6 )2 ⋅ 0,4 + (6 − 4,6 )2 ⋅ 0,25 =
= (− 3,6 )2 ⋅ 0,05 + (− 2,6 )2 ⋅ 0,05 + (− 1,6 )2 ⋅ 0,05 + (− 0,6 )2 ⋅ 0,2 + (0,4 )2 ⋅ 0,4 + (1,4 )2 ⋅ 0,25 =
= 1,74
c.
E (Guadagno mensile ) = 1100 + (400 ⋅ 0.08 ) ⋅ E ( X ) = 1247,2
V (Guadagno mensile ) = (400 ⋅ 0.08 ) ⋅ V ( X ) = 1781,76 da cui (formula 9.5.7) si ha
2
SD(Guadagno mensile ) = V (Guadagno mensile ) = 42,21
d. Dalla formula (9.5.1) si ha che: E ( X ) =
6
∑ xP (x ) = 1 ⋅ 0,25 + 2 ⋅ 0,25 + 3 ⋅ 0,2 + 4 ⋅ 0,15 + 5 ⋅ 0,15 = 2,7
x =1
Dalla formula (9.5.3) si ha che:
6
V (X ) =
2
2
2
2
2
∑ (x − 2 ,7 ) P (x ) = (1 − 2 ,7 ) ⋅ 0 ,25 + (2 − 2 ,7 ) ⋅ 0 ,25 + (3 − 2 ,7 ) ⋅ 0 ,2 + (4 − 2 ,7 ) ⋅ 0 ,15
x =1
2
+ (5 − 2 ,7 ) ⋅ 0 ,15 = (− 1,7 ) ⋅ 0 ,25 + (− 0 ,7 ) ⋅ 0 ,25 + (0 ,3) ⋅ 0 ,2 + (1,3) ⋅ 0 ,15 +
2
2
2
2
+ (2 ,3) ⋅ 0 ,15 = 1,91
2
e dunque E (Guadagno mensile) = 1150 + (900 ⋅ 0.08) ⋅ E ( X ) = 1344,4
V (Guadagno mensile ) = (900 ⋅ 0.08 ) ⋅ V (X ) = 9901 ,44 da cui (formula 9.5.7) si ha
2
SD(Guadagno mensile) = V (Guadagno mensile) = 99 ,51
e. Conviene vendere il nuovo prodotto (il guadagno mensile atteso è maggiore)
9.13
a. Dalla formula (9.5.1) si ha che: E ( X ) =
3
xP (x ) = 0 ⋅ 0,65 + 1 ⋅ 0,31 + 2 ⋅ 0,03 + 3 ⋅ 0,01 = 0,4
∑
x=
0
Dalla formula (9.5.3) si ha che:
V (X ) =
3
∑ (x − 0,4) P (x ) = (0 − 0,4)
2
2
⋅ 0,65 + (1 − 0,4 ) ⋅ 0,31 + (2 − 0,4 ) ⋅ 0,03 + (3 − 0,4 ) ⋅ 0,01 = 0,36
2
2
2
x =0
b. E (Y ) = 60 ⋅ E ( X ) = 24 , V (Y ) = 60 2 ⋅ V ( X ) = 1296 da cui (formula 9.5.7) si ha SD(Y ) = V (Y ) = 36
9.14
a. Le v.c. X e Y non sono indipendenti poiché non vale P (x, y ) = P ( x )P ( y ) .
b. E ( X ) =
2
1
∑ xP (x ) = 0 ⋅ 0,5 + 1 ⋅ 0,4 + 2 ⋅ 0,1 = 0,6 , E (Y ) = y∑=0 yP (y ) = 0 ⋅ 0,4 + 1 ⋅ 0,6 = 0,6
x =0
c. Dalla formula (9.11.6) si ha che E ( X + Y ) = E ( X ) + E (Y ) = 0,6 + 0,6 = 1,2
d. E ( X ⋅ Y ) =
2
1
∑ ∑ (x ⋅ y )P ( x, y ) = 0 ⋅ 0,2 + 0 ⋅ 0,1 + 0 ⋅ 0,1 + 0 ⋅ 0,3 + 1 ⋅ 0,3 + 2 ⋅ 0,0 = 0,3
x =0 y =0
9.15
a. Sia X la v.c. “stipendio medio” con E ( X ) = 20000 e V ( X ) = 500 e sia Y la v.c. “reddito medio netto”.
Poiché è Y = (1 − 0,2) ⋅ ( X − 100 ) , segue che E (Y ) = (1 − 0,2) ⋅ (E ( X ) − 100 ) = 15920 e
V (Y ) = (1 − 0,2) ⋅ V ( X ) = 320 .
2
b. Dalla formula (9.6.2), essendo SD (Y ) = 17,89 , discende che (k=5,59)
(
)
P Y − 15920 < 100 ≥ 1 −
1
= 0,97 .
k2
9.16 Possiamo pensare “il numero di volte che viene superato lo stock su 52 settimane” come una v.c.
X ~ Binomiale(π = 0,013; n = 52) .
⎛ 52 ⎞
⎟⎟ ⋅ 0,013 0 ⋅ 0,987 52 = 0,506
⎝0⎠
a. Dalla formula (9.7.3) si ha che P (0 ) = ⎜⎜
b. Dalla formula (9.7.3) si ha che:
⎛ 52 ⎞
⎛ 52 ⎞
⎛ 52 ⎞
P (0) + P (1) + P (2) = ⎜⎜ ⎟⎟ ⋅ 0,013 0 ⋅ 0,987 52 + ⎜⎜ ⎟⎟ ⋅ 0,0131 ⋅ 0,987 51 + ⎜⎜ ⎟⎟ ⋅ 0,013 2 ⋅ 0,987 50 = 0,970
⎝0⎠
⎝1⎠
⎝2⎠
9.17
a. Per la macchina A si ha: X ~ Binomiale(π = 0,003; n = 30) .
Dalla formula (9.7.3) si ha che:
⎛ 30 ⎞
P (almeno 1 volta ) = 1 - P (mai )=1 − ⎜⎜ ⎟⎟ ⋅ 0,003 0 ⋅ 0,997 30 = 1 − 0,997 30 = 0,086
⎝0⎠
(
b. Si, in particolare X 1 ~ Binomiale π 1 = 1 − (0,997 ) ; n1 = 60
30
)
(
)
c. Essendo anche X 2 ~ Binomiale π 2 = 1 − (0,999 ) ; n 2 = 50 , si ha per la (9.11.7)
30
E ( X ) = E ( X 1 + X 2 ) = E ( X 1 ) + E ( X 2 ) = n1π 1 + n 2π 2 =
= 60 ⋅ (1 − 0,997 30 ) + 50 ⋅ (1 − 0,999 30 ) = 5,17 + 1,48 = 6,65
e per la (9.11.12)
V ( X ) = V ( X1 + X 2 ) = V ( X1 ) + V ( X 2 ) =
= 60 ⋅ (1 − 0,997 30 )0,997 30 + 50 ⋅ (1 − 0,999 30 )0,999 30 = 5,16 + 1,48 = 6,64
d. X = X 1 + X 2 non si distribuisce come una binomiale. Infatti, la variabile X è la somma di n1 + n 2 variabili
casuali bernoulliane non identicamente distribuite poiché π 1 ≠ π 2 .
e. Utilizzando il software sulla binomiale che si trova sul sito web del libro, possiamo ottenere le probabilità
corrispondenti ai singoli valori delle due variabili casuali:
P ( X 1 = 0) = 0,835 , P ( X 1 = 1) = 0,151 , P ( X 1 = 2) = 0,013 , P ( X 1 = 3) = 0,001
P ( X 2 = 0) = 0,951 , P ( X 2 = 1) = 0,048 , P ( X 2 = 2) = 0,001 , P ( X 2 = 3) = 0,000
e quindi:
P ( X ≥ 4) = 1 − P ( X < 4) = 1 − {[P ( X 1 = 0) ⋅ P ( X 2 = 0)] + [P ( X 1 = 0) ⋅ P ( X 2 = 1)] +
[P ( X 1 = 0) ⋅ P ( X 2 = 2)] + [P ( X 1 = 0) ⋅ P ( X 2 = 3)] + [P ( X 1 = 1) ⋅ P ( X 2 = 0)] +
+ [P ( X 1 = 1) ⋅ P ( X 2 = 1)] + [P ( X 1 = 1) ⋅ P ( X 2 = 2)] + [P ( X 1 = 2) ⋅ P ( X 2 = 0)] +
+ [P ( X 1 = 2) ⋅ P ( X 2 = 1)] + [P ( X 1 = 3) ⋅ P ( X 2 = 0)]} =
= 1 − (0,7941 + 0,0401 + 0,0008 + 0 + 0,1436 + 0,0072 + 0,0002 + 0,0124 + 0,0006 + 0,0010) = 0
f.
Dal software sulla binomiale si trova che:
P ( X 1 = 4) = P ( X 1 = 5) = P ( X 1 = 6) = P ( X 1 = 7) = P ( X 1 = 8) = 0
P ( X 2 = 4) = P ( X 2 = 5) = P ( X 2 = 6) = P ( X 2 = 7) = P ( X 2 = 8) = 0
P (4 ≤ X ≤ 8) =
= [P ( X 1 = 4) ⋅ P ( X 2 = 0)] + [P ( X 1 = 4) ⋅ P ( X 2 = 1)] + [P ( X 1 = 4) ⋅ P ( X 2 = 2)] +
+ [P ( X 1 = 4) ⋅ P ( X 2 = 3)] + [P ( X 1 = 4) ⋅ P ( X 2 = 4)] + [P ( X 1 = 5) ⋅ P ( X 2 = 0)] +
+ [P ( X 1 = 5) ⋅ P ( X 2 = 1)] + [P ( X 1 = 5) ⋅ P ( X 2 = 2)] + [P ( X 1 = 5) ⋅ P ( X 2 = 3)] +
+ [P ( X 1 = 6) ⋅ P ( X 2 = 0)] + [P ( X 1 = 6) ⋅ P ( X 2 = 1)] + [P ( X 1 = 6) ⋅ P ( X 2 = 2)] +
+ [P ( X 1 = 7) ⋅ P ( X 2 = 0)] + [P ( X 1 = 7) ⋅ P ( X 2 = 1)] + [P ( X 1 = 8) ⋅ P ( X 2 = 0)] +
+ [P ( X 1 = 0) ⋅ P ( X 2 = 4)] + [P ( X 1 = 1) ⋅ P ( X 2 = 4)] + [P ( X 1 = 2) ⋅ P ( X 2 = 4)] +
+ [P ( X 1 = 3) ⋅ P ( X 2 = 4)] + [P ( X 1 = 0) ⋅ P ( X 2 = 5)] + [P ( X 1 = 1) ⋅ P ( X 2 = 5)] +
+ [P ( X 1 = 2) ⋅ P ( X 2 = 5)] + [P ( X 1 = 3) ⋅ P ( X 2 = 5)] + [P ( X 1 = 0) ⋅ P ( X 2 = 6)] +
+ [P ( X 1 = 1) ⋅ P ( X 2 = 6)] + [P ( X 1 = 2) ⋅ P ( X 2 = 6)] + [P ( X 1 = 0) ⋅ P ( X 2 = 7)] +
+ [P ( X 1 = 1) ⋅ P ( X 2 = 7)] + [P ( X 1 = 0) ⋅ P ( X 2 = 8)] = 0
9.18
X ~ N (3,5; 0,01)
a ⎞
⎛ 3,5 − a − 3,5 X − 3,5 3,5 + a − 3,5 ⎞
⎛ a
≤
≤
≤ Z≤
a. P (3,5 − a ≤ X ≤ 3,5 + a ) = P ⎜
⎟ = P⎜ −
⎟ = 0,95
0,1
0,1
0,1
0,1 ⎠
⎝
⎠
⎝ 0,1
⎛ a ⎞
⎛ a ⎞
⎛ a ⎞ ⎡
⎛ a ⎞⎤
⎛ a ⎞
Φ⎜ ⎟ − Φ⎜ −
⎟ = Φ⎜ ⎟ − ⎢1 − Φ⎜ ⎟⎥ = 0,95 da cui Φ⎜ ⎟ = 0,975 .
⎝ 0,1 ⎠
⎝ 0,1 ⎠
⎝ 0,1 ⎠ ⎣
⎝ 0,1 ⎠⎦
⎝ 0,1 ⎠
Dalle tavole (o dal software per la normale) si ha che
a
= 1,96 e dunque a = 0,196 .
0,1
b ⎞
⎛ 3,5 − b − 3,5 X − 3,5 3,5 + b − 3,5 ⎞
⎛ b
≤
≤
≤Z≤
b. P (3,5 − b ≤ X ≤ 3,5 + b ) = P ⎜
⎟ = P⎜ −
⎟ = 0,99
0,1
0,1
0,1
0,1 ⎠
⎝
⎠
⎝ 0,1
⎛ b ⎞
⎛ b ⎞
⎛ b ⎞ ⎡
⎛ b ⎞⎤
⎛ b ⎞
Φ⎜ ⎟ − Φ⎜ −
⎟ = Φ⎜ ⎟ − ⎢1 − Φ⎜ ⎟⎥ = 0,99 da cui Φ⎜ ⎟ = 0,995 .
⎝ 0,1 ⎠ ⎣
⎝ 0,1 ⎠⎦
⎝ 0,1 ⎠
⎝ 0,1 ⎠
⎝ 0,1 ⎠
Dalle tavole (o dal software per la normale) si ha che
b
= 2,58 e dunque b = 0,258 .
0,1
9.19
5 −μ⎞
5−μ
⎛
⎛ 5 −μ⎞
P (X ≥ 5) = 1 − P (X < 5) = 1 − P ⎜ Z <
= 1,00
⎟ = 0,8413 da cui Φ⎜ −
⎟ = 0,8413 e dunque −
σ
σ ⎠
σ ⎠
⎝
⎝
10 − μ ⎞
10 − μ
⎛
⎛ 10 − μ ⎞
= 1,16
P ( X ≤ 10 ) = P ⎜ Z ≤
⎟ = 0,8770 e dunque
⎟ = 0,8770 da cui Φ⎜
σ
σ
σ ⎠
⎝
⎠
⎝
Risolvendo il sistema
⎧ 5−μ
⎪− σ = 1,00
⎨ 10 − μ
⎪
= 1,16
⎩⎪ σ
si ottiene μ = 7,315 e σ = 2,315 .
9.20 Sia X la v.c. “guadagno”
a.
X
P(x)
-5
0.25
1
0.5
2
0.25
b. E ( X ) = −5 ⋅ 0,25 + 1 ⋅ 0,5 + 2 ⋅ 0,25 = −0.25 . Poichè E ( X ) < 0 , non conviene giocare perché in media si perde.
9.21 Sia X ~ Binomiale (π = 0,5; n = 3) la v.c. “numero di teste in tre lanci”
⎛3⎞
a. Dalla formula (9.7.3) si ha che P ( X = 3 ) = ⎜⎜ ⎟⎟ ⋅ 0,5 3 ⋅ 0,5 0 = 0,125
⎝3⎠
⎛3⎞
b. Dalla formula (9.7.3) si ha che P ( X ≥ 1) =1 − P ( X = 0 ) = ⎜⎜ ⎟⎟ ⋅ 0,5 0 ⋅ 0,5 3 = 0,125
⎝0⎠
⎛3⎞
c. Dalla formula (9.7.3) si ha che P ( X = 1) = ⎜⎜ ⎟⎟ ⋅ 0,5 1 ⋅ 0,5 2 = 0,375
⎝ 1⎠
d. La v. c. X ha E ( X ) = nπ = 120 2 = 60 e varianza V ( X ) = nπ (1 − π ) = 120 4 = 30 . Per il teorema del limite
centrale, si ha X ~ N (60; 30 ) . Essendo X approssimata ad una v.c. continua sappiamo che P ( X = 40) = 0 .
Tuttavia, si può migliorare l’approssimazione considerando la probabilità di un intervallo unitario centrato
rispetto a 40, ossia P ( X = 40) ≈ P (39,5 ≤ X ≤ 40,5) = 0,0001 . Confrontando il valore non approssimato
calcolato con il software della binomiale con n = 120 e π = 0,5 si ottiene P ( X = 40) = 0,00009 .
e. Per il teorema del limite centrale, si ha X ~ N (60,30 ) . Risulta
P (50 ≤ X ≤ 70) = P (
50 − 60
≤
X − 60
30
= P ( −1,83 ≤ Z ≤ 1,83) = 0,9288
30
≤
70 − 60
30
) = P(
50 − 60
30
≤
X − 60
30
≤
70 − 60
30
)=
Analogamente a quanto visto nel punto precedente, possiamo migliorare l’approssimazione considerando
P (49,5 ≤ X ≤ 70,5) = 0,9448 . Il valore esatto, calcolato con il software della binomiale con n = 120 e π = 0,5 ,
è P (50 ≤ X ≤ 70) = 0,94522 .
9.22 Dato che si risponde a caso, X ~ Binomiale(0,5;100 ) . Per il teorema del limite centrale, si ha X ~ N (50,25 ) .
a. Si ha, per la simmetria della v.c. Normale rispetto al valore x = 50 , P ( X ≤ 50) = 0,5 .
b. P ( X ≥ 80) = P (
9.23
X − 50
25
X − 50
≥
80 − 50
25
90 − 50
) = P ( Z ≥ 6) = 1 − P (Z < 6) = 0
c.
P ( X ≥ 90) = P (
d.
Dato che si risponde a caso, X ~ Binomiale(0,25;100). Per il teorema del limite centrale, si ha X ~ N(25;
X − 25 50 − 25
) = 1 − P (Z ≤ 5,77 ) = 0 e
18,75). Quindi, P ( X > 50) = 1 − P ( X ≤ 50) = 1 − P (
≤
18,75
18,75
X − 25 30 − 25
P ( X ≤ 30) = P (
≤
) = P (Z ≤ 1,15) = 0,8749 .
18,75
18,75
X ~ N (23;49 )
25
≥
25
) = P ( Z ≥ 8 ) = 1 − P ( Z < 8) = 0
⎛ 21 − 23 X − 23 25 − 23 ⎞
a. P (21 ≤ X ≤ 25 ) = P ⎜
≤
≤
⎟ = P (− 0,29 ≤ Z ≤ 0,29 )
7
7
⎝ 7
⎠
Φ(0,29 ) − Φ(− 0,29 ) = Φ(0,29 ) − [1 − Φ(0,29 )] = 2 ⋅ Φ(0,29 ) − 1 = 2 ⋅ 0,6141 − 1 = 0,2282
⎛ X − 23 30 − 23 ⎞
b. P (X > 30 ) = P ⎜
>
⎟ = P (Z > 1) = 1 − P (Z ≤ 1) = 1 − Φ(1) = 1 − 0,8413 = 0,1587
7
⎝ 7
⎠
9.24
X ~ N (280;6400 )
⎛ X − 280 60 − 280 ⎞
a. P (X ≤ 60 ) = P ⎜
≤
⎟ = P (Z ≤ −2,75 ) = Φ(− 2,75 ) = 1 − Φ(2,75 ) = 1 − 0,9970 = 0,0030
80
⎝ 80
⎠
b. P (X < 280 ) = 0.5 per la simmetria della v.c. Normale rispetto al valore x = 280 .
⎛ 240 − 280 X − 280 320 − 280 ⎞
≤
≤
⎟ = P (− 0,5 ≤ Z ≤ 0,5)
80
80
80
⎝
⎠
c. P (240 ≤ X ≤ 320 ) = P ⎜
Φ(0,5 ) − Φ(− 0,5 ) = Φ(0,5 ) − [1 − Φ(0,5 )] = 2 ⋅ Φ(0,5 ) − 1 = 2 ⋅ 0,6915 − 1 = 0,3830
x − 280 ⎞
x − 280
⎛ x − 280 ⎞
⎛
d. P ( X < x ) = P ⎜ Z <
= 1,04 . Ne
⎟ = 0,15 da cui Φ⎜ −
⎟ = 1 − 0,15 = 0,85 e dunque −
80
80
80
⎝
⎠
⎝
⎠
segue che x = 196,8 .
9.25 Sia X la v.c. “differenza tra il numero di teste e il numero di croci”
a.
-3
-1
1
3
0,125 0,375 0,375 0,125
X
P(x)
x < −3
⎧ 0
⎪0,125 − 3 ≤ x < −1
⎪⎪
b. F ( x ) = ⎨ 0,5
−1≤ x <1
⎪0,875
1≤ x < 3
⎪
⎪⎩ 1
x ≥3
c. Dalla formula (9.5.1) si ha che: E ( X ) = −3 ⋅ 0,125 − 1 ⋅ 0,375 + 1 ⋅ 0,375 + 3 ⋅ 0,125 = 0
Dalla formula (9.5.3) si ha che: V ( X ) = 3 2 (0,25) + 12 (0,75) = 3 , da cui (formula 9.5.7) si ha
SD ( X ) = V ( X ) = 1,732
9.26 Sia X la v.c. “peso medio dei due uomini estratti”. Consideriamo estrazioni senza ripetizioni, allora:
a.
X
P(x)
52,5 55 57,5 60 62,5
2/15 2/15 4/15 4/15 2/15
65
1/15
b. Dalla formula (9.5.1) si ha che: E ( X ) = 52,5 ⋅
2
2
4
4
2
1
+ 55 ⋅
+ 57,5 ⋅
+ 60 ⋅
+ 62,5 ⋅
+ 65 ⋅
= 58,33
15
15
15
15
15
15
Dalla formula (9.5.3) si ha che:
2
2
4
4
2
2
2
+ (55 − 58,33 ) ⋅
+ (57,5 − 58,33 ) ⋅
+ (60 − 58,33 ) ⋅
+
15
15
15
15
2
1
2
⋅
+ (65 − 58,33 ) ⋅
= 12,22
15
15
V ( X ) = (52,5 − 58,33 ) ⋅
2
(62,5 − 58,33)2
9.27
2
1
2
x2
a. P (0 < X < 2) = ∫ f ( x )dx = ∫ xdx = + ∫ (2 − x )dx =
2
0
0
1
1,2
0
1
1,2
1
0
2
⎛
x2 ⎞
⎟ =1
+ ⎜⎜ 2 x −
2 ⎟⎠
⎝
1
x2
b. P ( X < 1,2) = ∫ f ( x )dx = ∫ 0dx + ∫ xdx + ∫ (2 − x )dx =
2
−∞
−∞
0
1
1
0
1,2
⎛
x2 ⎞
⎟ = 0,68
+ ⎜⎜ 2 x −
2 ⎟⎠
⎝
1
c.
0
x≤0
⎧
⎪
x2
0 < x ≤1
⎪⎪
2
F(x) = ⎨
2
⎪2 x − x − 1 1 < x ≤ 2
2
⎪
1
x>2
⎩⎪
9.28 Sia X la v.c. “media giornaliera di nati” con E ( X ) = 12 e V ( X ) = 4,5
a. E (numero bambini nati in un periodo di tre giorni ) = 3 ⋅ E ( X ) = 36
V (numero bambini nati in un periodo di tre giorni ) = 3 2 ⋅ V ( X ) = 40,5
1
b. E (numero maschi nati in un giorno ) = ⋅ E ( X ) = 6
2
1
V (numero bambini nati in un giorno ) = 2 ⋅ V ( X ) = 1,125
2
9.29
a. Poiché le tre variabili sono indipendenti si ha: P ( X ⋅ Y ⋅ W ) = P ( X )P (Y )P ( W ) e la corrispondente
distribuzione di probabilità:
1
2
4
8
X ⋅Y ⋅ W
P ( X ⋅ Y ⋅ W ) 1/8 3/8 3/8 1/8
b. la corrispondente distribuzione di probabilità è:
X ⋅Y + X ⋅ W + Y ⋅ W
P( X ⋅Y + X ⋅ W + Y ⋅ W )
3
5
8 12
1/8 3/8 3/8 1/8
c. la corrispondente distribuzione di probabilità è:
X 2 + Y ⋅W
P( X 2 + Y ⋅ W )
9.30
2
3
5
6
8
1/8 1/4 1/4 1/4 1/8
a. La distribuzione della X è la seguente:
-2 -1
1
2
1/4 1/4 1/4 1/4
La v.c. Y può assumere solo i valori 1 e 4 con probabilità:
1
4
Y
P (Y ) 1/2 1/2
X
P( X )
b. La funzione di probabilità congiunta è la seguente:
Y
c. Dalla distribuzione congiunta si possono
calcolare:
E ( X ) = 0 , E (Y ) = 2,5 ,
E ( XY ) = −8 ⋅
1
1
1
1
− 1⋅ + 1⋅ + 8 ⋅ = 0
4
4
4
4
X
,
-2
-1
1
2
totale
1
0
1/4
1/4
0
1/2
4
1/4
0
0
1/4
1/2
totale
1/4
1/4
1/4
1/4
Cov ( X ,Y ) = E ( XY ) − E ( X ) ⋅ E (Y ) = 0 − 0 ⋅ 2,5 = 0
Cor ( X ,Y ) = 0
d. No. Infatti, se X e Y fossero indipendenti ogni probabilità congiunta potrebbe calcolarsi come
prodotto tra le corrispondenti probabilità marginali. E’ immediato constatare dalla distribuzione
congiunta del punto b. che in questo caso ciò non è vero. Questo esempio mostra che sebbene Y sia
una funzione di X è possibile che la covarianza e la correlazione siano nulle e questo può accadere
anche se le due variabili casuali non sono indipendenti.
9.31
Ricordiamo che Var ( X 1 ) = E ( X 12 ) − E ( X 1 ) e quindi E ( X 12 ) = Var ( X 1 ) + E ( X1 ) = 4 + 1 = 5 ;
Cov ( X 1, X 2 ) = E ( X 1, X 2 ) − E ( X 1 )E ( X 2 ) e poiché le due v.c. sono indipendenti
E ( X 1, X 2 ) = E ( X 1 )E ( X 2 ) = 1 .
1
1
1
1
5 5
E (Y ) = E ( X 12 + X 22 − X 1 X 2 ) = E ( X 12 ) + E ( X 22 ) − E ( X 1 X 2 ) = + − 1 = 4
2
2
2
2
2 2
9.32
Partendo dall’espressione data nella definizione (9.10.8):
Cov ( X 1 − X 2 , 2 X 2 − X 3 ) = E {[( X 1 − X 2 ) − E ( X 1 − X 2 )][( 2 X 2 − X 3 ) − E ( 2 X 2 − X 3 )]}
la possiamo riscrivere nel modo seguente:
E {[( X 1 − X 2 ) − E ( X 1 − X 2 )][( 2 X 2 − X 3 ) − E ( 2 X 2 − X 3 )]} =
= E {[( X 1 − E ( X 1 )) − ( X 2 − E ( X 2 ))][2( X 2 − E ( X 2 )) − ( X 3 − E ( X 3 ))]} =
= 2E {( X 1 − E ( X 1 ))( X 2 − E ( X 2 ))} − 2E {( X 2 − E ( X 2 ))( X 2 − E ( X 2 ))} −
− E {( X 1 − E ( X 1 ))( X 3 − E ( X 3 ))} + E {( X 2 − E ( X 2 ))( X 3 − E ( X 3 ))} =
= 2Cov ( X 1, X 2 ) − 2Var ( X 2 ) − Cov ( X 1, X 3 ) + Cov ( X 2 , X 3 ) =
= 2 ⋅ 0 − 2 ⋅ 2 − 1 − 1 = −6
9.33
a. La v.c. Y essendo la somma dei quadrati di 13 v.c. Normali standardizzate indipendenti, si
distribuisce come a una v.c. Chi-quadrato con 13 gradi di libertà.
b. E (Y ) = 13 e V (Y ) = 2 ⋅ 13 = 26 .
c. Dalla
tavola del Chi-quadrato si trova che P (Y ≤ 5,0087 ) = 0,975
P (Y > 5) = 1 − P (Y ≤ 5) ≈ 1 − 0,975 = 0,025
e
quindi
la
Statistica - metodologie per le scienze economiche e sociali /2e
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 10
Es.
In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali.
10.1 La risposta esatta è d.. Infatti, la variabile casuale X , “punteggio del test”, nella popolazione degli infermieri ha
E ( X ) = 80 e σ 2 = 100 . Approssimando la v.c. a una Normale, ossia applicando il teorema del limite centrale, si ha
che: X si può approssimare a una v.c. normale con E ( X ) = 80 e σ X2 = σ 2 n = 100 36 e quindi σ X = 10 6 = 1,667 .
⎛ a − 80 X − E ( X ) b − 80 ⎞
⎟ = P ⎛⎜ a − 80 ≤ Z ≤ b − 80 ⎞⎟ = 0,99
≤
≤
P a ≤ X ≤ b = P⎜
⎜ 1,667
⎜ 1,667
1,667 ⎟⎠
1,667 ⎟⎠
σ n
⎝
⎝
e dalle tavole della normale standardizzata (o dal software per la normale) si trova:
b − 80
a − 80
= z 0,005 = 2,576 ;
= −z 0,005 = −2,576
1,667
1,667
e quindi b = 84,29 ; a = 75,71 .
(
10.2
)
a. Lo spazio campionario Ω costituito da tutti i campioni di dimensione campionaria pari a 2, estratti senza
ripetizione, senza tener conto dell’ordine, è:
c1 =
150
100
c2 =
150
60
c3 =
150
50
c4 =
100
60
c5 =
100
50
c6 =
60
50
Si osservi che se si fosse tenuto conto anche dell’ordine, il numero di possibili campioni sarebbe raddoppiato
poiché per ogni campione considerato si doveva tener conto anche della sua permutazione.
b. Lo spazio campionario Ω costituito da tutti i campioni di dimensione campionaria pari a 2, estratti con
ripetizione senza tener conto dell’ordine, è:
c1 =
150
c6 =
100
150
100
c7 =
100
50
150
60
c8 =
60
60
c4 =
150
50
c9 =
60
50
c5 =
100
100
c10 =
50
50
c2 =
c3 =
150
60
Come nel punto precedente, se avessimo considerato l’ordine di estrazione, il numero di campioni sarebbe
aumentato a 16.
c. La distribuzione di probabilità di X è:
X
55
75
80
100
105
125
P X
1
6
1
6
1
6
1
6
1
6
1
6
( )
( )
V (X ) = 516,67
E X = 90
Si noti che, anche se avessimo considerato l’ordine di estrazione nei campioni, saremmo giunti alla stessa
distribuzione di probabilità per la media campionaria.
d. La distribuzione di probabilità di X è:
X
50
55
60
75
80
100
105
125
150
P X
1
10
1
10
1
10
1
10
1
10
2
1
10
1
10
1
10
( )
( )
V (X ) = 930
E X = 90
10
Si noti che, anche se avessimo considerato l’ordine di estrazione nei campioni, saremmo giunti a una diversa
distribuzione di probabilità per la media campionaria.
e. La varianza ottenuta al punto d. è maggiore di quella ottenuta al punto c. Le medie sono uguali e coincidono
anche con la media della popolazione. Il valore della varianza della X nel punto c. coincide con il valore che
si ottiene applicando la formula 10.7.1.
10.3 La risposta esatta è la d.
Infatti:
⎛ X − E ( X ) 195 − 190 ⎞
⎟ = P (Z > 2,5)
P X > 195 = P ⎜
>
⎟
⎜ σ n
10
5
⎠
⎝
(
)
10.4 Sia X la v.c. “altezza media dei 9 setter selezioniati”. Utilizzando le tavole della normale o il software, si ha:
⎛ X − 30 21 − 30 ⎞
⎟ = 1 − P (Z ≤ −9 ) = 1 − Φ (−9) = 1 − [1 − Φ (9)] = 1
P X > 21 = 1 − P X ≤ 21 = 1 − P ⎜⎜
≤
⎟
1
1
⎠
⎝
(
)
(
)
10.5 La risposta esatta è la b., infatti σ = σ
X
(
n = 10
3600 = 1 6
)
10.6 Sia X ~ N μ = 45; σ 2 = 25 la v.c. “salario”. Utilizzando le tavole della normale o il software, si ha:
⎛ X − 45 40 − 45 ⎞
a. P ( X < 40 ) = P ⎜
≤
⎟ = P (Z ≤ −1) = Φ( −1) = 1 − Φ(1) = 0,1587
5
⎝ 5
⎠
(
)
⎛ X − 45 40 − 45 ⎞
⎟ = P (Z ≤ −4,47 ) = Φ (−4,47) = 1 − Φ (4,47) = 0
≤
⎟
⎝ 5 4,47 5 4,47 ⎠
(
)
⎛ X − 45 40 − 45 ⎞
⎟⎟ = P (Z ≤ −7,75) = Φ (−7,75) = 1 − Φ (7,75) = 0
≤
⎝ 5 7,75 5 / 7,75 ⎠
b. P X < 40 = P ⎜⎜
c. P X < 40 = P ⎜⎜
10.7
a. V ( X ) = 1550
b. La distribuzione di probabilità della varianza campionaria è:
σˆ 2
25
400
P σ̂ 2
1
6
1
6
( )
625
2
6
2025 2500
1
6
1
6
c. Il valore atteso della varianza campionaria è 1033,33 che non coincide con la varianza della popolazione.
10.8 La v.c. X “numero di persone su cinque che prendono la metropolitana” è binomiale con π = 0,35 e n = 5 . Utilizzando
il software per la binomiale, si ha:
a. Seguendo la distribuzione (10.6.4) la probabilità è data da P ( X = 0,4) =
5!
(0,35) 2 (0,65) 3 = 0,336 .
2!3!
b. Si cerca la Pr (più di un terzo prendono la metropolitana) , quindi, indicato con Y = X 5 la quota campionaria,
sia ha P (Y > 1 3) = P ( X > 5 3) . D’altra parte, la binomiale assume valori solo interi e dunque:
⎡⎛ 5 ⎞
⎤
⎛ 5⎞
P ( X > 1,67) = P ( X ≥ 2 ) = 1 − P ( X = 0 o X = 1) = 1 − ⎢⎜⎜ ⎟⎟0,35 0 ⋅ 0,65 5 + ⎜⎜ ⎟⎟0,351 ⋅ 0,65 4 ⎥ = 0,57
⎝1⎠
⎣⎝ 0 ⎠
⎦
X
c. Indichiamo con Y =
la variabile casuale “quota campionaria”. Pertanto,
n
nπ
1
E (Y ) = E ( X n ) = E ( X ) =
= π = 0,35 e
n
n
nπ (1 − π )
π (1 − π )
1
SD(Y ) = V (Y ) = V ( X n ) =
V (X ) =
=
= 0,21 .
2
2
n
n
n
10.9
“percentuale di laureati” ha valore atteso E ( X ) = π = 0,2 e varianza V ( X ) =
π (1 − π )
= 0,0032 . Per
n
n = 50 possiamo approssimarla a una v.c. N (0,2; 0,0032 ) . Utilizzando le tavole della normale o il software statistico, si
trova:
La v.c. X
a. P ( X > 0,2 ) = 0,5 per la simmetria della v.c. normale rispetto al suo valore medio x = 0,2 .
⎛ 0 − 0,20 X − 0,20 0,10 − 0,20 ⎞
≤
≤
⎟ = P (− 3,33 ≤ Z ≤ −1,66 ) =
0,06
0,06 ⎠
⎝ 0,06
Φ(− 1,66 ) − Φ (− 3,33) = [1 − Φ (1,66 )] − [1 − Φ (3,33)] = [1 − 0,9515] − [1 − 0,99952] = 0,048
b. P (0 ≤ X ≤ 0,10 ) = P ⎜
⎛ X − 0,20 0,3 0 − 0,20 ⎞
<
⎟ = 1 − P (Z < 1,66 ) = 0,0485
0,06
⎠
⎝ 0,06
c. P ( X ≥ 0,30 ) = 1 − P ( X < 0,30 ) = 1 − P ⎜
⎛ X − 0,20 0,15 − 0,20 ⎞
P ( X ≤ 0,15) = P ⎜⎜
≤
⎟ = P (Z ≤ −0,83) =
0,06 ⎟⎠
⎝ 0,06
Φ(− 0,83) = [1 − Φ(0,83)] = 1 − 0,7967 = 0,2033
quindi è più probabile osservare una frequenza di laureati minore o uguale a 0,15.
10.10
a. Il valore atteso della statistica è uguale nelle due indagini (ed in particolare coincide con la percentuale di
persone della popolazione favorevole al provvedimento).
b. La deviazione standard dell’indagine compiuta su 100 individui è inferiore a quella compiuta su 50 individui;
in particolare, si ha che
π (1 − π )
<
π (1 − π )
. Questo risultato conferma che all’aumentare della numerosità
100
50
campionaria, la precisione della stima aumenta (e dunque la deviazione standard diminuisce).
10.11
a.
X ~ N (100;69,44 ) , utilizzando le tavole della normale o il software statistico si trova:
⎛ X − 100 90 − 100 ⎞
⎟ = P (Z ≤ −1,20 ) = Φ (− 1,20 ) = 1 − Φ (1,20 ) = 1 − 0,8849 = 0,1151
P X < 90 = P ⎜⎜
<
8,33 ⎟⎠
⎝ 8,33
⎛ X − 100 115 − 100 ⎞
⎟ = 1 − P (Z ≤ 1,80 ) = 1 − Φ (1,80 ) = 1 − 0,9641 = 0,0359
P X > 115 = 1 − P X ≤ 115 = 1 − P ⎜⎜
≤
8,33 ⎟⎠
⎝ 8,33
E’ più probabile osservare valori della media campionaria inferiori a 90.
(
)
(
)
(
)
X ~ N (100;25) e dalle tavole della normale o mediante il software statistico si trova che la probabilità
diminuisce. Infatti:
⎛ X − 100 115 − 100 ⎞
P X > 115 = 1 − P (X ≤ 115) = 1 − P ⎜
≤
⎟ = 1 − P (Z ≤ 3) = 1 − Φ (3) = 1 − 0,99865 = 0,00135 Ciò
5
5
⎝
⎠
si spiega osservando che all’aumentare della numerosità campionaria, il valore medio campionario tende ad
avvicinarsi al valore incognito della popolazione.
b.
(
)
c. La deviazione standard della media campionaria è
σ
n
10.12
. Si ha
25
= 2,5 da cui n = 100 .
n
a. Ogni intervistato ha due sole possibilità di risposta, che possiamo indicare con 1=”vota A” e 0=”non
vota A”, quindi il numero di persone che nel campione si esprime a favore di A può andare da 0 a
3500. Poiché nella popolazione π = 0,55 , la v.c. si distribuisce come una Binomiale con n = 3500 e
π = 0,55 e il suo valore atteso è μ = nπ = 1925 . Pertanto ci si attende nel campione 1925 intervistati
che si dicono a favore di A. Tuttavia, poiché la deviazione standard è σ = nπ (1 − π ) = 29,4 nel
campione probabilmente non si osserveranno esattamente 1925 persone a favore di A ma per esempio
un numero oscillante tra μ ± σ ossia tra 1896 e 1954.
b. La proporzione di intervistati nel campione che vota per A, X , è una v.c. binomiale divisa per 3500.
Questa v.c. assume i valori 0, 1/3500, …, 3499/3500, 1. Poiché nella popolazione π = 0,55 , allora la
distribuzione della X ha valore atteso uguale a π = 0,55 e deviazione standard
π (1 − π )
0,55 ⋅ 0,45
= 0,0084 . Quindi con buona probabilità si osserverà nel campione una quota
3500
all’interno dei valori μ ± σ ossia tra 0,54 e 0,56.
n
10.13
=
a. Poiché la popolazione dei negozi è finita la media campionaria dell’orario di apertura è
⎛ 5000 − 50 ⎞ (0,3) 2
E ( X ) = μ = 8,30 e la varianza Var ( X ) = ⎜
= 0,00178 .
⎟
⎝ 5000 − 1 ⎠ 50
50
b. Sia la dimensione campionaria, n = 50 , che il rapporto
= 0,01 sono sufficienti per poter affermare
5000
che la media campionaria si distribuisce come una v.c. Normale con μ = 8,30 e σ 2 = 0,00178 .
c. Poiché
la
media
P (8,30 ≤ X ≤ 8,384) = P (
campionaria
8,30 − 8,30
distribuisce come
X −μ
8,384 − 8,30
≤
⎛N −n⎞σ 2
⎜
⎟
⎝ N −1 ⎠ n
= P ( 0 ≤ Z ≤ 1,99) = Φ(1,99) − Φ(0) = 0,9767 − 0,5 = 0,4767 .
10.14
0,00178
≤
si
0,00178
una
v.c.
Normale,
si
ha:
)=
a. La quota attesa di intervistati che si dicono interessati all’offerta commerciale è E ( X ) = π = 0,05 .
b. Considerata
la
popolazione
infinita,
la
media
campionaria
X
è
distribuita
π (1 − π )
come
⎛120 ⎞
⎟⎟(0,05) 6 (0,95)120−6 con media π = 0,05 e deviazione standard
P ( X = x ) = ⎜⎜
= 0,02 .
6
n
⎝
⎠
Tuttavia, poiché la numerosità campionaria è sufficientemente ampia e nπ > 5 , n(1 − π ) > 5 , la
distribuzione si può approssimare a quella di una v.c. Normale.
c. P ( X > 50) = P (
X − 0,05 0,08 − 0,05
>
)) = P (Z > 1,5) = 1 − P (Z ≤ 1,5) = 1 − 0,9332 = 0,0668 .
0,02
0,02
Statistica - metodologie per le scienze economiche e sociali /2e
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 11
Es.
.
11.1 La risposta esatta è la c., infatti dalla 11.4.3 si ha: 23 = V (T ) + 3 2 da cui ricaviamo V (T ) = 23 − 9 = 14 .
11.2
a. E’ corretto. Infatti
E (T ) = E (0,2 ⋅ X 1 + 0,3 ⋅ X 2 + 0,3 ⋅ X 3 + 0,2 ⋅ X 4 ) = E (0,2 ⋅ X 1 ) + E (0,3 ⋅ X 2 ) + E (0,3 ⋅ X 3 ) + E (0,2 ⋅ X 4 ) =
0,2 ⋅ E ( X 1 ) + 0,3 ⋅ E ( X 2 ) + 0,3 ⋅ E ( X 3 ) + 0,2 ⋅ E ( X 4 ) = 0,2 ⋅ μ + 0,3 ⋅ μ + 0,3 ⋅ μ + 0,2 ⋅ μ = μ
b. Sì, dalla formula (11.4.3) essendo B (T ) = E (T ) − μ = μ − μ = 0 .
c. Sì, infatti in questo caso
MSE (T ) = Var (T ) =
= Var (0,2 ⋅ X 1 + 0,3 ⋅ X 2 + 0,3 ⋅ X 3 + 0,2 ⋅ X 4 ) =
= Var (0,2 ⋅ X 1 ) + Var (0,3 ⋅ X 2 ) + Var (0,3 ⋅ X 3 ) + Var (0,2 ⋅ X 4 ) =
= 0,4 ⋅ Var ( X 1 ) + 0,9 ⋅ Var ( X 2 ) + 0,9 ⋅ Var ( X 3 ) + 0,4 ⋅ Var ( X 4 ) =
= 0,4 ⋅ σ 2 + 0,9 ⋅ σ 2 + 0,9 ⋅ σ 2 + 0,4 ⋅ σ 2 = 0,26 ⋅ σ 2
11.3
( )
a. Per qualsiasi dimensione n del campione vale: E X =
( )
n⋅μ
1
1
E ( X 1 + L + X n ) = (μ + L + μ ) =
=μ
n
n
n
pertanto in questo caso E X = 1000 .
b. Per qualsiasi dimensione n del campione vale:
n ⋅σ 2 σ 2
1
1
Var X = 2 Var ( X 1 + L + X n ) = 2 σ 2 + L + σ 2 =
=
e quindi per n = 150 si ha:
n
n
n
n2
40000
Var X =
= 266,67 .
150
c. In virtù del teorema del Limite Centrale, anche se non abbiamo informazioni sulla distribuzione dei salari,
possiamo affermare che la media campionaria è distribuita secondo una Normale.
(
( )
)
( )
11.4
n
a. Essendo X ~ N (μ ;4 ) , si ha che L( μ ) = ∏
i =1
1
2 ⋅ 2π
1 ⎛ x −μ ⎞
− ⎜ i
⎟
e 2⎝ 2 ⎠
Considerando la funzione log L( μ ) si ha log L( μ ) = cos t −
2
.
1 n
∑ (x i − μ )2 . Derivando rispetto a μ ed
8 i =1
uguagliando a 0, si ottiene
n
1 n
∑ (x i − μ ) = 0 , da cui μˆ =
4 i =1
xi
∑
i =1
n
=x.
n
b. μˆ =
11.5
∑x
i =1
n
i
=
2 + 5 + 2 + 7 + 8 + 3 + 6 + 1 34
=
= 4,25
8
8
X1 + X 2 + X 3
1
1
) = E ( X 1 + X 2 + X 3 ) = [E ( X 1 ) + E ( X 2 ) + E ( X 3 )] = μ
3
3
3
X1 + 2X 3
1
1
2
E (T2 ) = E (
) = E ( X1 + 2X 3 ) = E ( X1 ) + E ( X 3 ) = μ
3
3
3
3
X 1 + 3X 2 − 2 X 3
1
1
3
E (T3 ) = E (
) = E ( X 1 + 3X 2 − 2 X 3 ) = E ( X 1 ) + E ( X 2 ) − E ( X 3 ) = μ
2
2
2
2
E (T4 ) = E ( 2 + X 3 ) = 2 + E ( X 3 ) = 2 + μ
E (T1 ) = E (
E (T5 ) = E ( X 1 ⋅ X 3 ) = E ( X 1 ) ⋅ E ( X 3 ) = μ ⋅ μ = μ 2 poiché X1 e X 3 sono v.c. indipendenti.
Dunque, solo i primi tre stimatori sono corretti.
11.6
La varianza della popolazione sia pari a σ 2 .
X1 + X 2 + X 3
1
1
σ2
) = Var ( X 1 + X 2 + X 3 ) = [Var ( X 1 ) + Var ( X 2 ) + Var ( X 3 )] =
3
9
9
3
X1 + 2X 3
1
4
5
MSE (T 2 ) = Var (T 2 ) = Var (
) = Var ( X 1 ) + Var ( X 3 ) = σ 2
3
9
9
9
X1 + 3X 2 − 2X 3
1
9
7
MSE (T3 ) = Var (T3 ) = Var (
) = Var ( X 1 ) + Var ( X 2 ) + Var ( X 3 ) = σ 2
2
4
4
2
MSE (T1 ) = Var (T1 ) = Var (
Var (T4 ) = Var (2 + X 3 ) = Var ( X 3 ) = σ 2 da cui (formula 11.4.3) MSE (T4 ) = 4 + σ 2
Dall’analisi dei 4 valori dell'MSE, segue che lo stimatore più efficiente è T1
11.7
a. La popolazione di riferimento è quella degli elettori italiani.
b. La v.c. più idonea a rappresentare il carattere osservato è la v.c. Binomiale. Tuttavia poiché la dimensione
campionaria è elevata, n = 1500 , per il Teorema del Limite Centrale si può utilizzare l’approssimazione
Normale.
c. Sui 1500 rispondenti al questionario, 870 (58%) è insoddisfatto della politica estera portata avanti dal governo.
11.8
a. Utilizzando come stimatore la media campionaria si ha:
35 + 47 + 30 + 42 + 21 + 44
= 36,5
Dicembre: x =
6
28 + 33 + 40 + 30 + 31 + 25
Aprile: x =
= 31,2
6
b. Utilizzando lo stimatore della formula (11.8.1), si ottiene
(35 − 36,5) 2 + ( 47 − 36,5) 2 + (30 − 36,5) 2 + ( 42 − 36,5) 2 + (21 − 36,5) 2 + ( 44 − 36,5) 2
= 96,3
Dicembre: S 2 =
5
(28 − 31,2) 2 + (33 − 31,2) 2 + ( 40 − 31,2) 2 + (30 − 31,2) 2 + (31 − 31,2) 2 + (25 − 31,2) 2
Aprile: S 2 =
= 26,2
5
c. Ad Aprile il tempo medio di percorrenza è più basso di quello relativo al mese di Dicembre. La variabilità dei
tempi di percorrenza del mese di Aprile è minore di quella relativa al mese di Dicembre.
11.9
λ2 + 5 +1+1+ 2 + 2 + 3
λ16
e −7 λ =
e −7λ .
2!⋅5!⋅1!⋅1!⋅2!⋅2!⋅3!
5760
216 −14
3 16 − 21
e
>
e
= L(3 )
E’ più verosimile λ = 2 perché L(2) =
5760
5760
a. Per il campione osservato, si ha: L(λ ) =
b. Calcolando la funzione log L(λ ) si ha log L(λ ) = (x 1 + x 2 + L + x n ) log(λ ) − nλ + cos t . Derivando ed
uguagliando a 0, si ottiene
c. Si ha
(x 1 + x 2 + L + x n ) − n = 0
λ
(x + x 2 + L + x n )
da cui λˆ = 1
.
(2 + 5 + 1 + 1 + 2 + 2 + 3) = 2,29
λˆ =
n
7
11.10
a. Il valore atteso dello stimatore non è diverso nelle due indagini e coincide con la formula (11.7.1).
b. Si modifica invece la deviazione standard dello stimatore che è uguale alla radice del rapporto tra la varianza
della popolazione e la numerosità n. Dunque, lo stimatore ottenuto dal campione con n = 500 ha deviazione
standard minore di quella dello stimatore ottenuto dal campione con n = 200 .
11.11
a. Sono tutti stimatori corretti. Infatti
E (T1 ) = E ( X 1 ) = μ
E (T2 ) = E ( X 2 ) = μ
E (T3 ) = E (
X1 + X 2
1
1
) = E ( X 1 + X 2 ) = [E ( X 1 ) + E ( X 2 )] = μ
2
2
2
E (T4 ) = E (
n1 X1 + n2 X 2
1
1
)=
E (n1 X1 + n2 X 2 ) =
[n1 ⋅ E ( X 1 ) + n2 ⋅ E ( X 2 )] =
n1 + n2
n1 + n2
n1 + n2
1
[n1 ⋅ μ + n2 ⋅ μ ] = μ
n1 + n2
b. Utilizzando le proprietà della media campionaria e il fatto che i due campioni sono indipendenti:
σ2
Var (T1 ) = Var ( X 1 ) =
n1
=
Var (T2 ) = Var ( X 2 ) =
σ2
n2
Var (T3 ) = Var (
X1 + X 2
σ2 1
1
1
1
) = Var ( X 1 + X 2 ) = [Var ( X 1 ) + Var ( X 2 )] =
( +
)
2
4
4
4 n1 n2
Var (T4 ) = Var (
n1 X 1 + n2 X 2
1
)=
Var (n1 X 1 + n2 X 2 ) =
n1 + n2
(n1 + n2 )2
=
1
(n1 + n2 )2
1
(n1 + n2 )2
[n12 ⋅ Var ( X 1 ) + n22 ⋅ Var ( X 2 )] =
[n12 ⋅
σ2
n1
+ n22 ⋅
σ2
n2
]=
1
(n1 + n2 )2
[n1 ⋅ σ 2 + n2 ⋅ σ 2 ] =
σ2
n1 + n2
c. Essendo i 4 stimatori corretti, per verificare la consistenza occorre considerare la formula (11.5.3).
lim
n1 → +∞
lim
n2 → +∞
lim
n1 → +∞
n2 → +∞
lim
n1 → +∞
n2 → +∞
σ2
n1
σ2
n2
σ2
4
=0
=0
(
1
1
+
)=0
n1 n2
σ2
n1 + n2
=0
d. T 4 è lo stimatore più efficiente poiché è Var (T 4 ) ≤ Var (T1 ) , Var (T 4 ) ≤ Var (T 2 ) e Var (T 4 ) ≤ Var (T3 ) .
11.12
25 + 30 + 27 + 22 + 30 + 28 + 26 + 20 + 28 + 26
= 26,2
10
b. Utilizzando lo stimatore della formula (11.8.1), si ottiene
(25 − 26,2) 2 + (30 − 26,2) 2 + K + (26 − 26,2) 2
S2 =
= 10,4
9
c. Utilizzando la media campionaria che in questo caso (si tratta di una v.c. di Bernoulli dato che siamo interessati
all’aver preso o meno il voto 30) non è altro che la proporzione campionaria delle osservazioni che hanno
2
= 0,2
preso 30. Dunque si ha πˆ = x =
10
a. Utilizzando la media campionaria si ha x =
11.13 Dobbiamo verificare se vale la formula (11.5.1) o, in alternativa, le formule (11.5.2) e, se lo stimatore è
corretto, la (11.5.3).
E (T1 ) = E ( X ) = μ , Var (T1 ) = Var ( X ) =
lim
n→ +∞
σ2
n
= 0.
σ2
n
. Essendo corretto, vale la consistenza poiché la (11.5.3) è soddisfatta:
n−1
E (T2 ) = E (
B(T2 ) = −
∑ xi
i =1
n
2μ
n
n−1
∑ xi
xn
x
n−2
1 n−1
1
1
μ da cui
−
) = E ( i =1 ) − E ( n ) = E ( ∑ x i ) − E ( x n ) = [(n − 1) μ − μ ] =
n
n
n
n i =1
n
n
n
n−1
Var (T2 ) = Var (
=
1
n2
∑ xi
i =1
n
n−1
∑ xi
n−1
x
xn
1
1
−
) = Var ( i =1 ) + Var ( n ) = 2 Var ( ∑ x i ) + 2 Var ( x n ) =
n
n
n
.
n
n
i =1
[(n − 1)σ 2 + σ 2 ] =
σ2
n
vale la consistenza poiché la (11.5.2) è soddisfatta: lim n→ +∞
2μ
σ2
= 0 e lim
= 0.
n→ +∞ n
n
X1 − X n
1
1
) = E ( X 1 − X n ) = [E ( X 1 ) − E ( X n )] = 0 da cui B(T3 ) = − μ . Lo stimatore non è consistente
2
2
2
perchè, per la formula (11.5.2) si ha che lim -μ = − μ ≠ 0 .
E (T3 ) = E (
n→+∞
11.14 Il database REDDITI (in formato Excel e Spss) contiene nella prima colonna il Reddito Netto, nella seconda colonna il
Sesso (0=femmina; 1=maschio) e nella terza colonna l’Età.
a. Il reddito medio del totale degli individui stimato attraverso la media campionaria è: 29392,1.
b. La varianza del reddito, stimata attraverso la varianza campionaria corretta (11.8.1) è: 730458508,7.
c. La proporzione di individui di sesso maschile, stimata attraverso la media campionaria della variabile Sesso, è:
0,53.
d. Il reddito medio dei maschi e delle femmine, stimato attraverso le corrispondenti medie campionarie sono,
rispettivamente: 36521,7 e 21354,2, ossia i maschi hanno un reddito medio superiore a quello delle femmine.
11.15 Il database DIABETE (in formato Excel e Spss) contiene nella prima colonna la Pressione diastolica, nella seconda
colonna l’Età e nella terza colonna la presenza di Diabete (0=assenza; 1=presenza).
L’età media è stimata pari a 33,2 anni mentre la pressione diastolica è stimata pari a 69,1.
11.16
1 n
1 n
2
E ( X i − μ ) = ∑ σ 2 = σ 2 è uno stimatore per la varianza della popolazione.
∑
n i =1
n i =1
b. Aggiungendo e togliendo la media campionaria, si ha:
2
1 n
1 n
1 n
T = ∑ ( X i − μ )2 = ∑ ( X i − X + X − μ )2 = ∑ ( X i − X ) + ( X − μ ) =
n i =1
n i =1
n i =1
n
n
n
1
1
2
= ∑ ( X i − X ) 2 + ∑ ( X − μ ) 2 + ∑ ( X − μ )( X i − X ) =
n i =1
n i =1
n i =1
a. Poiché E (T ) =
[
=
]
1 n
n( X − μ ) 2 2( X − μ ) n
+
( X i − X )2 +
∑
∑( Xi − X )
n i =1
n
n
i =1
= σˆ 2 + ( X − μ ) 2 + 0
= σˆ 2 + ( X − μ ) 2
Da cui si ottiene che lo stimatore T è dato dalla varianza campionaria più una quantità mai negativa e quindi
la stima ottenuta da T sarà sempre maggiore o uguale a quella data da σˆ 2
11.17
n
nμ
1
E (∑ X i ) =
lo stimatore non è corretto e la sua distorsione è pari a
n − 3 i =1
n −3
nμ
nμ − nμ + 3μ
3
μ.
B(T ) =
−μ =
=
n −3
n −3
n −3
n
1
nσ 2
b. V (T ) =
.
V (∑ X i ) =
(n − 3)2 i =1
(n − 3)2
a. Poiché E (T ) =
2
σ2 n
⎛ 3 ⎞ 2
c. MSE (T ) = V (T ) + B(T ) =
+⎜
⎟ μ =
2
(n − 3)2 ⎝ n − 3 ⎠
⎛ 3⎞
⎜1 − ⎟
⎝ n⎠
consistente poiché per n → +∞ l’errore quadratico medio tende a zero.
2
11.18
nσ 2
⎞
⎛
⎜ 3n ⎟
⎟ μ 2 quindi lo stimatore è
+⎜
3⎟
⎜
⎜1− ⎟
n⎠
⎝
2
a. Si. Infatti, bisogna ricordare che:
E ( X i2 ) = σ 2 + E ( X i ) 2 = σ 2 + μ 2 per i=1,2 e che la covarianza tra due variabili indipendenti:
Cov ( X 1, X 2 ) = E ( X 1 ⋅ X 2 ) − E ( X 1 )E ( X 2 ) è pari a zero e quindi E ( X 1 ⋅ X 2 ) = E ( X 1 )E ( X 2 ) = μ 2 .
Pertanto si ha:
1
1
1
1
E (T ) = E ( X 12 ) + E ( X 22 ) − E ( X 1 X 2 ) = σ 2 + μ + σ 2 + μ − μ 2 = σ 2 .
2
2
2
2
(
11.19
) (
)
n
∑ xi −n
n
a.
La funzione di verosimiglianza è: L(π ) = ∏ π (1 − π ) x i −1 = π n (1 − π ) i =1
i =1
⎛ n
⎞
e la log-verosimiglianza, l (π ) = ln L(π ) = n ln(π ) + ⎜ ∑ x i − n ⎟ ln(1 − π ) ; quindi
⎜
⎟
⎝ i =1
⎠
⎛ n
⎞
⎛ n
⎞
⎜ ∑ x − n ⎟ n(1 − π ) − ⎜ ∑ x − n ⎟π
i
i
⎟
⎜
⎟
∂l (π ) n ⎜⎝ i =1
i =1
⎠
⎝
⎠ =0
= −
=
∂π
π
(1 − π )
π (1 − π )
n
⎛ n
⎞
⎜
⎟
n(1 − π ) − ∑ x i − n π = 0 da cui n − nπ − π ∑ x i + πn = 0 e
⎜
⎟
i =1
⎝ i =1
⎠
n
1
πˆ =
= 0 , perciò lo stimatore di massima verosimiglianza è = x .
n
πˆ
∑ xi
i =1
11.20
a. La funzione di verosimiglianza è: L(θ ) =
θ
n
∏
i =1 (1 +
X i )1+θ
=
θn
n
, passando alla log1+ θ
∏ (1 + X i )
i =1
⎛
⎞
verosimiglianza, l (θ ) = ln L(θ ) = n ln(θ ) − (1 + θ )⎜ ∑ ln(1 + X i ) ⎟ e derivando,
⎜
⎟
⎝ i =1
⎠
⎞
∂l (θ ) n ⎛⎜ n
= − ∑ ln(1 + X i ) ⎟ = 0 si ottiene lo stimatore di massima verosimiglianza,
⎟
∂θ
θ ⎜⎝ i =1
⎠
n
θˆ =
.
n
n
∑ ln(1 + X i )
i =1
Statistica - metodologie per le scienze economiche e sociali /2e
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 12
Es.
.
12.1 Considerata una v.c. t-Student con 15 gradi di libertà e sapendo che il valore di t 0 ,05 = 1,7531 , dalla formula (12.4.2) si
ottiene l’intervallo: [88 ,685 ; 91,315
].
12.2 Considerato che il valore di z 0 ,025 = 1,96 , dalla formula (12.3.1) si ha [168 ,728 ; 171,372
12.3
].
a. Considerata una v.c. t-Student con 24 gradi di libertà e sapendo che il valore di t 0 ,025 = 2 ,0639 , dalla formula
(12.4.2) si ha [90 ,9361 ; 95,0639 ] .
b. L’intervallo di confidenza ottenuto, al livello del 95%, non contiene il valore medio della popolazione (pari a
90). Dunque, si può affermare che la pressione media degli individui di tipo A è diversa da quella della
popolazione.
12.4 Considerata una v.c. t-Student con 24 gradi di libertà e sapendo che il valore di t 0 ,01 = 2 ,4922 , dalla formula (12.4.2)
si ha [91,323 ; 105,477
].
12.5 Anche se la varianza della popolazione è incognita, possiamo utilizzare l’approssimazione normale essendo la
numerosità campionaria sufficientemente elevata, in virtù del teorema del Limite Centrale. Considerato che il valore di
z 0 ,005 = 2,5758 , dalla formula (12.4.3) si ha [973 ,25 ; 987,75 ] .
12.6 Possiamo utilizzare l’approssimazione normale essendo la numerosità campionaria sufficientemente elevata, in virtù
del teorema del Limite Centrale. Utilizzando dunque la formula (12.5.1), si ha [0 ,528 ; 0,629 ] .
12.7
a. Considerata una v.c. t-Student con 49 gradi di libertà e sapendo che il valore di t 0 ,025 = 2 ,0096 , dalla formula
(12.4.2) si ha [6,074 ; 6,926 ]
b. L’intervallo di confidenza al 99% è più grande di quello al 95% perché cresce la probabilità che l’intervallo
contenga il parametro della popolazione. Infatti, considerata una v.c. t-Student con 49 gradi di libertà e sapendo
che il valore di t 0 ,005 = 2,68 , dalla formula (12.4.2), si ha [5 ,931 ; 7,069 ] .
c. A parità di livello di confidenza, all’aumentare della numerosità campionaria, si riduce la variabilità della stima
e, di conseguenza, si riduce l’ampiezza dell’intervallo. Infatti, dalla formula (12.4.2), si ha [6 ,199 ; 6,801 ] .
12.8 E’ x = 925,5 e s = 89,02 . Dalla formula (12.4.2), sapendo che per una t-Student con 9 gradi di libertà t 0 ,025 = 2 ,2622 ,
si ha [861 ,82 ; 989,18 ]
12.9 Possiamo utilizzare l’approssimazione normale essendo la numerosità campionaria sufficientemente elevata, in virtù
del teorema del Limite Centrale. Utilizzando dunque la formula (12.5.1), si ha:
a. [0,367 ; 0,413 ]
b. [0,397 ; 0,443 ]
c. Essendo i due intervalli non disgiunti, non si può affermare che la coalizione di Centro-destra è veramente in
vantaggio.
12.10
a. E’ x = 1,95 . Dalla formula (12.3.1) si ha [1,754; 2,146 ] .
b. Dalla formula (12.7.1), si ha n = 10 .
12.11 E’ x = 0,5 e s = 1,160 (e s 2 = 1,345 ).
a. Dalla formula (12.4.2), considerando una t-Student con 4 gradi di libertà e che t 0 ,025 = 2 ,7765 , si ha
[− 0,940 ; 1,940 ] .
b. Dalla formula (12.6.1), considerando un Chi-quadrato con 4 gradi di libertà e i valori χ 02,025 = 11,1433 e
χ 02,975 = 0,4844 , si ha [0,483 ; 11,107 ] .
12.12
a. Dalla formula (12.4.2), considerando una t-Student con 63 gradi di libertà e che t 0 ,025 = 1,9983 (che possiamo
approssimare con il valore sulla tavola corrispondente a 60 g.d.l.), si ha [127; 137 ] . L’intervallo di confidenza
ottenuto, al livello del 95%, non contiene (in particolare supera) il valore limite (pari a 120 km/h) e quindi
possiamo affermare che mediamente in quel tratto di strada la velocità della auto supera i limiti di velocità.
b. Dalla formula (12.7.2), si ha n = 96 .
12.13 E’ x = 24,71 e s = 1,98 (e s 2 = 3,90 ).
Considerando una t-Student con 6 g.d.l. e che t 0 ,05 = 1,9432 , dalla formula (12.4.2), per la media si ha [23,26; 26,16] .
Considerando un Chi-quadrato con 6 gradi di libertà e i valori χ 02,05 = 12 ,5916 e χ 02,95 = 1,6354 , dalla formula
(12.6.1), per la varianza, si ha [1,86; 34,63 ] .
12.14
a. L’intervallo di confidenza al 95% per il reddito medio è [28921,82; 29862,38] .
b. L’intervallo di confidenza al 90% per la varianza del reddito è [715675735,4; 745864859,0]
c. L’intervallo di confidenza al 95% per la proporzione di individui di sesso maschile è [0 ,52; 0,54] .
d. L’intervallo di confidenza al 95% per il reddito medio delle femmine è [20928,5; 21779,8] , mentre per i
maschi è [35757 ,9; 37285,4] .
12.15
a. L’intervallo di confidenza al 95% per l’età media è [32 ,4; 34,1] mentre per la pressione media è [67 ,7; 70,5] .
b. Possiamo considerare la formula (12.7.2) da cui otteniamo che la numerosità necessaria è n = 2938 .
12.16
a. Poiché la dimensione campionaria è sufficientemente elevata (infatti, nx = 300 ⋅ 0,45 = 135 e
n(1 − x ) = 300 ⋅ 0,55 = 165 ) possiamo applicare la formula (12.5.1). In questo caso, poiché
z0,025 = 1,96 , l’intervallo di confidenza è 0,45 ± 1,96 ⋅ 0,0287 ossia [0,39 ; 0,51] .
b. L’ampiezza dell’intervallo è: 0,51 − 0,39 = 0,12 .
c. Utilizzando le formule (12.5.2) si trova lo stesso intervallo di confidenza trovato al punto precedente.
d. In questo caso l’intervallo di confidenza diventerebbe: 0,45 ± 2,57 ⋅ 0,0287 ossia 0,376; 0,524 e
[
]
poiché ricade al suo interno il valore π = 0,5 , il candidato A può ritenere plausibile la possibilità di
avere la maggioranza dei consensi.
12.17
a. Utilizzando la formula (12.7.1) con
δ = 0,5 e z0,025 = 1,96 si ottiene una numerosità pari a
2
1,95 ⎞
⎛
n = ⎜1,96 ⋅
⎟ = 58,43 ≈ 59 e quindi un costo totale di 590 euro.
0,5 ⎠
⎝
b. Con
un livello di confidenza del 99% si ottiene:
z0,005 = 2,576
e
quindi
2
1,95 ⎞
⎛
n = ⎜ 2,576 ⋅
⎟ = 100,93 ≈ 101 da cui un costo totale di 1010 euro.
0,5 ⎠
⎝
c. Non potendo superare un budget di 1010 euro si possono effettuare al massimo n = 1010 / 15 ≈ 67
interviste. Poiché z0,005 = 2,576 e σ = 1,95 dalla formula (12.7.1)
si ottiene
δ = z0,005
2δ = 1,22 .
1,95
σ
= 2,576
= 0,61 e dunque la precisione, ossia l’ampiezza dell’intervallo è pari a
n
67
Statistica - metodologie per le scienze economiche e sociali /2e
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 13
Es.
.
13.1
a.
b.
c.
d.
e.
f.
13.2
a. Il parametro di interesse è θ : prezzo di mercato dell’immobile; H 0 : θ = 0,5 ; H 1 : θ ≠ 0,5 .
Semplice
Semplice
Semplice
Composta
Composta
Semplice
b. Il parametro di interesse è θ : percentuale di persone che praticano almeno una attività sportiva; H 0 : θ = 0,2 ;
H 1 : θ ≠ 0,2 .
c. Il parametro di interesse è θ : numero medio di ingressi giornalieri nelle sale cinematografiche;
H 0 : θ = 31500 ; H 1 : θ > 31500 .
d. Il parametro di interesse è θ : quantità di raccolto danneggiata; H 0 : θ = θ 0 ; H 1 : θ < θ 0 .
13.3 Deve essere sempre soddisfatta la condizione a; ciò non è vero invece per la condizione b.
13.4
a. Il sistema d’ipotesi è: H 0 : μ = μ 0 ; H1 : μ ≠ μ 0 .
b. La probabilità di commettere un errore del Iº tipo (che coincide con il livello di significatività del test) quando
si rifiuta H 0 se la statistica test supera il valore 1,6449 è data da:
P( ( X − μ 0 ) ( σ
n ) ≥ 1,6449 ) = P ( Z ≥ 1,6449 ) = 0 ,05 , quindi α = 5% .
c. La probabilità di commettere un errore del Iº tipo (che coincide con il livello di significatività del test) quando
si rifiuta H 0 se la statistica test supera il valore 2,5758 è data da:
P( ( X − μ 0 ) ( σ
n ) ≥ 2,5758 ) = P ( Z ≥ 2,5758 ) = 0,005 , quindi α = 0 ,5% .
13.5 Rifiutiamo l’ipotesi nulla se α > 0,09 . Il massimo valore di α affinché il test sia corretto è α = 0,05 .
13.6 Risposta esatta: c.
13.7 Risposta esatta: e. Infatti, possiamo solamente dire che si dovrebbe accettare H 0 se il livello di significatività α è
stato fissato ad un valore inferiore a 0,3.
13.8 Risposta esatta: d. Infatti, non è possibile stabilire un valore di β se non si è a conoscenza dell’ipotesi alternativa
formulata dal test d’ipotesi.
13.9 Risposta esatta: b. Infatti, l’intervallo di confidenza per μ , a un livello di confidenza 1 − α = 0 ,95 , costruito a partire
dagli stessi dati campionari non conterrà il valore μ 0 ipotizzato in H 0 .
13.10
a. Lo spazio parametrico è Θ = [0 , 1500]
(
b. Sotto l’ipotesi nulla, la statistica test Z = X − μ 0
) (σ
) (
)(
n = X − 1500 18
) (
)
9 = X − 1500 6 si distribuisce
come una Normale standardizzata.
c. Il valore critico per α = 0,01 è − zα = − z 0 ,01 = −2 ,33 , infatti P (Z ≤ −2 ,33) = 0 ,01 = α .
d. La regione critica per α = 0,05 è data da Z ≤ −1,65 (ossia per X ≤ 1490,1 ).
e. Dalla d. la regione di accettazione è data da tutti i valori della media campionaria tali che X > 1490,1 , pertanto:
X − 1498 1490 ,1 − 1498
>
)=
6
6
= P ( Z > −1,32 ) = 1 − P ( Z ≤ −1,32 ) = 1 − Φ( −1,32 ) = Φ( 1,32 ) = 0,9066
β = P ( X > 1490 ,1 H 0 falsa ) = P (
13.11
a. Il sistema d’ipotesi considerato è H 0 : μ = 5 ; H1 : μ < 5 .
b. Il valore della statistica test è –2,83. Il corrispondente p-value è
P ( Z ≤ −2 ,83 ) = Φ( −2 ,83 ) = 1 − Φ( 2 ,83 ) = 0 ,0023 .
c. Essendo il livello di significatività α = 0 ,025 > 0 ,0023 , si rifiuta l’ipotesi nulla.
d. Si mantiene la stessa decisione fino a che α ≥ 0,0023 .
13.12
a. Il p-value è 0,2006, mentre il livello di significatività è 0,05, infatti:
P (Z ≤ −1,28) + P (Z ≥ 1,28) = 0,1003 + 0 ,1003 = 0 ,2006 = p − value
P Z ≤ − zα 2 + P Z ≥ zα 2 = P (Z ≤ −1,96 ) + P (Z ≥ 1,96 ) = 0 ,025 + 0,025 = 0 ,05 = α
(
) (
)
b. Essendo il p-value maggiore del livello di significativà, si accetta l’ipotesi nulla.
c. Il p-value è 0,017, mentre il livello di significatività è 0,05. Infatti, supposto ad esempio che H o : μ = μ 0 e
H1 : μ > μ 0 , si ha:
P (Z ≥ 2 ,12 ) = 0 ,017 = p − value
P (Z ≥ zα ) = P (Z ≥ 1,645) = 0 ,05 = α
d. Essendo il p-value minore del livello di significativà, si rifiuta l’ipotesi nulla.
Statistica - metodologie per le scienze economiche e sociali /2e
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 14
Es.
.
(
14.1 Il sistema d’ipotesi è: H : μ = 7,1 H : μ ≠ 7,1 . Il valore della statistica test è t = (7,07 − 7,1) 0,0265
0
1
)
5 = −2,53 .
Essendo t = 2,53 < 2,7765 = t 0,025 (4 g.d.l.) , si accetta l’ipotesi nulla.
14.2 Il sistema d’ipotesi è (riferito a una durata in termini di chilometri): H 0 : μ = 20000 H1 : μ > 20000 .
(
)
Il valore della statistica test è t = (22000 − 20000 ) 63,25
64 = 252 ,96 e il valore soglia è t 0 ,01 = 2,3901 (si è
approssimato a 60 g.d.l.). Pertanto t > t 0,01 (o anche x = 22000 > 20018 ,90 = μ 0 + t 0 ,01 ⋅ s / n ) e si rifiuta
l’ipotesi nulla, ossia si può ritenere che le nuove guarnizioni siano migliori delle precedenti.
14.3 Il sistema d’ipotesi è: H 0 : μ = 500 H1 : μ > 500 .
(
)
Il valore della statistica test è t = (510 − 500 ) 10
25 = 5 e il valore soglia è t 0 ,01 = 2,4922 (con 24 g.d.l.). Pertanto
t > t 0,01 (o anche x = 510 > 504 ,98 = μ 0 + t 0 ,01 ⋅ s / n ) e si rifiuta l’ipotesi nulla, ossia si può ritenere che il peso
medio dei pacchi sia superiore a quello prefissato.
14.4 Il sistema d’ipotesi è: H 0 : μ = 1000 H1 : μ > 1000 .
(
Il valore della statistica test è t = (1100 − 1000 ) 9
)
16 = 44 ,44 e il valore soglia è t 0 ,05 = 1,7531 (con 15 g.d.l.).
Pertanto t > t 0,05 (o anche x = 1100 > 1003,94 = μ 0 + t 0 ,05 ⋅ s / n ) e si rifiuta l’ipotesi nulla, ossia si può ritenere che
le lampadine prodotte dalla nuova macchina abbiano una durata media superiore.
14.5 Il sistema d’ipotesi è: H 0 : π = 0 ,25 H1 : π ≠ 0 ,25 .
Ricorrendo all’approssimazione Normale e alla 14.3.1 si ha:
z = 0 ,048 ( 0 ,25 )( 0 ,75 ) 80 = 0 ,99 < 1,96 = z 0 ,025
pertanto si accetta l’ipotesi nulla (la differenza osservata è frutto del caso).
14.6 Il sistema d’ipotesi è: H 0 : μ = 8 H1 : μ ≠ 8 .
Ricorrendo 14.2.1 si ha:
z = − 1 (1 9 ) = −9 e z = 9 > 1,96 = z 0,025 , pertanto si rifiuta l’ipotesi nulla, cioè la macchina non è tarata
correttamente.
14.7 Il sistema d’ipotesi è: H 0 : π = 0 ,25 H1 : π ≠ 0 ,25 .
Ricorrendo all’approssimazione Normale e alla 14.3.1 si ha:
z = 0 ,03 ( 0 ,1)( 0 ,9 ) 120 = 1,09 e quindi z = 1,09 < 1,65 = z 0,05 , pertanto si accetta l’ipotesi nulla (la proporzione
osservata tra gli operai non è significativamente maggiore di quella della popolazione).
14.8 Il sistema d’ipotesi è: H : σ 2 = 122500 H : σ 2 > 122500 .
0
1
2
(
)
n − 1S
= 45,14 > 19,6752 = χ 02,05 , pertanto si rifiuta l’ipotesi nulla (il prezzo delle case è più
Dalla 14.4.1, essendo
2
σ0
variabile).
14.9
Dalla 14.5.2 si ha: t =
x1 − x 2
S p2 (1 / n1 + 1 / n2 )
nulla.
= 7 ,20 >2 ,68 = t 0 ,005 (con 49 g.d.l.), pertanto si rifiuta l’ipotesi
14.10 Il sistema d’ipotesi è: H 0 : π M = π F H1 : π M ≠ π F .
⎛ 1
1 ⎞
⎟⎟ = 1,97 > 1,96 = z 0 ,025 , pertanto si rifiuta l’ipotesi nulla.
+
x p 1 − x p ⎜⎜
⎝ n1 n2 ⎠
(
Dalla 14.5.3 si ha: (x1 − x 2 )
)
14.11 Il sistema d’ipotesi è: H 0 : μ = 7 ,5 H1 : μ < 7 ,5 .
Dalla 14.2.1 si ha x = 7,2 < 7,29 = μ 0 − zα σ / n , pertanto si rifiuta l’ipotesi nulla (il nuovo motore ha un consumo
inferiore)
14.12 Il sistema d’ipotesi è: H 0 : μ1 = μ 2 H1 : μ1 > μ 2 .
Dalla 14.5.2, si ha t =
x1 − x 2
S p2 (1
/ n1 + 1 / n2 )
= 0 ,86 <1,6794 = t 0 ,05 (con 45 g.d.l.), pertanto si accetta l’ipotesi
nulla (il gradimento del nuovo shampoo non è significativamente diverso dal precedente).
14.13 Il sistema d’ipotesi è: H 0 : π 1 = π 2 H1 : π 1 > π 2 .
x1 − x2
= 1,54 < 1,65 = z0 ,05 , pertanto si accetta l’ipotesi nulla (la proporzione
⎛1
1 ⎞
⎟⎟
x p (1 − x p )⎜⎜ +
⎝ n1 n2 ⎠
delle ventenni favorevoli al contraccettivo non è significativamente diverso da quella delle quarantenni)
Dalla 14.5.5 si ha
14.14
a. Dalla 14.2.2 si ha t = 2 > 1,7109 = t 0,05 (con 24 g.d.l.), pertanto si rifiuta l’ipotesi nulla.
b. Il p-value è approssimativamente 0,025 (infatti dalle tavole della t-student con 24 g.d.l. si ha
P ( t > 2 ,0639 ) = 0 ,025 ).
c. Essendo il p-value maggiore di α = 0,01 , si accetta l’ipotesi nulla.
14.15 Si ha s = 1 . Essendo n = 400 si ricorre all’approssimazione Normale.
a. Essendo z = 20 > 1,96 = z 0,025 , si rifiuta l’ipotesi nulla.
b. Possiamo rifiutare l’ipotesi nulla solo per un livello minimo di significatività prossimo a 0.
c. Dal punto precedente concludiamo che a maggior ragione possiamo rifiutare l’ipotesi nulla. Infatti, in questo
caso, si ha z = 20 > 1,65 = z 0,05 e pertanto si deve rifiutare l’ipotesi nulla.
14.16
a.
Maschio
Femmina
Totale
2
χ2
Preferenza
Aspetto esterno
Prestazione Totale
75
125
200
150
100
250
225
225
450
2
2
2
200 ⋅ 225 ⎞
200 ⋅ 225 ⎞
250 ⋅ 225 ⎞
250 ⋅ 225 ⎞
⎛
⎛
⎛
⎛
⎜ 75 −
⎟
⎜125 −
⎟
⎜150 −
⎟
⎜100 −
⎟
450
450
450
450 ⎠
⎝
⎠
⎝
⎠
⎝
⎠
⎝
=
+
+
+
= 22,5
200 ⋅ 225
200 ⋅ 225
250 ⋅ 225
250 ⋅ 225
450
450
450
450
b. Essendo χ 2 = 22 ,5 > 3 ,8415 = χ 02,05 (con 1 g.d.l.), si rifiuta l’ipotesi nulla di indipendenza.
14.17
a. Essendo t = −2,46 < −1,6991 = t 0,05 (con 29 g.d.l.), si rifiuta l’ipotesi nulla che il punteggio medio sia lo stesso.
b. Essendo t = −2,46 > −2,4620 = t 0,01 (con 29 g.d.l.), si accetta l’ipotesi nulla che il punteggio medio sia lo
stesso.
c. Considerando l’ α = 0,01 del punto b. e essendo z β = 0,25 , si ha che:
2
⎡12( 2 ,33 + 0 ,25 ) ⎤
n=⎢
⎥ = 38 ,3 e quindi con n = 39 si è sicuri di soddisfare la richiesta.
⎣ (100 − 105 ) ⎦
Si noti che per α = 0,05 sarebbe stato necessario un numero inferiore di unità statistiche pari a n = 21 .
14.18
a. Essendo s12 = 1288,24 e s 22 = 2655,88 da cui s12 s22 = 0 ,48 . Considerando una v.c. F-Fisher con 30 e 8 gradi
di libertà, si ha: f 0 ,025 (30 , 8) = 3,89 e f 0 ,975 (30 , 8) = 1 f 0 ,025 (8 , 30) = 1 2,65 = 0 ,38 . Poiché
f 0 ,975 < s12 s 22 < f 0 ,025 si accetta l’ipotesi nulla (le varianze sono uguali).
b. Essendo x 1 = 66,65 , x 2 = 33,50 e s p2 = 1576 ,16 si ha:
t =
x1 − x 2
s p2 (1
/ n1 + 1 / n2 )
= 2 ,21 > 2 ,0244 = t 0 ,025 (con 38 g.d.l.) e pertanto si rifiuta l’ipotesi nulla che le due
medie sono uguali.
c. Al rifiuto dell’ipotesi nulla arriviamo anche con test unidirezionale t = 2 ,21 > 1,6860 = t 0 ,05 e pertanto
possiamo concludere che la raffineria ha sovrastimato le misurazioni.
14.19
Grave
1
5
5
15
26
control
bran
combo
gum
Totale
2
χ2
26 ⋅ 26 ⎞
26 ⋅ 24 ⎞
⎛
⎛
⎜2 −
⎟
⎜1 −
⎟
100 ⎠
100
⎝
⎝
⎠
+K+
=
26 ⋅ 26
26 ⋅ 24
100
100
Medio
3
4
15
6
28
Leggero
5
9
3
3
20
Assente
15
7
2
2
26
Totale
24
25
25
26
100
2
= 51,59
Essendo χ 2 = 51,59 > 21,666 = χ 02,01 (con 9 g.d.l.), si rifiuta l’ipotesi nulla di indipendenza.
14.20
Dai dati si ottiene che: x G = 33 ,98 , x L = 74 ,58 e x P = 38 ,38 , sG = 10 ,17 , s L = 4 ,76 e s P = 11,52 .
a. Essendo t = −1,54 > −1,6706 = −t0 ,05 (approssimando a una t_Student con 60 g.d.l.), si accetta l’ipotesi nulla
(la temperatura media di gennaio non è significativamente inferiore a quella dell’anno precedente).
b. Essendo t = 7 ,45 > 1,6706= t0 ,05 (approssimando a una t_Student con 60 g.d.l.), si rifiuta l’ipotesi nulla (la
temperatura media di luglio è significativamente superiore a quella dell’anno precedente).
c. Essendo t = 1,09 < 2 ,0003= t0 ,025 (approssimando a una t_Student con 60 g.d.l.), si accetta l’ipotesi nulla (la
caduta media di pioggia non è significativamente diversa da quella dell’anno precedente).
14.21
a. Essendo s12 = 127237 ,1 e s02 = 120182 ,4 da cui s02 s12 = 0 ,945 e, approssimando a una v.c. F-fisher con
gradi di libertà (200, 200), si ha f 0 ,975 = 0 ,76 e f 0 ,025 = 1,32 e pertanto si accetta l’ipotesi nulla (le varianze
sono uguali).
b. Il sistema d’ipotesi è il seguente: H 0 : μ 0 = μ1 contro H1 : μ 0 < μ1 . Essendo x1 = 1637 ,5 e x 0 = 1566 ,4 ,
dalla (14.5.3) si ha z = 2 ,26 > 1,645 = z 0 ,05 da cui si rifiuta l’ipotesi nulla (la promozione ha avuto
effetto).
14.22
Campione
1
2
3
4
5
6
7
8
s
0.011
0.011
0.010
0.007
0.009
0.009
0.008
0.011
x
321,999
322,014
321,998
321,995
322,004
322,002
322,006
321,997
I valori critici sono
Campione
1
2
3
4
5
6
7
8
t
0.533
5.333
0.656
2.615
1.852
1.136
2.642
1.714
Si rifiuta l’ipotesi nulla se t ≥ 2 ,1315 = t0 ,025 (con 15 g.d.l.). Dunque si rifiuta l’ipotesi nulla per i campioni
2,4 e 7.
14.23
⎛
⎞
n ij2
⎜
⎟
− 1⎟n = 15,16 .
a. Utilizzando la formula (6.6.2) si ha χ = ⎜ ∑∑
⎜ i j ni .n. j
⎟
⎝
⎠
2
b. Poiché si ha che con 4 gradi di libertà
χ 02,05 = 9,4877 possiamo rigettare l’ipotesi nulla di
indipendenza tra i due caratteri.
c. Il test porta a rigettare l’ipotesi nulla. Tuttavia, con una dimensione del campione così grande, anche
una debole associazione potrebbe risultare statisticamente significativa.
d. La frazione dei poco felici tra coloro che hanno un basso titolo di studio è 36/203=0,177, mentre tra
coloro che hanno un alto titolo di studio è 29/341=0,085. La differenza è 0,092. Quindi passando da
un basso ad un elevato titolo di istruzione il livello di felicità aumenta.
e. Indichiamo con π 1 la quota dei poco felici tra coloro che nella popolazione hanno un basso titolo di
studio e con π 2 la quota dei poco felici tra coloro che hanno un elevato grado di istruzione. Si vuole
verificare l’ipotesi nulla H 0 : π 1 = π 2 , contro l’ipotesi alternativa H1 : π 1 ≠ π 2 . La numerosità
campionaria dei due gruppi, n1 = 203 e n 2 = 341 , è sufficientemente grande per poter applicare la
0,092
statistica test (14.5.5). Da cui risulta
= 3,21 . Pertanto, poiché
1 ⎞
⎛ 1
+
0,119(1 − 0,119)⎜
⎟
⎝ 203 341 ⎠
z0,025 = 1,96 si rigetta l’ipotesi nulla.
14.24
a. Utilizzando la formula (6.6.2) si ha per la prima indagine χ
= 0,08 e per la seconda χ 2 = 4 .
χ 02,05 = 3,8415 , l’ipotesi nulla di indipendenza tra i due
caratteri viene rigettata dai dati della prima indagine mentre non viene rifiutata dai dati della seconda
indagine.
In entrambe le tabelle, la quota di coloro che vedono il programma tra le femmine è pari a 0,51
mentre tra i maschi è 0,49. La differenza tra queste due quote, pari a 0,02, è molto modesta rilevando
una assai debole associazione tra i due caratteri in entrambe le indagini. Da notare che nel precedente
punto, per la seconda indagine l’associazione tra i due caratteri risulta significativa a causa
b. Poiché si ha che con 1 grado di libertà
c.
2
principalmente dell’elevata numerosità campionaria.
π 1 la quota di femmine che, nella popolazione, vede il programma e con π 2 la
corrispondente quota di maschi. Si vuole verificare l’ipotesi nulla H 0 : π 1 = π 2 , contro l’ipotesi
alternativa H1 : π 1 ≠ π 2 . La numerosità campionaria dei due gruppi nella prima indagine, n1 = 100 e
n 2 = 100 , è sufficientemente grande per poter applicare la statistica test (14.5.5). Da cui risulta
0,02
= 0,28 . Pertanto, poiché z0,025 = 1,96 non si rigetta l’ipotesi nulla. Al
1
1
⎞
⎛
+
0,5(1 − 0,5)⎜
⎟
⎝ 100 100 ⎠
contrario, considerando i dati della seconda indagine, il valore della statistica test diventa
0,02
= 2 e quindi rigettiamo l’ipotesi nulla di indipendenza. Come si può
1
1
⎛
⎞
+
0,5(1 − 0,5)⎜
⎟
⎝ 5000 5000 ⎠
notare, anche in questo caso la differenza tra i due risultati è dovuta esclusivamente alla diversa
dimensione campionaria, che nel secondo caso porta alla significatività anche in presenza di una
debole associazione tra i due caratteri.
d. Indichiamo con
Statistica - metodologie per le scienze economiche e sociali /2e
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 15
Es.
15.1
.
⎛ 20 ⎞
Essendo B = 6 , n = 20 e P (Ai ) = 1 3 per i = 1,2,3 , si ha: P (B = 6 Ai ) = ⎜⎜ ⎟⎟π i6 (1 − π i ) 20−6 per i = 1,2,3 e
⎝6⎠
quindi
[
[( 0,1) ( 0,9 )
[( 0,1) ( 0,9 )
]
]= 0,933
] = 0,024
P (A1 B = 6 ) = ( 0,1) 6 ( 0,9 )14 ( 0,1) 6 ( 0,9 )14 + ( 0,3 ) 6 ( 0,7 )14 + ( 0,6 ) 6 ( 0,4 )14 = 0,043
P (A2 B = 6 ) = ( 0,3 ) 6 ( 0,7 )14
P (A3 B = 6 ) = ( 0,6 ) 6 ( 0,4 )14
6
14
+ ( 0,3 ) 6 ( 0,7 )14 + ( 0,6 ) 6 ( 0,4 )14
6
14
+ ( 0,3 ) 6 ( 0,7 )14 + ( 0,6 ) 6 ( 0,4 )14
15.2 Poichè n = 100 e a = 20 ,
la distribuzione a posteriori è una Beta (α , β ) = Beta (a + 1, n − a + 1) = Beta (21,81) .
a. Il valore atteso è pari a α (α + β ) = 21 102 = 0,206
b. La distribuzione a posteriori diventa una Beta (a + α , n − a + β ) = Beta (25,85) con valore atteso pari a
25 110 = 0,227 .
15.3 Poiché la distribuzione a priori è non-informativa impropria (ad esempio pari a una costante) la distribuzione
2⎞
⎛
σ ⎟
; pertanto per
a posteriori è proporzionale alla verosimiglianza e quindi in questo caso h(μ x ) = N ⎜ x ,
⎜
⎟
n
⎝
⎠
n = 100 e x = 22,7 si ha:
a. μ
ˆ = 22,7
b. Con 1 − α = 0,95 si ottiene zα 2 = 1,96 e quindi un intervallo di credibilità HPD per la media
22,7 ± 1,96 410 100 = 22,7 ± 3,97
c. Le stime sono uguali a quelle ottenibili con un approccio frequentista.
15.4
(
a. In questo caso la distribuzione a priori è informativa h(μ ) = N α , β
(
)
distribuzione a posteriori diventa: h(μ x ) = N ϑ ,ω 2 con
~
(
)
2
) = N (85,400) , pertanto la
−1
−2
⎡
⎤
⎡
⎤
−2
⎡ 1
⎤
n
σ
1
β
2
⎥x + ⎢
⎥α e ω = ⎢
+
ϑ =⎢
⎥ . Quindi la stima
2
2
⎢ β −2 + σ n −2 ⎥
⎢ β −2 + σ n −2 ⎥
⎢
⎥⎦
σ
n
β
⎣
⎣
⎦
⎣
⎦
0,16
⎤
⎡ 0,0025 ⎤
~ ⎡
puntuale di μ è ϑ = ⎢
80 + ⎢
⎥85 = 80,08 .
⎥
⎣ 0,0025 + 0,16 ⎦
⎣ 0,0025 + 0,16 ⎦
~
(
)
(
)
b. Con 1 − α = 0,99 si ottiene zα 2 = 2,58 e quindi un intervallo di credibilità HPD per la media
80,08 ± 2,58 (1 6,25 + 1 400)−1 = 22,7 ± 2,48 .
15.5 La distribuzione a posteriori è una Normale. Pertanto, poiché è una funzione di densità simmetrica, moda,
mediana e media aritmetica coincidono e valgono in questo caso 80,08. Considerando, ad esempio, una
popolazione iniziale distribuita come una Poisson e una distribuzione a priori di tipo Gamma, si otterrebbe
una distribuzione a posteriori ancora di tipo Gamma, non necessariamente simmetrica, e quindi con media,
mediana e moda con valori fra loro diversi.
15.6 Considerando che lo stimatore è dato da una media ponderata tra l’informazione campionaria e quella a
(
)
−2
⎡
⎤
σ n
⎢
⎥ , si vuole fissare p ≥ 0,5 . Perciò
priori, del tipo: ϑ = px + (1 − p )α con peso p =
⎢ β −2 + σ n −2 ⎥
⎣
⎦
−2
2
⎡
⎤ 1
−2
σ n
⎛ 40 ⎞
2
−2
⎢
⎥ ≥ e quindi σ n
≥ β , da cui (σ β ) ≤ n e quindi n ≥ ⎜ ⎟ = 16 .
⎢ β −2 + σ n −2 ⎥ 2
⎝ 10 ⎠
⎣
⎦
~
(
(
)
(
)
(
)
)
15.7 Dal problema si ha: n = 30 e x = 6 .
a. La distribuzione a posteriori è
(
)
h(λ x ) = Gamma ∑ i x i + α ; β + n = Gamma(6 ⋅ 30 + 5; 1 + 30 ) = Gamma(185; 31)
∑i x i
+α
185
= 5,97 .
n+β
31
b. La distribuzione a posteriori è
da cui λˆ =
(
=
)
h(λ x ) = Gamma ∑ i x i ; n = Gamma(180; 30 ) da cui λˆ =
15.8
a.
∑i xi
n
=x=
180
= 6.
30
La verosimiglianza sotto l’ipotesi nulla è data da
L(π 0 x , H 0 ) = (0,3)∑ i x i (0,7 )n − ∑i x i = (0,3)45 (0,7 )55 . Poiché l’ipotesi alternativa è composta, si deve
considerare al denominatore del fattore di Bayes la verosimiglianza media data da:
Γ(α + β ) Γ(α + ∑i x i )Γ(β + n − ∑i x i )
Av (L(π x , H1 )) =
. Ricordando che Γ(n + 1) = n! si ha:
Γ(α + β + n )
Γ(α )Γ(β )
4! 46! 57!
Γ(2 + 3) Γ(2 + 45)Γ(3 + 100 − 45)
Av (L(π x , H1 )) =
=
. La probabilità a posteriori
2! 3! 104!
Γ(2 + 3 + 100)
Γ(2 )Γ(3)
dell’ipotesi nulla è dunque:
1
h(π 0 x ) = (0,3)45 (0,7 )55 0,5 = 0,034 in cui c = L(π 0 x , H 0 )P (H 0 ) + L (π x , H1 )P (H1 ) .
c
[
]
b. Il fattore di Bayes è dato da: B (H 0 , H1
(
0,3)45 (0,7 )55
)=
= 0,034 .
4! 46! 57!
2! 3! 104!
c. Il valore del fattore di Bayes è inferiore a 1 e pertanto si rifiuta l’ipotesi nulla.
15.9
−1
⎡ 1
⎛
1 ⎤
1
1
1 ⎞⎟ 2
+
Poiché si vuole ω = ⎢
+
≥ 1 e quindi n ≥ ⎜1 −
σ . Sostituendo i
⎥ ≤ 1 , allora
2⎟
⎜
⎢⎣σ 2 n β 2 ⎥⎦
σ2 n β2
β
⎝
⎠
1⎞
⎛
valori delle varianze si ottiene: n ≥ ⎜1 − ⎟72 = 66 .
⎝ 12 ⎠
Per ottenere una varianza non superiore a 0,1 si riapplica lo stesso procedimento ottenendo:
1⎞
⎛
n ≥ ⎜10 − ⎟72 = 714 .
12 ⎠
⎝
2
Statistica - metodologie per le scienze economiche e sociali /2e
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 16
Es.
16.1
In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali.
ˆ1 =
a. Poiché β
σ T1T2
σ T2
1
=
σ T1T2
σ T1 σ T2
⋅
σ T2
σ T1
= ρ T1T2 ⋅
0 ,49
si ha βˆ1 = 0 ,24 ⋅
= 0 ,294 e
0 ,40
Dunque T2 = 2 ,16 + 0 ,294 ⋅ T1 .
(
b. Si ha RT2 T = ρ T1T2
1 2
σ T2
σ T1
βˆ0 = xT2 − βˆ1 xT1 = 3,11 − (0 ,294 ⋅ 3,23) = 2 ,16 .
)2 = (0 ,24)2 = 0 ,058 .
c. Dal coefficiente di determinazione possiamo concludere che la quota di variabilità di T2 spiegata dalla
variabile T1 attraverso la retta è molto modesta.
d. Il punteggio medio previsto è pari a 2,748.
16.2
a. Poiché il coefficiente di correlazione è negativo, ne consegue che la covarianza è negativa e dunque la
retta di regressione ha pendenza negativa, pertanto sussiste una relazione lineare inversa tra l’avarizia
e l’arroganza.
b. L’indice di determinazioni corrisponde al quadrato del coefficiente di correlazione lineare e pertanto si ha:
2
R XY
= (ρ XY )2 = ( −0,4 ) 2 = 0,16 .
c. Si ha: βˆ1 =
ρ XY
σY
⎛ 1,2 ⎞
= −0,4⎜
⎟ = −0,53 e βˆ 0 = y − βˆ1 x = 6 + 0,53 ⋅ 4 = 8,12 , quindi la retta di
σX
⎝ 0,9 ⎠
regressione Ŷ = 8,12 − 0,53 X
16.3
a. No, ad un valore di X corrisponde anche più di un valore di Y .
b. Per il grafico 1, è la iii. Per il grafico 2, è la ii.
ˆ0 = y .
c. Essendo una retta parallela all’asse delle ascisse si ha che β̂1 = 0 e naturalmente β
16.4
a. La retta stimata è yˆ i = −3,60 + 3,10 x i .
2
b. Sì, essendo RYX
= 76 ,6% .
c. Sì poiché β̂ 1 > 0 anche la covarianza sarà positiva.
d. Dato che l’equazione stimata per X dipendente è:
X = 2.2948+0.2470*Y
la larghezza media prevista è 2.2948+0.2470*7 = 4.02
16.5
a.
250
200
150
100
50
0
0
1
2
3
4
5
6
7
b. La retta stimata è ŷ i = 3 ,57 + 32 ,14 x i . Ne segue ŷ 1 = 35 ,71 , ŷ 2 = 67 ,85 , ŷ 3 = 99 ,99 , ŷ 4 = 196 ,41 .
2
RYX
= 99 ,07% mentre SQE = 135,71 .
d. La durata media è pari a 3 ,57 + 32 ,14 ⋅ 4 = 132 ,13 .
c.
16.6
a. Essendo σ YX = ρYX σ X σ Y = 41,04 , si ha che la retta che pone il peso in funzione dell’altezza è
ŷ i = −51,28 + 0 ,71x i
2
= (ρ XY
b. RYX
)2
= 0 ,36.
c. La retta che pone l’altezza in funzione del peso è x̂ i = 133 ,32 + 0 ,51y i
d. Il peso medio è 62,32 Kg, poiché dalla retta stimata in a. si ha − 51,28 + 0 ,71 ⋅ 160 = 62 ,32 .
e. L’altezza media è 166,47 cm, poiché dalla retta stimata in c. si ha 133 ,32 + 0 ,51 ⋅ 65 = 166 ,47 .
16.7
a. La retta stimata risulta essere ŷ i = 289 ,91 − 14 ,56 x i
b. All’aumentare di una unità della X , corrisponde una riduzione della Y pari a 14,56. La bontà di
2
adattamento è molto elevata infatti è pari a RYX
= 89.8% .
16.8
a. La retta stimata risulta essere ŷi = 4 ,43 + 2 ,70 xi
2
b. Il modello si adatta bene ai dati, infatti risulta RYX
= 68% .
c. E’ la sesta osservazione, ossia quella che presenta la coppia di valori (x=10, y=60).
d. La retta stimata risulta essere ŷ i = −0 ,759 + 0 ,472 x i .
2
e. Sì, infatti RYX
= 91,8% .
16.9
a. La retta stimata risulta essere ŷ i = 1,60 + 0 ,10 xi
2
b. Il valore del coefficiente di determinazione, pari a RYX
= 94 ,8% , indica un elevatissimo grado di
adattamento della retta stimata ai dati osservati.
16.10
a. La retta stimata risulta essere ŷ i = 0 ,4848 + 0 ,4848 x i .
b. Sì, essendo βˆ1 = 0,48 . Sui dati, tale risultato si osserva meglio per redditi elevati.
2
c. No, infatti RYX
= 45 ,6% .
d. Il consumo medio è 2,424, infatti 0 ,4848 + (0 ,4848 ⋅ 4) = 2 ,424 .
16.11
a. La retta stimata è ŷ i = 2 ,32 + 0 ,26 xi .
b. Dalla formula (16.6.1) e considerando la formula (16.6.3) si ottiene:
171,61 ⎤
⎡ 1
s( Β0 ) = 12,23⎢
+
⎥ = 0 ,348 e s( Β1 ) =
⎣ 500 21766 ,68 ⎦
12 ,23
= 0 ,024 .
21766 ,68
2
c. No, infatti RYX
= 19 ,2% .
d. Il punteggio medio nel test VISUAL è 6,22, infatti 2 ,32 + (0 ,26 ⋅ 15) = 6 ,22 .
16.12
a. La retta stimata è ŷ i = 2 ,74 + 0 ,80 x i .
b. Da una sigaretta con 10 mg di catrame la quantità media di monossido di carbonio emessa è 10,74, infatti
2 ,74 + (0 ,8 ⋅ 10) = 10 ,74 .
2
c. No, di più infatti RYX
= 91,7% .
d. La retta stimata è ŷ i = 1,66 + 12 ,40 x i .
2
e. E’ più evidente la relazione che lega il monossido di carbonio al catrame ( RYX
= 91,7% del catrame contro
2
RYX
= 85 ,7% della nicotina).
16.13
a. La retta stimata è ŷi = 2 ,04 + 1,01xi .
b. Sì, poiché βˆ > 0 .
1
c. La regione del Southeast; infatti in corrispondenza dei valori di questa regione si osserva il residuo più grande
pari a 0,63.
2
= 61,5% , pertanto vi è un buon adattamento ai
d. Il coefficiente di determinazione risulta essere RYX
dati.
16.14
a. La retta stimata è ŷ SAi = 182 ,2 + 0 ,57 xTi .
b. La retta stimata è ŷ LDi = 3759 ,28 + 36 ,36 xTi .
c. La retta stimata è ŷ SLi = 719 ,97 + 1,56 xTi .
2
2
d. Guardando ai coefficienti di determinazione si trova rispettivamente: RSA
,T = 90 ,9% , RLD ,T = 97 ,9% ,
2
RSL
,T = 75 ,7% . Pertanto la relazione lineare stimata tra le performance del Lancio del Disco e il
Tempo è quella che si adatta meglio ai dati osservati.
16.15
a. Il grafico di dispersione è il seguente:
prezzo medio (mq) abit. signorile
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
prezzo m edio (m q) abit. standard
b. La retta di regressione stimata è: Ŷ = 0,73 + 1,03 X .
2
c. Il coefficiente di determinazione è R = 0,89 .
d. Il prezzo medio (per mq) di un’abitazione signorile in una località balneare previsto da modello
quando il prezzo medio
Ŷ = 0,73 + 1,03 ⋅ 3,5 = 3,82 .
16.16
(per
a. Il grafico di dispersione è il seguente:
mq)
di
un’abitazione
standard
è
di
3500
euro
è
55
% raccolta differenziata 2005
50
45
40
35
30
25
20
20
25
30
35
40
45
% raccolta differenziata 2000
b. La retta di regressione stimata è: Ŷ = 8,31 + 0,93 X .
2
c. Il coefficiente di determinazione è R = 0,59 .
d. La percentuale di raccolta differenziata nel 2005 prevista dal modello per un capoluogo con una
percentuale nel 2000 del 30% è Ŷ = 8,31 + 0,93 ⋅ 30 = 36,21 .
e. Se nel 2000 tra due capoluoghi si è osservata una differenza nella percentuale di raccolta differenziata
pari a Δx = x 2 − x1 = 5 allora in base al modello stimato nel 2005 tale differenza è diminuita ed è
pari al Δy = ŷ 2 − ŷ1 = ( βˆ 0 - βˆ 0 ) + βˆ1 ( x 2 − x1 ) = 0,93 ⋅ 5 = 4,65 .
16.17
a. Il grafico di dispersione è il seguente:
3
2,5
Variazione PIL
2
1,5
1
0,5
0
-1
-0,5
0
0,5
1
1,5
-0,5
Variazione Spesa per fam iglia
b. La retta di regressione stimata è: Ŷ = 0,46 + 0,87 X
2
c. Il coefficiente di determinazione è: R = 0,76
16.18
a. La retta di regressione stimata è: Ŷ = 0,28 + 1,26 X
2
b. Il coefficiente di determinazione è: R = 0,91
c. Il grafico di dispersione e la retta stimata sono:
2
2,5
7
Fatturato gennaio 2008
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Fatturato gennaio 2007
d. La differenza del fatturato tra due tipologie di strumenti nel 2007 non rimane la stessa nel 2008.
Infatti, Δy = ŷ 2 − ŷ1 = ( βˆ 0 - βˆ 0 ) + βˆ1 ( x 2 − x1 ) = 1,26 ⋅ Δx e quindi aumenta in media del 26%
rispetto all’anno precedente.
a. La retta di regressione stimata che pone il Prezzo (Y) in funzione della Potenza (X) è:
Ŷ = −2,36 + 0,28 X
2
= 0,775 .
c. Il grafico di dispersione e la retta stimata sono:
b. Il coefficiente di determinazione è: R
35,0
30,0
25,0
20,0
Prezzo
16.19
15,0
10,0
5,0
0,0
0
20
40
60
80
100
120
Potenza
d. Guardando alla tabella dei residui riportata di seguito, si osserva che alla prima auto corrisponde il
maggior residuo. Si noti che la somma dei residui vale zero (a meno di una piccola differenza dovuta
alle approssimazioni).
Potenza
108,0
55,0
55,0
80,0
103,0
Prezzo
32,6
14,2
17,2
18,0
25,9
Y prevista
27,90
13,05
13,05
20,05
26,50
Residui
4,70
1,15
4,15
-2,05
-0,6
67,0
76,0
76,0
76,0
56,0
13,9
17,0
15,8
17,3
15,2
16,41
18,93
18,93
18,93
13,33
-2,51
-1,93
-3,13
-1,63
1,87
e. Entrambi i coefficienti di regressione vengono moltiplicati per 1000: Ŷ = −2360 + 280 X
Statistica - metodologie per le scienze economiche e sociali /2e
S. Borra, A. Di Ciaccio - McGraw Hill
Soluzione degli Esercizi avanzati del Capitolo 17
Es.
17.1
In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali.
a. Dalla formula (16.6.1) e considerando la formula (16.6.3) si ottiene s( Β0 ) =19 ,5412 e s( Β1 ) = 0 ,0118 .
b. Dalla formula (16.6.1) e considerando la formula (16.6.3) si ottiene côv( Β0 , Β1 ) = −0 ,2223 e quindi
ρ
ˆB0B1 = cov (B0 , B1 ) s( B0 ) s( B1 ) = −0 ,9641 .
c. Considerando un livello di confidenza pari a 1 − α = 0 ,95 , si ha che per una t-Student con 68 g.d.l.
t 0 ,025 = 1,9955 (utilizzando la tavola si può approssimare a 70 g.d.l. ed è pari a 1,9944). Quindi, dalla formula
(17.2.2), si ottiene [-41,59; 36,40].
d. Considerando una t-Student con 68 g.d.l. si ha t 0 ,005 = 2 ,6501 (utilizzando la tavola si può approssimare a 70
g.d.l. ed è pari a 2,6479). Essendo t =
0 ,399
= 33,81 > 2 ,6501 = t 0 ,005 , si rifiuta l’ipotesi nulla (il coefficiente
0 ,0118
β 1 è significativamente diverso da 0).
e. Ottenendo per x i = 1750 il valore Yˆi = 695,652 , dalla formula (17.4.1), essendo t 0 ,025 = 1,9955 e s(Ŷ ) = 5,2
si ottiene l’intervallo 695 ,652 ± (1,9955 ⋅ 5 ,2) , ossia [685,27; 706,03].
f.
Ottenendo per x i = 1500 il valore Ŷi = 595,90 , dalla formula (17.4.2), essendo t 0 ,025 = 1,9955 e
s(Yi − Ŷi ) = 41,53 , si ottiene l’intervallo 595 ,90 ± (1,9955 ⋅ 41,53) , ossia [513,02; 678,78].
17.2
a. Si vuole verificare se il valore ( Y ) è funzione lineare della superficie quadrata ( X ) dell’abitazione. Dalla
2
2
= (ρ XY ) = 0 ,1082 , si ottiene SQR = R XY
formula (16.5.2) ed essendo RXY
⋅ SQT = 188056518 ,2 .
Utilizzando nuovamente la formula (16.5.2), si ha SQE = 1549988936,8 .
2
b.
Tavola ANOVA
Sorgente di
Somma dei
variazione
quadrati
Regressione
188056518,2
Residuo
1549988936,8
Totale
1738045455,0
Gradi di
libertà
1
9
Media dei
quadrati
188056518,2
172220993,0
F
1,092
10
c. Essendo f = 1,092 < 10 ,56 = F0 ,01 accettiamo l’ipotesi nulla β 1 = 0 (non esiste una relazione lineare).
17.3
2
a. La retta stimata è: ŷ i = 10 ,364 + 0 ,173x i e il coefficiente di determinazione è pari a R XY
= 0 ,03 indicando un
pessimo adattamento.
b. Nella seguente tabella sono mostrati i residui e i residui standardizzati (i residui hanno media praticamente nulla
mentre l’errore standard di regressione è pari a s = 3,12 ). A causa degli errori di approssimazione si potranno
ottenere leggere variazioni nei risultati.
Seguono i corrispondenti grafici:
X
Y
20
22
26
27
27
25
23
20
22
11
13
16
16
14
12
13
14
21
Y stimata residuo
13,824
14,170
14,862
15,035
15,035
14,689
14,343
13,824
14,170
-2,824
-1,170
1,138
0,965
-1,035
-2,689
-1,343
0,176
6,830
Residuo
standardizzato
-0,903
-0,374
0,364
0,309
-0,331
-0,861
-0,430
0,056
2,186
residui
8
6
4
2
0
13.6
-2
13.8
14
14.2
14.4
14.6
14.8
15
15.2
Y stimata
-4
2.5
residui standardizzati
2
1.5
1
0.5
0
-0.513.6
13.8
14.0
14.2
14.4
14.6
14.8
15.0
15.2
Y stimata
-1
-1.5
c. Il valore del residuo corrispondente all’ultima unità statistica appare anomalo (nei grafici corrisponde al punto con
la più alta ordinata) ciò è confermato dall’analisi dei residui standardizzati avendo mostrando un valore superiore a
2.
d. Eliminando l’ultima unità statistica ( X=22; Y=21) e stimando il modello sulle rimanenti otto unità statistiche si
ottiene: ŷ i = 4 ,744 + 0 ,374 x i .
e. L’intercetta β 0 è più che dimezzata mentre il coefficiente angolare β 1 è all’incirca raddoppiato e la bontà di
2
= 0 ,38 .
adattamento è nettamente aumentata passando a RXY
17.4
a. Si ha: SQR = MQR = 40 poiché si ha 1 g.d.l.; SQE = SQT − SQR = 58 − 40 = 18 con n − 2 = 17 g.d.l. e
pertanto MSE = 18 17 = 1,06 ; infine, F = 40 1,06 = 37 ,7 .
Tavola ANOVA
Sorgente di
variazione
Regressione
Residuo
Totale
Somma dei
quadrati
40
18
Gradi di
libertà
1
17
58
18
Media dei
quadrati
40
1,06
F
37,7
b. Considerando il valore della F-Fisher con 1 e 17 g.d.l. per un α = 0,05 si ha F0 ,05 = 4 ,45 (se si utilizza la tavola
si può approssimare al valore di una F con 1 e 15 g.d.l. pari a 4,54), si ottiene f = 37 ,7 > 4 ,45 = F0 ,05 pertanto
rifiutiamo l’ipotesi nulla β 1 = 0 (esiste una relazione lineare).
2
c. Dalla (16.5.2) è R XY
= SQR SQT = 40 58 = 0 ,69 , quindi si può affermare che la retta di regressione si adatta
sufficientemente bene ai dati poiché spiega il 69% della variabilità totale.
17.5
a. La nuova variabile è attraverso la seguente trasformazione: Tempo = Anno – 1998.
Tempo
1
2
3
4
Spesa sanitaria 82,0 89,8 96,5 101,7
b. Dal seguente grafico si può assumere una relazione di tipo lineare:
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
80
85
90
95
100
105
2
c. La retta di regressione stimata è yˆ i = 76,05 + 6,58 x i con un coefficiente di determinazione pari a R XY
= 99% . Si
può pertanto concludere che il modello è appropriato a descrivere il fenomeno studiato.
d. Il coefficiente β 1 indica che la spesa sanitaria incrementa mediamente di 6,58 milioni di euro all’anno.
e. Il valore previsto è 108,95 milioni di euro.
a. La retta di regressione stimata è: ŷ i = 4 ,812 + 0 ,002 x i .
2
b. No, infatti R XY
= 39% .
c. Guardando ai residui e ai residui standardizzati mostrati nelle seguente tabella:
Osservazione
1
2
3
4
5
6
7
8
9
10
11
12
Previsto Y
4,961
5,046
4,906
4,942
4,946
5,043
4,884
5,048
4,825
4,928
4,940
4,931
Residui
0,039
-0,046
0,094
-0,042
-0,146
0,057
0,116
-0,048
-0,125
-0,028
0,060
0,069
Residui standard
0,463
-0,540
1,103
-0,499
-1,724
0,666
1,372
-0,564
-1,466
-0,327
0,702
0,814
si può concludere che non sono presenti casi anomali. Ciò è confermato dal seguente grafico dei residui standardizzati:
2.000
Residui standardizzati
17.6
1.500
1.000
0.500
0.000
4.800
-0.500
-1.000
4.850
4.900
4.950
5.000
5.050
5.100
Y stimata
-1.500
-2.000
d. I valori osservati sono molto pochi per poter arrivare a delle conclusioni attendibili, tuttavia, guardando al grafico
dei residui standardizzati (si veda punto precedente), all’istogramma dei residui standardizzati e al grafico di
normalità P-P, possiamo ritenere che i valori osservati siano da considerare compatibili con l’ipotesi di normalità.
5
Frequenza
4
3
2
1
0
-1.50
-1.00
-.50
0.00
.50
1.00
1.50
Residuo standardizzato
1.00
.75
Prob cum attesa
.50
.25
0.00
0.00
.25
.50
.75
1.00
Prob cum osservata
a. Dal seguente diagramma di dispersione, risulta ragionevole ipotizzare una modello di tipo lineare.
15
10
5
0
Y
17.7
-5
0
5
10
15
20
X
-10
-15
-20
b. Dall’analisi del grafico dei residui, si può osservare che non è appropriata l’ipotesi di omoschedasticità (infatti
all’aumentare del valore della Y stimata la variabilità dei residui tende a diminuire).
10
8
6
residui
4
2
-15
-10
0
-2 0
-5
5
10
-4
15
Y stim ata
-6
-8
c. Dall’analisi del grafico dei residui standardizzati, si può affermare che i residui standardizzati sono in accordo con
l’ipotesi di normalità ((il 64% dei punti ricade tra -1 e +1 e il 100% tra -2 e +2)
2.5
residui standardizzati
2
1.5
1
0.5
0
-15
-10
-5
-0.5 0
5
10
15
-1
Y stimata
-1.5
-2
d. Dal grafico dei residui rispetto al tempo, si può affermare che i residui sono autocorrelati positivamente.
10
8
6
residui
4
2
0
1
-2
2
3
4
5
6
7
8
9
10
11
12
13
14
tempo
-4
-6
-8
a. Dal grafico di dispersione si suppone che sussista una relazione di tipo lineare tra Y e X .
40
35
30
25
Y
17.8
20
15
10
5
0
0
10
20
30
X
b. La retta di regressione stimata è: ŷ i = 37 ,663 − 0 ,449 x i .
40
50
60
c. Come si può notare, essendo β 1 negativo, all’aumentare della spesa per svago/divertimento diminuisce quella per
ristorante.
2
= 86% .
d. Sì, il coefficiente di determinazione è pari a R XY
e. In corrispondenza di una spesa pari a 15 per svago/divertimento corrisponde mediamente una spesa per ristorante
di 30,93.
a. La retta di regressione stimata è: ŷ i = −0 ,0352 + 0 ,0207 x i .
b. Dal segno di β̂1 possiamo affermare che all’aumentare dell’indice di produzione industriale aumenta il tasso di
disoccupazione.
c. Dalla (17.2.1) si ha che il valore della statistica test è t = B1 s (B1 ) = 0 ,0207 0 ,0222 = 0 ,9324 . Inoltre, sapendo
che il valore della t-Student con 8 g.d.l. per α 2 = 0 ,025 è t 0 ,025 = 2 ,3060 , si ha t = 0 ,9324 < 2 ,306 = t 0 ,025 e
quindi non si può rifiutare l’ipotesi nulla. Pertanto, il valore di β1 non risulta significativamente diverso da zero.
2
d. No, il coefficiente di determinazione è pari a R XY
= 9 ,8% .
e. La tavola ANOVA è la seguente:
Tavola ANOVA
Sorgente di
variazione
Regressione
Residuo
Somma dei
quadrati
0,819310345
7,556689655
Gradi di
libertà
1
8
Media dei
quadrati
F
0,819310345
0,867
0,944586207
8,376
9
Totale
Considerando una F-Fisher con 1 e 8 g.d.l. si ha F0 ,05 = 5 ,32 segue che f = 0 ,867 < 5 ,32 = F0 ,05 e quindi β 1 non è
significativamente diverso da zero. Ritorna come atteso lo stesso risultato ottenuto al punto c.
f.
Dal grafico dei residui
2
1.5
residuo
1
0.5
0
-0.5
2
2.2
2.4
2.6
2.8
3
3.2
3.4
Y stimata
-1
-1.5
possiamo considerare appropriata l’assunzione di linearità.
g. Dal grafico dei residui standardizzati:
2.5
2
Residui standardizzati
17.9
1.5
1
0.5
0
-0.5 2
-1
2.2
2.4
2.6
2.8
3
3.2
3.4
Y stimata
-1.5
possiamo osservare che il 100% dei punti ricade nella fascia [-2; +2] quindi non vi è evidenza di valori anomali.
h. La
retta di regressione stimata che pone il tasso di disoccupazione in funzione dell’anno è:
ŷ i = −404 ,664 + 0 ,208 x i . Dal segno di β̂1 possiamo affermare che al crescere del tempo aumenta il tasso di
disoccupazione. Il valore della statistica test è t = B1 s(B1 ) = 0 ,208 0 ,085 = 2 ,447 . Sapendo che il valore della
t-Student con 8 g.d.l. per α 2 = 0 ,025 è t 0 ,025 = 2 ,306 , si ha t = 2 ,447 > 2 ,306 = t 0 ,025 e quindi si può
rifiutare l’ipotesi nulla. Pertanto, il valore di β 1 risulta significativamente diverso da zero. La bontà di
2
= 42 ,8% . La tavola ANOVA è la
adattamento della retta ai dati è sufficientemente elevata dato che RXY
seguente:
Tavola ANOVA
Sorgente di
Somma dei
variazione
quadrati
Regressione
7,249764
Residuo
1,126236
Totale
Gradi di
libertà
Media dei
quadrati
F
2
3,624882
22,53006
7
9
0,160891
8,376
Considerando una F-Fisher con 1 e 8 g.d.l. si ha F0 ,05 = 5 ,32 segue che f = 22 ,53 > 5 ,32 = F0 ,05 e quindi β 1 è
significativamente diverso da zero. Dal grafico dei residui:
1.5
1
Residuo
0.5
0
1.5
2
2.5
3
3.5
4
-0.5
Y previsto
-1
-1.5
possiamo considerare appropriata l’assunzione di linearità. Dal grafico dei residui standardizzati:
residuo standardizzato
2
1.5
1
0.5
0
-0.5
1.5
2
2.5
3
3.5
4
Y stimata
-1
-1.5
possiamo osservare che il 100% dei punti ricade nella fascia [-2; +2] quindi non vi è evidenza di valori anomali.
17.10 a. La retta di regressione stimata che pone il Reddito pro-capite in funzione della Percentuale di Forza Lavoro
nell’agricoltura è: ŷ i = 1317 ,905 − 18 ,858 x i .
b. No. Dal segno di β̂1 possiamo affermare che al crescere della Percentuale di Forza Lavoro nell’agricoltura
diminuisce mediamente il Reddito pro-capite.
c. Il valore della statistica test è t = B1 s (B1 ) = −18 ,858 3 ,395 = 5 ,555 . Sapendo che il valore della t-Student con
18 g.d.l. per α 2 = 0 ,025 è t 0 ,025 = 2 ,1009 , si ha t = 5 ,555 > 2 ,1009 = t 0 ,025 e quindi si può rifiutare l’ipotesi
nulla. Pertanto, il valore di β 1 risulta significativamente diverso da zero.
2
d. La bontà di adattamento della retta ai dati è piuttosto elevata dato che R XY
= 63,2% .
e. La tavola ANOVA è la seguente:
Tavola ANOVA
Sorgente di
Somma dei
variazione
quadrati
Regressione
2301076,801
Residuo
1342727,749
Totale
Gradi di
libertà
3643804,550
Media dei
quadrati
F
1
2301076,801
18
19
74595,986
30,847
Considerando una F-Fisher con 1 e 18 g.d.l. si ha F0 ,05 = 4 ,41 segue che f = 30 ,847 > 4 ,41 = F0 ,05 e quindi β 1 è
significativamente diverso da zero.
f.
Dal grafico dei residui:
800
600
Residuo
400
200
0
-500
-200 0
500
1000
-400
1500
Y stimato
non sembra sia possibile sostenere l’assunzione di linearità.
g. Dal grafico dei residui standardizzati:
Residuo standardizzato
2.5
2
1.5
1
0.5
-400
0
-200 -0.5 0
200
400
600
800
1000
1200
1400
-1
-1.5
Y stimata
Il grafico mostra due punti a cui corrispondono dei valori del residuo standardizzato prossimi o superiori a +2. Essi
corrispondono alla Svezia e al Canada. I valori presentati da questi due paesi non sono comunque tali da ritenerli
anomali anche se è opportuno considerarne la diversità rispetto agli altri paesi.
h. Eliminando la Svezia e il Canada si ottiene la seguente retta: ŷ i = 1197 ,567 − 16 ,563x i . La bontà di adattamento
2
= 71% .
aumenta passando a RXY
17.11 a. La retta di regressione stimata che pone l’Aspettativa di vita in funzione del Logaritmo del numero medio di
persone per TV è: ŷ i = 77 ,887 − 9 ,808 x i .
b. Per l’intercetta, il valore della statistica test è t 0 = B0 s(B0 ) = 77 ,887 1,220 = 63 ,842 mentre per il coefficiente
angolare il valore della statistica test è t1 = B1 s(B1 ) = −9 ,808 0 ,991 = −9 ,897 . Sapendo che il valore della t-
Student con 18 g.d.l. per α 2 = 0 ,025 è t 0 ,025 = 2 ,1009 , sia t 0 sia t1 sono maggiori, in valore assoluto, di
t 0 ,025 e quindi per entrambi i coefficienti di regressione si può rifiutare l’ipotesi nulla. Pertanto, i valori di β 0 e
β 1 risultano significativamente diversi da zero.
c. No. Dal segno del coefficiente angolare possiamo affermare che al crescere del Logaritmo del numero medio di
persone che guardano la TV diminuisce mediamente l’Aspettativa di vita.
d. In generale, un modello di regressione non permette di convalidare con certezza un legame di causa-effetto. In
questo caso specifico, anche dal punto di vista logico non è possibile ipotizzare un legame di causa-effetto tra le
due variabili prese in esame. Si tratta piuttosto di un legame spurio, in quanto la variabile Logaritmo del numero
medio di persone che guardano la TV può essere considerata come un indicatore di status socio-economico dei
paesi considerati nell’analisi.
2
e. Il coefficiente di determinazione è piuttosto elevato e pari a R XY
= 73,2% .
f. La retta di regressione stimata che pone l’Aspettativa di vita in funzione del Logaritmo del numero di persone per
medico è: ŷ i = 103 ,281 − 11,597 x i .
g. Per l’intercetta, il valore della statistica test è t 0 = B0 s(B0 ) = 103 ,281 4 ,521 = 22 ,845 mentre per il
coefficiente angolare il valore della statistica test è t1 = B1 s(B1 ) = −11 ,597 1,454 = −7 ,976 . Sapendo che il
valore della t-Student con 18 g.d.l. per α 2 = 0 ,025 è t 0 ,025 = 2 ,1009 , sia t 0 sia t1 sono maggiori, in valore
assoluto, di t 0 ,025 e quindi per entrambi i coefficienti di regressione si può rifiutare l’ipotesi nulla. Pertanto, i
h.
i.
j.
k.
valori di β 0 e β 1 risultano significativamente diversi da zero.
Anche in questo caso vale quanto detto al punto d.
2
No. Infatti, il valore del coefficiente di determinazione pur essendo piuttosto elevato, pari a RXY
= 63,8% , è
inferiore a quello del modello precedente.
Dal punto di vista dell’adattamento ai dati (ciò rispetto al del coefficiente di determinazione) è migliore la
variabile Logaritmo del numero medio di persone che guardano la TV.
Evidentemente la presenza e diffusione del mezzo televisivo tra le famiglie e gli individui di un paese è un
indicatore molto preciso dello sviluppo socio-economico dello stesso. In effetti, i valori più piccoli del Logaritmo
del numero medio di persone che guardano la TV corrispondono ai paesi più sviluppati quali Stati Uniti, Canada,
Giappone, Francia, mentre i valori più grandi ai paesi meno sviluppati quali Burma, Etiopia, Bangladlesh. Anche
la seconda variabile, Logaritmo del numero di persone per medico, è un buon indicatore dello sviluppo socioeconomico, tuttavia risente anche dell’organizzazione della struttura pubblica sanitaria dei paesi a prescindere dal
loro sviluppo economico. Ad esempio, risulta dai dati che l’Ucraina, la Russia, l’Argentina, al pari dell’Italia,
hanno un numero più basso di persone per medico di quanto non abbiano gli Stati Uniti e il Giappone.
17.12 a. La statistica test è t = B1 s (B1 ) = 1,03 0,13 = 7,92 , mentre t8,0,025 = 2,306 e quindi l’ipotesi nulla viene rifiutata.
b. L’intervallo di confidenza è dato da: 1,03 ± 2,306 ⋅ 0,13 = 1,03 ± 0,3 , ossia [0,73 ; 1,33].
c. Dal grafico dei residui standardizzati si può notare che in corrispondenza del valore = 4,5 si ha un residuo
piuttosto elevato anche se nei limiti di accettabilità. L’andamento dei residui, in parte condizionato dal valore più
grande, non sembra presentare un andamento del tutto casuale.
Residui standardizzati
2
1
0
-1
0,00
2,00
4,00
6,00
8,00
Y
d. Dal grafico di normalità si evince la poca conformità all’ipotesi che la distribuzione osservata dei residui sia di
tipo Normale.
1,0
Prob. cum attesa
0,8
0,6
0,4
0,2
0,0
0,0
0,2
0,4
0,6
Prob. cum. osservata
0,8
1,0
17.13
Dalla tabella ANOVA si deduce che:
a. Il valore di F = 302,78 22,94 = 13,20 può essere considerato, rispetto a una distribuzione F-Fisher con 1
e 9 gradi di libertà, un valore piuttosto “raro” come è evidenziato dal valore del p-value. Poiché si ha pvalue<0,01 l’ipotesi nulla che β1 = 0 viene rifiutata.
b. La stima di
σ 2 è s 2 = MQE = 27,94 .
2
= 302,78 509,26 = 0,59 .
d. Il grafico dei residui non presenta valori anomali.
c. Il coefficiente di determinazione vale R
Residui standardizzati
2
1
0
-1
25,00
30,00
35,00
40,00
45,00
50,00
55,00
Y
= 3,05 e quindi l’intervallo di confidenza per β 0
è dato da: 0,46 ± 3,05 ⋅ 0,179 = 0,46 ± 0,55 , ossia [-0,09 ; 1,01]; mentre per β1 è dato da:
0,87 ± 3,05 ⋅ 0,143 = 0,87 ± 0,44 , ossia [0,43 ; 1,31];
b. Dal punto a. si può vedere che il valore 0 cade all’interno dell’intervallo di confidenza per β 0 quindi
l’ipotesi nulla non può essere rifiutata per un livello di significatività α = 0,01 .
c. Il grafico dei residui presenta valori nella norma.
17.14 a. Il valore della t 0,005 con 12 gradi di libertà è t 0,005,12
2
Residui standardizzati
1
0
-1
-2
0,00
1,00
2,00
3,00
pil
d.
17.15 a.
Dal grafico di normalità si può osservare che i residui non sembrano essere conformi all’ipotesi di
normalità.
Dato il valore di t
n − 2;
ˆ
ˆ
α = t 8; 0,025 = 2,31 e le stime puntuali β 0 = −2,358 e β1 = 0,280 , si ottiene per
2
β 0 : − 2,358 ± 2,31 ⋅ 4,124 ossia [-11,88; 7,17]; per β1 : 0,28 ± 2,31 ⋅ 0,053 ossia [0,16; 0,40]. Si può
notare che l’intervallo di confidenza per l’intercetta include lo zero, pertanto per un livello di
significatività α = 0,05 tale parametro non risulta significativamente diverso da zero. Al contrario, β1
risulta significativamente diverso da zero.
b. La seguente tabella mostra i residui. Dal corrispondente grafico non risultano presenti valori anomali.
Prezzo
32,6
14,2
17,2
18,0
25,9
13,9
17,0
15,8
17,3
15,2
Y prevista
27,90
13,05
13,05
20,05
26,50
16,41
18,93
18,93
18,93
13,33
Residui
4,70
1,15
4,15
-2,05
-0,6
-2,51
-1,93
-3,13
-1,63
1,87
Residui standardizzati
2
1
0
-1
15,00
20,00
25,00
30,00
prezzo
c.
Sulla base della Tavola ANOVA cosa si può dire circa la bontà di adattamento del modello e la stima del
coefficiente β1 ?
ANOVA
Regressione
Errore
Totale
Somma dei
quadrati
245,334
71,255
316,589
Gradi di
libertà
1
8
9
Somma dei
quadrati
245,334
8,907
F
27,544
p-value
,001
La bontà di adattamento è misurata dall’indice R 2 = 245,334 316,589 = 0,775 , quindi più del 77%
della variabilità totale è spiegata dal modello di regressione. In accordo con il risultato ottenuto
dall’intervallo di confidenza per β1 , poiché il p-value è inferiore a 0,05, β1 risulta significativamente
diverso da zero per α = 0,05 ma anche per un valore più piccolo, ad esempio, α = 0,01 .
17.16
Da un campione di 54 individui si sono rilevate l’età ( X ) e la pressione media sanguigna ( Y ). L’output
del modello di regressione stimato è il seguente:
ANOVA
Regressione
Errore
Totale
Somma dei
quadrati
2374,968
3450,365
5825,333
Gradi di
libertà
1
52
53
Media dei
quadrati
2374,968
66,353
F
35,793
p-value
,000
Coefficienti di
regressione
(Constant)
età
a.
B
56,157
,580
Std. Error
3,994
,097
Il modello di regressione stimato è: Ŷ = 56,157 + 0,58 X
Il valore del coefficiente di determinazione è R 2 = 2374,968 5825,333 = 0,408 .
c. Attraverso il valore Valutare di F = 35,793 e il corrispondente valore del p-value, poiché p-value<0,01,
possiamo rifiutare l’ipotesi nulla.
d. Poiché t 52; 0,025 = 2,01 , per β 0 l’intervallo di confidenza è dato da: 56,157 ± 2,01 ⋅ 3,994 ossia [48,13;
b.
64,18], mentre per β1 è dato da: 0,58 ± 2,01 ⋅ 0,097
e. L’istogramma dei residui standardizzati sembra concordare abbastanza bene con l’ipotesi di normalità,
anche se nella parte centrale dell’istogramma è visibile una leggera deviazione dalla distribuzione
teorica. Questa deviazione è confermata anche dal grafico successivo dove i maggiori scostamenti dalla
bisettrice sono nella parte centrale del grafico.
f. Il grafico dei residui standardizzati rispetto all’età non presenta valori anomali, tuttavia la forma a
“imbuto” segnala la non conformità all’ipotesi di omoschedasticità dei residui.