Cours 5 : Echantillonnage et estimation par intervalle de confiance

Transcription

Cours 5 : Echantillonnage et estimation par intervalle de confiance
Échantillonnage et estimation
0.1
Introduction
Si l’on désire étudier une variable statistique sur une population, il est généralement coûteux, voire
impossible de questionner toute la population. Le but de la statistique mathématique ( ou inférentielle)
est de parvenir à l’aide d’un échantillon à une bonne connaissance de la population.
Lorsque l’on extrait au hasard un échantillon dans une population, on peut rencontrer deux cas de
figure dans la démarche statistique :
• Les paramètres statistiques envisagés sur la population sont parfaitement connus. Le statisticien
va alors parier (en utilisant des probabilités) sur ce que donnera l’échantillon. On parlera de problèmes
d’échantillonnage qui font alors appel aux méthodes qui aident à prévoir les propriétés des échantillons
issus de la population.
Par exemple si on a une population dont le QI moyen est de 100 et un écart type de 10. A quelle
valeur moyenne vraisemblable (« très probable »du QI doit-on s’attendre pour un échantillon choisi au
hasard dans cette population ?
Ou alors si un échantillon a fourni un QI moyen de 120, est-il vraisemblable que cet échantillon ait
été choisi au hasard dans cette population ?
Étant donné qu’il existe des fluctuations d’échantillonnage, on aura besoin modèles probabiliste théoriques qui contrôlent la variabilité des paramètres statistiques des échantillons ( proportion ou fréquence,
moyenne, variance, etc... ).
• La caractéristique étudiée sur la population est inconnue. On cherchera alors à obtenir des informations sur cette caractéristique en utilisant les observations effectuées sur des échantillons choisis au
hasard dans cette population. On parle alors de problèmes d’estimation.
Par exemple si une nouvelle méthode d’apprentissage de la lecture testée sur un échantillon de 250
élèves de CE1 choisis au hasard à conduit à 75% de résultats satisfaisant sur l’échantillon, quelle serait la
proportion de résultats satisfaisants qu’on obtiendrait si la méthode était appliquée à toute la population
des élèves de CE1 ?
0.2
Cas d’une proportion
Dans une population P, on désigne par p la proportion des individus qui satisfont un caractère 00 C 00
donné. On prélève ensuite dans P un échantillon E de taille n.
0.2.1
Échantillonnage
Etude sur un Exemple. Une urne de très grande taille contient 60% de boules blanches et 40% de
boules rouges. On choisit au hasard un échantillon avec remise de n boules et on s’intéresse aux boules
blanches dans l’échantillon. et on désigne par X le nombre de boules blanches de l’échantillon, alors les
valeurs possibles de X sont :
0; 1; · · · ; n.
On note Pn la proportion la proportion de boules blanches dans cet échantillon
Pn =
X
;
n
X = nPn .
1
Les valeurs possibles de Pn sont :
n−1
1 2
; ;···;
;1
n n
n
Comme X la variable Pn est aléatoire et sa loi de probabilité est déduite de celle de X.
Dans le chapitre précédent, nous avons vu que la loi de probabilité de X est binomiale : X ,→
B(n; 0.60)) et que si n est assez grand, alors la loi de X est proche à celle d’une loi normale. Plus
précisément, on utilisera le résultat suivant
• Si n ≤ 30 on se ramène à la loi binomiale en utilisant X = nPn . q
0;
• Cas avec remise. Si n > 30, np > 5 et n(1 − p) > 5, on a Pn ≈ N p; p(1−p)
.
n
q
q
N −n
• Cas sans remise. Si n > 30, np > 5 et n(1 − p) > 5 , on a Pn ≈ N p; p(1−p)
n
N −1 .
1. Supposons que n = 25. Quelle est la probabilité pour que la proportions de blanches dans l’échantillon soit comprise entre 45% et 65%?
On doit calculer P[0.45 ≤ Pn ≤ 0.65]. Comme n ≤ 30 on doit se ramener à la loi binomiale :
X = 25P25 ,→ B(25; 0.60).
P[0.45 ≤ Pn ≤ 0.65] = P[25 × 0.45 ≤ X ≤ 25 × 0.65] = P[11.25 ≤ X ≤ 16.25
Comme les valeurs de X sont des entiers, on doit additionner les probabilités des valeurs : 12; 13; 14; 15; 16.
On obtient
25
25
25
12
13
13
14
(0.6) (0.4) +
(0.6) (0.4) +
(0.6)14 (0.4)11
P[0.45 ≤ Pn ≤ 0.65] =
13
14
12
25
25
15
10
+
(0.6) (0.4) +
(0.6)16 (0.4)9 = 0, 0760 + 0, 1140 + 0, 1465 + 0, 1612 + 0, 1511 = 0, 6487
15
16
Interprétation. Si dans l’urne il y a 60% de boules blanches, et si on choisit au hasard 25 boules,
il y a 64.87% de chances que la proportion de blanches dans l’échantillon soit comprise entre 45%
et 65%.
2. Supposons maintenant que n = 200. Calculer la probabilité pour que la proportion de boule blanches
soit comprise entre 45% et 65%.
Cette fois-ci on est dans le cas des grands échantillons, donc on peut utiliser une approximation
normale puis que
r
p(1 − p)
n = 200 > 30; np = 0.6 × 200 = 120; n(1 − p) = 0.4 × 200 = 80;
= 0.0346.
n
Donc
Pn ≈ N (0.6; 0.0346);
Z=
Pn − 0.6
,→ N (0; 1).
0.0346
0.45 − 0.6
0.65 − 0.6
≤Z≤
= P[−4.335 ≤ Z ≤ 1.445] = 0.5+0.4258 = 0.9258.
0.0346
0.0346
Interprétation. Si dans l’urne il y a 60% de boules blanches, et si on choisit au hasard 200 boules,
il y a 92.58% de chances que la proportion de blanches dans l’échantillon soit comprise entre 45%
et 65%.
Remarquons que cette probabilité a augmenté lorsque la taille de l’échantillon a augmenté.
P[0.45 ≤ Pn ≤ 0.65] = P[
2
0.2.2
Estimation
Dans cette partie, on part d’une population P sur laquelle on s’intéresse à la proportion p des individus
qui satisfont un caractère donné. On suppose que cette proportion est inconnue et on souhaite l’estimer
en choisissant un échantillon E au hasard dans cette population. On note pe la proportion expérimentale
dans l’échantillon E.
Estimation ponctuelle
L’estimation ponctuelle de la proportion p inconnue est la valeur expérimentale pe de l’échantillon.
Estimation par intervalle de confiance
Si n > 30, npe > 5 et n(1 − pe ) > 5.
1. On se donne une confiance c = 1 − α avec α le risque d’erreur.
2. Dans la table de la loi normale, on cherche la valeur zα telle que φ(zα ) =
confiance : c
risque d’erreur : α
zα
0, 9 0, 95
0, 1 0, 05
1, 645 1, 96
0, 96
0, 98
0, 04
0, 02
2, 054 2, 326
0, 99
0, 01
2, 575
1−α
2
=
c
2
0, 995
0, 005
2, 81
q
e
e)
3. • Si le tirage est avec remise on calcule aα = zα . p (1−p
n
q
q
e
e)
N −n
• Si le tirage est sans remise on calcule aα = zα . p (1−p
.
n
N −1
4. Avec la confiance c = 1 − α, on peut affirmer que p se trouve dans l’intervalle :
Iα (p) = [pe − aα , pe + aα ]
Exemple
On a testé l’efficacité d’une méthode d’apprentissage de la lecture en l’expérimentant sur un échantillon
de 400 élèves de CP et constaté que que 320 des élèves ont donné des résultats satisfaisants. Avec une
confiance de 95% donner une estimation de la proportion de résultats satisfaisants que donnerait la
méthode sur l’ensemble des élèves.
1. La valeur expérimentale de l’échantillon est pe =
de 0.80.
320
400
= 0.80. Donc l’estimation ponctuelle de p est
2. on fixe une confiance c = 0.95 donc un risque d’erreur α = 0.05. La table de la loi normale nous
fournit la valeur zα = 1.96.
3. la marge de l’estimation est
r
aα = 1.96
0.80 × 0.20
= 0.0392
400
4. l’intervalle de confiance est
I0.95 (p) = [0.80 − 0.0392; 0.80 + 0.0392] = [0.7608; 0.8392] ≈ [76%; 84%]
5. Interprétation : Avec une confiance de 95% on peut affirmer que la proportion de résultats satisfaisants sur l’ensemble de la population serait compris entre 76% et 84%.
3
Taille de l’échantillon
Dans l’exemple précédant la marge ou précision de l’estimation est aα = 0.0392 = 3.92% Quelques
fois on n’est pas satisfait de cette précision et on souhaite donc réduire cette marge d’erreur. Cela impose
donc de choisir un échantillon de plus grande taille. On utilisera le résultat suivant :
La taille minimale de l’échantillon pour avoir une précision h avec une confiance c = 1 − α est :
e
e
)
• si on a un échantillon de référence on utilise sa valeur pe on prend n > zα2 p (1−p
h2
2 1
• si on n’a pas d’échantillon de référence alors on a n > zα 4h2 .
Dans l’exemple précédent, si on voulait estimer p avec une précision h = 1% et une confiance de 98%
on doit choisir un échantillon de taille minimale
n ≥ 2.3262
0.80 × 0.20
= 8656.24 =⇒ n = 8657.
0.012
Si on n’avait pas d’échantillon der référence on prendrait
n≥
2.3262
= 13525.7 =⇒ n = 13526.
4 × 0.012
Nous remarquons que le fait d’avoir un échantillon de référence réduit la taille de l’échantillon à prélever.
0.3
Cas d’une moyenne
Dans une population P, on désigne par X une variable statistique de moyenne µ et d’écart-type σ.
On prélève ensuite dans P un échantillon E de taille n.
0.3.1
Échantillonnage
Etude d’un exemple L’inventaire de l’estime de soi de Coopersmith est un auto questionnaire qui
permet d’obtenir des évaluations que l’on fait de soi-même en rapport avec nos propres valeurs. Le score
total X est normalisé de façon que pour une population générale, la moyenne est de 133 avec un écart
type de 22. Si on choisit au hasard un échantillon de taille n, la valeur moyenne Mn de l’échantillon varie
d’un échantillon à l’autre. C’est donc une variable aléatoire et sa loi de probabilité est déduite de celle
de X. Souvent la loi de X n’est pas connue, dans ce cas ont choisir un grand échantillon.
Plus précisément, nous rencontrerons la pratique les situations suivantes.
Soit X une variable statistique de moyenne µ et d’écart
type σ sur toute la population. On note Mn
√
la moyenne aléatoire, Vn la variance aléatoire et Sn = Vn l’écart-type aléatoire pour des échantillons de
taille n choisis au hasard dans la population.
• Si X suit une loi normale et σ connu (ce qui est rare) alors on utilise :
σ Mn
N µ, √
n
• Si n ≤ 30 et si X suit une loi normale et σ inconnu alors on utilise :
Tn =
Mn − µ √
n − 1 qui suit une loi de Student à n − 1 degrés de liberté : (d.d.l)
Sn
4
• Si n > 30 et σ inconnu (ici, on n’a pas besoin de la normalité de X) alors on utilise :
sˆe se N µ, √
= N µ, √
n
n−1
Mn
où sen et sˆen sont respectivement l’écart-type et l’écart type corrigé de l’échantillon.
1. Supposons alors dans un premier cas que X ,→ N (133; 22). Si on choisit un échantillon de 28
individus, quelle est la probabilité que son score moyen soit compris entre 120 et 140 ? dans ce cas
on
22
Mn ,→ N (133; √ = N (133; 4.158).
28
P[120 ≤ Mn ≤ 140] = P[
120 − 133
140 − 133
≤Z≤
] = P[−3.13 ≤ Z ≤ 1.68] = 0.4994+0.4535 = 0.9529.
4.158
4.158
2. Est-il vraisemblable qu’un échantillon de 28 individus chois au hasard dans la population donne un
score moyen inférieur à 120 ?
P[Mn < 120] = P[Z <
120 − 133
] = P[Z < −3.13] = 0.5 − 0.4994 = 0.0006.
4.158
Cette probabilité étant trop petite, on peut alors conclure qu"’avec un risque d’erreur de 0.0006 que
l’échantillon n’est pas choisi au hasard dans la population générale.
3. Si on n’a pas l’hypothèse de normalité, on doit alors choisir un échantillon de taille n > 30 et utiliser
aussi la loi normale.
0.3.2
Estimation
Si µ et σ sont inconnus. On note me , sen et sˆen respectivement la moyenne, l’écart-type et l’écart type
corrigé de l’échantillon.
• Cas n > 30.
1. On se donne une confiance c = 1 − α avec α le risque d’erreur.
2. Dans la table de la loi normale, on cherche la valeur zα telle que φ(zα ) =
confiance : c
risque d’erreur : α
zα
0, 9 0, 95
0, 1 0, 05
1, 645 1, 96
0, 96
0, 98
0, 99
0, 04
0, 02
0, 01
2, 054 2, 326 2, 575
1−α
2
= 2c .
0, 995
0, 005
2, 81
3. Avec la confiance c = 1 − α, on peut affirmer que µ se trouve dans l’intervalle :
Iα (µ) = [me − aα , me + aα ]
où
aα = zα . √
sen
sˆe
= zα . √n
n
n−1
4. Exemple. On a choisit au hasard un échantillon de 45 sujets phobiques sociaux et obtenu un
score moyen me = 90 et un écart type se = 23.5. Donner une estimation du score moyen de la
population constituée des phobiques sociaux avec une confiance de 95%
• On a une confiance c = 0.95 et donc un risque d’erreur α = 0.05. Comme la taille de
l’échantillon est supérieure à 30, on utilise la table de la loi normale qui donne zα = 1.96.
5
• La marge de l’estimation aα est
aα = zα √
se
23.5
= 1.96 √ = 6.94.
n−1
44
• L’intervalle de confiance de la moyenne µ inconnue est
[me − aα; me + aα ] = [90 − 6.94; 90 + 6.94] = [83.06; 96.94].
• Cas n < 30. On doit avoir l’hypothèse "X suit une loi normale."
1. On se donne une confiance c = 1 − α, où α est le risque d’erreur.
2. Dans la table de la loi de Student, on cherche tα telle que P [−tα 6 Tn 6 tα ] = c/2.
Cela revient à lire sur la table de Student la valeur tα avec p = α2 pour n − 1 degrés de liberté
( d.d.l).
confiance : c
0, 9
0, 95 0, 96 0, 98 0, 99
risque d’erreur : α
0, 1
0, 05 0, 04 0, 02 0, 01
lire sur la table pour p = 0, 05 0, 025 0, 02 0, 01 0, 005
3. Avec la confiance c = 1 − α, on peut affirmer que µ se trouve dans l’intervalle :
Iα (µ) = [me − aα , me + aα ]
où
aα = tα . √
sen
sˆe
= tα . √n
n
n−1
4. On a choisit au hasard un échantillon de 27 individus qui ont une personnalité évitante et
constaté un score moyen de me = 80 et un écart type corrigé sˆe = 19.3. En admettant que les
scores varie comme une loi normale, donner une estimation de la moyenne avec une confiance
de 95%.
• Comme on travaille avec un petit échantillon et que la distribution statistique est supposée
normale, on doit utiliser la loi de Student. Comme n = 27 le nombre de degrés de liberté est
n − 1 = 26. La table de student nous donne pour une confiance c = 0.95 la valeur tα = 2.055.
• La marge de l’estimation est : ( ici on nous donne l’écart type corrigé)
sˆe
19.3
aα = tα √ = 2.055 √ = 7.63.
n
27
• L’intervalle de confiance de la moyenne inconnue µ est
I0.95 (µ) = [me − aα ; me + aα ] = [80 − 7.63; 80 + 7.63] = [72.37; 87.63].
0.3.3
Taille de l’échantillon
La taille minimale de l’échantillon pour avoir une précision h avec une confiance c = 1 − α est :
n > zα2
(se )2
+ 1.
h2
On doit alors avoir un échantillon de référence ou une estimation ponctuelle de l’écart type pour
effectuer ce calcul.
6
0.4
Cas d’une variance
Dans une population P de taille N, on désigne par X une variable statistique suivant une loi N (µ, σ).
On prélève ensuite dans P un échantillon E de taille n.
0.4.1
Échantillonnage
Pn
On note Vn = n1 i=1 (xi − Mn )2 la variance aléatoire sur les échantillons de taille n choisis au hasard
dans la population. On utilise la variable :
Y =
0.4.2
nVn
σ2
qui suit une loi de χ2 à n − 1 ddl.
Estimation
Si σ est inconnue.
On note respectivement se et sˆe l’écart type et l’écart type corrigé de l’échantillon.
1. On se donne une confiance c = 1 − α où α est le risque d’erreur.
2. On cherche dans la table de la loi du χ2 à n − 1 ddl les valeurs :
1−c
α
=
2
2
α
1+c
x2 lu pour p = 1 − =
2
2
Ce qui revient à lire sur la table du χ2 de la façon suivante :
x1
lu pour p =
confiance : c
0, 9
risque d’erreur : α
0, 1
lire sur la table pour chercher x1 : p = 0, 05
lire sur la table pour chercherx2 : p = 0, 95
0, 95
0, 05
0, 025
0, 975
0, 96
0, 04
0, 02
0, 98
0, 98 0, 99
0, 02 0, 01
0, 01 0, 005
0, 99 0, 995
3. Avec la confiance c = 1 − α, on peut affirmer que σ se trouve dans l’intervalle :
r
r i h r
h rn
n
n − 1 e n − 1i
e
e
e
,s
= sˆ
, sˆ
Iα (σ) = s
x2
x1
x2
x1
4. Exemple Donner une estimation de l’écart type de la population de ceux qui une personnalité évitante. sachant que l’échatillon de 27 individus a donné un écart type corrigé sˆe = 19.3 soit aussi un
écart type de se = 18.94.
• comme on a 27 individus, on utilise la table du χ2 en prenant n − 1 = 26ddl. Pour une confiance
c = 0.95 on doit chercher les valeurs x1 et x2 en prenant comme probabilité 1−c
= 0.025 et
2
1+c
=
0.975.
On
trouve
x
=
13.844
et
x
=
41.923.
1
2
2
• l’intervalle de confiance de l’écart type σ de la population est donné par :( On peut utiliser soit
l’écart type ou l’écart type corrigé en prenant la bonne formule correspondante.)
r
r
h rn − 1 rn − 1i h
i
26
26 i h
e
e
I0.95 (σ) = sˆ
, sˆ
= 19.3
; 19.3
= 15.2; 24.45
x2
x1
41.923
13.844
7