Cours - C. Holtzmann
Transcription
Cours - C. Holtzmann
Dans la suite, si X est une variable aléatoire, on posera donc (X1 , . . . , Xn ) un n-échantillon de X. Chapitre 11 Théorèmes limites et statistique inférentielle — Commentaires : En statistiques, on souhaite en général décrire les caractéristiques théoriques (espérance, variance et loi) d’une variable aléatoire X à partir d’un n-échantillon observé. Commentaires : En statistiques descriptive, on a souvent à faire à des variables dont on ne connait pas les caractéristiques théoriques (espérance, variance, ou loi). Or, ce sont des informations capitales si on veut pouvoir établir des résultats théoriques (par exemple si on veut évaluer le comportement d’un matériau inconnu ou faire des prévisions sur les réalisations futures de la variable) Exemple : On s’intéresse à une pièce déséquilibrée et on se demande quelle est la probabilité d’obtenir Pile. Instinctivement, la proportion observée de "Piles" sur une suite de lancers devrait être assez proche de la probabilité théorique. C’est-à-dire que, si X est une variable de Bernoulli de succès "obtenir un pile", on a Xn = La seule possibilité est donc de faire un certain nombre d’observations et d’essayer d’en déduire un comportement théorique. X1 + . . . + Xn ' P ("obtenir un pile") n Cette intuition résultat repose sur la loi faible des grands nombres que nous allons décrire dans ce chapitre. Afin d’obtenir des approximations élémentaires des espérances et variances, nous aurons besoin des résultats de la première partie ("loi faible des grands nombres") On différencie ainsi les paramètres théoriques (que l’on cherche souvent à déterminer) et les résultats observés. On distingue donc en particulier : Afin de pouvoir simplifier les comportements asymptotiques des échantillons observés sans trop de perte d’information, nous nous appuierons ensuite sur le "théorème central limite" (partie II) — la moyenne théorique E[X] et la moyenne empirique Xn = — la variance théorique V (X) et la variance empirique Sn2 = Définition : Dans tout le chapitre, sauf précision, le terme variable aléatoire désignera une variable aléatoire réelle finie, ou discrète, ou à densité. De plus les suites de variables aléatoires (Xn ) seront systématiquement construites sur un même espace probabilisé. Soit X une variable aléatoire. Un estimateur d’un paramètre θ (généralement E[X] ou V (X)) est une suite (Tn ) de variables aléatoires où : Loi faible des grands nombres 1 Tn dépend du n-échantillon (X1 , . . . , Xn ) Tn donne des informations sur θ, généralement Tn ' θ pour n grand. La valeur de Tn ainsi obtenue sera appelée estimation du paramètre. Vocabulaire de l’échantillonnage et de l’estimation Exemple : Dans l’exemple précédent, on peut dire (pour l’instant intuitivement) que Xn est un estimateur de la probabilité du succès. Définition : Si X est une variable aléatoire, on appelle n-échantillon de X une n-liste (X1 , . . . , Xn ) de variables aléatoires mutuellement indépendantes et de même loi que X. Xn )2 . — la loi et l’histogramme d’un n-échantillon Et pour finir, afin d’évaluer l’erreur commise par le remplacement de la valeur théorique par la valeur empirique, nous utiliserons des "intervalles de confiance" (partir III) I X1 +...+Xn . n n P 1 (Xi − n i=1 Commentaires : Exemple : Soit X est le résultat d’un lancer de dés. Si on fait n lancers et qu’on note X1 , . . . , Xn les résultats des n lancers successifs, (X1 , . . . , Xn ) est un n-échantillon de X. 1 Lorsque l’on remplace la valeur théorique d’un paramètre par son estimateur, on comment certainement une erreur. On considère donc les notions ci-dessous Définition : Remarque : Si θ est le paramètre à estimer, on appelle erreur d’estimation la valeur Contrairement à la moyenne, Sn2 n’est pas sans biais. En effet, Err(Tn ) = Tn − θ E[Err(Sn )] = et on appelle biais d’un estimateur Tn la quantité B(Tn ) = E Err(Tn ) = E[Tn ] − θ. n−1 2 σ 6= σ 2 : n On a toutefois (et c’est rassurant !) E[Err(Sn )] ' σ 2 Ainsi, on dira qu’un estimateur est sans biais si B(Tn ) = 0. (Notations "locales") Proposition : pour n grand Démonstration : Soit X une variable aléatoire admettant un moment d’ordre 2. On note µ = E[X] et σ 2 = V (X). On pose la moyenne empirique Xn = E[Err(Sn2 )] X1 + . . . + Xn . n = n 1X E (Xi − Xn )2 n i=1 = n 1X E (Xi − µ + µ − Xn )2 n i=1 = n n n 1X 2X 1X E (Xi − µ)2 + E (µ − Xn )2 + E (Xi − µ)(µ − Xn ) n i=1 | n n {z } {z } {z } | | i=1 i=1 Alors Xn est un estimateur sans biais de µ. Démonstration : =σ 2 2 V (Xn )= σn ? La partie "estimateur" est à venir grâce à la loi faible des grands nombres. Or, ? Comme X admet un moment d’ordre 2 (donc 1), il en va de même pour tous les Xi . Ainsi, par linéarité de l’espérance, A 1 E[Xn ] = (E[X1 ] + . . . + E[Xn ]) = E[X] n d’où = Cov(Xi − µ, µ − Xn ) + E[X] E[Y ] | {z } = Cov(Xi − µ, µ − Xn ) 1 Cov (Xi − µ, nµ − (X1 + . . . + Xn )) n ! n X 1 Cov Xi − µ, (µ − Xk ) n =0 B(Xn ) = 0 = Remarque : = La moyenne empirique est un estimateur assez précis, au sens où, pour n grand, la dispersion est très faible : k=1 = V (Err(Xn )) −−−−−→ 0 : n→+∞ V (Err(Xn )) = V (Xn − µ) = V (Xn ) = 1 V n2 n P i=1 A n X 1 Cov (Xi − µ, µ − Xk ) n k=1 Xi = |{z} 2 σ n −−−−−→ 0 n→+∞ = Cov(Xi − µ, µ − Xi ) = −V (Xi − µ) = −V (Xi ) par indépendance des Xj Xi ind. Ainsi, E[Err(Sn2 )] Proposition : Soit X une variable aléatoire. On pose Sn2 = 1 n n P σ2 − σ2 n −−−−−→ 0 n→+∞ (Xi − Xn )2 . Alors Sn2 est un estima- i=1 teur de V (X). Remarque : Du résultat précédent, on tire également une variance corrigée Démonstration : En admettant que Xn ' E[X] (ce que nous démontrerons plus tard), on a Sn2 ' = Sn02 = n 1X (Xi − E[X])2 = V (X) n i=1 n n 1 X Sn2 = (Xi − Xn )2 n−1 n − 1 i=1 Ainsi, pour n grand, Sn02 sera également un estimateur de σ 2 et, de plus Sn02 est sans biais. 2 — Théorèmes limites et statistique inférentielle — Voilà pourquoi dans le cadre de l’étude d’échantillons, on trouvera le plus souvent dans la littérature l’utilisation de la variance corrigée. Ceci n’est toutefois pas un attendu du programme de BCPST. Démonstration : • Cas d’une variable discrète : On note Supp(X) = {xi | i ∈ N} les valeurs de X. (Toutes positives par hypothèse.) Alors, ———————– En Python : E(X) = Pour obtenir les caractéristiques de base d’un échantillon avec Python, les commandes sont les suivantes : +∞ P xi P (X = xi ) = i=0 +∞ P > i=0 from numpy import * xi >a +∞ P i=0 xi <a xi P (X = xi ) > a |{z} >a xi P (X = xi ) + | {z } >0 +∞ X xi P (X = xi ) i=0 xi >a P (X = xi ) = a P (X > a) i=0 xi >a | # Donnees est une liste de données obtenues à partir d’un échantillon {z } P (X>a) • Cas d’une variable à densité : On note f une densité de X. Notons que, comme X est positive, on peut supposer que f est nulle sur ] − ∞; 0[. # moyenne empirique Xn : mean(Donnees) # variance empirique Sn2 : var(Donnees) # écart-type empirique Sn ("standard deviation") : std(Donnees) # ou from math import * sqrt(var(Donnees)) # Les quartiles : median(Donnees) # 2eme quartile ou médiane # pour les autres : from scipy import stats stats.scoreatpercentile(Donnees,25) stats.scoreatpercentile(Donnees,50) d’avoir une médiane) stats.scoreatpercentile(Donnees,75) +∞ P Z +∞ xf (x) dx = xf (x) dx 0 Z +∞ Z−∞ a x f (x) dx xf (x) dx + |{z} a 0 | {z } >a Z +∞>0 Z +∞ af (x) dx = a f (x) dx > a P (X > a) 0 |a {z } Z E(X) = = > +∞ (X > 0) P (X>a) Théorème (Inégalité de Bienaymé-Tchebychev) : # 1er quartile # (autre manière Si X est une variable aléatoire admettant un moment d’ordre 2, alors elle vérifie l’inégalité P (|X − E(X)| > ) 6 # 3eme quartile V (X) 2 ∀ > 0 Démonstration : 2 On pose Y = |X − E(X)|2 . Y est une variable aléatoire positive. Comme X admet un moment d’ordre 2, alors E(|X − E(X)|2 ) existe (c’est la variance de X) et donc, d’après l’inégalité de la proposition précédente, on a Inégalités Lemme (Inégalité de Markov) : P (|X − E(X)|2 > 2 ) 6 Si X est une variable aléatoire réelle positive admettant une espérance, alors elle vérifie l’inégalité E(X) P (X > a) 6 ∀a > 0 a i.e. E(|X − E(X)|2 2 ∀ > 0 V (X) 2 ∀ > 0 P (|X − E(X)| > ) 6 Remarque : Commentaires : Ce résultat confirme en particulier que la probabilité que X prenne des valeurs très grandes est forcément petite. (Ceci est d’ailleurs trivial sur les variables finies...) On constate que plus est grand, plus la probabilité devient faible. Autrement dit, X ne peut s’éloigner de manière trop importante de son espérance qu’avec une probabilité faible. 3 — Théorèmes limites et statistique inférentielle — 3 Théorème (Théorème de Bernoulli) : Loi faible Soit (Xn )n∈N une suite de variables aléatoires indépendantes suivant une même loi de X1 + . . . + Xn Bernoulli B(p). Alors, si on pose Xn = , on a n lim P |Xn − p| > = 0 Théorème (Loi faible des grands nombres) : Soit (Xn )n∈N une suite de variables aléatoires (i.e. Cov(Xi , Xj ) = 0 i deux à deux non corrélées, ii admettant toutes la même espérance µ, iii et admettant toutes la même variance, alors la moyenne Xn = n→+∞ ∀i 6= j) Démonstration : C’est la loi faible appliquée aux variables de Bernoulli. X1 + . . . + Xn vérifie n lim P |Xn − µ | > = 0 n→+∞ |{z} Commentaires : ↑ E(Xn ) Cet exemple justifie en particulier que si on répète un grand nombre de fois une épreuve de Bernoulli B(p), la fréquence du nombre de succès se rapproche fatalement de la probabilité de succès p. La théorie confirme donc l’intuition. De plus, ceci confirme que Démonstration : C’est une application du théorème de Bienaymé-Tchebychev. On note Xn est un estimateur de E[X]. Sn = X1 + . . . + Xn . Par linéarité de E, on a E(Sn ) = nµ, d’où E(Xn ) = µ. II Approximations de lois et première forme du théorème central limite Comme les variables sont non corrélées, on a également V (Sn ) = V (X1 ) + . . . + V (Xn ) = nσ 2 , Sn 1 = σ2 . d’où V (Xn ) = V n n D’après l’inégalité de Bienaymé-Tchebytchev, on a P (|Xn − µ| > ) 6 1 Approximation de lois discrètes par d’autres lois discrètes 1.a σ2 n2 Approximation d’une loi hypergéométrique par une loi binomiale Théorème : Le passage à la limite achève la démonstration. Soit n ∈ N∗ et p ∈ [0; 1]. On pose (XN )N >n une suite de variables aléatoires t.q. Commentaires : L(Xn ) = H(n, N, p) La loi faible des grands nombres signifie qu’en quelque sorte, Xn converge vers son espérance, c’est-à-dire que la moyenne des variables aléatoires devient forcément de plus en plus proche de leur espérance. Ceci vaut en particulier pour des variables Xk qui suivent une loi de Bernoulli, comme le traduit ci-dessous un théorème déjà intuitivement bien connu ... alors, pour tout k ∈ J0; nK, on a ∀N > n lim P (XN = k) = N →+∞ n k k p (1 − p)n−k N p∈N Commentaires : Remarque : L’interprétation de ce théorème est que, si le nombre N de boules dans une urne devient grand, à proportion constante, un tirage sans remise de n boules peut être considéré comme une tirage avec remise. Dans le théorème, on peut remplacer la première hypothèse par : "X1 , . . . , Xn deux à deux indépendantes" comme par exemple dans le theorème ci-dessous, corollaire immédiat du théorème précédent. En pratique, on estime que, dès que N > 10n, on peut approcher la loi H(n, N, M ) par la loi binomiale B n, M N 4 — Théorèmes limites et statistique inférentielle — Démonstration : Démonstration : Soit k ∈ J0; nK. Si k 6 M, en notant M = pN , on a P (Xn = k) = = = = N n M !(N − M )!n!(N − n)! k!(M − k)!(n − k)!(N − M − n + k)!N ! M !(N − M )!(N − n)! n! k!(n − k)! (M − k)!(N − M − n + k)!N ! | {z } = Soit k ∈ N fixé, n > k et λ ∈]0; +∞[. On a N −M n−k M k n k P (Xn = k) = = ! n M . . . (M − k + 1) (N − M ) . . . (N − M − n + k + 1) N . . . (N − n + 1) k ! n M . . . (M − k + 1) (N − M ) . . . (N − M − n + k + 1) k N . . . (N − k + 1) (N − k) . . . (N − n + 1) An Le numérateur et le dénominateur ont tous les deux n facteurs, indpépendant de N . La limite du produit est donc le produit des limites. Or, lim N →+∞ N p∈N lim et N →+∞ N p∈N D’où pN − j M −j = lim =p N →+∞ N − j N −j Or, An = Bn n(n − 1) . . . (n − k + 1) n n−1 n−k+1 = ... −−−−−→ 1 nk n n n } n→+∞ {z | k fois ∀j = 0 . . . k − 1 N p∈N et N −M −j N − pN − j = lim =1−p ∀j = 0 . . . n − k − 1 N →+∞ N − k − j N −k−j N p∈N k n−k lim P (Xn = k) = n k p (1 − p) N →+∞ n−k λ λ = e(n−k) ln(1− n ) Bn = 1 − n Or, N p∈N = ! n−k k n λ λ 1− k n n k n−k λ λ n! 1− k!(n − k)! n n n−k λk n! 1 λ 1 − k! (n − k)! nk n | {z }| {z } λ (n − k) ln 1 − n ∼ n→+∞ −(n − k) λ n ∼ n→+∞ −λ Exemple : On suppose que X suit la loi H(10, 100, 20). • Calcul exact : P (X > 1) = 1 − P (X = 0) = 1 − 20 0 80 10 100 10 D’où Bn −−−−−→ e−λ puis la limite annoncée : limn→+∞ P (Xn = k) = =1− n→+∞ 1 × 80 × . . . × 71 ' 0, 905 100 × . . . × 91 En pratique, on estime que, dès que n > 30 et p 6 0, 1, on peut approcher la loi binomiale B(n, p) par la loi de Poisson P(np). • Calcul approché : On a 10n = 10 × 10 = 100 6 N . On peut donc approcher le résultat par la loi M B(n, ) = B(10; 0, 2) N 0 10 10 D’où P (X > 1) ' 1 − P (X = 0) = 1 − 10 0 (0, 2) (0, 8) = 1 − (0, 8) ' 0, 893 1.b λk −λ e k! (Voilà pourquoi on appelle quelquefois la loi de Poisson la "loi des événements rares".) Approximation d’une loi binomiale par une loi de Poisson Exemple : On considère une variable aléatoire X suivant une loi B(50; 0, 05). On souhaite calculer P (X = 3). • Calcul exact : 50 × 49 × 48 3 47 P (X = 3) = 50 (0, 05)3 (0, 95)47 ' 0, 2199 3 (0, 05) (0, 95) = 3×2 Théorème : λ Si (Xn )n∈N∗ est une suite de variables aléatoires suivant respectivement une loi B(n, ), n avec λ > 0, alors λk lim P (Xn = k) = e−λ ∀k ∈ N n→+∞ k! 5 • Calcul approché : On a n = 50 > 30 et p 6 0, 1. On peut donc approcher B(50; p) par la loi P(np) = P(2, 5) 3 −2,5 2, 5 D’où P (X = 3) ' e ' 0, 214 3×2 — Théorèmes limites et statistique inférentielle — 2 D’après le TCL, on peut donc estimer que Théorème central limite : première forme P (240 < Sn 6 260) 2.a Le théorème ' φ(1, 55) − φ(−1, 55) = 2φ(1, 55) − 1 ' 0.879 Remarque : Dans le théorème précédent, si on note Tn = X1 + . . . + Xn , on a également Définition : Yn∗ = Soit Y une variable aléatoire réelle admettant une variance non nulle. Alors, lorsque l’on note Y −µ µ = E(Y ), σ 2 = V (Y ) et Y ∗ = σ on appelle Y ∗ la variable centrée réduite associée à Y . (car E(Y ) = 0 et V (Y ) = 1). Tn − nµ Yn − µ √ = √ = Tn∗ σ/ n σ n Les exemples suivants seront rédigés grâce à Tn∗ . Théorème central limite (ou de la limite centrée) ; première forme : 2.b Appl 1 : approximation d’une loi binomiale par une loi normale Soit (X1 , . . . , Xn ) un n-échantillon d’une variable aléatoire X. On note Théorème de Moivre-Laplace : X1 + . . . + Xn Xn − µ √ et Xn ∗ = n σ/ n ¯ avec a < b, on obtient que pour tout a, b ∈ R Z b 2 1 lim P (a < Xn ∗ 6 b) = √ e−t /2 dt = φ(b) − φ(a) n→+∞ 2π a µ = E(X), σ 2 = V (X), Xn = Soit (Sn )n∈N∗ une suite de variables aléatoires qui suivent respectivement une loi B(n, p), ¯ ou a < b, on a où p ∈]0; 1[. Alors, pour tous a, b ∈ R ! Z b t2 1 Tn − np 6 b −−−−−→ φ(b) − φ(a) = √ P a< p e− 2 dt n→+∞ σ 2π a np(1 − p) où φ est la fonction de répartition associée à la loi N (0; 1). Démonstration : admise. Démonstration : C’est tout simplement la traduction du théorème central limite à une suite de variables de Bernoulli. En effet, on pose (Xn )n∈N∗ est une suite de variables aléatoires indépendantes suivant une même loi B(p), de manière à ce que Sn = X1 + . . . + Xn . Alors elles sont mutuellement indépedantes de même loi admettant une variance p(1 − p) non nulle D’après le TCL, on a Exemple : On choisit 500 fois au hasard un nombre compris entre 0 et 1. Quelle est la probabilité que la somme de ces nombres soit comprise entre 240 (strictement) et 260 ? ————– Solution ————– On introduit les variables aléatoires Xi correspondant au nombre obtenu au ième choix. Alors, les variables X1 , . . . , X500 sont mutuellement indépedantes de même loi uniforme U([0; 1]), (telle que µ = E(X1 ) = 1/2) admettant une variance non nulle σ 2 = P (a < Xn∗ 6 b) −−−−−→ Φ(b) − Φ(a) n→+∞ 1 12 Or En posant Sn = X1 + . . . + Xn , on a alors, Sn /n − µ 260/n − µ 240/n − µ √ √ √ P (240 < Sn 6 260) = P < 6 σ/ n σ/ n σ/ n = P Xn∗ = 240/500 − 0, 5 Sn /n − µ 260/500 − 0, 5 √ √ √ < 6 σ/ n 1/ 500 × 12 1/ 500 × 12 | | {z } {z } α'−1,55 Tn /n − p Tn − np Tn − np √ = √ = p σ/ n nσ np(1 − p) Dans la pratique, on estime que l’on peut approcher la loi de Yn∗ par une N (0; 1) dès que n > 30, np > 5 et n(1 − p) > 5. β'1,55 6 — Théorèmes limites et statistique inférentielle — Remarque : Si la loi de Yn∗ peut être approchée par une loi normale, cela signifie que la loi Sn , i.e. Exemple : On reprend l’exemple précédent en utilisant une correction de continuité. P (20 6 Tn 6 30) B(n, p), peut être approchée par une loi N np, np(1 − p) . = = p (car Tn = np(1 − p)Yn∗ + np). En pratique, on utilisera plutôt la variable Yn∗ , parce que l’on dispose des valeurs de φ. = Exemple : On lance un dé équilibré 100 fois. On souhaite approximer la probabilité pour que le nombre de 3 soit compris entre 20 et 30 (au sens large). P (α < Yn∗ 6 β) ' φ(β) − φ(α) ' φ(3, 712) − φ(0, 760) ' 0, 9999 − 0, 7764 ' 0, 2235 B(n, p), où p = 1/6. À titre d’information, le calcul effectué par ordinateur donne environ 0,2195 . . . > 5 et n(1 − p) = 100 × 5/6 ('83) > 5. Tn − np ∗ peut donc être approchée par la loi normale D’après le TCL, la variable Yn = p np(1 − p) centrée réduite N (0; 1). D’où On a n > 30, np = 100/6 ('17) P (20 6 Tn 6 30) = = = ' 19, 5 − 100/6 30, 5 − 100/6 ∗ < Yn 6 p P p 100 × 5/36 100 × 5/36 | {z } | {z } α'0,760 β'3,712 P (α < Z 6 β) où Z N (0; 1) Ainsi, d’après les tables de la loi normale, On note Tn la variable aléatoire donnant le nombre de 3 dans la série de lancés. Alors Tn ' P (19, 5 < Tn 6 30, 5) ! Sn /n − p 19, 5 − np 30, 5 − np √ P p 6 p < σ/ n np(1 −p) np(1 − p) 2.c P (19 < Tn 6 30) ! Tn /n − p 19 − np 30 − np √ P p < 6 p σ/ n np(1 −p) np(1 − p) Appl 2 : approximation d’une loi de Poisson par une loi normale Théorème : 19 − 100/6 30 − 100/6 ∗ p p P < Y 6 n 100 × 5/36 100 × 5/36 | | {z } {z } α'0,626 β'3,578 P (α < Z 6 β) où Z N (0; 1) Soit (Tn )n∈N∗ une suite de variables aléatoires qui suivent respectivement une loi P(nλ), ¯ ou a < b, on a où λ > 0. Alors, pour tous a, b ∈ R P (a < Tn∗ 6 b) −−−−−→ φ(b) − φ(a). n→+∞ Ainsi, d’après les tables de la loi normale, Démonstration : P (α < Yn∗ 6 β) ' φ(β) − φ(α) ' φ(3, 578) − φ(0, 626) ' 0, 9998 − 0, 7357 ' 0, 2651 Correction de continuité Encore une fois, ce n’est que l’application du TCL à la suite (Sn )n∈N∗ . En effet, on peut écrire que pour tout n ∈ N Tn = X1 + . . . + Xn , où (Xn )n∈N∗ est une suite de variables aléatoires mutuellement indépendantes, de même loi de Poisson P(λ) (et donc de variance σ 2 = λ non nulle.) Lorsque l’on approche une loi discrète par une loi continue, on a un problème d’approximation du type suivant : Si X suit une loi discrète (par exemple entière), on a par exemple P (10 6 X 6 15) = P (9, 9 < X 6 15, 3) = . . . Évidemment, l’approximation s’en trouve donc légèrement modifiée. On souhaite alors équilibrer l’erreur obtenue "de chaque coté de X". La solution la moins douloureuse en général consiste donc à introduire une correction de continuité, c’est-à-dire, si n et m sont deux entiers, on écrira P (n 6 X 6 m) = P (n − 0, 5 < X 6 m + 0, 5) Remarque : • En pratique, on estime que l’on peut approcher la loi de Tn∗ par N (0; 1) si nλ > 18. 7 • Pour λ > 18, la loi P(λ) peut être approchée par N (λ, λ). — Théorèmes limites et statistique inférentielle — Théorème TCL (deuxième forme) : Exemple : On pose n = 30 et λ = 0, 5. On suppose que X suit une loi P(nλ) = P(15). On cherche P (X 6 14). Dans la table de la loi de Poisson, on peut lire en particulier que P (X 6 14) ' 0, 4657. L’approximation par loi normale donne : P (X 6 14) = = ' Soit (X1 , . . . , Xn ) un n-échantillon d’une variable aléatoire X. On note µ = E(X), Xn = n 1X Xi , n i=1 et Sn2 = n 1X (Xi − Xn )2 n i=1 ¯ avec a < b, on obtient que pour tous a, b ∈ R Z b 2 1 Xn − µ √ 6b = √ lim P a < e−t /2 dt = φ(b) − φ(a) n→+∞ Sn / n 2π a P (X 6 14, 5) (correction de continuité) X − nλ 14, 5 − nλ X − nλ 14, 5 − 15 √ √ √ P( 6 ) = P( √ 6 ) 15 nλ nλ nλ | {z } 1 − φ(0, 1291) ' 0, 5 − 0, 0517 = 0, 4483 α'−0,1291 où φ est la fonction de répartition associée à la loi N (0; 1). 3 Les approximations en bref Remarque : Par rapport à la première version, on a remplacé σ par Sn . Ceci revient à remplacer Xn − µ √ . Xn ∗ par Sn / n Remarquez que Xn Condition On peut approcher par N > 10n H(n, N, M ) n > 30 et p 6 0, 1 B(n, p) P(np) n > 30, np > 5 et n(1 − p) > 5 B(n, p) N np, np(1 − p) λ > 18 P(λ) N (λ, λ). ∗ était la "centrée réduite" de Xn , ce qui n’est plus le cas de Xn − µ √ . Sn / n Le TCL est toutefois encore valable. B n, M N 2 III Intervalle de confiance et test de conformité 2.a Intervalle de confiance Commentaires : Par la loi faible des grands nombres, on sait que Xn est une approximation de µ, mais rien ne garantit qu’il faut effectivement prendre Xn et qu’un autre nombre proche ne conviendrait pas aussi. En réalité, on pourrait peut être prendre n’importe quel nombre dans un "voisinage proche" de Xn . La partie ci-dessous sert maintenant à définir comment on peut établir "raisonnablement" ce voisinage, au sens où on cherche un intervalle I dans lequel P (µ ∈ I) est élevé Intervalles de confiance et tests Théorème : 1 Deuxième forme du TCL Soit (X1 , . . . , Xn ) est un n-échantillon d’une variable aléatoire X d’espérance µ. En notant : n X1 + . . . + Xn 1X Xn = et Sn2 = (Xk − Xn )2 n n k=1 Commentaires : Alors, pour tout α ∈]0; 1[, on a Xn − µ Sn Sn √ < u1− α2 = P Xn − u1− α2 √ < µ < Xn + u1− α2 √ P −−−−−→ 1 − α Sn / n n n n→+∞ La première version du TCL utilise l’espérance µ et la variance σ de la variable X. Or, en statistiques inférentielles, on ne dipose pas de ces caractéristiques lorsqu’on étudie un caractère sur un échantillon de population. D’après la première partie, on sait néanmoins que l’on peut les approcher à l’aide (respect.) de Xn et Sn (notation de la partie I.) On souhaite donc savoir dans quel cadre le théorème central limite est encore valable : où φ(u1− α2 ) = 1 − 8 α . 2 — Théorèmes limites et statistique inférentielle — Définition : Démonstration : Soit (X1 , . . . , Xn ) est un n-échantillon d’une variable aléatoire X d’espérance µ. En notant : n X1 + . . . + Xn 1X Xn = et Sn2 = (Xk − Xn )2 n n k=1 h i S Sn Alors, pour tout α ∈]0; 1[, on note Iα = Xn − u1− α2 √nn < µ < Xn + u1− α2 √ l’intervalle n de confiance de niveau de confiance 1 − α. C’est une conséquence de la deuxième forme du théorème central limite. En effet, si u > 0, Posons Pn = P = P = P = P Xn − µ Sn /√n < u µ − Xn √ <u −u < Sn / n Sn Sn −u √ < µ − Xn < u √ n n Sn Sn Xn − u √ < µ < Xn + u √ n n Exemple : Un boulanger souhaite savoir s’il réussi à fabriquer ses pains de 500g à vue ou s’il a encore besoin de peser sa pâte. Il faut donc un test sur sa production de 200 pains de la journée et obtient des moyennes et variances empiriques de Mn = 505 Or, d’après le théorème central limite (version 2), on sait que Quel est l’intervalle de confiance de niveau 95% adapté à cette situation. ————– Pn = P µ − Xn √ <u −u < Sn / n −−−−−→ φ(u) − φ(−u) = 2φ(u) − 1 n→+∞ φ(u) = 1 − α 2 0.05 = 0.975 2 On trouve (avec Python par exemple) φ(1.95996 | {z }) ' 0.975 d’où 2φ(u) − 1 = 2(1 − u α )−1=1−α 2 Ainsi, √ Sn 1500 = 5.37 u √ = 1.95996 √ n 200 D’où l’intervalle de confiance Ainsi, P Solution ————– Tout d’abord, on cherche u tel que Ainsi, si φ(u) = 1 − Sn2 = 1500 Xn − µ Sn Sn < u = P Xn − u √ √ √ −−−−−→ 1 − α < µ < X + u n Sn / n n n n→+∞ I0.05 = [505 − 5.37; 505 + 5.37] = [499, 63; 510, 37] Étant donné que 500 ∈ Iα , on ne peut pas exclure le fait qu’il n’ait pas la main avec le risque de 5% de se tromper. Remarque : Commentaires : Dans l’exemple précédent, avec un niveau de confiance de 5%, on ne peut pas affirmer que le boulanger fait des pains de moyenne exactement 500g, mais seulemement qu’il fait des pains de poids compris entre 499, 63 et 510, 37 (ce qui est par ailleurs favorable au client). (cf. tests de conformité) Ce théorème dit que pour un échantillon de grande taille, la h i probabilité pour µ d’être Sn S α √n dans l’intervalle Iα = Xn − u1− α2 √ est d’environ 1 − α. < µ < X + u n 1− n n 2 Le nombre 1 − α représente donc la probabilité d’avoir raison en affirmant que µ ∈ Iα . (On veut donc en général 1 − α De même, α représente donc le risque de commettre une erreur en affirmant que µ ∈ Iα . (On veut donc en général α faible.) D’où la définition suivante : 9 — Théorèmes limites et statistique inférentielle — ————– Le calcul des valeurs précédentes avec Python : Avec Python, on peut simuler une variable aléatoire suivant une loi normale ainsi que sa fonction de répartition ou l’inverse de sa fonction de répartition : Exemple : Reprenons l’exemple du boulanger. Les données empiriques étaient Mn = 505 from scipy.stats import * va=norm() N (0, 1). # on crée une v.a. du nom de va qui suit va.rvs(10) va.pdf(x) x va.cdf(x) va.ppf(x) # réalise 10 tirages de va # rend la valeur de la fonction densité en Sn2 = 1500 Est-il raisonnable de penser que sa moyenne théorique est bien de 500g 1. Pour un risque de 5% ? 2. Pour un risque de 10% ? ————– Solution ————– • Pour un risque de 5%, l’intervalle de confiance était # rend φ(x) # rend φ−1 (x) I0.05 = [499, 63; 510, 37] On ne peut pas conclure sur le fait qu’il soit raisonnable de penser que µ = 500. • Pour un risque de 10%, le calcul de l’intervalle de confiance est [500.5; 509.5] Remarque : On peut conclure avec un risque de 10% de se tromper que µ 6= 500g, (mais le risque est important ici !) Les abréviations ci-dessus correspondent aux termes suivants : pdf cdf ppf # probability density fonction # cumulative density fonction # percent point function Commentaires : À ce stade, on ne pourra jamais affirmer que µ = Xn mais seulement rejeter cette hypothèse dans l’éventualité où µ 6∈ Iα . 2.b Test de conformité 2.c Application : intervalle de confiance d’une proportion Commentaires : La proposition ci-dessous (seconde forme du TCL, mais énoncé un peu différemment) sert également à évaluer s’il est raisonnable d’affirmer que µ 6= Xn . On suppose que X est une variable aléatoire suivant une loi binomiale B(n, p), avec n grand et p inconnu. Proposition : Soit (X1 , . . . , Xn ) est un n-échantillon d’une variable aléatoire X d’espérance µ. En notant : n X1 + . . . + Xn 1X Xn = et Sn2 = (Xk − Xn )2 n n k=1 10 Exemple : Un institut effectue un sondage sur les intentions de vote pour un candidat (noté A) aux prochaines présidentielles pour un candidat. On note p la proportion d’électeurs souhai— Théorèmes et statistique inférentielle — tant voter pour A et on souhaite évaluer p sans interroger les 66limites millions de français. Ne pouvant être certain du p exact, on souhaite déterminer un intervalle I tel que P (p ∈ I) = 1 − α Exemple : Pour le sondage précédente, l’institut décide d’interroger 200 français et observe que 122 d’entre eux souhaitent voter pour le candidat A avec une variance de 90. Déterminer l’intervalle de confiance à 5% de risque pour p. Pour ce faire, notons que X = X1 + . . . + Xn ————– où Xi ,→ B(p) représente la possibilité de succès au rang i On peut donc considérer que (X1 , . . . , Xn ) est un n-échantillon d’une même variable Z ,→ B(p). On aura donc p = E[Z] = ”µ” On a ici Z= 122 = 0.61 200 Attention, pour la variance de on a : r L’estimateur de p est donc Z Attention, pour la variance, il faut considérer que Sn2 = Solution ————– n 1X (Xk − Z)2 n Sn2 = k=1 90 ' 9, 49 2002 de plus, et on peut donc établir un intervalle de confiance : φ−1 (1 − P (µ ∈ Iα ) = 1 − α Donc Autrement dit, P (p ∈ Iα ) = 1 − α 11 0, 05 ) = φ−1 (0, 975) ' 1, 96 2 9, 49 Iα = 0.61 − √ 200 — —