Sujet de la session 2014-2015
Transcription
Sujet de la session 2014-2015
Projet de MASTER 2 d'analyse statistique de données réelles Guillaume SAINT PIERRE IFSTTAR/COSYS/LIVIC Institut français des sciences et technologies des transports, de l'aménagement et des réseaux Département Composants & Systèmes Laboratoire sur les Interactions Véhicules-Infrastructure-Conducteurs 20 avril 2015 Table des matières 1 Préambule : 1 2 Régression linéaire multiple 1 1.1 1.2 1.3 2.1 2.2 2.3 2.4 2.5 2.6 Critères d'évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Présentation du rapport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Remise du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quelques rappels . . . . . . . . . . . Les données . . . . . . . . . . . . . . Estimation des paramètres et analyse Selection et comparaison de modèles Prediction . . . . . . . . . . . . . . . Analyse de données de Fitness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . de la qualité du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 1 2 3 4 5 5 3 Tests statistiques 5 4 Analyse de variance multivariée à un facteur 5 Analyse de données réelles 7 8 3.1 3.2 Tests pour un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tests pour deux échantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 5 6 1 Préambule : Le projet pourra être réalisé en binôme. L'objectif de ce projet est de vous initier à toutes les étapes nécessaires à la production d'un rapport d'analyse de données réelles : du nettoyage et de l'importation des données brutes jusqu'à leur traitement statistique et leur présentation formelle. 1.1 Critères d'évaluation Le barème de notation est à peu près de 1 point par question. En outre, 1 point sera réservé à l'appréciation générale des commentaires (pertinence de ceux ci par rapport au sujet), ainsi qu'à la présentation et la qualité des tableaux et graphiques contenus dans le rapport. Des points peuvent être enlevés en cas de copie trop évidente d'une page web ou d'une autre copie. La note peut donc être dans un premier temps supérieure à 20, mais est ensuite recalée entre 0 et 20 après réception et notation de toutes les copies. La totalité des documents sera accessible sur le site http ://g.saintpierre.online.fr. 1.2 Présentation du rapport Une attention particulière sera portée à la présentation du rapport. La rédaction du rapport obéira aux règles classiques : page de garde, table des matières, introduction, rédaction, conclusion. Il ne devra pas dépasser 30 pages et pourra comporter 10 pages d'annexes au maximum (soit 40 pages max au total). Le corps du texte comportera quelques sorties numériques et/ou graphiques obtenues avec SAS judicieusement choisies. Quelques précisions sur les sorties pourront être données en annexes. Sur le rapport devront gurer une adresse électronique et un numéro de téléphone où l'on peut joindre les auteurs. 1.3 Remise du projet lundi 1er juin 2015 La remise de ce sujet est xée au . Elle se fera par un envoi de courrier électronique avec accusé de réception à l'adresse [email protected]. Le projet en luimême consistera en un document au format pdf, ps, ou word, auquel sera joint le code sas (chier séparé et compressé, an de pouvoir en vérier la bonne exécution). 2 2.1 Régression linéaire multiple Quelques rappels Nous rappelons que le modèle de régression linéaire multiple dans le cas Gaussien s'écrit sous la forme : yi = β0 + β1 x1i + β2 x2i + . . . + βp xpi + i , i = 1, . . . , n où les i sont des variables aléatoires i.i.d. N (0, σ 2 ). Ce modèle peut aussi s'écrire sous forme matricielle : y = Xβ + L'estimation des paramètres β par moindres carrés est donnée par : βˆ = (X 0 X)−1 X 0 y, et les valeurs prédites sont dénies par yˆ = X βˆ = Hy, On dispose des critères suivants pour juger de la qualité du modèle : Coecient de détermination : R = = Coecient de détermination ajusté : Radj = 1 − (1 − R ) P (y − yˆ ) , où yˆ Predicted residual sum of squares : P RESS = de y obtenue en supprimant la i-ème observation Test de Student : H : β = 0 contre H : β 6= 0 Test global de Fisher : H : β = β = . . . = β = 0 contre H : l'un des β ky−ˆ yk ky−¯ yk 2 SSE SST 2 n−1 n−p−1 n i=1 i 2 (i) 2 (i) est l'estimation i 0 j 1 j 6= 0 Lorsque l'on supprime certaines covariables X1 , . . . , Xq , q < p on peut utiliser le coecient de détermination ajusté Radj 2 et la statistique de Mallows Cq pour comparer le modèle réduit et le modèle complet. : soit Rj le cosinus de l'angle entre X j et le sous espace vectoriel engendré par les variables Vj = V ect{X 1 , . . . , X j−1 , X j+1 . . . , X p }. Si Xj est linéairement indépendant des autres covariables, alors Rj est proche de 1 et plus la variance de βj est grande. On appelle 1 facteur d'ination de la variance (VIF) le coecient : Vj = 1−R 2 . Si Vj est grand, alors on 0 1 2 p 1 j Multicolinéarité j peut en conclure que la variable explicative Xj est fortement corrélée avec les autres variables explicatives. Comme dans le cas de la régression linéaire simple on peut dénir pour chaque observation : l'eet levier (diagonale de la matrice H ), les résidus standardisés et studentisés, la distance de Cook... 2.2 Les données Pour cette première partie, on dispose de données (Jobson, 1991) qui décrivent les résultats comptables de 80 entreprises du Royaume Uni. Les entreprises sont réparties aléatoirement en deux groupes de 40 entreprises qui se trouvent dans les chiers ukcomp1.dat et ukcomp2.dat. Un total de 13 variables ont été collectées qui décrivent les résultats comptables des entreprises. RETCAP est la variable à prédire : RETCAP Return on capital employed WCFTDT Ratio of working capital ow to total debt LOGSALE Log to base 10 of total sales LOGASST Log to base 10 of total assets CURRAT Current ratio QUIKRAT Quick ratio NFATAST Ratio of net xed as sets to total assets FATTOT Gross sixed assets to total assets PAYOUT Payout ratio WCFTCL Ratio of working capital ow to total current liabilities GEARRAT Gearing ratio (debt-equity ratio) CAPINT Capital intensity (ratio of total sales to total assets) INVTAST Ratio of total inventories to total assets Q. 1 Copier le chier ukcomp1.dat sur votre ordinateur. Utiliser une étape data pour créer une ukcomp1 contenant les variables indiquées ci-dessus sachant que les observations du chier ukcomp1.dat sont séparées par le caractère tabulation. Procéder ensuite à une analyse descriptive des table variables et de leurs liens potentiels, linéaires ou non. Décrire rapidement les principales caractéristiques du jeu de données fourni. 2.3 Q. 2 Estimation des paramètres et analyse de la qualité du modèle RET CAP en fonction des autres variables ukcomp1.dat. Dans la fenêtre Output, analyser les tableaux suivants : Analysis of variance : commenter les valeurs de R2 , Radj 2 , P RESS . Que peut-on déduire Faire la régression linéaire multiple de la variable de la table du test global de Fisher ? Parameters estimates : commenter les valeurs de la p-value pour le test de Student (nullité d'un coecient). Que pouvez-déduire des valeurs du VIF ? Quel est le lien entre VIF et écarttype des estimateurs ? Model cross products, Covariance of estimates et Correlation of estimates : que pouvezvous en déduire sur la multicolinéarité des variables explicatives ? Pour cette question, on pourra utiliser les options covb, Influence, tol, et vif de la proc REG. Les mot-clés covb, Influence, et vif correspondent respectivement à la matrice de variance-covariance des paramètres estimés, aux valeurs de l'eet levier pour chaque observation, aux valeurs du facteur d'ination de la variance pour chaque paramètre estimé. Q. 3 Tracer l'eet levier, les résidus standardisés et studentisés, la distance de Cook en fonction des observations. Quelles sont les observations qu'il faudrait examiner avec attention ? Que pouvez vous dire de la forme du graphe des résidus ? Expliquer et détailler vos conclusions. 2.4 Selection et comparaison de modèles Lorsque p est grand il n'est pas raisonnable d'explorer les 2p modèles possibles an de sélectionner le meilleur au sens de l'un des critères dénis précédemment (Radj 2 , Cq ...). Diérentes stratégies peuvent être choisies pour sélectionner un modèle parcimonieux (contenant moins de variables que le modèle complet). Nous en citerons quelques unes : Elimination • (backward selection) : l'algorithme démarre du modèle complet. A chaque étape, la variable associée à la plus grande p-valeur du test de Student est éliminée du modèle. La procédure s'arrête lorsque les variables restant dans le modèle ont des p-valeurs plus petites qu'un seuil xé par défaut (e.g. 0.05). Sélection • (forward selection) : à chaque pas, une variable est ajoutée au modèle. C'est celle dont la p-valeur associée au test de Fisher pour comparer deux modèles est minimale. La procédure s'arrête lorsque toutes les variables sont introduites ou lorsque la p-valeur reste plus grande qu'une valeur seuil xée par défaut (e.g. 0.05). Mixte • (stepwise selection) : cet algorithme introduit une étape d'élimination de variable après chaque étape de sélection an de retirer du modèle d'éventuelles variables qui seraient devenues moins indispensables du fait de la présence de celles nouvellement introduites. Global • L'algorithme de Furnival et Wilson est utilisé pour comparer tous les modèles possibles en cherchant à optimiser un critère choisi par l'utilisateur (Radj 2 , Cq ). Par souci d'économie, cet algorithme évite de considérer des modèles de certaines sous-branches de l'arborescence dont on peut savoir a priori qu'ils ne sont pas compétitifs. Q. 4 Estimer les paramètres du modèle complet comme précédemment. Itérer la procédure suivante : choisir parmi les variables explicatives celle Xj pour laquelle la p-value du test de Student est maximale. retirer cette variable du modèle et recalculer l'estimation. Le processus s'arrête lorsque tous les coecients sont considérés comme signicativement diérents de zéro pour un seuil pré-xé (e.g. 0.05). Attention, la variable β0 ne peut être considérée au même titre que les autres variables et il ne faut donc pas la retirer du modèle. / selection=backward slstay=0.05, / selection=forward slstay=0.05, / selection=stepwise slstay=0.05 dans la procédure reg pour générer des modèles concurrents. Utiliser ensuite / selection=rsquare cp adjrsq bic best=1 pour faire automatiquement de la sé2 lection de modèle globale. Dans ce dernier cas, conserver les modèles qui maximisent le Radj et qui minimisent le Cq . Utiliser les instructions et Analyser les diérences entre le modèle complet et les modèles obtenus par sélection. Que pouvez vous 2 2 déduire de la comparaison des R , Radj , P RESS , graphes des résidus ? Quelles sont les observations inuentes dans les diérents modèles ? 2.5 Prediction On se propose de comparer les valeurs eectivement observées sur le deuxième ensemble d'entreprises avec les prévisions calculées à l'aide de modèles estimés sur le premier ensemble. Q. 5 Copier le chier ukcomp2.dat ukcomp2 contenant les ukcomp2.dat sont séparées sur votre ordinateur. Créer une table variables décrites précédemment sachant que les observations du chier par le caractère tabulation. Concaténer les tables ukcomp1 et ukcomp2 (ensemble des entreprises). Imprimer la table Q. 6 ukcomp contenant fenêtre Output. pour créer une table ukcomp dans la 80 observations Estimer le modèle complet et les modèles obtenus par sélection sur les 40 premières observations et prévoir les 40 suivantes. Comparer les valeurs prédites et les valeurs observées en calculant la somme des carrés des erreurs. Déterminer le modèle qui minimise cette erreur de prédiction. 2.6 Analyse de données de Fitness On dispose de données (provenant de la librairie d'exemples de SAS) collectées lors de séances d'aérobie chez 31 personnes. Les 7 variables qui ont été mesurées sont les suivantes : age âge des sportifs weight poids des sportifs oxy consommation d'oxygène runtime temps de l'eort rstpulse mesure de pulsation cardiaque 1 runpulse mesure de pulsation cardiaque 2 maxpulse mesure de pulsation cardiaque 3 Les observations sont réparties aléatoirement en deux groupes de 16 et 15 personnes qui se trouvent respectivement dans les chiers fitness1.dat et fitness2.dat. On souhaite trouver un modèle de prédiction de la consommation d'oxygène (variable oxy) en fonction des autres variables. Q. 7 En utilisant les techniques d'analyse d'un modèle de régression linéaire multiple que vous avez vues précédemment, proposez un modèle (le plus simple et le meilleur possible) de la consommation d'oxygène en fonction des autres variables. 3 3.1 Q. 8 Tests statistiques Tests pour un échantillon On se place dans le cadre des tests portant sur la moyenne d'un échantillon supposé tiré selon une loi continu. Décrire brièvement les spécicités et le cadre d'application des tests de Student, de Wilcoxon, et des signes. Le chier mesure.don contient les résultats d'une mesure continue comprise entre 10 et 20, réalisée sur un échantillon de 12 individus indépendants. Les observations de cette mesure gurent en deuxième colonne du chier, la première indiquant les numéros des individus. On se pose la question de savoir si 14 peut être considéré comme un indicateur de tendance centrale pour cette mesure. Q. 9 {H0 : µ = 14}. Pour cela, mesure contenant les observations du chier mesure.don. créer une table SAS test contenant les quantités yi = xi − 14, i = 1, . . . , 12. utiliser la procédure univariate sur la table test. Créer une table SAS sortie contentant les valeurs des statistiques des trois tests ainsi que Utiliser les trois tests précédents pour tester l'hypothèse nulle créer une table SAS les p-valeurs associées. {H0 : µ = 14} {H1 : µ > 14} ? Pour quels tests pouvez vous rejeter l'hypothèse nulle question en prenant pour hypothèse alternative Q. 10 au seuil α = 0.05 ? Même Reprendre la question précédente pour tester si 15 peut être considéré comme un indicateur de tendance centrale pour cette mesure. Le chier course.don contient pour un échantillon de 10 individus indépendants (dont les numéros gurent en colonne 1), les temps réalisés lors d'une course de vitesse, avant (colonne 2) et après (colonne 3) une période d'entraînement. Il s'agit donc de mesures appariées. On s'interroge sur l'ecacité de cette période d'entraînement. Q. 11 Proposer trois statistiques diérentes, pour tester s'il existe une diérence dans les perfor- mances avant et après l'entraînement. Que pouvez vous conclure au seuil α = 0.05 ? Comment expli- quer les résultats donnés par le test des signes ? 3.2 Q. 12 Tests pour deux échantillons On se place dans le cadre des tests portant sur la comparaison entre deux échantillons indépen- dants. Décrire brièvement les spécicités et le cadre d'application des tests de Fisher, de Student, les approximations normales et de Satterthwaite du test de Student, ainsi que le test de Mann-Whitney. Le chier habil.don contient les performances réalisées par 2 groupes d'élèves à un test d'habileté manuelle (les scores sont entiers, compris entre 11 et 31). Le chier des données comporte un numéro pour chaque élève (de 01 à 18) dans la 1ère colonne, les scores dans la 2ème et le groupe d'appartenance (1 ou 2) dans la 3ème. Le problème est de savoir si les 2 groupes d'élèves sont homogènes relativement au test d'habileté manuelle. Q. 13 Utiliser les tests de Fisher, de Student et de Mann-Whitney pour tester l'égalité des fonctions de répartition qui correspondent aux deux échantillons. Pour cela, créer une table SAS utiliser la procédure habil contenant les observations du chier habil.don. ttest puis la procédure npar1way sur la table habil. A partir du test de Fisher, déterminer si on doit utiliser un test de Student exact ou bien une approximation (Normale ou Satterthwaite) ? Au seuil tests ? α = 0.05, que pouvez vous conclure de ces trois 4 Analyse de variance multivariée à un facteur En général, un modèle de classication a un facteur peut être déni par une variable à a niveaux (ou groupes). En notant yij le vecteur (p × 1) des réponses pour l'individu j du ième groupe, alors le modèle s'écrit : yij = µ + τi + ij , j=1,...,ni ; i=1,...,a, avec ij le vecteur aléatoire (p × 1) associé aux erreurs aléatoires supposées suivre une loi normale centrée et de matrice de variance-covariance Σ. L'eet propre au groupe i est noté τi (vecteur (p × 1)) et le vecteur µ (p × 1) représente l'eet moyen, ni étant le nombre d'observations du groupe i. On peut tester l'hypothèse nulle multivariée de l'absence de diérence de traitement entre les groupes (H0 : τ1 = τ2 = ... = τa ) en utilisant 4 tests multivariés diérents. Q. 14 Décrire brièvement ce que fait la PROC GLM et les principaux résultats générés par défaut. Décrire les 4 tests multivariés disponibles pour tester l'hypothèse d'égalité des eets dans le cas multivarié, leurs expressions et conditions d'application. Q. 15 Décrire les diérentes décompositions de la somme des carrés (Sum of Square) que SAS peut fournir en sortie de PROC GLM (i.e. type I, type II, type III et type IV sum of squares). Q. 16 Utiliser la PROC GLM avec l'option Manova pour analyser les données "Labos" fournies plus bas. Comparer les résultats des diérents tests multivariés et donner une conclusion sur l'hypothèse nulle. data Labos; input lab methode1 methode2; lines; 1 10.1 10.5 1 9.3 9.5 1 9.7 10.0 1 10.9 11.4 2 10.0 9.8 2 9.5 9.7 2 9.7 9.8 2 10.8 10.7 3 11.3 10.1 3 10.7 9.8 3 10.8 10.1 3 10.5 9.6 ; Q. 17 Expliquer ce que fait le code SAS ci dessous. Argumentez vos conclusions. proc glm data = Labos; class lab; model methode1 methode2 = lab/nouni; contrast 'Test : labos' lab 1 -1 0, lab 1 0 -1; manova/printe printh; run; Q. 18 Expliquer la diérence entre un plan d'expérience balancé et non-balancé, et décrire l'impact que cela peut avoir lors de l'usage de la PROC GLM pour une ANOVA a un puis deux facteurs. Q. 19 Reprendre l'analyse des données écoconduite et décrire le résultat d'une analyse de variance multivariée (Consommation de carburant et distance parcourue) à un facteur (sans système / avec système). 5 Analyse de données réelles Cette section considère l'application de l'ensemble des méthodes vues dans ce sujet à un jeu de données réel enregistré dans le cadre d'un projet de recherche récent (http ://www.ecodriverproject.eu/). Le jeu de données contient des valeurs d'indicateurs calculés pour une série de trajets en voiture. Ces trajets sont tous identiques (même route empruntée) et ont tous été eectués par des conducteurs indépendants. Les conducteurs ont par contre eectués plusieurs fois le trajet dans des conditions de route parfois identiques. Pour la première partie de cette étude, on pourra cependant considérer que les trajets sont indépendants entre eux. Voici les variables contenues dans le jeu de données écoconduite : Distance Distance (en m) DureeMilliSec Durée du trajet en millisecondes ConsoL100 Consommation moyenne en litre/100km TripID Numéro du trajet eectué par le conducteur Triptype Type de trajet : Sans système (SS) ou Android system (AS) Ctagdriverid Code identiant le conducteur MeanVitesse Vitesse moyenne (km/h) SumChangeVitesse Nb de changements de rapport de boite TempsArrete % de temps passé à l'arrêt TempsFreinMoteur % de temps passé avec le frein moteur TempsHorsConsigne % de temps au delà de la consigne SumArret Nombre d'arrêts MeanRMChangeVitUp Moyenne du régime moteur auquel se fait le vrai changement de rapport ascendant TFM Time Engine brake ArretParKm Nombre d'arrêts par km Nb de changements de rapport de boite par km ChangeVitParKm L'objectif de cette expérience était de tester l'eet de l'usage d'un système d'aide à l'écoconduite pour smartphones (Android system), en comparant avec des trajets identiques eectués en conditions normales (sans système, SS). Q. 20 En utilisant les méthodes de votre choix parmi celles étudiées dans ce sujet, et en argumentant vos conclusions et résultats, il vous est demandé de répondre aux questions suivantes : La consommation de carburant est elle signicativement réduite lorsque le système ecoDriver est utilisé ? Quels sont les facteurs (qualitatifs et quantitatifs) ayant un lien signicatif avec la consommation de carburant ? Proposer un modèle linéaire parcimonieux permettant de prédire la consommation de carburant sur ce trajet, en fonction des indicateurs mesurés. L'usage du système entraîne t'il une modication signicative de la vitesse moyenne ? du nombre de changements de rapports de boîte ? de l'usage du frein moteur ? de la durée des excès de vitesse ? Le temps passé à l'arrêt a t'il une inuence sur la consommation de carburant ? En regardant les règles d'or de l'écoconduite (cf par exemple : http://www.ecoconduite.org/), est il raisonnable de dire que ces règles de conduite sont mieux appliquées lorsque les conducteurs utilisent le système ecoDriver ? Argumentez.