modele de gains - Je peux peut-être répondre à vos besoins
Transcription
modele de gains - Je peux peut-être répondre à vos besoins
MAGISTERE INGENIEUR ECONOMISTE PREMIERE ANNEE AIX-MARSEILLE II Année Universitaire : 2009 - 2010 PROJET ECONOMETRIQUE : MODELE DE GAINS Jury : Stephen BAZEN et Isabelle CLERCQ Par : BAILLY Cynthia MOUSSA GARBA Abdoul Aziz VINETTE Hanta Joé 1 SOMMAIRE INTRODUCTION.....................................................................................................................3 1. SALAIRES, SEXE, AGES ET EXPERIENCE : ANALYSES DESCRIPTIVES..........4 1.1. Présentation des données..............................................................................................4 1.2. Analyses univariées......................................................................................................6 1.3. Existe-t-il des corrélations entre les variables ?...........................................................6 2. ESTIMATION ECONOMETRIQUE DU MODELE DE GAINS...................................6 2.1. Analyses multivariées et choix du modèle..................................................................6 2.2. Le modèle est-il globalement explicatif ?....................................................................7 2.3. Quels sont les effets des différentes variables sur le salaire ?......................................7 2.4. Peut-on parler de disparités salariales entre les hommes et les femmes ? ..................8 3. LA FIABILITE DES RESULTATS....................................................................................9 3.1. Le modèle défini est-il bien spécifié ?..........................................................................9 3.2. Les hypothèses stochastiques sont -elles vérifiées ?..................................................10 3.3. Le terme d'erreur suit -il une loi Normale ?...............................................................11 CONCLUSION........................................................................................................................14 BIBLIOGRAPHIE..................................................................................................................15 ANNEXES................................................................................................................................16 Définition de la variable âge de fin d'année d'études...........................................................16 Création des variables .........................................................................................................17 Statistiques descriptives ......................................................................................................18 Fréquence du salaire selon le sexe.......................................................................................19 Analyses univariées..............................................................................................................20 Recherche de corrélation entre les variables........................................................................22 Analyses multivariées...........................................................................................................22 Régression linéaire en MCO ...............................................................................................23 Test de Chow........................................................................................................................24 Test de Ramsey....................................................................................................................27 Le test de White....................................................................................................................28 Correction de White.............................................................................................................29 Test de la Normalité des résidus...........................................................................................30 2 INTRODUCTION Avec l’expansion de la mondialisation, les inégalités salariales en France sont toujours au cœur des débats économiques. Le salaire est la rémunération, en argent ou en nature, du facteur travail. Il prend une forme différente selon la catégorie de salarié concerné : on parle de traitement pour un fonctionnaire, de salaire pour un salarié, de solde pour un militaire… Tous les travailleurs ne perçoivent pas le même salaire car celui-ci est déterminé en fonction d’un certain nombre de facteurs. Quelles sont alors les facteurs explicatifs du salaire ? Pour y répondre, notre analyse s'inspire du modèle de gains de Mincer (1974) supposant que les salariés sont rémunérés à leur productivité marginale et que celle-ci augmente avec le capital humain. Ce dernier constitue l’ensemble des aptitudes, talents, qualifications, expériences accumulées par un individu et qui déterminent en partie sa capacité à travailler ou à produire pour lui-même ou pour les autres. Le modèle de Mincer se formalise donc par l’équation suivante : ln(Y) = c + rS + aE + bE2 + u , où Y désigne le revenu individuel, S, le nombre d’années d’études, E, l’expérience professionnel et u, le terme d’erreur représentant les facteurs non observés qui affectent le revenu. La constante c s’interprète comme le salaire de base sans capital humain. Quant à notre modèle, il exprime le salaire individuel en fonction du sexe, de l’expérience professionnelle et de son carré, et de l’âge de fin d’années d’études. Cette dernière variable peut représenter implicitement le nombre d’années d’éducation en supposant que l’âge de la scolarité obligatoire est de six ans. Dans une première partie, nous présentons quelques statistiques descriptives, corrélations et analyses univariées afin d’établir une première approche de la relation entre le sexe, l’expérience professionnelle, l’âge, l’âge de fin d’années d’études et le salaire individuel. Dans une deuxième partie, nous proposons ensuite une estimation économétrique de notre modèle de gains ainsi que les rendements de l’expérience professionnelle et de l’âge de fin d’années d’études. Enfin, dans une troisième partie, nous étudions la fiabilité des résultats obtenus. 3 1. SALAIRES, SEXE, AGES ET EXPERIENCE : ANALYSES DESCRIPTIVES 1.1. Présentation des données A partir de la base de données du DADS 2006, nous étudions un échantillon composé de 1924446 salariés. Nous choisissons d’observer leur salaire annuel de 2006, leur sexe, leur âge, leur âge de fin d’années d’études et leur expérience professionnelle. Pour réussir à traiter ces variables avec le logiciel SAS, nous avons recodé la variable sexe en une variable indicatrice hom et regroupé les catégories socioprofessionnelles selon leur âge de fin d’année d’études (fet)* que nous avons créé. Nous avons également défini les salaires logarithmiques (sal) comme les moyennes de chaque tranche de rémunération nette totale (trnneto)*. Les résultats obtenus sont donc des approximations. Enfin, nous avons construit la variable expérience comme la différence entre l’âge de l’individu et son âge de fin d’années d’études. Les statistiques descriptives essentielles sont données par le tableau 1. Tableau 1. Liste des variables observées Variable sal hom age fet exp Descriptif Nombre Ecart d'observa Moyenne Médiane type -tions salaire net total toutes périodes confondues y compris chômage indemnisé, exprimé en 1924446 logarithme 9.38 9.62 0.73 = 1 si homme = 0 sinon âge de l'individu âge de fin d'année d'études expérience (exp = age - fet) 9.46 9.28 38,1 19.73 18.48 38 20 18 11,82 2.31 11.70 1043240 881206 1922935 1901426 1899937 D’après le tableau 1, le nombre d’observations pour les variables age, fet et exp ne correspond pas à l’effectif total de l’échantillon. Le taux de non-réponse reste cependant faible : il est au plus de 1,27 % (1-(1899937/1924446)). Les informations que nous pouvons utiliser pour les estimations économétriques reflètent donc approximativement l’ensemble des salariés échantillonnés. Le tableau 1 donne également les moyennes des salaires en fonction du sexe. Nous constatons alors qu'en moyenne, les femmes perçoivent des salaires plus faibles que les hommes. Ce * Annexes 4 résultat est confirmé par le tableau 2 ci-dessous : les femmes se situent davantage dans les salaires inférieurs tandis que les hommes se retrouvent plus dans les salaires supérieurs. Tableau 2. Table de fréquence du sexe selon le salaire hom sal Col Pc 3.9120230 5.2958142 6.1081358 6.6839865 7.0470823 7.4082274 7.8238459 t 054 363 539 323 442 907 909 0 70.50 65.01 63.52 59.17 54.79 53.23 53.02 1 29.50 34.99 36.48 40.83 45.21 46.77 46.98 400 1086 5291 10214 17624 44888 59262 Total Table of hom by sal hom sal Col Pct Total Total 9,61 9,62 9,74 9,85 9,99 10,2 0 46.43 26.93 42.99 40.52 39.64 37.57 1 53.57 73.07 57.01 59.48 60.36 62.43 204594 214564 183917 149734 205517 160805 1924446 1.2. Analyses univariées Afin de déterminer les variables explicatives du salaire, nous effectuons des analyses univariées*. Les résultats sont illustrés dans le tableau 3 ci-dessous. Tableau 3. Paramètres estimés des analyses univariées Variable Paramètre estimé sqexp 0.00028 0.00021 0.02 0.019 0.06 0.17 sqage exp age fet hom * P-valeur de Student < 0.0001 < 0.0001 < 0.0001 < 0.0001 < 0.0001 < 0.0001 Annexes 5 Sur chaque paramètre estimé, nous testons à l'aide de Student l'hypothèse nulle suivante H0 : le coefficient du paramètre est nulle. Les résultats du tableau 3 montrent que la p-valeur de Student est inférieur à 0,05. Nous rejetons alors H0. Ainsi, chacune des variables influence le salaire. 1.3. Existe-t-il des corrélations entre les variables ? Le résultat de la « proc corr »* révèle que la corrélation entre l'âge et l'expérience s'élève 0,98076, ce qui est très important. Par conséquent, nous ne pouvons pas inclure dans le même modèle l'âge et l'expérience. Ainsi, les statistiques descriptives, les analyses univariées et la recherche de corrélation nous donnent une idée du modèle à estimer. L'estimation économétrique permet alors d'évaluer l'effet d'une variable sur le salaire ceteris paribus. 2. ESTIMATION ECONOMETRIQUE DU MODELE DE GAINS 2.1. Analyses multivariées et choix du modèle Nous estimons maintenant les 2 modèles suivants pour tout individu : sali = a + b*homi + c*agei + d*sqagei + e*feti + ui sali = a' + b'*homi + c'*expi + d'*sqexpi + e'*feti + vi où u et v sont les termes d'erreur. Pour choisir lequel des deux modèles à prendre, nous comparons leur R2, le coefficient de détermination, qui est le rapport entre la variance estimée et la variance observée. Les résultats de la régression en MCO* indiquent que le R2 du premier modèle (0,2169) est plus faible que celui du second modèle (0.2305). Nous retenons alors le deuxième modèle, car c'est le plus explicatif : 23 % de la variance observée des salaires sont expliqués par les variances du sexe, de l'expérience et de l'âge de fin d'année d'étude. 2.2. Le modèle est-il globalement explicatif ? Notre modèle s'écrit : sali = a + b*homi + c*expi + d*sqexpi + e*feti + vi. Comme le R2 est éloigné de 1, nous effectuons un test de Fisher avec H0 : a = b = c = d = e = 0. * Annexes 6 Les résultats du test de Fisher* , résumés dans le tableau 4, affichent une p-valeur de Fisher inférieur à 0.05. On rejette donc H0. Ainsi, le modèle est explicatif dans sa globalité. Tableau 4. Test de Fisher sur les paramètres estimés Variable sqexp exp fet hom Paramètre estimé -0.0014 0.07 0.06 0.20 P-valeur de Fisher < 0.0001 2.3. Quels sont les effets des différentes variables sur le salaire ? Les estimateurs des MCO fournissent directement l'effet marginal de la variable sur la variable à expliquer. − La significativité des effets Tester l'effet de la variable revient à déterminer si le coefficient associé à la variable est différent de 0 ou non. Nous appliquons alors un test de Student à chaque variable du modèle. Les résultats de ce test*, résumés dans le tableau 5, montrent que la p-valeur de Student est inférieur à 0,05. H0 est donc rejetée. L'effet de chaque variable est ainsi significatif. Tableau 5. Régression linéaire en MCO Variable Paramètre estimé sqexp -0.0014 0.07 0.06 0.20 exp fet hom P-valeur de Student < 0.0001 < 0.0001 < 0.0001 < 0.0001 − Le sens des effets D'après le tableau 5, on a δsal / δfet = 0,06. Une augmentation d'une année de l'âge de fin d'étude augmente alors de 6 % le salaire logarithmique. On constate également que le sexe a 7 un effet positif sur le salaire logarithmique : un homme recevra un supplément de salaire logarithmique de 0,20 par rapport à une femme. − Les effets non linéaires de l'expérience L'effet de l'expérience sur le salaire est défini par : δsal / δexp = c + 2*d*exp i . L'effet de l'expérience est alors composé d'un effet direct et d'un effet non direct. Réalisons un test de Student sur les coefficients c et d soit H01 : c = 0 et H02 : d = 0. Les résultats de la régression en MCO* (tableau 5) donnent une p-valeur de Student inférieure à 0,05 pour les deux coefficients. Les hypothèses nulles sont donc rejetées. Ainsi, l'expérience produit un effet non linéaire. On constate également que l'effet direct est positif (0,07) et que l'effet indirect est négatif (0,0014). Par conséquent, une augmentation de l'expérience augmente le salaire logarithmique, cet effet se ralentissant avec la hausse de l'expérience. Ainsi, un individu plus expérimenté percevra un salaire plus élevé, ceteris paribus, mais le supplément de salaire sera plus important en début de carrière qu'en fin de carrière. Ce résultat est bien en accord avec la théorie économique. 2.4. Peut-on parler de disparités salariales entre les hommes et les femmes ? Dans la première partie, les statistiques descriptives ont souligné la présence d'inégalités de salaires selon le sexe. Nous vérifions cette idée en réalisant un test de Chow*. Celui-ci consiste à diviser la population des salariés en deux sous-échantillons selon leur sexe afin de tester l'égalité ou non des sexes dans le salaire. On pose donc H0 : les coefficients estimés ne changent pas d'un sous-échantillon à l'autre. D'après les résultats du test de Chow*, la statistique du test de Chow vaut 3416.41 et la valeur critique de F(4, 1899929) est 2.37194. Comme la statistique de Chow est largement supérieur au Fisher, on rejette H0. Les coefficients estimés changent donc d'un échantillon à l'autre. Ainsi, il existe bien une inégalité salariale entre les hommes et les femmes. Tous nos résultats obtenus dans cette deuxième partie sont issus de l'estimation par les moindres carrés ordinaires (MCO). Nous devons alors analyser si la régression réalisée est bien spécifiée et si elle donne des estimateurs fiables. * Annexes 8 3. LA FIABILITE DES RESULTATS 3.1. Le modèle défini est-il bien spécifié ? Notre modèle comprend une variable explicative au carré (sqexp). On suppose donc qu'il est non linéaire. Pour savoir s' il est bien spécifié, nous effectuons le test de Ramsey qui se déroule en deux étapes. Premièrement, on estime notre modèle par la méthode des MCO et on retient la valeur prédite du salaire. Deuxièmement, on introduit le carré de la valeur prédite du salaire dans l'équation du modèle puis on teste avec un test de Student, H0 : le coefficient de la valeur prédite est nul. (Ici on effectue un test de Fisher : H0 : les coefficients des variables élevées à la puissance sont nuls). Dans les résultats du test de Reset*, résumés dans le tableau 6, la puissance de 2, les puissances de 2 et 3, les puissances de 2, 3 et 4 ont une p-valeur inférieur à 0.05. Donc, on rejette H0. Ainsi, le modèle est bien non linéaire. Tableau 6. Test de Ramsey Ramsey's RESET Test Power RESET Pr > F 2 144825.562 <.0001 3 74765.4948 <.0001 4 49857.8174 <.0001 3.2. Les hypothèses stochastiques sont -elles vérifiées ? Les hypothèses de Gauss-Markov imposent que : H1. E(vi) = 0 ; H2. Var(vi) = σ2 (homoscédasticité) ; H3. Cov(vi, vj) = 0 pour i ≠ j (nonautocorrélation du terme d'erreur) ; H4. Exogénéité des variables explicatives. Cependant, H1 est un postulat (qui ne peut être testé) et H3 est forcément vraie car avec des données transversales, il n' y a pas d'autocorrélation. Il nous reste alors que H2 et H4 à tester. − Existe-t-il de l' hétéroscédasciticité dans notre modèle ? * Annexes 9 Comme nos données sont transversales, le problème d' hétéroscédasticité peut se poser. Nous appliquons alors un test de White (complété par le test de Breusch-Pagan pour être sûr de la présence d' hétéroscédasticité) , car nous considérons que la source de l' hétéroscédasticité nous est inconnue. Le test de White se compose de deux étapes : on estime d'abord le modèle par la méthode des MCO et on retient le résidu. Puis, on estime la relation entre le résidu au carré de chaque observation et les variables du modèle, celles-ci élevées au carré. On teste alors H0 : les coefficients des variables explicatives au carré dans la régression auxiliaire sont nuls. Tableau 7. Test de White Heteroscedasticity Test Equation Test sal Statistic DF Pr > ChiSq Variables White's Test 59318 12 <.0001 Cross of all vars BreuschPagan 48773 <.0001 1, hom, exp, sqexp, fet 4 Les résultats des tests de White et de Breusch-Pagan * , illustrés dans le tableau 7, montrent que les p-valeurs du Chi-Deux pour les deux tests sont inférieures à 0,05. On rejette donc l'hypothèse nulle des deux tests. La variance de notre estimateur des MCO souffre d'un biais d'hétéroscédasticité. Notre estimateur des MCO est sans biais mais inefficace. Une correction de White s'impose alors pour obtenir des écarts types non biaisés. Le tableau 8 ci-dessous permet de comparer les écarts-types non corrigés avec ceux qui sont corrigés. Nous rappelons que notre modèle s' écrit : sali = a + b*homi + c*expi + d*sqexpi + e*feti + vi. Tableau 8. Comparaison des écarts-types après la correction de White Paramètre à estimer b c d e * Ecart-type sans correction 0.000943 0.000135 0.00000332 0.000204 Ecart-type corrigé 0.00206 0.000275 0.0000062 0.000407 Annexes 10 D'après le tableau 6, les écarts types corrigés diffèrent de ceux sans correction de White. Cela prouve bien que notre estimateur des MCO était bien biaisé et que nous devons préférer la régression avec la correction de White. − Les variables sont-elles endogènes ? La présence d'endogénéité biaise les paramètres estimés des variables explicatives. Elle est définie par une corrélation entre la variable explicative endogène et le terme d'erreur. Dans notre modèle, les variables exogènes sont le sexe (hom) et l'âge de fin d'année d'étude (fet), car le sexe est déterminé par la Nature et c'est nous qui avons défini la variable (fet). Nous soupçonnons l'endogénéité de la variable expérience (exp), car la variable exp est construite à partir de la variable fet. Pour tester si elle est endogène, nous devons réaliser un test d'Hausman. Pour ce faire, nous avons besoin d'une variable instrumentale corrélée avec la variable endogène expérience mais indépendante du salaire. Les instruments qui conviendraient sont l'habileté, le talent ou la motivation par exemple. Mais ces variables ne sont pas présentes dans la base de données. Par conséquent, nous ne pouvons pas effectuer le test d'Hausman. 3.3. Le terme d'erreur suit -il une loi Normale ? Nous allons déterminer graphiquement si le terme d'erreur suit une loi Normale à l'aide de la procédure univariée. Les résultats de cette procédure* , résumés dans le tableau 9, révèlent que l'espérance du terme de l'erreur est non nulle (Mu = -3.898E-11), ce qui contredit la théorie. Cela est conforté par le résultat des trois p-valeurs pour le test H0: Mu = 0 : elles sont toutes inférieures à 0.05. On rejette donc H0. Tableau 9. Test sur la nullité de l'espérance des résidus Tests for Location: Mu0=0 Test * Statistic p Value Student's t t -7.99E-8 Pr > |t| 1.0000 Sign M 198419.5 Pr >= |M| <.0001 Signed Rank S 1.538E11 Pr >= |S| <.0001 Annexes 11 En outre, la forme de l'histogramme et le tracé de la densité laissent penser que la distribution s'approche de la loi normale, comme le montre le graphique 1 ci-dessous. Graphique 1. Représentation des résidus Sur le graphique Probplot (graphique 2), on remarque que les déviations par rapport à la droite sont très prononcées, surtout celles qui sont en queue de distribution. La distribution n'est donc pas parfaitement normale. Graphique 2. Représentation des résidus (bis) 12 Quant au graphe Qqplot, il ne peut être tracé car, selon le journal de SAS, les valeurs des percentiles du résidu dépasse la valeur maximale par défaut. Par suite, la distribution des résidus du salaire n'est pas parfaitement normale, mais elle s'en y approche. Ainsi, notre modèle n'est pas entièrement fiable à cause de la présence d' hétéroscédasticité biaisant la variance. De plus, l'absence de variables instrumentales dans la base de données ne nous a pas permis de réaliser un test d'Hausman, ce qui affaiblit notre modèle. Quant aux résidus, leur distribution s'approche d'une distribution normale. 13 CONCLUSION En définitive, les facteurs explicatifs du salaire sont le sexe, l'expérience et l'âge de fin d'année d'études. D'une part, on a montré que la disparité salariale existe entre les hommes et les femmes : à caractéristiques égales, les femmes sont effectivement moins bien payées que les hommes. D'autre part, l'effet positif de l'expérience a tendance à baisser d'intensité au fil du temps : l'expérience augmente le salaire mais cette hausse diminue en fin de carrière. Enfin, l'âge de fin d'année d'études provoque un effet dynamisant sur le salaire : plus l'individu fera des études, plus son salaire sera élevé. Toutefois, d'autres facteurs déterminent le salaire tels que la catégorie socioprofessionnelle, la localisation géographique, la taille de l'établissement, etc. Ces données sont disponibles dans la base de données du DADS 2006. Mais nous ne les avons pas utilisé en raison de notre difficulté à coder les variables. Notre travail aurait été finalement plus complet si nous avions effectué des analyses univariées sur toutes les variables de la base de données. Ainsi, notre étude du modèle de gains est en adéquation avec la théorie du capital humain stipulant que les écarts de salaire traduisent le fait que les individus ne sont pas tous disposés à faire les mêmes investissements dans l'éducation ou la formation par exemple. 14 BIBLIOGRAPHIE Becker G. (1975) : « Human Capital » 2nd edition. Goux D. et Maurin E. (1994) : « Education, expérience et salaire : tendances récentes et évolution de long terme », Economie et Prévision, n° 116. Jarousse J.P. Et Mingat A. (1986) : « Un réexamen du modèle de gains de Mincer », Revue Economique, Vol. 37, n° 6. Mincer J. (1993) : « Human Capital and Earnings ». 15 ANNEXES • Définition de la variable âge de fin d'année d'études Code 0 10 67 68 69 53 64 62 63 65 52 CS Non renseigné Agriculteurs (salariés de leur exploitation) Ouvriers non qualifiés de type industriel Ouvriers non qualifiés de type artisanal Ouvriers agricoles Agents de surveillance Chauffeurs Ouvriers qualifiés de type industriel Ouvriers qualifiés de type artisanal Ouvriers qualifiés de la manutention, du magasinage et du transport Employés civils et agents de service de la Fonction Publique 54 Employés administratifs d'entreprises 55 Employés de commerce 56 Personnels des services directs aux particuliers 45 Professions intermédiaires administratives de la Fonction Publique 46 Professions intermédiaires administratives et commerciales des entreprises 47 Techniciens 48 Contremaîtres, agents de maîtrise 43 Professions intermédiaires de la santé et du travail social 42 Instituteurs et assimilés 35 Professions de l'information, des arts et des spectacles 37 Cadres administratifs et commerciaux d'entreprises 33 Cadres de la Fonction Publique 21 chefs d'entreprises artisanales 22 chefs d'entreprises industrielles ou commerciales de moins de 10 salariés 23 chefs d'entreprises industrielles ou commerciales de 10 salariés et plus 31 professionnels de la santé et avocats 38 Ingénieurs et cadres techniques d'entreprises 34 Professeurs, professions scientifiques 44 Clergé, religieux • Age de fin d'études . 16 18 20 21 23 28 Création des variables data tmp1.a (keep = cs sal age fet exp hom sqexp sqage sqfet); set tmp1.dads_06; if trnneto=00 then sal=log(100/2); 16 else if trnneto=01 then sal=log((100+299)/2); else if trnneto=02 then sal=log((300+599)/2); else if trnneto=03 then sal=log((600+999)/2); else if trnneto=04 then sal=log((1000+1299)/2); else if trnneto=05 then sal=log((1300+1999)/2); else if trnneto=06 then sal=log((2000+2999)/2); else if trnneto=07 then sal=log((3000+3999)/2); else if trnneto=08 then sal=log((4000+4999)/2); else if trnneto=09 then sal=log((5000+6999)/2); else if trnneto=10 then sal=log((7000+8999)/2); else if trnneto=11 then sal=log((9000+10999)/2); else if trnneto=12 then sal=log((11000+12499)/2); else if trnneto=13 then sal=log((12500+13999)/2); else if trnneto=14 then sal=log((14000+15999)/2); else if trnneto=15 then sal=log((16000+17999)/2); else if trnneto=16 then sal=log((18000+19999)/2); else if trnneto=17 then sal=log((20000+23999)/2); else if trnneto=18 then sal=log((24000+29999)/2); else if trnneto=19 then sal=log(30000/2); if cs in ("10", "53", "64", "67", "68", "69") then fet = 16; else if cs in ("62", "63", "65") then fet = 18; else if cs in ("52", "54", "55", "56") then fet = 20; else if cs in ("42", "43", "45", "46", "47", "48") then fet = 21; else if cs in ("21", "22", "23", "31", "33", "35", "37", "38") then fet = 23; else if cs in ("34", "44") then fet = 28; exp = age - fet; sqexp = exp**2; hom = (sexe = "1"); sqage = age**2; sqfet = fet**2; run; 17 • Statistiques descriptives proc corr data = tmp1.a; run; Simple Statistics Variabl e • N Mean Std Dev AGE 1922935 38.10111 11.82061 sal 1924446 9.37690 0.73408 fet 1901426 19.72701 2.30637 exp 1899937 18.47521 11.69907 sqexp 1899937 478.20157 474.54496 hom 1924446 0.54210 0.49822 sqage 1922935 1591 930.06098 sqfet 1901426 394.47409 92.96358 Fréquence du salaire selon le sexe proc freq data = tmp1.a ; tables hom*sal / norow nopercent nofreq; options nodate nonumber linesize=78 pagesize=64 formdlim='+'; run; Table of hom by sal hom sal Col P ct 3.9120230 5.2958142 6.1081358 6.6839865 7.0470823 7.4082274 7.8238459 054 363 539 323 442 907 909 0 70.50 65.01 63.52 59.17 54.79 53.23 53.02 1 29.50 34.99 36.48 40.83 45.21 46.77 46.98 Total 400 1086 5291 10214 17624 44888 59262 18 Table of hom by sal hom sal Col Pct 8,06 8,41 8,69 8,99 9,21 9,37 9,49 0 54.78 54.39 55.90 57.97 59.07 56.47 51.37 1 45.22 45.61 44.10 42.03 40.93 43.53 48.63 53517 48961 10104 8 106763 112806 106742 136713 Total Table of hom by sal hom sal Col Pct 9,61 9,62 9,74 9,85 9,99 10,2 0 46.43 26.93 42.99 40.52 39.64 37.57 1 53.57 73.07 57.01 59.48 60.36 62.43 204594 214564 183917 Total • Total 149734 205517 160805 1924446 Analyses univariées proc reg data = tmp1.a; model sal = age; model sal = exp; model sal = hom; model sal = fet; model sal = sqage; model sal = sqexp; run; 19 Parameter Estimates Variable Label Intercept Interce DF Parameter Standard Estimate Error t Value Pr > |t| 1 8.65234 0.00168 5139.3 7 <.000 1 1 0.01929 0.000042 458.07 11 <.000 1 pt AGE AGE Parameter Estimates Variable Label Intercept Interce Parameter DF Estimate 1 9.06752 0.000938 9664.6 21 9 <.000 1 1 0.01741 0.000042 405.85 90 <.000 1 pt exp Standard Error t Value Pr > |t| Parameter Estimates Variable Label Intercept Interce DF Standard Error t Value Pr > |t| 1 9.29734 0.000768 12095. 67 3 <.000 1 1 0.16922 <.000 1 pt hom Parameter Estimate 0.00104 162.22 Parameter Estimates Variable Label Intercept Interce DF Parameter Estimate 1 8.28051 0.00443 1867.8 6 <.000 1 1 0.05620 0.000223 251.80 19 <.000 1 pt fet Standard Error t Value Pr > |t| 20 Parameter Estimates Variable Label Intercept Interce DF Parameter Estimate 1 9.06091 0.00100 9022.9 6 <.000 1 1 0.0002053 5.431325E 378.13 8 -7 <.000 1 pt sqage Standard Error t Value Pr > |t| Parameter Estimates Variable Label Intercept Interce DF Parameter Estimate 1 9.25544 0.000730 12676. 14 3 <.000 1 1 0.0002797 0.000001 258.14 6 08 <.000 1 pt sqexp • Standard Error t Value Pr > |t| Recherche de corrélation entre les variables proc corr data = tmp1.a; run; 21 Pearson Correlation Coefficients Prob > |r| under H0: Rho=0 Number of Observations AGE AGE AGE sal fet exp sqexp hom sqage sqfet 1.00000 0.32299 0.13798 0.98076 0.93454 -0.00550 0.98826 0.14002 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 1922935 1922935 1899937 1899937 1899937 1922935 1922935 1899937 sal 0.32299 1.00000 0.17998 0.28245 0.18407 0.11710 0.27178 0.17494 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 1922935 1924446 1901426 1899937 1899937 1924446 1922935 1901426 fet 0.13798 0.17998 1.00000 -0.05805 -0.06993 -0.16585 0.12853 0.99530 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 1899937 1901426 1901426 1899937 1899937 1901426 1899937 1901426 exp 0.98076 0.28245 -0.05805 1.00000 0.95576 0.02549 0.97078 -0.05507 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 1899937 1899937 1899937 1899937 1899937 1899937 1899937 1899937 sqexp 0.93454 0.18407 -0.06993 0.95576 1.00000 0.01889 0.96667 -0.06636 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 1899937 1899937 1899937 1899937 1899937 1899937 1899937 1899937 hom -0.00550 0.11710 -0.16585 0.02549 0.01889 1.00000 -0.00342 -0.14720 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 1922935 1924446 1901426 1899937 1899937 1924446 1922935 1901426 sqage 0.98826 0.27178 0.12853 0.97078 0.96667 -0.00342 1.00000 0.13113 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 1922935 1922935 1899937 1899937 1899937 1922935 1922935 1899937 sqfet 0.14002 0.17494 0.99530 -0.05507 -0.06636 -0.14720 0.13113 1.00000 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 1899937 1901426 1901426 1899937 1899937 1901426 1899937 1901426 • Analyses multivariées proc reg data = tmp1.a; model sal = hom age fet sqage ; model sal = hom exp sqexp fet ; run; Model: MODEL1 Root MSE 0.63267 R- 0.2169 Dependent Mean 9.38922 Adj R- 0.2169 Coeff Var 6.73828 Square Sq 22 Model: MODEL2 Root MSE 0.63825 R- Square • 0.2305 Dependent Mean 9.38922 Adj R-Sq 0.2305 Coeff Var 6.79769 Régression linéaire en MCO proc reg data = tmp1.a; model sal = hom exp sqexp fet ; options nodate nonumber linesize=78 pagesize=64 formdlim='+'; run; The REG Procedure Model: MODEL1 Dependent Variable: sal Number of Observations Read 192444 6 Number of Observations Used 189993 7 Number of Observations with Missing Values 24509 Analysis of Variance Source Model Error Sum of Mean Square Squar F DF s e Value 4 Pr > F 21431 53579 13152 <.0001 5 5 1.9 77396 0.407 E6 3 36 Corrected Total 1.9 E6 98827 8 23 Root MSE 0.638 R25 Square 0.230 5 Dependent Mean 9.389 Adj R22 Sq 0.230 5 Coeff Var 6.797 69 Parameter Estimates Variable Parameter DF Estimate Standard Error t Value Pr > |t| Intercept 1 7.33606 0.00430 1705.7 7 <.000 1 hom 1 0.20030 0.000943 212.40 00 <.000 1 exp 1 0.07388 0.000134 548.54 68 <.000 1 sqexp 1 -0.00144 0.000003 32 434.35 <.000 1 fet 1 0.06435 0.000204 315.17 19 <.000 1 • Test de Chow /* Etape 1 : Estimation du modèle pour les hommes et cacul du ssr1*/ ods rtf file = "C:\Documents and settings\Bailly Cynthia\Bureau\sortie\iu.rtf"; proc reg data = tmp1.a; model sal = hom exp sqexp fet; output out = reshom r=rh; where hom = 1; options nodate nonumber linesize=78 pagesize=64 formdlim='+'; quit; run; ods rtf close; proc means data = reshom uss; var rh; options nodate nonumber linesize=78 pagesize=64 formdlim='+'; run; 24 The MEANS Procedure Analysis Variable : rh Residual Uncorrect ed SS 371436.3 7 /* ssr1 = 371436.37 */ /* Etape 2 : On estime le modèle pour les femmes et on calcule le ssr2 */ Analysis Variable : rf Residual Uncorrected SS 396999.48 /*ssr2 = 396999.48 */ /* Etape 3 : Etimation du modèle complet et calcul du ssrfull */ proc reg data = tmp1.a ; model sal = hom exp sqexp fet; output out = resid r = res; run; quit; ods rtf file = "C:\Documents and settings\Bailly Cynthia\Bureau\sortie\mn.rtf"; proc means data = resid uss; var res; options nodate nonumber linesize=78 pagesize=64 formdlim='+'; run; 25 ods rtf close; The MEANS Procedure Analysis Variable : res Residual Uncorrected SS 773962.98 /* ssrfull = 773962.98 La statistique du test de Chow est C = (((ssrfull - (ssr1 + ssr2))/k)/((ssr1 + ssr2)/(N - 2*k)), Donc C = (((773962.98 - (371436.37 + 396999.48))/4)/((371436.37 + 396999.48)/(1899937 2*4)), ie C = 1381.78/0.41 = 3416.41 Déterminons la valeur critique d'un F(4,1899937 -2*4)= F(4,1899929) au seuil de 5% : */ data b; input value; datalines; 0 ; run; data b; set b; value = quantile('F',0.95,4,1899929); run; ods rtf file = "C:\Documents and settings\Bailly Cynthia\Bureau\sortie\mng.rtf"; proc print data = b; run; ods rtf close; 26 Obs value 1 2.37194 /* La valeur critique de F(4, 1899929) est 2.37194. Comme la statistique de Chow est largement supérieur au Fisher, on rejette H0. Les coefficients estimés changent donc d'un échantillon à l'autre. Ainsi, il existe bien une inégalité salariale entre les hommes et les femmes. • Test de Ramsey proc autoreg data = tmp1.a; model sal = hom exp fet /reset; output out = ramsey r= resid p = predite; options nodate nonumber linesize=78 pagesize=64 formdlim='+'; run; The AUTOREG Procedure Dependent Variable sal Ordinary Least Squares Estimates SSE MSE SBC 850814.6 DFE 46 0.44781 Root MSE 3865470. AIC 83 Regress R-Square 0.1391 Total R-Square Durbin-Watson 1.0878 1899933 0.66919 3865421. 01 0.1391 27 Ramsey's RESET Test Power Variable DF Estimate RESET Pr > F 2 144825.5 <.000 62 1 3 74765.49 <.000 48 1 4 49857.81 <.000 74 1 Standard Approx Error t Value Pr > |t| Intercept 1 7.5801 0.004471 1695.5 <.0001 6 hom 1 0.2114 0.000988 213.89 <.0001 exp 1 0.0180 0.000041 432.33 <.0001 6 fet 1 0.0691 0.000214 323.01 <.0001 • Le test de White Proc model data = tmp1.a; parms a b c d; sal = a + b*hom + c*exp + d*sqexp + e*fet; fit sal / white breusch = (1 hom exp sqexp fet); run; quit; The MODEL Procedure Nonlinear OLS Summary of Residual Errors DF DF Equation Model Error sal SSE MSE Root MSE R-Square 5 19E5 77396 0.407 3 4 0.6383 Adj R-Sq 0.2305 0.230 5 28 Nonlinear OLS Parameter Estimates Approx Approx Parameter Estimate Std Err t Value Pr > |t| a 7.33606 0.0043 1705.7 <.0001 5 0 7 b 0.20029 0.0009 212.40 <.0001 7 43 c 0.07388 0.0001 548.54 <.0001 35 d -0.00144 3.323E- <.0001 6 434.35 e 0.06435 0.0002 315.17 <.0001 3 04 Number of Observations Used Statistics for System 189993 Objective 7 Missing 0.407 4 24509 Objective*N 77396 3 Heteroscedasticity Test Equation Test sal • Statistic DF Pr > ChiSq Variables White's Test 59318 12 <.0001 Cross of all vars BreuschPagan 48773 <.0001 1, hom, exp, sqexp, fet 4 Correction de White Proc model data = tmp1.a; parms a b c d; sal = a + b*hom + c*exp + d*sqexp + e*fet; fit sal / gmm; instruments b c d e; options nodate nonumber linesize=78 pagesize=64 formdlim='+'; run; 29 Nonlinear GMM Summary of Residual Errors DF DF Equation Model Error sal SSE MSE Root MSE R-Square 5 19E5 77396 0.407 3 4 0.6383 Adj R-Sq 0.2169 0.216 9 Nonlinear GMM Parameter Estimates Approx Approx Parameter Estimate Std Err t Value Pr > |t| a 7.33606 0.0087 839.50 <.0001 5 4 b 0.20029 0.0020 7 6 c 0.07388 0.0002 269.05 <.0001 75 d -0.00144 6.165E- <.0001 6 234.10 e 0.06435 0.0004 158.21 <.0001 3 07 Number of Observations Used • Statistics for System 189993 Objective 7 Missing 97.19 <.0001 24509 Objective*N 1.378E21 2.619E15 Test de la Normalité des résidus proc reg data = tmp1.a ; model sal = hom exp sqexp fet; output out = r_sal r=res_sal; run; quit; proc univariate data = r_sal; var res_sal; histogram res_sal / kernel; probplot res_sal / normal (mu = est sigma =est color =red); 30 qqplot res_sal / normal (mu = est sigma = est color = red); inset mean std; options nodate nonumber linesize=78 pagesize=64 formdlim='+'; run; The UNIVARIATE Procedure Variable: res_sal (Residual) Moments N 1899937 Sum Weights Mean 1899937 -3.699E-11 Sum -0.0000703 Std Deviation 0.63824968 Variance 0.40736266 Skewness -1.5808368 Kurtosis 4.0268441 Uncorrected SS 773962.984 Corrected SS 773962.984 Coeff Variation -1.7255E12 Std Error Mean 0.00046304 Observations Basic Statistical Measures Location Mean -0.00000 Std Deviation Median Mode Variability 0.63825 0.13173 Variance 0.40736 -0.30102 Range 11.28571 Interquartile Range 0.65195 Tests for Location: Mu0=0 Test Statistic p Value Student's t t -7.99E-8 Pr > |t| 1.0000 Sign M 198419.5 Pr >= | <.0001 1.538E11 Pr >= | <.0001 M| Signed Rank S S| 31