modele de gains - Je peux peut-être répondre à vos besoins

Transcription

modele de gains - Je peux peut-être répondre à vos besoins
MAGISTERE INGENIEUR ECONOMISTE PREMIERE ANNEE
AIX-MARSEILLE II
Année Universitaire : 2009 - 2010
PROJET ECONOMETRIQUE :
MODELE DE GAINS
Jury : Stephen BAZEN et Isabelle CLERCQ
Par :
BAILLY Cynthia
MOUSSA GARBA Abdoul Aziz
VINETTE Hanta Joé
1
SOMMAIRE
INTRODUCTION.....................................................................................................................3
1. SALAIRES, SEXE, AGES ET EXPERIENCE : ANALYSES DESCRIPTIVES..........4
1.1. Présentation des données..............................................................................................4
1.2. Analyses univariées......................................................................................................6
1.3. Existe-t-il des corrélations entre les variables ?...........................................................6
2. ESTIMATION ECONOMETRIQUE DU MODELE DE GAINS...................................6
2.1. Analyses multivariées et choix du modèle..................................................................6
2.2. Le modèle est-il globalement explicatif ?....................................................................7
2.3. Quels sont les effets des différentes variables sur le salaire ?......................................7
2.4. Peut-on parler de disparités salariales entre les hommes et les femmes ? ..................8
3. LA FIABILITE DES RESULTATS....................................................................................9
3.1. Le modèle défini est-il bien spécifié ?..........................................................................9
3.2. Les hypothèses stochastiques sont -elles vérifiées ?..................................................10
3.3. Le terme d'erreur suit -il une loi Normale ?...............................................................11
CONCLUSION........................................................................................................................14
BIBLIOGRAPHIE..................................................................................................................15
ANNEXES................................................................................................................................16
Définition de la variable âge de fin d'année d'études...........................................................16
Création des variables .........................................................................................................17
Statistiques descriptives ......................................................................................................18
Fréquence du salaire selon le sexe.......................................................................................19
Analyses univariées..............................................................................................................20
Recherche de corrélation entre les variables........................................................................22
Analyses multivariées...........................................................................................................22
Régression linéaire en MCO ...............................................................................................23
Test de Chow........................................................................................................................24
Test de Ramsey....................................................................................................................27
Le test de White....................................................................................................................28
Correction de White.............................................................................................................29
Test de la Normalité des résidus...........................................................................................30
2
INTRODUCTION
Avec l’expansion de la mondialisation, les inégalités salariales en France sont toujours au
cœur des débats économiques. Le salaire est la rémunération, en argent ou en nature, du
facteur travail. Il prend une forme différente selon la catégorie de salarié concerné : on parle
de traitement pour un fonctionnaire, de salaire pour un salarié, de solde pour un militaire…
Tous les travailleurs ne perçoivent pas le même salaire car celui-ci est déterminé en fonction
d’un certain nombre de facteurs. Quelles sont alors les facteurs explicatifs du salaire ?
Pour y répondre, notre analyse s'inspire du modèle de gains de Mincer (1974) supposant que
les salariés sont rémunérés à leur productivité marginale et que celle-ci augmente avec le
capital humain. Ce dernier constitue l’ensemble des aptitudes, talents, qualifications,
expériences accumulées par un individu et qui déterminent en partie sa capacité à travailler ou
à produire pour lui-même ou pour les autres. Le modèle de Mincer se formalise donc par
l’équation suivante : ln(Y) = c + rS + aE + bE2 + u , où Y désigne le revenu individuel, S, le
nombre d’années d’études, E, l’expérience professionnel et u, le terme d’erreur représentant
les facteurs non observés qui affectent le revenu. La constante c s’interprète comme le salaire
de base sans capital humain. Quant à notre modèle, il exprime le salaire individuel en fonction
du sexe, de l’expérience professionnelle et de son carré, et de l’âge de fin d’années d’études.
Cette dernière variable peut représenter implicitement le nombre d’années d’éducation en
supposant que l’âge de la scolarité obligatoire est de six ans.
Dans une première partie, nous présentons quelques statistiques descriptives, corrélations et
analyses univariées afin d’établir une première approche de la relation entre le sexe,
l’expérience professionnelle, l’âge, l’âge de fin d’années d’études et le salaire individuel.
Dans une deuxième partie, nous proposons ensuite une estimation économétrique de notre
modèle de gains ainsi que les rendements de l’expérience professionnelle et de l’âge de fin
d’années d’études. Enfin, dans une troisième partie, nous étudions la fiabilité des résultats
obtenus.
3
1. SALAIRES, SEXE, AGES ET EXPERIENCE : ANALYSES DESCRIPTIVES
1.1. Présentation des données
A partir de la base de données du DADS 2006, nous étudions un échantillon composé de
1924446 salariés. Nous choisissons d’observer leur salaire annuel de 2006, leur sexe, leur âge,
leur âge de fin d’années d’études et leur expérience professionnelle. Pour réussir à traiter ces
variables avec le logiciel SAS, nous avons recodé la variable sexe en une variable indicatrice
hom et regroupé les catégories socioprofessionnelles selon leur âge de fin d’année d’études
(fet)* que nous avons créé. Nous avons également défini les salaires logarithmiques (sal)
comme les moyennes de chaque tranche de rémunération nette totale (trnneto)*. Les résultats
obtenus sont donc des approximations. Enfin, nous avons construit la variable expérience
comme la différence entre l’âge de l’individu et son âge de fin d’années d’études. Les
statistiques descriptives essentielles sont données par le tableau 1.
Tableau 1. Liste des variables observées
Variable
sal
hom
age
fet
exp
Descriptif
Nombre
Ecart
d'observa Moyenne Médiane type
-tions
salaire net total toutes périodes confondues
y compris chômage indemnisé, exprimé en 1924446
logarithme
9.38
9.62
0.73
= 1 si homme
= 0 sinon
âge de l'individu
âge de fin d'année d'études
expérience (exp = age - fet)
9.46
9.28
38,1
19.73
18.48
38
20
18
11,82
2.31
11.70
1043240
881206
1922935
1901426
1899937
D’après le tableau 1, le nombre d’observations pour les variables age, fet et exp
ne
correspond pas à l’effectif total de l’échantillon. Le taux de non-réponse reste cependant
faible : il est au plus de 1,27 % (1-(1899937/1924446)). Les informations que nous pouvons
utiliser pour les estimations économétriques reflètent donc approximativement l’ensemble des
salariés échantillonnés.
Le tableau 1 donne également les moyennes des salaires en fonction du sexe. Nous constatons
alors qu'en moyenne, les femmes perçoivent des salaires plus faibles que les hommes. Ce
*
Annexes
4
résultat est confirmé par le tableau 2 ci-dessous : les femmes se situent davantage dans les
salaires inférieurs tandis que les hommes se retrouvent plus dans les salaires supérieurs.
Tableau 2. Table de fréquence du sexe selon le salaire
hom
sal
Col Pc 3.9120230 5.2958142 6.1081358 6.6839865 7.0470823 7.4082274 7.8238459
t
054
363
539
323
442
907
909
0
70.50
65.01
63.52
59.17
54.79
53.23
53.02
1
29.50
34.99
36.48
40.83
45.21
46.77
46.98
400
1086
5291
10214
17624
44888
59262
Total
Table of hom by sal
hom
sal
Col Pct
Total
Total
9,61
9,62
9,74
9,85
9,99
10,2
0
46.43
26.93
42.99
40.52
39.64
37.57
1
53.57
73.07
57.01
59.48
60.36
62.43
204594
214564
183917
149734 205517 160805
1924446
1.2. Analyses univariées
Afin de déterminer les variables explicatives du salaire, nous effectuons des analyses
univariées*. Les résultats sont illustrés dans le tableau 3 ci-dessous.
Tableau 3. Paramètres estimés des analyses univariées
Variable
Paramètre estimé
sqexp
0.00028
0.00021
0.02
0.019
0.06
0.17
sqage
exp
age
fet
hom
*
P-valeur de Student
< 0.0001
< 0.0001
< 0.0001
< 0.0001
< 0.0001
< 0.0001
Annexes
5
Sur chaque paramètre estimé, nous testons à l'aide de Student l'hypothèse nulle suivante H0 :
le coefficient du paramètre est nulle. Les résultats du tableau 3 montrent que la p-valeur de
Student est inférieur à 0,05. Nous rejetons alors H0. Ainsi, chacune des variables influence
le salaire.
1.3. Existe-t-il des corrélations entre les variables ?
Le résultat de la « proc corr »* révèle que la corrélation entre l'âge et l'expérience s'élève
0,98076, ce qui est très important. Par conséquent, nous ne pouvons pas inclure dans le même
modèle l'âge et l'expérience.
Ainsi, les statistiques descriptives, les analyses univariées et la recherche de corrélation nous
donnent une idée du modèle à estimer. L'estimation économétrique permet alors d'évaluer
l'effet d'une variable sur le salaire ceteris paribus.
2. ESTIMATION ECONOMETRIQUE DU MODELE DE GAINS
2.1. Analyses multivariées et choix du modèle
Nous estimons maintenant les 2 modèles suivants pour tout individu :
sali = a + b*homi + c*agei + d*sqagei + e*feti + ui
sali = a' + b'*homi + c'*expi + d'*sqexpi + e'*feti + vi
où u et v sont les termes d'erreur.
Pour choisir lequel des deux modèles à prendre, nous comparons leur R2, le coefficient de
détermination, qui est le rapport entre la variance estimée et la variance observée. Les
résultats de la régression en MCO* indiquent que le R2 du premier modèle (0,2169) est plus
faible que celui du second modèle (0.2305). Nous retenons alors le deuxième modèle, car
c'est le plus explicatif : 23 % de la variance observée des salaires sont expliqués par les
variances du sexe, de l'expérience et de l'âge de fin d'année d'étude.
2.2. Le modèle est-il globalement explicatif ?
Notre modèle s'écrit : sali = a + b*homi + c*expi + d*sqexpi + e*feti + vi. Comme le R2 est
éloigné de 1, nous effectuons un test de Fisher avec H0 : a = b = c = d = e = 0.
*
Annexes
6
Les résultats du test de Fisher* , résumés dans le tableau 4, affichent une p-valeur de Fisher
inférieur à 0.05. On rejette donc H0. Ainsi, le modèle est explicatif dans sa globalité.
Tableau 4. Test de Fisher sur les paramètres estimés
Variable
sqexp
exp
fet
hom
Paramètre estimé
-0.0014
0.07
0.06
0.20
P-valeur de Fisher
< 0.0001
2.3. Quels sont les effets des différentes variables sur le salaire ?
Les estimateurs des MCO fournissent directement l'effet marginal de la variable sur la
variable à expliquer.
− La significativité des effets
Tester l'effet de la variable revient à déterminer si le coefficient associé à la variable est
différent de 0 ou non. Nous appliquons alors un test de Student à chaque variable du modèle.
Les résultats de ce test*, résumés dans le tableau 5, montrent que la p-valeur de Student est
inférieur à 0,05. H0 est donc rejetée. L'effet de chaque variable est ainsi significatif.
Tableau 5. Régression linéaire en MCO
Variable
Paramètre estimé
sqexp
-0.0014
0.07
0.06
0.20
exp
fet
hom
P-valeur de Student
< 0.0001
< 0.0001
< 0.0001
< 0.0001
− Le sens des effets
D'après le tableau 5, on a δsal / δfet = 0,06. Une augmentation d'une année de l'âge de fin
d'étude augmente alors de 6 % le salaire logarithmique. On constate également que le sexe a
7
un effet positif sur le salaire logarithmique : un homme recevra un supplément de salaire
logarithmique de 0,20 par rapport à une femme.
− Les effets non linéaires de l'expérience
L'effet de l'expérience sur le salaire est défini par : δsal / δexp = c + 2*d*exp i . L'effet de
l'expérience est alors composé d'un effet direct et d'un effet non direct. Réalisons un test de
Student sur les coefficients c et d soit H01 : c = 0 et H02 : d = 0. Les résultats de la régression
en MCO* (tableau 5) donnent une p-valeur de Student inférieure à 0,05 pour les deux
coefficients. Les hypothèses nulles sont donc rejetées. Ainsi, l'expérience produit un effet non
linéaire.
On constate également que l'effet direct est positif (0,07) et que l'effet indirect est négatif (0,0014). Par conséquent, une augmentation de l'expérience augmente le salaire logarithmique,
cet effet se ralentissant avec la hausse de l'expérience. Ainsi, un individu plus expérimenté
percevra un salaire plus élevé, ceteris paribus, mais le supplément de salaire sera plus
important en début de carrière qu'en fin de carrière. Ce résultat est bien en accord avec la
théorie économique.
2.4. Peut-on parler de disparités salariales entre les hommes et les femmes ?
Dans la première partie, les statistiques descriptives ont souligné la présence d'inégalités de
salaires selon le sexe. Nous vérifions cette idée en réalisant un test de Chow*. Celui-ci
consiste à diviser la population des salariés en deux sous-échantillons selon leur sexe afin de
tester l'égalité ou non des sexes dans le salaire. On pose donc H0 : les coefficients estimés ne
changent pas d'un sous-échantillon à l'autre. D'après les résultats du test de Chow*, la
statistique du test de Chow vaut 3416.41 et la valeur critique de F(4, 1899929) est 2.37194.
Comme la statistique de Chow est largement
supérieur au Fisher, on rejette H0. Les
coefficients estimés changent donc d'un échantillon à l'autre. Ainsi, il existe bien une inégalité
salariale entre les hommes et les femmes.
Tous nos résultats obtenus dans cette deuxième partie sont issus de l'estimation par les
moindres carrés ordinaires (MCO). Nous devons alors analyser si la régression réalisée est
bien spécifiée et si elle donne des estimateurs fiables.
*
Annexes
8
3. LA FIABILITE DES RESULTATS
3.1. Le modèle défini est-il bien spécifié ?
Notre modèle comprend une variable explicative au carré (sqexp). On suppose donc qu'il est
non linéaire. Pour savoir s' il est bien spécifié, nous effectuons le test de Ramsey qui se
déroule en deux étapes. Premièrement, on estime notre modèle par la méthode des MCO et on
retient la valeur prédite du salaire. Deuxièmement, on introduit le carré de la valeur prédite du
salaire dans l'équation du modèle puis on teste avec un test de Student, H0 : le coefficient de
la valeur prédite est nul. (Ici on effectue un test de Fisher : H0 : les coefficients des variables
élevées à la puissance sont nuls). Dans les résultats du test de Reset*, résumés dans le tableau
6, la puissance de 2, les puissances de 2 et 3, les puissances
de 2, 3 et 4 ont une p-valeur inférieur à 0.05. Donc, on rejette H0. Ainsi, le modèle est bien
non linéaire.
Tableau 6. Test de Ramsey
Ramsey's RESET Test
Power
RESET
Pr > F
2
144825.562 <.0001
3
74765.4948 <.0001
4
49857.8174 <.0001
3.2. Les hypothèses stochastiques sont -elles vérifiées ?
Les hypothèses de Gauss-Markov imposent que :
H1. E(vi) = 0 ; H2. Var(vi) = σ2 (homoscédasticité) ; H3. Cov(vi, vj) = 0 pour i ≠ j (nonautocorrélation du terme d'erreur) ; H4. Exogénéité des variables explicatives.
Cependant, H1 est un postulat (qui ne peut être testé) et H3 est forcément vraie car avec des
données transversales, il n' y a pas d'autocorrélation. Il nous reste alors que H2 et H4 à tester.
− Existe-t-il de l' hétéroscédasciticité dans notre modèle ?
*
Annexes
9
Comme nos données sont transversales, le problème d' hétéroscédasticité peut se poser. Nous
appliquons alors un test de White (complété par le test de Breusch-Pagan pour être sûr de la
présence d' hétéroscédasticité) , car nous considérons que la source de l' hétéroscédasticité
nous est inconnue. Le test de White se compose de deux étapes : on estime d'abord le modèle
par la méthode des MCO et on retient le résidu. Puis, on estime la relation entre le résidu au
carré de chaque observation et les variables du modèle, celles-ci élevées au carré. On teste
alors H0 : les coefficients des variables explicatives au carré dans la régression auxiliaire sont
nuls.
Tableau 7. Test de White
Heteroscedasticity Test
Equation Test
sal
Statistic DF Pr > ChiSq Variables
White's Test
59318 12
<.0001 Cross of all vars
BreuschPagan
48773
<.0001 1, hom, exp, sqexp, fet
4
Les résultats des tests de White et de Breusch-Pagan * , illustrés dans le tableau 7, montrent
que les p-valeurs du Chi-Deux pour les deux tests sont inférieures à 0,05. On rejette donc
l'hypothèse nulle des deux tests. La variance de notre estimateur des MCO souffre d'un biais
d'hétéroscédasticité. Notre estimateur des MCO est sans biais mais inefficace. Une correction
de White s'impose alors pour obtenir des écarts types non biaisés. Le tableau 8 ci-dessous
permet de comparer les écarts-types non corrigés avec ceux qui sont corrigés.
Nous rappelons que notre modèle s' écrit : sali = a + b*homi + c*expi + d*sqexpi + e*feti + vi.
Tableau 8. Comparaison des écarts-types après la correction de White
Paramètre à
estimer
b
c
d
e
*
Ecart-type
sans
correction
0.000943
0.000135
0.00000332
0.000204
Ecart-type
corrigé
0.00206
0.000275
0.0000062
0.000407
Annexes
10
D'après le tableau 6, les écarts types corrigés diffèrent de ceux sans correction de White. Cela
prouve bien que notre estimateur des MCO était bien biaisé et que nous devons préférer la
régression avec la correction de White.
− Les variables sont-elles endogènes ?
La présence d'endogénéité biaise les paramètres estimés des variables explicatives. Elle est
définie par une corrélation entre la variable explicative endogène et le terme d'erreur.
Dans notre modèle, les variables exogènes sont le sexe (hom) et l'âge de fin d'année d'étude
(fet), car le sexe est déterminé par la Nature et c'est nous qui avons défini la variable (fet).
Nous soupçonnons l'endogénéité de la variable expérience (exp), car la variable exp est
construite à partir de la variable fet. Pour tester si elle est endogène, nous devons réaliser un
test d'Hausman. Pour ce faire, nous avons besoin d'une variable instrumentale corrélée avec la
variable endogène expérience mais indépendante du salaire. Les instruments qui
conviendraient sont l'habileté, le talent ou la motivation par exemple. Mais ces variables ne
sont pas présentes dans la base de données. Par conséquent, nous ne pouvons pas effectuer le
test d'Hausman.
3.3. Le terme d'erreur suit -il une loi Normale ?
Nous allons déterminer graphiquement si le terme d'erreur suit une loi Normale à l'aide de la
procédure univariée. Les résultats de cette procédure* , résumés dans le tableau 9, révèlent que
l'espérance du terme de l'erreur est non nulle (Mu = -3.898E-11), ce qui contredit la théorie.
Cela est conforté par le résultat des trois p-valeurs pour le test H0: Mu = 0 : elles sont toutes
inférieures à 0.05. On rejette donc H0.
Tableau 9. Test sur la nullité de l'espérance des résidus
Tests for Location: Mu0=0
Test
*
Statistic
p Value
Student's t
t
-7.99E-8 Pr > |t|
1.0000
Sign
M
198419.5 Pr >= |M|
<.0001
Signed Rank
S
1.538E11 Pr >= |S|
<.0001
Annexes
11
En outre, la forme de l'histogramme et le tracé de la densité laissent penser que la distribution
s'approche de la loi normale, comme le montre le graphique 1 ci-dessous.
Graphique 1. Représentation des résidus
Sur le graphique Probplot (graphique 2), on remarque que les déviations par rapport à la
droite sont très prononcées, surtout celles qui sont en queue de distribution. La distribution
n'est donc pas parfaitement normale.
Graphique 2. Représentation des résidus (bis)
12
Quant au graphe Qqplot, il ne peut être tracé car, selon le journal de SAS, les valeurs des
percentiles du résidu dépasse la valeur maximale par défaut.
Par suite, la distribution des résidus du salaire n'est pas parfaitement normale, mais elle s'en y
approche.
Ainsi, notre modèle n'est pas entièrement fiable à cause de la présence d' hétéroscédasticité
biaisant la variance. De plus, l'absence de variables instrumentales dans la base de données ne
nous a pas permis de réaliser un test d'Hausman, ce qui affaiblit notre modèle. Quant aux
résidus, leur distribution s'approche d'une distribution normale.
13
CONCLUSION
En définitive, les facteurs explicatifs du salaire sont le sexe, l'expérience et l'âge de fin
d'année d'études. D'une part, on a montré que la disparité salariale existe entre les hommes et
les femmes : à caractéristiques égales, les femmes sont effectivement moins bien payées que
les hommes. D'autre part, l'effet positif de l'expérience a tendance à baisser d'intensité au fil
du temps : l'expérience augmente le salaire mais cette hausse diminue en fin de carrière.
Enfin, l'âge de fin d'année d'études provoque un effet dynamisant sur le salaire : plus
l'individu fera des études, plus son salaire sera élevé.
Toutefois, d'autres facteurs déterminent le salaire tels que la catégorie socioprofessionnelle, la
localisation géographique, la taille de l'établissement, etc. Ces données sont disponibles dans
la base de données du DADS 2006. Mais nous ne les avons pas utilisé en raison de notre
difficulté à coder les variables. Notre travail aurait été finalement plus complet si nous avions
effectué des analyses univariées sur toutes les variables de la base de données.
Ainsi, notre étude du modèle de gains est en adéquation avec la théorie du capital humain
stipulant que les écarts de salaire traduisent le fait que les individus ne sont pas tous disposés
à faire les mêmes investissements dans l'éducation ou la formation par exemple.
14
BIBLIOGRAPHIE
Becker G. (1975) : « Human Capital » 2nd edition.
Goux D. et Maurin E. (1994) : « Education, expérience et salaire : tendances récentes et
évolution de long terme », Economie et Prévision, n° 116.
Jarousse J.P. Et Mingat A. (1986) : « Un réexamen du modèle de gains de Mincer », Revue
Economique, Vol. 37, n° 6.
Mincer J. (1993) : « Human Capital and Earnings ».
15
ANNEXES
•
Définition de la variable âge de fin d'année d'études
Code
0
10
67
68
69
53
64
62
63
65
52
CS
Non renseigné
Agriculteurs (salariés de leur exploitation)
Ouvriers non qualifiés de type industriel
Ouvriers non qualifiés de type artisanal
Ouvriers agricoles
Agents de surveillance
Chauffeurs
Ouvriers qualifiés de type industriel
Ouvriers qualifiés de type artisanal
Ouvriers qualifiés de la manutention, du magasinage et du transport
Employés civils et agents de service de la Fonction Publique
54
Employés administratifs d'entreprises
55
Employés de commerce
56
Personnels des services directs aux particuliers
45
Professions intermédiaires administratives de la Fonction Publique
46 Professions intermédiaires administratives et commerciales des entreprises
47
Techniciens
48
Contremaîtres, agents de maîtrise
43
Professions intermédiaires de la santé et du travail social
42
Instituteurs et assimilés
35
Professions de l'information, des arts et des spectacles
37
Cadres administratifs et commerciaux d'entreprises
33
Cadres de la Fonction Publique
21
chefs d'entreprises artisanales
22 chefs d'entreprises industrielles ou commerciales de moins de 10 salariés
23
chefs d'entreprises industrielles ou commerciales de 10 salariés et plus
31
professionnels de la santé et avocats
38
Ingénieurs et cadres techniques d'entreprises
34
Professeurs, professions scientifiques
44
Clergé, religieux
•
Age de fin d'études
.
16
18
20
21
23
28
Création des variables
data tmp1.a (keep = cs sal age fet exp hom sqexp sqage sqfet);
set tmp1.dads_06;
if trnneto=00 then sal=log(100/2);
16
else if trnneto=01 then sal=log((100+299)/2);
else if trnneto=02 then sal=log((300+599)/2);
else if trnneto=03 then sal=log((600+999)/2);
else if trnneto=04 then sal=log((1000+1299)/2);
else if trnneto=05 then sal=log((1300+1999)/2);
else if trnneto=06 then sal=log((2000+2999)/2);
else if trnneto=07 then sal=log((3000+3999)/2);
else if trnneto=08 then sal=log((4000+4999)/2);
else if trnneto=09 then sal=log((5000+6999)/2);
else if trnneto=10 then sal=log((7000+8999)/2);
else if trnneto=11 then sal=log((9000+10999)/2);
else if trnneto=12 then sal=log((11000+12499)/2);
else if trnneto=13 then sal=log((12500+13999)/2);
else if trnneto=14 then sal=log((14000+15999)/2);
else if trnneto=15 then sal=log((16000+17999)/2);
else if trnneto=16 then sal=log((18000+19999)/2);
else if trnneto=17 then sal=log((20000+23999)/2);
else if trnneto=18 then sal=log((24000+29999)/2);
else if trnneto=19 then sal=log(30000/2);
if cs in ("10", "53", "64", "67", "68", "69") then fet = 16;
else if cs in ("62", "63", "65") then fet = 18;
else if cs in ("52", "54", "55", "56") then fet = 20;
else if cs in ("42", "43", "45", "46", "47", "48") then fet = 21;
else if cs in ("21", "22", "23", "31", "33", "35", "37", "38") then fet = 23;
else if cs in ("34", "44") then fet = 28;
exp = age - fet;
sqexp = exp**2;
hom = (sexe = "1");
sqage = age**2;
sqfet = fet**2;
run;
17
•
Statistiques descriptives
proc corr data = tmp1.a;
run;
Simple Statistics
Variabl
e
•
N
Mean
Std Dev
AGE
1922935
38.10111
11.82061
sal
1924446
9.37690
0.73408
fet
1901426
19.72701
2.30637
exp
1899937
18.47521
11.69907
sqexp
1899937
478.20157
474.54496
hom
1924446
0.54210
0.49822
sqage
1922935
1591
930.06098
sqfet
1901426
394.47409
92.96358
Fréquence du salaire selon le sexe
proc freq data = tmp1.a ;
tables hom*sal / norow nopercent nofreq;
options nodate nonumber linesize=78 pagesize=64 formdlim='+';
run;
Table of hom by sal
hom
sal
Col P
ct
3.9120230 5.2958142 6.1081358 6.6839865 7.0470823 7.4082274 7.8238459
054
363
539
323
442
907
909
0
70.50
65.01
63.52
59.17
54.79
53.23
53.02
1
29.50
34.99
36.48
40.83
45.21
46.77
46.98
Total
400
1086
5291
10214
17624
44888
59262
18
Table of hom by sal
hom
sal
Col Pct
8,06
8,41
8,69
8,99
9,21
9,37
9,49
0
54.78
54.39
55.90
57.97
59.07
56.47
51.37
1
45.22
45.61
44.10
42.03
40.93
43.53
48.63
53517
48961 10104
8
106763
112806
106742
136713
Total
Table of hom by sal
hom
sal
Col Pct
9,61
9,62
9,74
9,85
9,99
10,2
0
46.43
26.93
42.99
40.52
39.64
37.57
1
53.57
73.07
57.01
59.48
60.36
62.43
204594
214564
183917
Total
•
Total
149734 205517 160805
1924446
Analyses univariées
proc reg data = tmp1.a;
model sal = age;
model sal = exp;
model sal = hom;
model sal = fet;
model sal = sqage;
model sal = sqexp;
run;
19
Parameter Estimates
Variable Label
Intercept Interce
DF
Parameter Standard
Estimate
Error t Value Pr > |t|
1
8.65234
0.00168 5139.3
7
<.000
1
1
0.01929 0.000042 458.07
11
<.000
1
pt
AGE
AGE
Parameter Estimates
Variable Label
Intercept Interce
Parameter
DF Estimate
1
9.06752 0.000938 9664.6
21
9
<.000
1
1
0.01741 0.000042 405.85
90
<.000
1
pt
exp
Standard
Error t Value Pr > |t|
Parameter Estimates
Variable Label
Intercept Interce
DF
Standard
Error t Value Pr > |t|
1
9.29734 0.000768 12095.
67
3
<.000
1
1
0.16922
<.000
1
pt
hom
Parameter
Estimate
0.00104 162.22
Parameter Estimates
Variable Label
Intercept Interce
DF
Parameter
Estimate
1
8.28051
0.00443 1867.8
6
<.000
1
1
0.05620 0.000223 251.80
19
<.000
1
pt
fet
Standard
Error t Value Pr > |t|
20
Parameter Estimates
Variable Label
Intercept Interce
DF
Parameter
Estimate
1
9.06091
0.00100 9022.9
6
<.000
1
1 0.0002053 5.431325E 378.13
8
-7
<.000
1
pt
sqage
Standard
Error t Value Pr > |t|
Parameter Estimates
Variable Label
Intercept Interce
DF
Parameter
Estimate
1
9.25544 0.000730 12676.
14
3
<.000
1
1 0.0002797 0.000001 258.14
6
08
<.000
1
pt
sqexp
•
Standard
Error t Value Pr > |t|
Recherche de corrélation entre les variables
proc corr data = tmp1.a;
run;
21
Pearson Correlation Coefficients
Prob > |r| under H0: Rho=0
Number of Observations
AGE
AGE
AGE
sal
fet
exp
sqexp
hom
sqage
sqfet
1.00000 0.32299 0.13798 0.98076 0.93454 -0.00550 0.98826 0.14002
<.0001 <.0001 <.0001 <.0001 <.0001 <.0001
<.0001
1922935 1922935 1899937 1899937 1899937 1922935 1922935 1899937
sal
0.32299 1.00000 0.17998 0.28245 0.18407 0.11710 0.27178 0.17494
<.0001
<.0001 <.0001 <.0001 <.0001 <.0001
<.0001
1922935 1924446 1901426 1899937 1899937 1924446 1922935 1901426
fet
0.13798 0.17998 1.00000 -0.05805 -0.06993 -0.16585 0.12853 0.99530
<.0001 <.0001
<.0001 <.0001 <.0001 <.0001
<.0001
1899937 1901426 1901426 1899937 1899937 1901426 1899937 1901426
exp
0.98076 0.28245 -0.05805 1.00000 0.95576 0.02549 0.97078 -0.05507
<.0001 <.0001 <.0001
<.0001 <.0001 <.0001
<.0001
1899937 1899937 1899937 1899937 1899937 1899937 1899937 1899937
sqexp
0.93454 0.18407 -0.06993 0.95576 1.00000 0.01889 0.96667 -0.06636
<.0001 <.0001 <.0001 <.0001
<.0001 <.0001
<.0001
1899937 1899937 1899937 1899937 1899937 1899937 1899937 1899937
hom
-0.00550 0.11710 -0.16585 0.02549 0.01889 1.00000 -0.00342 -0.14720
<.0001 <.0001 <.0001 <.0001 <.0001
<.0001
<.0001
1922935 1924446 1901426 1899937 1899937 1924446 1922935 1901426
sqage
0.98826 0.27178 0.12853 0.97078 0.96667 -0.00342 1.00000 0.13113
<.0001 <.0001 <.0001 <.0001 <.0001 <.0001
<.0001
1922935 1922935 1899937 1899937 1899937 1922935 1922935 1899937
sqfet
0.14002 0.17494 0.99530 -0.05507 -0.06636 -0.14720 0.13113 1.00000
<.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001
1899937 1901426 1901426 1899937 1899937 1901426 1899937 1901426
•
Analyses multivariées
proc reg data = tmp1.a;
model sal = hom age fet sqage ;
model sal = hom exp sqexp fet ;
run;
Model: MODEL1
Root MSE
0.63267 R-
0.2169
Dependent
Mean
9.38922 Adj R-
0.2169
Coeff Var
6.73828
Square
Sq
22
Model: MODEL2
Root MSE
0.63825 R-
Square
•
0.2305
Dependent
Mean
9.38922 Adj R-Sq 0.2305
Coeff Var
6.79769
Régression linéaire en MCO
proc reg data = tmp1.a;
model sal = hom exp sqexp fet ;
options nodate nonumber linesize=78 pagesize=64 formdlim='+';
run;
The REG Procedure
Model: MODEL1
Dependent Variable: sal
Number of Observations Read
192444
6
Number of Observations Used
189993
7
Number of Observations with Missing Values
24509
Analysis of Variance
Source
Model
Error
Sum of Mean
Square Squar
F
DF
s
e
Value
4
Pr > F
21431 53579 13152 <.0001
5
5
1.9 77396 0.407
E6
3
36
Corrected Total 1.9
E6
98827
8
23
Root MSE
0.638 R25 Square
0.230
5
Dependent
Mean
9.389 Adj R22 Sq
0.230
5
Coeff Var
6.797
69
Parameter Estimates
Variable
Parameter
DF Estimate
Standard
Error t Value Pr > |t|
Intercept
1
7.33606
0.00430 1705.7
7
<.000
1
hom
1
0.20030 0.000943 212.40
00
<.000
1
exp
1
0.07388 0.000134 548.54
68
<.000
1
sqexp
1
-0.00144 0.000003
32 434.35
<.000
1
fet
1
0.06435 0.000204 315.17
19
<.000
1
•
Test de Chow
/* Etape 1 : Estimation du modèle pour les hommes et cacul du ssr1*/
ods rtf file = "C:\Documents and settings\Bailly Cynthia\Bureau\sortie\iu.rtf";
proc reg data = tmp1.a;
model sal = hom exp sqexp fet;
output out = reshom r=rh;
where hom = 1;
options nodate nonumber linesize=78 pagesize=64 formdlim='+';
quit;
run;
ods rtf close;
proc means data = reshom uss;
var rh;
options nodate nonumber linesize=78 pagesize=64 formdlim='+';
run;
24
The MEANS Procedure
Analysis
Variable :
rh
Residual
Uncorrect
ed SS
371436.3
7
/* ssr1 = 371436.37 */
/* Etape 2 : On estime le modèle pour les femmes et on calcule le ssr2 */
Analysis
Variable : rf
Residual
Uncorrected
SS
396999.48
/*ssr2 =
396999.48 */
/* Etape 3 : Etimation du modèle complet et calcul du ssrfull */
proc reg data = tmp1.a ;
model sal = hom exp sqexp fet;
output out = resid r = res;
run;
quit;
ods rtf file = "C:\Documents and settings\Bailly Cynthia\Bureau\sortie\mn.rtf";
proc means data = resid uss;
var res;
options nodate nonumber linesize=78 pagesize=64 formdlim='+';
run;
25
ods rtf close;
The MEANS Procedure
Analysis
Variable : res
Residual
Uncorrected
SS
773962.98
/* ssrfull = 773962.98
La statistique du test de Chow est C = (((ssrfull - (ssr1 + ssr2))/k)/((ssr1 + ssr2)/(N - 2*k)),
Donc C = (((773962.98 - (371436.37 + 396999.48))/4)/((371436.37 + 396999.48)/(1899937 2*4)),
ie C = 1381.78/0.41 = 3416.41
Déterminons la valeur critique d'un F(4,1899937 -2*4)= F(4,1899929) au seuil de 5% : */
data b;
input value;
datalines;
0
;
run;
data b;
set b;
value = quantile('F',0.95,4,1899929);
run;
ods rtf file = "C:\Documents and settings\Bailly Cynthia\Bureau\sortie\mng.rtf";
proc print data = b;
run;
ods rtf close;
26
Obs
value
1 2.37194
/* La valeur critique de F(4, 1899929) est 2.37194. Comme la statistique de Chow est
largement
supérieur au Fisher, on rejette H0. Les coefficients estimés changent donc d'un échantillon à
l'autre.
Ainsi, il existe bien une inégalité salariale entre les hommes et les femmes.
•
Test de Ramsey
proc autoreg data = tmp1.a;
model sal = hom exp fet /reset;
output out = ramsey r= resid p = predite;
options nodate nonumber linesize=78 pagesize=64 formdlim='+';
run;
The AUTOREG Procedure
Dependent
Variable
sal
Ordinary Least Squares Estimates
SSE
MSE
SBC
850814.6 DFE
46
0.44781 Root MSE
3865470. AIC
83
Regress R-Square
0.1391 Total R-Square
Durbin-Watson
1.0878
1899933
0.66919
3865421.
01
0.1391
27
Ramsey's RESET Test
Power
Variable
DF Estimate
RESET Pr > F
2
144825.5 <.000
62
1
3
74765.49 <.000
48
1
4
49857.81 <.000
74
1
Standard
Approx
Error t Value Pr > |t|
Intercept
1
7.5801 0.004471 1695.5 <.0001
6
hom
1
0.2114 0.000988 213.89 <.0001
exp
1
0.0180 0.000041 432.33 <.0001
6
fet
1
0.0691 0.000214 323.01 <.0001
•
Le test de White
Proc model data = tmp1.a;
parms a b c d;
sal = a + b*hom + c*exp + d*sqexp + e*fet;
fit sal / white breusch = (1 hom exp sqexp fet);
run;
quit;
The MODEL Procedure
Nonlinear OLS Summary of Residual Errors
DF
DF
Equation Model Error
sal
SSE MSE Root MSE R-Square
5 19E5 77396 0.407
3
4
0.6383
Adj
R-Sq
0.2305 0.230
5
28
Nonlinear OLS Parameter Estimates
Approx
Approx
Parameter Estimate Std Err t Value Pr > |t|
a
7.33606 0.0043 1705.7 <.0001
5
0
7
b
0.20029 0.0009 212.40 <.0001
7
43
c
0.07388 0.0001 548.54 <.0001
35
d
-0.00144 3.323E- <.0001
6 434.35
e
0.06435 0.0002 315.17 <.0001
3
04
Number of
Observations
Used
Statistics for System
189993 Objective
7
Missing
0.407
4
24509 Objective*N 77396
3
Heteroscedasticity Test
Equation Test
sal
•
Statistic DF Pr > ChiSq Variables
White's Test
59318 12
<.0001 Cross of all vars
BreuschPagan
48773
<.0001 1, hom, exp, sqexp,
fet
4
Correction de White
Proc model data = tmp1.a;
parms a b c d;
sal = a + b*hom + c*exp + d*sqexp + e*fet;
fit sal / gmm;
instruments b c d e;
options nodate nonumber linesize=78 pagesize=64 formdlim='+';
run;
29
Nonlinear GMM Summary of Residual Errors
DF
DF
Equation Model Error
sal
SSE MSE Root MSE R-Square
5 19E5 77396 0.407
3
4
0.6383
Adj
R-Sq
0.2169 0.216
9
Nonlinear GMM Parameter Estimates
Approx
Approx
Parameter Estimate Std Err t Value Pr > |t|
a
7.33606 0.0087 839.50 <.0001
5
4
b
0.20029 0.0020
7
6
c
0.07388 0.0002 269.05 <.0001
75
d
-0.00144 6.165E- <.0001
6 234.10
e
0.06435 0.0004 158.21 <.0001
3
07
Number of
Observations
Used
•
Statistics for System
189993 Objective
7
Missing
97.19 <.0001
24509 Objective*N
1.378E21
2.619E15
Test de la Normalité des résidus
proc reg data = tmp1.a ;
model sal = hom exp sqexp fet;
output out = r_sal r=res_sal;
run;
quit;
proc univariate data = r_sal;
var res_sal;
histogram res_sal / kernel;
probplot res_sal / normal (mu = est sigma =est color =red);
30
qqplot res_sal / normal (mu = est sigma = est color = red);
inset mean std;
options nodate nonumber linesize=78 pagesize=64 formdlim='+';
run;
The UNIVARIATE Procedure
Variable: res_sal (Residual)
Moments
N
1899937 Sum Weights
Mean
1899937
-3.699E-11 Sum
-0.0000703
Std Deviation
0.63824968 Variance
0.40736266
Skewness
-1.5808368 Kurtosis
4.0268441
Uncorrected
SS
773962.984 Corrected SS
773962.984
Coeff
Variation
-1.7255E12 Std Error Mean
0.00046304
Observations
Basic Statistical Measures
Location
Mean
-0.00000 Std Deviation
Median
Mode
Variability
0.63825
0.13173 Variance
0.40736
-0.30102 Range
11.28571
Interquartile
Range
0.65195
Tests for Location: Mu0=0
Test
Statistic
p Value
Student's t
t
-7.99E-8 Pr > |t|
1.0000
Sign
M
198419.5 Pr >= |
<.0001
1.538E11 Pr >= |
<.0001
M|
Signed
Rank
S
S|
31