Mémoire présenté devant l`Institut de Science Financière et d

Transcription

Mémoire présenté devant l`Institut de Science Financière et d
Université Claude Bernard – Lyon 1
INSTITUT DE SCIENCE FINANCIERE ET D'ASSURANCES
Mémoire présenté
devant l’Institut de Science Financière et d’Assurances
pour l’obtention du diplôme d’Actuaire de l’Université de Lyon
le 2 juillet 2012
Par :
Alexis RENAUDIN
Titre: Modèle de capital économique pour le risque opérationnel bancaire :
estimation, diversification
Confidentialité : x NON
OUI (Durée : † 1 an
Membre du jury de l’Institut des Actuaires
M. Fréderic PLANCHET
† 2 ans)
Entreprise :
Crédit Agricole S.A.
Membres du jury I.S.F.A.
Directeur de mémoire en entreprise :
M.
Jean Claude AUGROS
Vincent LEHERISSE
M.
Alexis BIENVENÜE
M.
Areski COUSIN
Mme
Diana DOROBANTU
Mme
Anne EYRAUD-LOISEL
M.
Nicolas LEBOISNE
M.
Stéphane LOISEL
Autorisation de mise en ligne sur
Mlle
Esterina MASIELLO
un site de diffusion de documents
Mme
Véronique MAUME-DESCHAMPS
actuariels (après expiration de
M.
Frédéric PLANCHET
l’éventuel délai de confidentialité)
M.
François QUITTARD-PINON
Mme
Béatrice REY-FOURNIER
M.
Pierre RIBEREAU
M.
Christian-Yann ROBERT
M.
Didier RULLIERE
M.
Pierre THEROND
Secrétariat
Mme
Invité :
Signature du responsable entreprise
Signature du candidat
Marie-Claude MOUCHON
Bibliothèque :
Mme
Michèle SONNIER
50 Avenue Tony Garnier
69366 Lyon Cedex 07
Modèle de capital économique pour le risque
opérationnel bancaire : estimation, diversification
A LEXIS R ENAUDIN
ISFA, 2012
Résumé
Depuis la règlementation Bâle II, les banques ont l’obligation de mobiliser une partie de leurs fonds
propres en couverture de leur risque opérationnel. Pour autant, aucune méthode n’est imposée par le
régulateur pour quantifier ce capital ; chaque établissement financier peut alors choisir entre une approche standard (calcul forfaitaire) et une approche avancée, sous réserve de validation. L’approche
avancée adapte au risque opérationnel les techniques de Value At Risk (VaR) en vigueur pour les
risques de marché : le calcul de charge en capital correspond ainsi au quantile à 99,9% de la perte
agrégée annuelle théorique. Pour un groupe bancaire constitué de plusieurs entités, cette approche
avancée comporte deux grandes étapes. Tout d’abord le calcul de la charge en capital pour une entité considérée : il faut pour cela estimer la fréquence et la sévérité des pertes opérationnelles, et
déterminer le quantile approprié de la distribution de la perte annuelle résultante. Vient ensuite la
question d’agréger les charges en capital ainsi déterminées pour obtenir un capital pour l’ensemble
du groupe – avec un éventuel bénéfice de diversification – ainsi que d’allouer ce capital entre les différentes entités en tenant compte de leur dépendance. Dans ce contexte, l’estimation de la sévérité
du risque opérationnel, l’agrégation de ces risques dépendants, mais aussi l’allocation de ce capital à
différentes entités d’un même groupe bancaire soulèvent différentes problématiques qui seront identifiées et traitées dans ce mémoire, avec les outils mathématiques associés. Nous présentons ainsi dans
une première partie les objectifs de l’étude ainsi que le contexte règlementaire associé au risque opérationnel. Nous étudions ensuite en détails l’étape d’estimation de la sévérité des pertes et proposons
une méthode d’estimation plus adaptée aux spécificités du risque opérationnel que les méthodes statistiques classiques, en vue d’obtenir un calcul de charge en capital précis et cohérent. Enfin, nous
voyons dans la dernière partie comment agréger et allouer les différentes charges en capital calculées, en tenant compte de la dépendance entre entités d’un même groupe bancaire, afin d’obtenir une
valeur de capital économique. Nous proposons notamment pour cela une méthodologie basée sur la
théorie mathématique des copules, ainsi que des illustrations numériques pour le groupe Crédit Agricole.
Mots-clés : risque opérationnel, Bâle II, maximum de vraisemblance, méthode des moments généralisée, statistiques de test, distance quantile, agrégation des risques, dépendance, copules, capital
économique, ICAAP.
Abstract
Operational Risk is now an important quantitative topic in the banking world as a result of the Basel II
regulatory requirements. Through the Advanced Measurement Approach (AMA), banks are permitted significant flexibility over the approaches that may be used in the development of operational
risk models. The most popular is the Loss Distribution Approach, which is derived from an actuarial
frequency-severity model and the capital requirement is computed from the 99.9% quantile of the
theoretical aggregate loss distribution. There are two main steps in this model for a financial institution constituted of several legal entities. First is the computation of the capital charge for a specific
entity, which involves estimating the frequency and the severity of the operational losses. Then comes
the matter of aggregating these different capital charges to derive an economic capital at Group level – with a potential diversification benefit – and allocating it back to the different entities. In this
context, the severity estimation of operational risk, the aggregation of dependent risk types and their
allocation are important topics that will be identified and challenged in this actuarial thesis. We will
also present the associated mathematical and actuarial concepts, as well as a numerical application
on the Credit Agricole Group data.
Key words : operational risk, Basel II, maximum likelihood estimation, minimum distance, generalized method of moments, goodness of-fit statistics, quantile distance, risk aggregation, dependance
modeling, copulas, economic capital, ICAAP.
Remerciements
Mes premiers remerciements vont à Vincent LEHÉRISSÉ, mon maître de stage et JeanPhilippe MARY, qui ont su me guider tout au long de ma présence au Crédit Agricole. Leur
disponibilité et leurs conseils ont été précieux pour mener mon mémoire à son terme.
Je remercie vivement M. Sylvain DELON pour m’avoir accueilli dans son service et de
m’avoir permis de préparer le diplôme d’actuaire à l’ISFA à travers un contrat d’alternance.
Enfin, je tiens à remercier l’ensemble des membres du GRO (ingénieurs et stagiaires)
pour leur accueil et leur sympathie. Il est particulièrement agréable de travailler dans un
service où règne une ambiance aussi chaleureuse.
i
Sommaire
Remerciements
i
I
1
Le risque opérationnel : cadre règlementaire et quantification
1 Introduction et objectifs
1.1 Structure d’accueil . . . . . . . . . . . . . . . . . . . .
1.1.1 Crédit Agricole S.A. . . . . . . . . . . . . . . .
1.1.2 Le Groupe de Recherche Opérationnelle (GRO)
1.2 Qu’est-ce que le risque opérationnel ? . . . . . . . . . .
1.2.1 Définition . . . . . . . . . . . . . . . . . . . . .
1.2.2 Classification . . . . . . . . . . . . . . . . . . .
1.2.3 Particularités des données . . . . . . . . . . . .
1.2.4 Exemples célèbres . . . . . . . . . . . . . . . .
1.3 Aperçu des enjeux du mémoire . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
2
3
3
3
3
4
5
6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
7
8
9
9
9
9
10
11
11
11
11
12
12
2 Contexte règlementaire du risque opérationnel
2.1 Les dispositifs règlementaires bancaires . . . . . . . . . . . . . . . . . . . . .
2.1.1 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Bâle I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.3 Bâle II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Le pilier 1 de Bâle II : une exigence de fonds propres . . . . . . . . . . . . .
2.2.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Principales améliorations . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Les approches de base pour la mesure du risque opérationnel . . . .
2.2.4 L’approche avancée AMA (Advanced Measurement Approach) . . . . .
2.3 Le pilier 2 : pour un meilleur suivi des risques . . . . . . . . . . . . . . . . .
2.3.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 ICAAP et risque opérationnel . . . . . . . . . . . . . . . . . . . . . .
2.4 Comparaison avec le référentiel Solvabilité 2 . . . . . . . . . . . . . . . . .
2.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2 Mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.3 Poids du risque opérationnel dans la charge en capital règlementaire
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Vers la norme Bâle III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. 13
. 13
3 L’approche avancée LDA
3.1 Définition du Capital-At-Risk (CaR) . . . . .
3.2 Principe . . . . . . . . . . . . . . . . . . . .
3.3 Prise en compte des assurances . . . . . . .
3.3.1 Caractéristiques des polices . . . . .
3.3.2 Principe d’intégration dans le modèle
3.3.3 Effet sur les distributions . . . . . . .
3.4 Intégration des scénarios . . . . . . . . . .
.
.
.
.
.
.
.
ii
.
.
.
.
.
.
.
.
.
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
15
15
17
17
18
18
19
3.5 Des méthodes alternatives pour le calcul de la charge en capital . . . . . . . . 20
3.5.1 Algorithme récursif de Panjer . . . . . . . . . . . . . . . . . . . . . . . 20
3.5.2 F.F.T. (Fast Fourier Transform) . . . . . . . . . . . . . . . . . . . . . . . 21
II
Estimation de la sévérité du risque opérationnel
23
4 Les méthodes d’estimation usuelles
4.1 Quelques rappels théoriques sur les estimateurs . . . . . . . . . . . . . . .
4.2 La méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . .
4.2.1 Quelques généralités . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Prise en compte de l’effet de seuil . . . . . . . . . . . . . . . . . . .
4.3 La méthode des moments généralisée . . . . . . . . . . . . . . . . . . . .
4.3.1 Présentation théorique . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Choix de la matrice de pondération et influence sur l’estimation . .
4.3.3 Les différents algorithmes pour implémenter la méthode . . . . . .
4.4 Difficultés d’estimation rencontrées . . . . . . . . . . . . . . . . . . . . .
4.4.1 L’instabilité de la vraisemblance en présence d’un seuil de collecte
4.4.2 Le biais de la méthode des moments généralisée . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
25
26
26
26
27
27
28
29
30
30
34
5 Les solutions alternatives envisagées
5.1 Motivations et démarche scientifique . . . . . . . . . . . . . . . . . . .
5.2 Une autre approximation de la distance minimisée par le maximum de
semblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.1 Introduction de la distance K-L . . . . . . . . . . . . . . . . . .
5.2.2 Application au maximum de vraisemblance . . . . . . . . . . .
5.2.3 L’estimation par Maximum Spacing (MS) . . . . . . . . . . . . .
5.3 Minimisation de statistiques de tests . . . . . . . . . . . . . . . . . . .
5.4 Minimisation d’une distance inter-quantiles . . . . . . . . . . . . . . .
5.4.1 Principe de la méthode . . . . . . . . . . . . . . . . . . . . . . .
5.4.2 Pondération de la distance . . . . . . . . . . . . . . . . . . . .
5.4.3 Prise en compte des agrégats . . . . . . . . . . . . . . . . . . .
5.4.4 Prise en compte du seuil de collecte . . . . . . . . . . . . . . .
5.4.5 Choix des différents paramètres . . . . . . . . . . . . . . . . . .
5.4.6 Récapitulatif des étapes de l’estimation . . . . . . . . . . . . . .
5.5 Premier bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . .
vrai. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
35
35
36
37
39
41
41
42
42
43
43
47
47
6 Comparaison théorique des méthodes d’estimation retenues
6.1 Modèles simples . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Etude du biais . . . . . . . . . . . . . . . . . . . .
6.1.2 Précision des estimations . . . . . . . . . . . . . .
6.1.3 Stabilité des estimations . . . . . . . . . . . . . . .
6.2 Modèles hybrides . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Simulations des données . . . . . . . . . . . . . . .
6.2.2 Estimations . . . . . . . . . . . . . . . . . . . . . .
6.2.3 Calculs de charges en capital . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
49
49
50
51
52
52
52
52
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
. 35
III Diversification et agrégation des risques opérationnels : détermination d’un capital économique
54
7 Enjeux et éléments théoriques
56
7.1 Agrégation des risques et allocation : des enjeux importants . . . . . . . . . . 56
7.2 Mesures de risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
iii
7.2.2 Propriétés désirables . . . . . . . . . . . . . . . . . .
7.2.3 La mesure VaR (Value at Risk) . . . . . . . . . . . .
7.2.4 La mesure TVaR (Tail Value at Risk) . . . . . . . . .
7.2.5 La mesure CTE (Conditional Tail Expectation) . . . .
7.3 Mesures d’allocation . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . .
7.3.2 Propriétés désirables . . . . . . . . . . . . . . . . . .
7.3.3 Allocation basée sur la mesure VaR . . . . . . . . . .
7.3.4 Allocation basée sur la mesure CTE . . . . . . . . . .
7.4 Mesures de dépendance . . . . . . . . . . . . . . . . . . . .
7.4.1 Définition et propriétés désirables . . . . . . . . . . .
7.4.2 Le coefficient de corrélation linéaire . . . . . . . . .
7.4.3 Le tau de Kendall . . . . . . . . . . . . . . . . . . . .
7.4.4 Le rho de Spearman . . . . . . . . . . . . . . . . . .
7.4.5 Notion de dépendance de queue . . . . . . . . . . .
7.5 Théorie des copules . . . . . . . . . . . . . . . . . . . . . . .
7.5.1 Définition . . . . . . . . . . . . . . . . . . . . . . . .
7.5.2 Théorème de Sklar (1959) . . . . . . . . . . . . . . .
7.5.3 Quelques propriétés remarquables . . . . . . . . . .
7.5.4 Expression de la dépendance de queue . . . . . . . .
7.5.5 Exemples classiques de copules multivariées . . . . .
7.5.6 Simulation . . . . . . . . . . . . . . . . . . . . . . .
7.5.7 Utilisation dans le contexte de l’agrégation de risques
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
58
59
59
59
60
60
60
60
61
61
61
62
62
62
63
63
63
64
64
65
65
68
69
8 Une première approche pour diversifier les charges en capital : l’approximation
gaussienne
8.1 Hypothèses et méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Formule d’agrégation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3 Allocation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4 Exemple simple en dimension 2 . . . . . . . . . . . . . . . . . . . . . . . . .
8.4.1 Agrégation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4.2 Allocation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.5 Avantages et inconvénients . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
71
72
73
73
73
74
75
9 Mise en place d’une nouvelle méthodologie : agrégation par copules
9.1 Principes de la méthode proposée . . . . . . . . . . . . . . . . . . . . . . .
9.1.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.1.2 Etape 1 : agrégation des catégories de risque . . . . . . . . . . . . .
9.1.3 Etape 2 : agrégation des entités . . . . . . . . . . . . . . . . . . . . .
9.1.4 Etape 3 : Allocation . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.1.5 Exemple en dimension 2 . . . . . . . . . . . . . . . . . . . . . . . .
9.1.6 Discussion sur le choix de la copule . . . . . . . . . . . . . . . . . .
9.2 L’exemple du Groupe Crédit Agricole . . . . . . . . . . . . . . . . . . . . . .
9.2.1 Mise en œuvre de la méthodologie d’agrégation précédente dans le
cadre de l’ICAAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.2 Parallèle avec la formule standard de Solvabilité II . . . . . . . . . .
9.3 Résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.3.1 Capitaux non diversifiés . . . . . . . . . . . . . . . . . . . . . . . . .
9.3.2 Un mot sur les matrices de corrélation . . . . . . . . . . . . . . . . .
9.3.3 Considérations numériques et précision des estimateurs . . . . . . .
9.3.4 Agrégation et capital économique avec hypothèse gaussienne . . . .
9.3.5 Agrégation et capital économique avec copule normale . . . . . . . .
9.3.6 Agrégation et capital économique avec copule de Student . . . . . .
iv
.
.
.
.
.
.
.
.
76
76
76
77
78
79
79
79
81
.
.
.
.
.
.
.
.
.
81
82
84
84
84
85
86
86
87
10 Approfondissements et perspectives
10.1 Les copules archimédiennes hiérarchiques . . . . . . .
10.1.1 Motivations . . . . . . . . . . . . . . . . . . . .
10.1.2 Définition . . . . . . . . . . . . . . . . . . . . .
10.1.3 Contraintes . . . . . . . . . . . . . . . . . . . .
10.1.4 Exemple . . . . . . . . . . . . . . . . . . . . . .
10.1.5 Avantages et inconvénients . . . . . . . . . . .
10.2 Les vine copulas . . . . . . . . . . . . . . . . . . . . . .
10.2.1 Motivations . . . . . . . . . . . . . . . . . . . .
10.2.2 La décomposition de Vine (Vine decomposition)
10.2.3 Avantages et inconvénients . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
88
88
88
88
89
89
91
91
91
91
92
Conclusion
94
Bibliographie
96
Table des figures
99
Liste des tableaux
100
Première partie
Le risque opérationnel : cadre
règlementaire et quantification
1
Chapitre 1
Introduction et objectifs
1.1
1.1.1
Structure d’accueil
Crédit Agricole S.A.
Crédit Agricole S.A. a été créé en 2001 pour former un ensemble représentatif des activités et de la puissance du groupe Crédit Agricole, premier groupe bancaire français (28
% du marché des particuliers), et premier groupe bancaire en Europe par les revenus de la
banque de détail.
Financeur privilégié de l’agriculture depuis l’origine comme son nom l’indique, il a élargi
au fil des années son domaine d’activité pour être, aujourd’hui, le partenaire de tous les acteurs de la vie économique : particuliers, entreprises, professionnels et collectivités locales.
Le groupe, présent dans plus de 70 pays, s’articule autour de six pôles métiers :
1. Banque de proximité en France : complémentarité entre les Caisses Régionales de
Crédit Agricole et le réseau LCL
2. Banque de détail à l’international : Cariparma FriulAdria (Italie), Emporiki Bank (Grèce),
Banco Espirito Santo (Portugal), Lukas Bank (Pologne), Meridian Bank (Serbie), Index Bank (Ukraine), ainsi que Crédit du Maroc, Crédit Agricole Egypt, Credit Uruguay
Banco.
3. Services financiers spécialisés : crédit à la consommation (CACF), crédit-bail (Crédit
Agricole Leasing) et affacturage (Eurofactor)
4. Gestion d’actifs (Amundi), assurances (Prédica, Pacifica) et banque privée (Gestion
Privée Indosuez, LCL Banque privée)
5. Banque de financement et d’investissement : CA-CIB (Crédit Agricole Corporate &
Investment Bank, ex-Calyon)
6. Activités et filiales spécialisées : capital investissement (Crédit Agricole Private Equity,
Idia Agricapital, Sodica), immobilier (Crédit Agricole Immobilier), presse (Uni-Éditions).
Crédit Agricole S.A. a été organisé lors de sa cotation de manière à être représentatif de
tous les métiers et de toutes les composantes du Groupe. Il détient ainsi 25% du capital de
chaque Caisse régionale, ainsi que l’ensemble des participations du Groupe dans ses filiales
spécialisées ou dans des banques de détail à l’international.
Crédit Agricole S.A. est un organe central et de contrôle, tête de réseau et banque centrale du Groupe Crédit Agricole, dont le capital est détenu à plus de 50% par les 39 caisses
régionales, elles-mêmes détenues par les 2544 caisses locales.
Au sein du groupe Crédit Agricole, Crédit Agricole S.A. exerce quatre missions principales :
– il veille à la cohésion et au bon fonctionnement du réseau,
– il représente le Groupe auprès des autorités bancaires,
– il garantit l’unité financière du Groupe,
2
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
– il se veut responsable de la cohérence de son développement en coordonnant, en
liaison avec ses filiales spécialisées, les stratégies des différents métiers et assurant le
développement international du Groupe.
1.1.2
Le Groupe de Recherche Opérationnelle (GRO)
Initialement créé en février 1969 au sein du Crédit Lyonnais et rattaché ensuite à la
Direction des Risques (DRG) du Crédit Agricole après la fusion de 2003, le GRO a une
mission de consultant quantitatif interne et représente un pôle d’aide à la décision dans
différents domaines.
Le GRO est organisé sur le modèle d’une société de services travaillant pour l’ensemble
des entités du Groupe Crédit Agricole sur tout type de sujet nécessitant une expertise technique et scientifique. Les différentes entités du Groupe lui confient donc des études, dont
les résultats servent de support à la prise de décisions stratégiques. Le GRO s’emploie aussi
de façon générale à maintenir une activité de recherche et de veille technologique afin de
rester à la pointe des techniques et méthodes quantitatives employées dans la banque et de
manière plus générale en gestion des risques.
1.2
1.2.1
Qu’est-ce que le risque opérationnel ?
Définition
Le risque opérationnel peut être défini comme le risque de pertes résultant de procédures
internes inadaptées ou défaillantes, d’erreurs humaines, de défaillance des systèmes informatiques, d’évènements extérieurs. Ce sont donc des risques qui existent depuis toujours
dans les banques ou les entreprises. Il peut s’agir par exemple de problèmes informatiques
qui retardent l’exécution d’ordres sur les marchés (incidents courants) mais également de
l’incendie de locaux ou de fraude interne pouvant entrainer de lourdes pertes. Le risque
opérationnel est donc un risque qui peut s’avérer très couteux.
Même s’ils sont connus depuis longtemps, la gestion des risques opérationnels est un
exercice encore assez récent pour les banques, qui a largement évolué grâce à la réforme
Bâle II (qui sera détaillée dans le chapitre suivant). Le Comité de Bâle définit les risques
opérationnels de manière formelle comme «le risque de pertes dues à une inadéquation ou à
une défaillance des procédures, personnels, systèmes internes ou à des évènements extérieurs ».
1.2.2
Classification
Catégories de risques (ELs)
Pour répondre à la diversité des évènements assimilables à des risques opérationnels et
homogénéiser les données de pertes, le Comité de Bâle présente une classification des différentes catégories d’évènement (EL pour Event Line) dont les intitulés sont regroupés dans
le tableau 1.1.
Ces catégories sont généralement respectées par la plupart des banques lors de la collecte
de leurs pertes, dans un soucis d’homogénéité et de comparaison. Il est toutefois possible
que dans certaines banques des catégories soit sous-divisées, comme la catégorie EL2 généralement différenciée entre pertes liées à la monétique (M) et les autres types de fraude
externe hors monétique (HM).
Lignes métiers (BLs)
Les différentes catégories d’évènements précédentes sont observées suivant une répartition des lignes métier (business lines, BL) de la banque, proposée par le Comité de Bâle.
Leurs intitulés figurent dans le tableau 1.2.
3
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Catégorie de risque
Intitulé
EL1
Fraude interne
EL2
Fraude externe
EL3
Pratiques en matière d’emploi et sécurité sur le lieu de travail
EL4
Clients, produits et pratiques commerciales
EL5
Dommages occasionnés aux actifs corporels
EL6
Interruption de l’activité et dysfonctionnement des systèmes
EL7
Exécution, livraison et gestion des processus
TABLE 1.1 – Classification des catégories de risque (ELs) pour le risque opérationnel selon Bâle II
Ligne métier
Intitulé
BL1
Financement d’entreprise
BL2
Activités de marché
BL3
Banque de détail
BL4
Banque commerciale
BL5
Paiements et règlements
BL6
Fonctions d’agent
BL7
Gestion d’actifs
BL8
Courtage de détail
TABLE 1.2 – Classification lignes métier (BLs) pour le risque opérationnel selon Bâle II
Ces lignes métiers sont données à titre indicatif, et peuvent subir des modifications selon
les différentes activités de la banque ou groupe bancaire considéré.
1.2.3
Particularités des données
Seuil de collecte
Les pertes collectées liées au risque opérationnel comportent un seuil de collecte. C’està-dire qu’aucune perte de type risque opérationnel d’un montant inférieur au seuil fixé
par la banque (variant généralement de 1000 C à 10 000 C), ne figure dans les bases de
données. Les données disponibles pour l’estimation sont donc censurées à gauche. Comme
nous le verrons par la suite, ceci est source de difficulté dans l’estimation des paramètres.
Soulignons également que les bases de pertes ont généralement une volumétrie très variable
selon les catégories de risques, certaines bases ne comportant qu’une dizaine de pertes. Cela
constitue donc un obstacle supplémentaire à l’estimation statistique 1 .
Hétérogénéité
Les données de pertes opérationnelles possèdent des profils très atypiques. Malgré la
classification des risques et l’amélioration de la collecte des pertes, il existe toujours une
1. L’estimation se fait en général sur une base de donnée comportant 5 ans d’historique, ce qui correspond
au minimum requis règlementairement. La période d’historique pourrait être accrue mais cela ne serait alors plus
représentatif des nouveaux risques encourus.
4
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
hétérogénéité non négligeable à l’intérieur des catégories mais aussi entre les catégories.
Elles contiennent de nombreuses pertes de montants faibles ainsi que quelques évènements
extrêmes, ce qui les rend difficiles à ajuster.
La figure 1.1 permet de l’illustrer, avec un boxplot (“boite à moustaches”) pour 6 catégories de pertes différentes collectées par le Groupe Crédit Agricole.
F IGURE 1.1 – Boxplot pour différentes catégories de pertes opérationnelles
Nous notons tout d’abord que les données issues du risque opérationnel présentent des
pertes extrêmes, et ce quelque soit la catégorie. Nous pouvons également remarquer que la
catégorie “exécution” (EL7) semble se distinguer car elle parait contenir deux groupes de
pertes : un premier groupe de pertes peu sévères (dans la boite) et un groupe important
de pertes très sévères (points hors de la boite). La catégorie “dommages” (EL5) semble
pour sa part avoir une distribution très asymétrique. Nous verrons dans la suite du mémoire
que des difficultés d’estimation, spécifiques aux données issues du risque opérationnel, en
découlent.
1.2.4
Exemples célèbres
Nous illustrons la définition et la classification précédente au travers d’exemple de pertes
liées au risque opérationnel subies secteur bancaire lors de ces dernières années.
L’incendie du Crédit Lyonnais
Le Crédit Lyonnais a été victime de l’incendie spectaculaire de son siège parisien, le 5 mai
1996. L’incendie, parti de la salle des marchés, ravage le bâtiment et la salle des coffres.
Même si certains doutes subsistent sur son caractère accidentel, il occasionne de sérieux dégâts et le Crédit Lyonnais revend ensuite son siège central 1.3 milliard de francs à l’assureur
AIG. Cette perte rentre donc dans la catégorie ’Dommages’ (EL5) de la ligne métier ’Banque
de détail’ (BL3).
5
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
L’affaire Kerviel
Plus récemment, la Société Générale a enregistré en 2008 des pertes très lourdes (plusieurs milliards d’euros) résultant de prises de positions frauduleuses d’un de ces tradeurs,
Jérôme Kerviel. Il aurait exposé la banque à un risque de marché en accumulant des positions acheteuses sur des contrats à terme sur indices. Il aurait surtout dissimulé ces opérations de marché en introduisant dans le système informatique de la Société Générale des
opérations inverses fictives les compensant. Les causes de ces importantes pertes sont la
fraude interne (EL1) et une défaillance dans les contrôles sur les activités de marché (BL2).
1.3
Aperçu des enjeux du mémoire
La répartition des pertes opérationnelles en deux dimensions exposée précédemment
permet d’obtenir une vision matricielle des risques opérationnels que peut subir un établissement bancaire :
EL1
...
EL7
BL1
...
BL8
Chaque case de la matrice, dans laquelle sont collectées un certain nombre de pertes, est
alors appelée cellule de risque (risk cell) et fait l’objet d’une exigence de fonds propres : les
techniques d’estimation associées seront l’objet de la seconde partie du mémoire. Une fois
ces charges en capital calculées pour les différentes cellules, nous nous devons alors de les
agréger pour calculer la charge en capital global au titre du risque opérationnel au niveau
groupe, et réallouer ce capital aux différentes lignes métier ou entités du groupe. Cela sera
l’enjeu de la troisième et dernière partie de ce mémoire.
6
Chapitre 2
Contexte règlementaire du risque
opérationnel
2.1
Les dispositifs règlementaires bancaires
La règlementation prudentielle a considérablement évolué ces vingt dernières années
sous l’impulsion des travaux du Comité de Bâle (Basel Committee on Banking Supervision,
BCBS). Même si celui-ci n’a aucun pouvoir décisionnel, ses recommandations sont reprises
par les autorités de tutelle des différents pays concernés. En Europe, c’est la Commission Européenne qui est chargée de définir les règles prudentielles CRD (pour Capital Requirement
Directive), dont la mise en œuvre revient aux différentes autorités nationales de tutelle. En
France, c’est l’Autorité de Contrôle Prudentiel 1 (ACP), qui contrôle l’application de la CRD,
une fois que celle-ci a été adaptée en droit français par le Comité de la Règlementation
Bancaire et Financière.
2.1.1
Historique
Les grandes étapes de l’évolution de ces directives prudentielles sont répertoriées cidessous :
1988
1993
1996
1999
2004
2006
2010
2013
2.1.2
Publication de « The Basel Capital Accord » définissant le ratio Cooke (Bâle I).
Élaboration de la CAD par la Commission Européenne.
Incorporation du risque de marché dans l’assiette des risques.
Premier document consultatif sur le nouveau ratio McDonough.
Publication du texte définitif de la règlementation Bâle II.
Mise en place de la norme Bâle II.
Publication du texte définitif de la nouvelle règlementation Bâle III.
Mise en œuvre programmée de la norme Bâle III.
Bâle I
En 1988, le Comité de Bâle propose un ratio international de solvabilité qui doit permettre une adéquation des fonds propres par rapport aux risques, tout en renforçant la
solidité et la stabilité du système bancaire et également d’atténuer les inégalités concurrentielles entre les banques. Il s’agit du ratio Cooke (du nom du président du Comité de Bâle de
l’époque) qui correspond au rapport entre le montant des fonds propres et celui des encours
pondérés de crédit (EPC). Plusieurs niveaux de fonds propres sont définis :
1. L’ACP résulte de la fusion intervenue en janvier 2010 entre l’organe de contrôle des banques (la Comission
Bancaire) et celui contrôlant les assurances (l’Autorité de Contrôle des Assurances et des Mutuelles).
7
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
1. les fonds propres de base F P1 (Tier one), qui correspondent au capital et aux réserves,
2. les fonds propres complémentaires F P2 (Tier two), principalement constitués d’emprunts subordonnés,
3. les fonds propres surcomplémentaires F P3 (Tier three).
Selon l’accord de Bâle I, les établissements financiers doivent alors respecter les contraintes
F P1 6 F P2 et F P1 /EP C 6 4%, mais également le ratio de Cooke défini par :
F P1 + F P2
> 8%
EP C
La règlementation a ensuite évolué progressivement pour prendre en compte les risques
de marché, avec la proposition de deux approches, l’une forfaitaire, et l’autre autorisant
les banques à utiliser un modèle interne. L’idée est d’inciter les banques à construire des
modèles robustes pour évaluer leurs risques de marché et donc d’obtenir des exigences de
fonds propres plus réalistes. Ce n’est qu’en janvier 1996 que le Comité de Bâle propose
d’incorporer le risque de marché dans le ratio Cooke. En 1999, le Comité de Bâle publie un
premier document consultatif pour réformer le ratio Cooke, puis un second en 2001, avec
pour objectifs la modification du traitement du risque de crédit et l’intégration du risque
opérationnel.
2.1.3
Bâle II
Le Comité de Bâle publie finalement en juin 2004 le Nouvel Accord de Bâle, résultat de
plusieurs périodes consultatives auprès des institutions financières. La première motivation
de l’Accord est la modification de l’assiette des risques, qui prévoit désormais la prise en
compte du risque opérationnel, et la définition d’un nouveau ratio de solvabilité, le ratio
McDonough :
F P1 + F P2
> 8%
ERC + ERO + ERM
où ERC , ERO et ERM sont les exigences définies respectivement pour le risque de crédit, le
risque opérationnel et le risque de marché.
La seconde motivation de l’Accord est de rendre l’exigence de fonds propres plus sensible
au risque réel encouru par la banque. L’idée est d’autoriser les banques, sous certaines
conditions, à recourir à des modèles internes pour mesurer le risque de crédit et le risque
opérationnel, de la même façon que pour le risque de marché .Cette réforme s’appuie sur
trois piliers, représentés sur la figure 2.1
F IGURE 2.1 – Les trois piliers Bâle II
Le premier pilier correspond aux exigences minimales de fonds propres et vise à définir le
ratio McDonough (voir ci-dessus). Le deuxième pilier concerne le processus de surveillance
8
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
et donne un pouvoir accru aux autorités de contrôle (ACP). Le troisième pilier porte pour
sa part sur la communication financière et la discipline de marché, et vise à améliorer la
transparence financière des banques pour permettre à des tiers d’apprécier l’adéquation de
leurs fonds propres. Nous détaillons dans les sections suivantes les deux premiers piliers,
auxquels se rapporte ce mémoire.
2.2
2.2.1
Le pilier 1 de Bâle II : une exigence de fonds propres
Objectifs
Les fonds propres (ou le capital) sont un des éléments du passif d’une banque. Ils peuvent
être calculés de façon règlementaire. Dans ce cas, il est d’usage de parler de fonds propres
forfaitaires ou règlementaires (regulatory capital). Il est aussi possible de les calculer à partir
de modèles internes qui tiennent compte des effets de diversification ou de la nature du
portefeuille de la banque. Dans ce cas, nous parlons de fonds propres ou capital économique
(economic capital, voir dans la suite §2.3.1 p.11 pou une définition plus précise). L’idée de
Bâle II est de faire converger le capital règlementaire − souci des autorités de contrôle − et
le capital économique − souci des établissements bancaires.
2.2.2
Principales améliorations
En ce qui concerne le premier pilier de Bâle II, le traitement du risque de marché reste
inchangé par rapport à Bâle I, alors que le traitement du risque de crédit est revu en profondeur. Les méthodes de calcul des fonds propres règlementaires liés au risque de crédit sont
standardisées et imposées par le Comité de Bâle, et sont au nombre de trois :
– l’approche standard (SA, pour Standard Approach), qui reste une méthode forfaitaire
– l’approche IRB (Internal Ratings Based) « simple » est basée sur des mesures internes
des probabilités de défaut (PD) et des mesures exogènes des autres paramètres du
modèle
– l’approche IRB dite « avancée », où la banque estime d’autres paramètres comme la
LGD (Loss Given Default) et l’EAD (Exposure at Default).
Notons que les approches IRB ne sont pas des modèles internes à proprement parler, mais
plutôt des formules standards avec des paramètres internes à chaque établissement.
Le risque opérationnel est désormais pris en compte et à l’image du risque de crédit trois
approches sont proposées par le régulateur pour le calcul de l’exigence en fonds propres lié
à ce nouveau risque. Nous introduisons le principe de ces approches dans les paragraphes
suivants.
2.2.3
Les approches de base pour la mesure du risque opérationnel
Parmi les trois approches qui vont suivre, les banques ont la possibilité de choisir celle
qui leur parait le mieux correspondre à la spécificité de leur activité et à leur capacité globale d’action. Elles doivent en effet s’assurer qu’elles disposent de l’ensemble des moyens
nécessaires à la mise en œuvre de la solution retenue. Le degré de sophistication de chacune
de ces trois méthodes est en effet croissant.
L’approche indicateur de base BIA (Basic Indicator Approach)
Cette méthode, la plus simple, est forfaitaire : le calcul des fonds propres à mobiliser se
fait à partir d’un indicateur fondé sur le produit annuel brut (PAB), qui intègre le produit net
bancaire et d’autres éléments d’exploitation. L’indicateur d’exposition retenu est la moyenne
des parties positives des PAB des trois dernières années :
9
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
3
1X
IEn =
max(PABn−i , 0).
3 i=1
Ensuite, le montant des fonds propres (FP) au titre de l’année écoulée n se fait par un calcul
forfaitaire :
F Pn = 15% × IEn
En tant que calcul forfaitaire, il n’a pas besoin de justification. Néanmoins cette méthode
a de fortes chances de surévaluer le risque opérationnel réellement encouru par la banque.
Au contraire en période de crise, le PAB de la banque étant très faible, le montant de fonds
propres évalué par cette méthode devient dérisoire, et cette méthode inappropriée.
Les banques à vocation internationale ont à ce titre opté pour des méthodes certes plus
complexes mais plus réalistes pour évaluer leur exposition au risque opérationnel.
L’approche standardisée TSA (The Standardized Approach)
Cette approche affine quelque peu la précédente, en effectuant un calcul par ligne métier j :
X
F Pn =
βj · IEn,j
j
Les coefficients βj proposés par le Comité de Bâle sont :
Ligne métier
β
Financement d’entreprise
18%
Activités de marché
18%
Banque de détail
12%
Banque commerciale
15%
Paiement et règlement
18%
Fonctions d’agent
15%
Gestion d’actifs
12%
Courtage de détail
12%
Par rapport à l’approche précédente, elle fait généralement diminuer le montant des
fonds propres de 8 à 10% en moyenne (sur des montants de plusieurs milliards d’euros).
2.2.4
L’approche avancée AMA (Advanced Measurement Approach)
Cette approche implique le choix et la mise en œuvre d’une méthode avancée, dont
l’intérêt est de donner une appréciation plus juste du risque à travers la construction d’un
modèle interne, qui peut parfois mener à une réduction d’environ 20% de l’exigence en
fonds propres par rapport aux méthodes standard. Le choix du modèle interne est laissé à
l’appréciation de la banque, mais fait néanmoins l’objet de contrôles réguliers de la part des
instances de régulation, après avoir été validé sur des critères à la fois qualitatifs et quantitatifs. Quelque soit l’approche retenue, la mesure du risque opérationnel doit néanmoins
correspondre à une période de détention d’un an et à un niveau de confiance de 99,9%.
La méthode avancée la plus populaire dans le secteur bancaire pour le risque opérationnel est la méthode LDA (pour Loss Distribution Approach) et sera la méthode de référence
tout au long de ce mémoire. Sa présentation détaillée fait l’objet du chapitre suivant (voir
p.15).
10
I.S.F.A.
2.3
2.3.1
Mémoire d’actuariat
A. R ENAUDIN
Le pilier 2 : pour un meilleur suivi des risques
Motivations
Le pilier 2 de l’accord de Bâle II est un élément essentiel du nouveau dispositif d’adéquation des fonds propres, dont l’objectif est double.
Pour le superviseur, il s’agit de s’assurer que les établissements financiers disposent de
systèmes d’évaluation et de surveillance de l’ensemble de leurs risques et qu’ils disposent
d’un niveau de fonds propre conforme à leur profil de risque.
Pour les établissements financiers, l’objectif est de développer des techniques de contrôle
et de gestion de leurs risques, ainsi que de mettre en place un processus interne pour l’évaluation de leur capital interne (ICAAP : Internal Capital Adequacy Assessment Process)
adapté à leur profil de risques et à leurs stratégies. Ce processus a pour vocation à leur
permettre de correctement identifier, mesurer, agréger et surveiller les risques, et d’assurer
la détention d’un montant de capital en adéquation avec leur profil de risque.
Ce capital déterminé à partir d’un modèle interne est appelé capital économique, et peut
se définir comme le montant de capital déterminé selon des bases réalistes qu’une banque
estime nécessaire de détenir pour faire face aux risques qu’elle encourt.
2.3.2
ICAAP et risque opérationnel
En pratique, ce capital économique est calculé en déterminant le montant de capital
nécessaire à la solvabilité de l’établissement sur une période de temps donnée et selon une
probabilité déterminée à l’avance. Ce niveau de capital économique est alors fonction du
profil de risque de l’établissement financier, et de son degré d’aversion au risque. Celui-ci
se matérialise par un objectif de notation externe qu’il détermine et auquel correspond un
seuil de confiance.
Plus concrètement si l’objectif de notation externe de la banque est AA, cela correspond
à une probabilité de défaut de 0,03% à l’horizon d’un an. De ce fait, le capital économique
au titre du risque opérationnel représente le montant de fonds propres que la banque estime
nécessaire de détenir pour faire face, dans 99,97% des cas à l’horizon d’un an, à une perte
extrême pouvant mettre en péril sa solvabilité.
Dans la suite du mémoire, nous utiliserons donc le niveau de quantile cible de 99,97%
lors des calculs et application numériques menés dans le cadre pilier 2 (ICAAP) en raison
de l’objectif de rating externe AA de Crédit Agricole.
2.4
Comparaison avec le référentiel Solvabilité 2
Dans l’esprit de Bâle II régulant les activités bancaires, la Commission Européenne souhaite améliorer l’évaluation et le contrôle des risques dans le secteur de l’assurance. Dans
ce contexte, la directive Solvabilité II est un projet de règlementation prudentielle qui à
partir du 1er janvier 2013 s’appliquera à l’ensemble des sociétés d’assurance 2 de l’Union
Européenne.
La réforme Solvabilité II vise à renforcer les critères de solvabilité des assureurs afin de
garantir le respect des engagements pris envers les assurés. La réforme prône une nouvelle
approche des risques, tous les risques auxquels les assureurs sont soumis devant être pris en
compte, tant du point de vue quantitatif que qualitatif. Notamment, le risque opérationnel
rentre dans désormais son champs d’application. Dans une logique similaire à Bâle II, elle
se construit autour de trois piliers :
1. Exigences financières quantitatives
2. Autorité de contrôle et système de gouvernance
2. Entrent également dans le champs d’application de Solvabilité II : les mutuelles, les institutions de prévoyance, et les réassureurs.
11
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
3. Discipline de marché
Tous les acteurs du marché sont impliqués dans l’élaboration de cette réforme. Ils doivent en
effet répondre à des études quantitatives permettant à la Commission européenne d’évaluer
l’impact concret de ces mesures sur le marché. Actuellement, cinq études ont d’ores et déjà
été menées, la dernière en date étant QIS5.
2.4.1
Définition
La définition du risque opérationnel est quasiment identique dans les deux règlementations, comme le montre le tableau suivant :
Solvabilité II
Bâle II
Risque de pertes résultant de
procédures internes inadaptées ou
défaillantes, ou de membre du
personnel et de systèmes, ou
d’évènements extérieurs. Le risque
opérationnel ainsi défini
comprend les risques juridiques
mais non les risques découlant de
décisions stratégiques ni les
risques de réputation
Risque de pertes résultant d’une
inadaptation ou d’une défaillance
imputable à des procédures,
personnels et systèmes internes,
ou à des évènements extérieurs.
Inclut les évènements de faible
probabilité d’occurrence, mais à
risque de perte élevée. Le risque
opérationnel ainsi défini inclut le
risque juridique, mais exclut les
risques stratégiques et de
réputation.
Source : directive cadre du 10
juillet 2007, articles 13 et 100
Source : art. 4-1 de l’arrêté
transposant Bâle II en France
Précisons également qu’en terme de nomenclature les lignes métiers et catégories de
risques sont normalisées dans Bâle II (matrice 8 × 7), alors que non précisées dans Solvabilité II.
2.4.2
Mesure
Formule standard
La formule standard permettant de quantifier le risque opérationnel dans Solvabilité II
est le pendant de l’approche standard de Bâle II. Evidemment, la formule est ici adaptée en
introduisant des facteurs spécifiques, notamment pour les compagnies exerçant une activité
d’assurance vie.
La formule générale pour le besoin en capital au titre du risque opérationnel est la
suivante :
SCRop = min (30%BSCR, Op) + 25%Expul
Avec
Op : Charge du risque opérationnel pour tous les contrats hors contrats d’assurance vie où
le risque est pas porté entièrement par l’assuré
Expul : Montant bruts de réassurance des dépenses annuelles dans le cadre des contrats en
unités de compte (i.e dépenses administratives) durant les 12 derniers mois.
12
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Modèle interne
Comme pour Bâle II, il est possible d’utiliser une approche dite avancée pour la mesure
du risque opérationnel ; nous parlons alors de modèle interne. Ces modèles internes sont
encore peu développés dans les société d’assurance (principalement en raison du manque
de données dû à l’absence de processus de collecte généralisé et fiable, la gestion de ce
risque étant très récente dans ce secteur).
Il est néanmoins possible de mettre en place des modèles calqués sur le secteur bancaire
(utilisation de scénarios, modélisation fréquence/sévérité...), nous renvoyons pour cela au
mémoire d’actuariat [29] consacré à la modélisation du risque opérationnel dans les compagnies d’assurance.
2.4.3
Poids du risque opérationnel dans la charge en capital règlementaire
Terminons enfin cette comparaison en ajoutant que dans le secteur bancaire, le risque
opérationnel représente le deuxième risque le plus important en terme d’allocation des fonds
propres, après le risque de crédit. Comme le montre la figure 2.2, il représente environ 15 à
25% des exigences en fonds propres des banques grandes banques généralistes.
F IGURE 2.2 – Illustration de la répartition du capital entre risque de crédit, opérationnel et
risque de marché dans une grande banque
Avec Solvabilité II, le poids du risque opérationnel a été revu à la hausse dans la dernière
vague de papiers consultatifs (QIS5) mais ce n’est pas encore définitif. Il représente en tout
cas pour un assureur l’un des trois plus gros risques règlementaires.
2.5
Vers la norme Bâle III
Tirant les leçons de la crise, et sous l’impulsion du G20, le Comité de Bâle a engagé une
révision complète du dispositif prudentiel applicable à compter de début 2013 et qui vise à
renforcer la résilience des banques (capacité à absorber des chocs liés à des conditions de
marché défavorables). Les enjeux de cette réforme sont considérables, non seulement pour
le secteur bancaire et la stabilité des marchés financiers, mais aussi pour l’économie dans
son ensemble.
Le projet de nouvel accord se concentre ainsi sur cinq points d’attention majeurs.
1. Harmonisation et renforcement de la qualité des fonds propres
Le premier objectif est d’accroitre l’homogénéité, la qualité et la transparence des
fonds propres, c’est-à-dire s’assurer qu’ils sont constitués de capitaux capables d’absorber des montants de pertes importants et non d’instruments financiers complexes
et sujets à fluctuations.
13
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
2. Renforcement des exigences de fonds propres relatives au risque de contrepartie
La principale innovation réside dans la charge en capitaux propres au titre des ajustements de crédit sur produits dérivés de gré à gré (OTC)
3. Mise en place d’un ratio de levier
Le Comité envisage d’intégrer au Pilier 1 un ratio d’effet de levier (leverage ratio) destiné à plafonner les expositions en risques indépendamment de la qualité des risques
encourus, et ce afin de limiter l’endettement des banques.
4. Instauration de mesures contra-cycliques
Afin de limiter les effets de pro-cyclicité (en temps de crise, les banques réduisent leur
offre de crédit pour maintenir un niveau de solvabilité constant, ce qui a pour effet
d’aggraver la crise), les banques seront tenues de constituer des coussins en capital
destinés à absorber les pertes en période économique dégradée, ceci afin de stabiliser
le système bancaire en lissant les chocs économiques
5. Instauration de ratios de liquidité
Le Comité de Bâle propose la mise en place de deux ratios de liquidité. Le premier
(LCR, pour Liquidity Coverage Ratio) imposera aux banques de détenir un stock d’actifs
sans risque, qui leur permettrait de résister pendant trente jours à une crise qui se
traduirait par des retraits massifs. Le second ratio (NSFR, Net Stable Funding Ratio)
vise le même objectif sur un an. Plus contraignant, il doit inciter les établissements de
crédit à renforcer leur profil de financement en faveur de ressources de long terme,
supposées plus stables.
Précisons enfin qu’en l’état actuel des choses, aucune réelle nouveauté n’a été apportée en
ce qui concerne la mesure et la gestion du risque opérationnel.
14
Chapitre 3
L’approche avancée LDA
Dans ce chapitre, nous présentons de manière plus détaillée cette méthode de quantification du risque opérationnel qui sera utilisée dans la suite, ceci afin de mieux comprendre
les enjeux du mémoire qui vont suivre.
3.1
Définition du Capital-At-Risk (CaR)
La charge en capital (Capital-at-Risk ou CaR) est la part des fonds propres destinée à
préserver la banque de l’insolvabilité en cas de perte(s) exceptionnelle(s). Cette couverture
du risque est bien entendu assortie d’un certain niveau de confiance ou probabilité, fixé à
99.9% dans le cadre de la règlementation Bâle II (voir chapitre précédent). L’objet de la
méthode qui va suivre est de calculer la charge en capital au titre du risque opérationnel,
pour une entité et une ligne métier fixées.
3.2
Principe
La méthodologie que nous présentons ici (LDA pour Loss Distribution Approach) est
l’aboutissement de réflexions menées par le Groupe de Recherche Opérationnel, et a fait
l’objet d’une publication ([1]). Elle est dérivée d’une approche actuarielle ancienne et largement utilisée en assurance 1 . L’idée générale est de modéliser la perte liée au risque opérationnel pour une période donnée (1 an) et d’en déduire la valeur en risque, pour chaque
catégorie. La difficulté réside dans le fait que cette perte ne correspond pas à une seule
occurrence mais qu’elle est le résultat de plusieurs pertes successives. Nous parlons alors
de perte agrégée, ou perte annuelle, pour la perte résultante. Il faut donc distinguer deux
distributions :
– la fréquence des pertes (Frequency Loss Distribution)
– la sévérité des pertes (Severity Loss Distribution)
En introduisant les notations :
– N la variable aléatoire associée au nombre d’évènements annuels (les pertes) et p(k) =
P (N = k) sa distribution discrète
– ξ la variable aléatoire représentant le montant d’une perte individuelle. F sera la
fonction de répartition de la sévérité des pertes. L’hypothèse classique du modèle
fréquence-sévérité suppose les pertes indépendantes entre elles, identiquement distribuées, et indépendantes de N .
1. Qui figure notamment dans le livre référence de Panjer et Klugmann : Loss Models From Data to Decisions
(1998)
15
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
La perte annuelle est donc :
`N =
N
X
ξk
k=1
Dans cette configuration d’indépendance, nous pouvons exprimer l’espérance et la variance
de la perte annuelle en fonction de celles de la sévérité et de la fréquence :
E [`N ] = E [N ] .E [ξ]
et par la formule de décomposition de la variance
2
var [`N ] = E [N ] .var [ξ] + (E [ξ]) .var [N ]
(3.1)
En notant G la fonction de répartition de la perte annuelle `, alors nous pouvons également écrire :
(P
∞
∗k
pour x > 0
k=1 p(k)F (x)
(3.2)
G(x) =
p(0)
pour x = 0
où F ∗n (x) est la fonction de répartition de la somme des n pertes (ξ1 , ξ2 , ..., ξn ), qui s’obtient
par auto-convolution d’ordre n de la distribution de sévérité 2 .
La charge en capital CaR (ou VaR) de niveau α s’obtient finalement d’après la distribution
de la perte annuelle en calculant son quantile de niveau α :
CaR(α) = inf {x | G(x) ≥ α} = G−1 (α)
Le Comité de Bâle fixe un niveau règlementaire de quantile α = 99.9%, ce qui correspond à
la couverture d’un risque millénaire.
La figure 3.1 donne une idée des distributions obtenues lors des différentes étapes du
modèle pour une catégorie de risque et ligne métier donnée, ainsi que de la charge en capital résultante en fonction de α.
Ce calcul est effectué pour chaque catégorie de risque, généralement par simulations
de Monte-Carlo afin d’obtenir la distribution annuelle empirique agrégée et d’en prendre le
quantile de niveau α, fixé à 99.9% dans le cadre de l’exigence en fonds propres du pilier 1.
Une agrégation est ensuite effectuée pour calculer la CaR totale liée au risque opérationnel, notamment en tenant compte des corrélations entre catégories. Cela fait notamment
l’objet de la dernière partie du mémoire.
Récapitulatif des principales étapes du modèle
1. Estimation des paramètres de sévérité
Il s’agit ici d’estimer, dans le cadre classique de la statistique paramétrique, les paramètres θ = (θ1 , ..., θp ) de la loi de sévérité choisie pour modéliser la sévérité des
pertes ξi . La méthode de référence sur un plan théorique est le maximum de vraisemblance mais nous verrons qu’en raison des particularités des données liées au risque
opérationnel il est souvent préférable d’utiliser d’autres méthodes d’estimation (ceci
est l’objet de la deuxième partie de ce mémoire).
2. Rappelons que si les variables aléatoires indépendantes
∞ continues X et Y admettent respectivement les
densités f et g , alors Z = X + Y a pour densité : h(x) = −∞
g(y)f (x − y)dy = f • g
Si X et Y sont i.i.d. de même densité f , la variable Z a pour densité f • f = f ∗2 , résultat qui peut se généraliser
au cas d’une somme de n variables aléatoires.
16
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
F IGURE 3.1 – Les différentes étapes de la méthode LDA pour l’estimation de la charge en capital
2. Estimation de la fréquence
N est supposé suivre une loi de Poisson de paramètre λ. Cette distribution présente
l’avantage de ne nécessiter qu’un seul paramètre que nous pouvons estimer simplement via maximum de vraisemblance par la moyenne empirique du nombre annuel
de pertes, et elle est très utilisée en assurance pour modéliser des problèmes similaires.
3. Construction de la distribution annuelle des pertes
Cette distribution est construite par simulations de Monte-Carlo, avec les paramètres
θ et λ, estimés précédemment.
4. Calcul de la charge en capital
Il suffit pour cela d’extraire le quantile empirique à 99.9% de la distribution construite
à l’étape précédente.
3.3
Prise en compte des assurances
Les banques validées en approche avancée AMA se voient offrir la possibilité de prendre
en compte certaines polices d’assurance dans le calcul de leur capital règlementaire au titre
du risque opérationnel. L’effet de réduction du capital induit par la prise en compte de ces
couvertures est cependant limité à hauteur de 20% par le régulateur.
3.3.1
Caractéristiques des polices
Les polices d’assurance souscrites par la banque se doivent de respecter plusieurs caractéristiques afin de pouvoir être prises en compte lors du calcul de leur exigence en fond
propres règlementaire. Les principales contraintes sont les suivantes :
– L’assureur fournissant la police doit avoir un rating minimum de A (ou équivalent)
– La police doit être d’une durée initiale d’au moins 12 mois
– L’annulation de la police par l’assureur (ou son non renouvèlement) doit faire l’objet
d’un préavis d’au moins 90 jours
17
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
– Pas de motif d’exclusion pouvant être liés à l’action du régulateur
– Le contrat ne doit faire intervenir que des tierces parties (ce qui exclue donc l’utilisation de sociétés d’assurance captives 3 )
Les polices remplissant ces conditions sont dites conformes à Bâle II. En pratique, il est
d’usage d’introduire dans le modèle un taux de couverture Bâle II, qui traduit la conformité des polices d’assurances aux exigences Bâle II. Cela est dû à la complexité de certains
contrats où plusieurs assureurs ou réassureurs peuvent intervenir, et de la couverture des
polices propres à chaque contrat, pouvant ne pas être toujours être définies selon les catégories de risque Bâle II.
3.3.2
Principe d’intégration dans le modèle
L’intégration des couvertures d’assurance dans le modèle LDA se fait naturellement lors
de l’étape des simulations de Monte-Carlo, car nous avons alors accès au montant individuel
des pertes, et pouvons si besoin appliquer l’effet d’une couverture d’assurance.
Pour cela, un jeu complémentaire de paramètres caractérisant la police d’assurance est
ajouté au modèle lors de cette étape. Il comprend la franchise, le taux d’assurabilité, le taux
de couverture (taux de conformité des polices à Bâle II, défini au paragraphe précédent), le
plafond des sinistres, et enfin le plafond annuel.
En terme de montant remboursé, cela se traduit par de la manière suivante, pour des
taux d’assurabilité t1 et t2 (généralement égaux à 100% et 0%) :
Plafond par
sinistre
Franchise
Ϭй
Montant
remboursé/sinistre
t2 (%)
t1 (%)
– Pour un montant de perte enregistré inférieur à la franchise, l’assurance ne rembourse
rien
– Lorsque le montant de perte excède la franchise mais reste en deçà du plafond, t1 %
du sinistre moins la franchise est remboursé
– Lorsque le montant excède le plafond par sinistre, le montant remboursé est égal à
t1 % de (plafond – franchise) + t2 % de (perte – plafond)
– Il faut enfin vérifier que l’économie ne dépasse pas le plafond annuel, auquel cas il
faut ajouter la différence
Cet algorithme est appliqué à chaque perte issue des simulations Monte-Carlo, après avoir
déterminé si la couverture de cette perte est susceptible d’être pris en compte dans le calcul
moyen de taux de couverture (conformité Bâle II).
3.3.3
Effet sur les distributions
L’exemple suivant a été obtenu sur des pertes issues de la catégorie ’Dommages’ de
banque de détail, susceptibles d’être couvertes par une police d’assurance sur les immeubles.
Il est alors possible de comparer les distributions obtenues avec et sans la prise en compte
de l’effet de cette police d’assurance (supposée Bâle II à 95%), les différentes figures étant
rassemblées figure 3.2.
Il est alors aisé de vérifier l’effet attendu, à savoir une diminution de la charge en capital
3. Une captive d’assurance est une entreprise de d’assurance détenue par une entreprise ou un groupe d’entreprises qui n’exercent pas leurs activités en tant qu’assureurs directs ou réassureurs. La mission d’une captive se
limite à la fourniture de produits de d’assurance couvrant les risques de l’entreprise ou du groupe d’entreprises
dont elle fait partie.
18
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
F IGURE 3.2 – Comparaison des distributions issues du modèle LDA avec la prise en compte de
polices d’assurance (courbes rouges) et sans (en bleu)
3.4
Intégration des scénarios
Utilité et définition
En complément des calculs de charges en capital effectués à partir des pertes internes
collectées, la banque intègre à son calcul de risque une analyse de scénarios. Ils représentent
des évènements exceptionnels qui permettent de compléter le profil de risques internes
déterminé sur la base des données historiques.
La méthodologie du Groupe Crédit Agricole repose sur une liste de 25 scénarios de base
définis de concert avec les autres institutions de la place. Chaque entité choisit au sein de
cette liste, les scénarios qu’elle désire inclure dans son périmètre de risque opérationnel. Ce
choix s’effectue en fonction i) du métier ou de l’activité exercée par l’entité et, ii) de l’environnement, de la sensibilité ou du niveau d’exposition de l’entité à l’évènement déclencheur
du sinistre lié à ce scénario de base.
Chaque entité peut également retenir des scénarios additionnels si elle considère que
cela permet de prendre en considération certaines de ses spécificités. En moyenne, les entités
retiennent un douzaine de scénarios différents pour la détermination de leurs exigences au
titre du risque opérationnel.
Construction d’un scénario
Un scénario représente un évènement de risque bâlois au niveau le plus fin. Il est composé, en général, d’un ensemble de trois points représentant chacun un couple (montant de
perte (potentielle ou avérée) × fréquence de cette perte).
Ces trois points sont définis à dires d’experts, et correspondent à trois états possibles
associés à la réalisation de l’évènement de risque :
– hypothèse haute : combinaison de facteurs d’analyse (Cause, Dispositif de Contrôles
Permanents et Périodiques) telle que la sinistralité soit la plus défavorable,
– hypothèse moyenne : combinaison de facteurs d’analyse telle que la sinistralité soit
jugée intermédiaire,
– hypothèse basse : combinaison de facteurs telle que la sinistralité soit jugée la moins
défavorable.
19
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Les trois hypothèses sont croissantes en termes de sévérité et décroissantes en termes
de fréquence. La construction des scénarios s’effectue sur la base d’une fiche d’analyse de
scénario renseignée par chaque entité comprenant toute une série d’informations normées.
Traitement des données de scénarios
Les données des scénarios sont ensuite utilisées pour déterminer les paramètres des lois
de sévérité et de fréquence suivant deux modes :
– Scénario internalisé : les données de pertes des scénarios sont intégrées aux données
internes de pertes collectées par l’entité sous condition du respect de critères métiers et
statistiques (critère d’homogénéité au profil de pertes internes). Elles sont par conséquent,
utilisées conjointement avec les données de pertes internes pour ajuster les lois de fréquence
et de sévérité.
– Scénario stand alone : les trois points de scénarios sont utilisés pour déterminer les
paramètres des distributions de fréquence et de sévérité par résolution d’un système de 3
équations non linéaires à 3 inconnues (µ, σ, λ dans le cadre d’une sévérité lognormale et
d’une fréquence suivant une loi de Poisson). Précisons ici que l’utilisation de loi de sévérité
comportant plus que deux paramètres nécessiterait d’autant plus de points de scénarios.
Les scénarios stand alone sont alors traités comme des catégories de risque à part entière
(calcul d’une CaR correspondant aux paramètres préalablement calculés).
3.5
Des méthodes alternatives pour le calcul de la charge
en capital
Etant donné le temps de calcul parfois conséquent requis par l’étape de simulations de
Monte-Carlo pour obtenir la distribution agrégée avec une bonne précision, il peut être
souhaitable d’utiliser d’autres techniques numériques afin d’accélérer le calcul de charge en
capital. Nous présentons ci-dessous les deux méthodes les plus populaires pour le calcul des
distributions convoluées, leurs avantages et leurs inconvénients.
3.5.1
Algorithme récursif de Panjer
Présentation
C’est la méthode la plus connue pour le calcul des distributions convoluées, notamment
utilisée en assurance non-vie dans le cadre du modèle collectif. Initialement présentée par
Harry Panjer dans [25] sous le nom de Panjer recursion, elle se fonde sur le théorème suivant.
Avec les notations introduites précédemment et l’équation (3.2), il est possible d’écrire
la densité de la perte annuelle `N comme
g(x) =
∞
X
p(k)f ∗k (x)
k=0
Soit en discrétisant selon une grille de N points de pas h > 0,
gn = P (`N = hn) =
∞
X
p(j)f ∗n (x)
j=0
Le théorème de Panjer indique alors que si la variable aléatoire N suit une loi de fréquence
discrète Q = {qk }k∈ N pouvant s’écrire pour k > 1 sous la forme p(k) = (a + b/k) .p(k −
1) avec a, b ∈ R, alors la distribution agrégée discrète gn peut être calculée de manière
récursive suivant la formule :
20
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
gn
∞ X
bj
=
fj gn−j , n > 1
a+
n
j=1
g0
= p(0)
Application au modèle LDA, avantages, inconvénients
Notons tout d’abord que la loi de Poisson employée dans le modèle LDA pour la variable
aléatoire N rentre bien dans les critères d’applications du théorème, avec a = 0 et b = λ.
Nous obtenons donc la formule récursive suivante pour une sévérité de densité f choisie :
∞
gn =
λX
j.fj .gn−j
n j=1
Le principal intérêt de la méthode est l’obtention d’une formule exacte (même récursive)
pour calculer chacun des termes de la distribution de probabilité. De ce fait, cette méthode
est théoriquement très précise car elle ne nécessite aucune méthode numérique (intégration,
dérivation...) pour l’évaluation des termes de la somme.
Pour autant, sa complexité et le temps de calcul en découlant la rend difficilement utilisable dans le cadre du modèle LDA. En effet, pour chaque calcul d’un terme de la somme gp
il faut parcourir toutes les valeurs
calculées précédemment (g1 , g2 , ..., gp−1 ), soit une complexité algorithmique en O N 2 . Comme le nombre de point de discrétisation N doit être
assez important pour obtenir une précision suffisante, cela implique des temps de calculs
très conséquents. C’est notamment le cas pour de grandes valeurs de λ, qui a tendance a
alourdir les queues de distributions et nécessite donc un nombre de points de discrétisation
plus important afin de pouvoir correctement estimer le quantile à 99.9% de la distribution agrégée ; c’est pourquoi cette méthode est très peu utilisée dans le domaine du risque
opérationnel.
3.5.2
F.F.T. (Fast Fourier Transform)
Fondements théoriques
Nous pouvons définir 4 la transformée de Fourier d’une fonction réelle f par
+∞
f (u)e−ivu du
F(f )(v) = g(v) =
−∞
et il est possible de retrouver f (sous conditions de régularité appropriées) à l’aide de la
transformée de Fourier inverse :
+∞
1
F (g)(u) = f (u) =
g(v)eiuv dv
2π −∞
Ainsi, pour une variable aléatoire Z, il est possible de relier sa densité fZ à sa fonction
caractéristique via les transformées de Fourier :
−1
+∞
φZ (u) = E eiuZ =
fZ (v)e
iuv
+∞
fZ (v)e−iuv dv = F(fZ )(u)
dv =
−∞
−∞
Inversement, la densité se retrouve alors en écrivant :
F −1 (φZ )(u) = F −1 F(fZ )(u) = fZ (u) = fZ (u)
Il est donc possible de passer de la densité à la fonction caractéristique d’une variable aléatoire,et inversement, en manipulant ces transformées de Fourier.
4. Il existe d’autres définitions, qui diffèrent généralement d’un facteur selon la convention choisie.
21
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Application au calcul de charge en capital
Dans
PNle cadre du modèle LDA, l’objet est de calculer la distribution de la perte annuelle
` =
i=1 ξi dont nous ne connaissons pas l’expression analytique, afin d’en déduire la
charge en capital comme un quantile de cette distribution . Or il est possible d’exprimer
explicitement sa fonction caractéristique φ` au moyen de la fonction caractéristique φξ de la
sévérité, elle-même obtenue par transformation de Fourier de sa densité fξ (comme détaillé
au paragraphe ci-dessus).
En effet, les sévérités étant considérées comme indépendantes et identiquement distribuées, en conditionnant selon la fréquence N il vient :
N
φ`|N (u) = E eiu` | N = φξ1 φξ2 ...φξN (u) = [φξ (u)]
D’où en prenant l’espérance,
h
i
N
φ` (u) = E eiu` = E E eiu` | N = E (φξ (u))
= gN (φξ (u))
N
où gN (t) = E t
désigne la fonction génératrice de la variable aléatoire discrète de fréquence N , qui dans le cas d’une loi de Poisson de paramètre λ vaut gN (t) = exp (λ(t − 1)).
Il est alors possible d’obtenir la densité f` comme transformée de Fourier inverse de
φ` . Le passage à la fonction caractéristique ainsi que son inversion se font en pratique en
utilisant l’algorithme FFT (ou FFT inverse), le plus performant numériquement 5 . C’est un
algorithme qui nécessite d’avoir discrétisé les fonctions intervenant dans le processus précédent selon une grille de points (x1 , x2 , ..., xNF F T ). La fonction de répartition de ` et la CaR
associée se déduit alors par somme cumulée du vecteur de densité discrétisé.
En résumé, le processus de calcul par FFT de la charge en capital correspondant à la
distribution convoluée peut donc se décrire de la façon suivante :
1. Discrétiser la fonction de densité de la sévérité fξ
2. Utiliser l’algorithme FFT pour obtenir la fonction caractéristique discrétisée φξ
3. Appliquer la fonction génératrice gN
4. Utiliser l’algorithme FFT inverse pour obtenir le vecteur de densité discrétisé f` .
5. Calculer le vecteur de la fonction de répartition discrétisée pour en déduire la charge
en capital recherchée
Avantages et inconvénients
Le principal avantage de cette méthode est sa rapidité : alors que le calcul de CaR par
simulations de Monte-Carlo peut parfois s’avérer très chronophage (plusieurs heures) , le
calcul par FFT est pour sa part quasiment immédiat (quelques secondes).
En revanche, cette méthode est assez instable numériquement et le choix des différents
paramètres peut s’avérer délicat. En effet, les densités intervenant étant définies sur R+ , se
pose la question du choix de la borne supérieure de l’intervalle de discrétisation ainsi que
du nombre de points à choisir à l’intérieur de cet intervalle afin de conserver une précision
de calcul suffisante. La problème est alors l’arbitrage entre un intervalle suffisamment grand
(afin qu’il contienne la CaR recherchée) et un nombre de points de discrétisation assurant
une précision satisfaisante (taille qui ne peut excéder 231 − 1 sur une machine standard 32
bits). Ce problème numérique devient donc particulièrement complexe lors de la manipulation de densités de lois à queues épaisses, pour lesquelles la FFT n’est pas adaptée.
Enfin, cette manière de procéder rend par essence cette méthode incompatible avec la
prise en compte des assurances dans le calcul de charge en capital détaillée précédemment
(§3.3).
5. Pour une description plus précise de l’algorithme FFT et de ses propriétés se référer à S CHALLER P et TEMNOV
G (2008), Efficient and Precise Computation of Convolutions : Applying FFT to Heavy Tailed Distributions, dans
Computational Methods in Applied Mathematics, Vol 8, No. 2, pp 187-200
22
Deuxième partie
Estimation de la sévérité du
risque opérationnel
23
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Dans cette partie, il est question d’améliorer le modèle LDA préalablement présenté au
niveau de l’étape déterminante de l’estimation des paramètres de sévérité, et de trouver
des méthodes qui pourraient être plus adaptées au contexte des données de pertes liées au
risque opérationnel.
24
Chapitre 4
Les méthodes d’estimation
usuelles
Dans ce chapitre, nous présentons les deux méthodes d’estimation les plus couramment
employées dans le cadre du risque opérationnel, pour l’estimation du paramètre θ = (µ, σ)
d’une loi de sévérité lognormale.
4.1
Quelques rappels théoriques sur les estimateurs
Afin de présenter dans ce chapitre et le suivant les propriétés des estimateurs obtenus,
nous rappelons certaines définition théoriques que nous utiliserons.
Convergence
– θ̂n est un estimateur convergent de θ s’il converge en probabilité vers θ, c’est-à-dire si :
∀ε > 0, P (|θn − θ| > ε) −→ 0
n∞
– Si la convergence a lieu presque sûrement (p.s.) alors l’estimateur est dit fortement
convergent.
h i
h i
En pratique, une condition suffisante pour assurer la convergence est E θ̂n = θ et Var θ̂n −→
n∞
0.
Biais
h i
– L’estimateur θ̂n est dit sans biais si pour tout n, E θ̂n = θ. Les valeurs de l’estimateur
sont alors en moyenne autour du vrai paramètre, et ceci quelque soit la taille n de
l’échantillon.
– L’estimateur θ̂n est dit asymptotiquement
sans biais si le biais diminue quand la taille
h i
de l’échantillon augmente : E θ̂n −→ θ.
n∞
Efficacité L’estimateur θ̂n est dit efficace s’il est de variance minimale parmi tous les estimateurs de θ ayant même moyenne.
Normalité asymptotique Nous dirons que l’estimateur θ̂n est asymptotiquement normal
(ou gaussien) s’il existe deux suites de fonctions réelles mn (θ) et σn (θ), cette dernière étant
strictement positive, telles que la suite :
Zn =
θ̂n − mn (θ)
σn (θ)
25
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
converge en loi vers une variable aléatoire de loi normale centrée réduite.
4.2
La méthode du maximum de vraisemblance
4.2.1
Quelques généralités
La méthode du maximum de vraisemblance (MLE pour Maximum Likelihood Estimation)
est la technique d’estimation la plus populaire en raison de ses bonnes propriétés théoriques,
que le lecteur pourra trouver dans tous les manuels de statistique. Rappelons simplement
ici que l’estimateur du maximum de vraisemblance est obtenu en maximisant la fonction de
vraisemblance (ou log-vraisemblance), et que l’estimateur θd
M L ainsi obtenu est sans biais,
asymptotiquement efficace, et possède la propriété de normalité asymptotique.
Nous rappelons la fonction densité lognormale choisie pour représenter la sévérité des
pertes :
f (x; µ, σ) =
(ln x−µ)2
1
√ e− 2σ2
σx 2π
La log-vraisemblance s’écrit alors pour un échantillon de n pertes historiques (collectées
sans seuil) :
L(µ, σ) =
n
X
ln f (ξi ; µ, σ)
i=1
n
=−
n
n
1X
ln σ 2 − ln 2π −
2
2
2 i=1
ln(ξi ) − µ
σ
2
−
n
X
ln(ξi )
i=1
Les estimateurs µ
bM L et σ
bM L maximisent la fonction de log-vraisemblance, ils vérifient
donc ∂µ L (b
µML , σ
bML ) = 0 et ∂σ L (b
µML , σ
bML ) = 0 .
Un calcul analytique est possible et ils valent :
n
µ
bML
4.2.2
n
2
1X
1X
ln ξi et σ
bML =
ln ξi − µ
bML
=
n i=1
n i=1
Prise en compte de l’effet de seuil
Pour les paramètres de sévérité
La présence de données tronquées affecte l’estimation de la distribution de sévérité puisque
la distribution empirique (pertes effectivement collectées) est différente de la vraie distribution (celle que nous devons obtenir si aucune perte n’est négligée) : il faut donc relier
la vraie distribution à sa version empirique. Il faut alors considérer la vraisemblance conditionnelle. Pour une sévérité lognormale et un seuil de collecte H, la densité conditionnelle
s’écrit en divisant par le terme normalisateur :
f (x; µ, σ)
f (x; µ, σ)
f (x; µ, σ|H) = ∞
1{x≥H} =
1{x≥H}
1
−
F (H; µ, σ)
f
(y;
µ,
σ)dy
H
Ceci se traduit par une modification de la fonction de log-vraisemblance :
L(µ, σ|H) =
n
X
i=1
ln f (ξi ; µ, σ|H) =
n
X
ln f (ξi ; µ, σ) − n ln (1 − F (H; µ, σ))
(4.1)
i=1
Le deuxième terme dépendant de µ et σ par l’intermédiaire de la fonction de répartition
lognormale F (dont il n’existe pas d’expression analytique), il n’y a pas dans ce cas de
26
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
formules fermées pour les estimateurs du maximum de vraisemblance. L’optimisation de
la vraisemblance se fait donc de manière numérique. Cet effet de seuil génère donc de
l’instabilité sur la fonction de vraisemblance, dont l’optimisation est parfois compliquée (voir
la suite du rapport pour plus de précisions, paragraphe 4.4.1).
Pour le paramètre de fréquence
Nous rappelons que dans le modèle LDA (cf. chapitre 3 page 15), le paramètre de fréquence λ est estimé via maximum de vraisemblance, par la moyenne empirique du nombre
annuel de pertes dans l’échantillon, estimateur noté λ̂sample . Si le biais de collecte n’est pas
pris en compte, utiliser cet estimateur sans correction signifierait qu’une banque utilisant
un seuil de collecte grand (ayant donc un faible nombre de pertes effectivement collectées)
devrait allouer moins de capital qu’une autre qui utiliserait un seuil plus faible. Ceci est
absurde et met donc en évidence la nécessité de corriger le paramètre de fréquence pour
prendre en compte le biais de collecte.
L’expression de l’estimation du paramètre corrigé de fréquence s’obtient d’après la loi de
Bayes :
λ̂corr =
λ̂sample
1 − F (H; µ̂, σ̂)
Il faut donc effectuer cette correction après avoir estimé les paramètres de sévérité à l’étape
précédente par µ̂ et σ̂.
4.3
4.3.1
La méthode des moments généralisée
Présentation théorique
L’idée de cette méthode (Generalized Method of Moments, GMM ou MMG) est de chercher le paramètre θ qui minimise l’écart entre les deux premiers moments théoriques (dépendants de θ) et leurs équivalents empiriques (dépendant des données). Au lieu d’exploiter
l’information complète de la fonction de densité f des pertes (également contenue dans la
fonction génératrice des moments) il est aussi possible de n’utiliser qu’un nombre restreint
de moments. Évidemment, cette perte d’information se traduit par de moins bonnes propriétés théoriques par rapport au maximum de vraisemblance.
Notations
Le vecteur des pertes est noté (ξi )i=1..n . Comme rappelé dans la section précédente, il
nous faut prendre en compte la censure à gauche des données de pertes. Nous nous intéresserons donc aux deux premiers moments théoriques conditionnellement au seuil H notés
respectivement m1 (µ, σ) et m2 (µ, σ), qui s’obtiennent en calculant l’intégrale pour p = 1..2 :
E [ξ p | ξ > H] =
1
1 − F (H; µ, σ)
+∞
H
2
xp−1 − (ln x−µ)
2σ 2
√ e
dx
σ 2π
Les détails du calcul sont donnés par Frachot et al. (2001) ([6]), pour obtenir :

ln H−(µ+σ 2 )

1−Φ
σ

2

m1 (µ, σ) =
eµ+σ /2
1−Φ( ln H−µ
)
σ
ln H−(µ+2σ 2 )

1−Φ

σ
2

m2 (µ, σ) =
e2(µ+σ )
1−Φ( ln H−µ
)
σ
où Φ désigne la fonction de répartition de la loi normale centrée réduite.
27
I.S.F.A.
Mémoire d’actuariat
Leurs contreparties empiriques sont :
(
m̂1 =
m̂2 =
1
n
1
n
A. R ENAUDIN
Pn
ξi
Pi=1
n
2
(ξ
i=1 i )
Nous noterons également g (θ) = (g1 (θ), g2 (θ)) le vecteur des différences entre moments
théoriques et empiriques 1 :
(
g1 (θ) = m1 (θ) − m̂1
g2 (θ) = m2 (θ) − m̂2
Principe
La résolution de l’équation vectorielle g (θ) = 0 n’admettant pas de solution analytique,
nous sommes amenés à la résoudre numériquement de manière approchée, en minimisant
une distance entre g (θ) et 0. Nous nous donnons pour cela une matrice symétrique définie
positive W afin de minimiser la forme quadratique suivante :
Q (θ) = t g (θ) W g (θ)
(4.2)
ce qui fournit l’estimateur θ̂GM M .
4.3.2
Choix de la matrice de pondération et influence sur l’estimation
Nous pouvons montrer que le choix de W n’influence pas la convergence de la méthode
vers le vrai paramètre θ0 (voir pour cela Hansen (1982) [3]). Cependant, ce choix influe sur
la variance asymptotique de l’estimateur obtenu.
Choix naïf
Le choix de W = I (matrice identité) fournit un estimateur noté θ(1) asymptotiquement
normal et consistant, c’est-à-dire convergent vers la vraie valeur du paramètre θ0 . Il n’est
cependant pas efficace (au sens où sa variance asymptotique n’est pas optimale). Ce choix
de W revient alors à chercher l’estimateur des moindres carrés minimisant g12 + g22 c’est à
dire :
θ(1) = argmin
θ
2
X
(mi (θ) − m̂i )²
i=1
Nous représentons sur la figure 4.1 le biais de cet estimateur en fonction de la taille n
de l’échantillon log-normal de paramètres µ = 8 et σ = 2. Pour chaque échantillon, le biais
a été moyenné sur N = 50 simulations.
Choix optimal
Il existe un choix optimal de W permettant d’obtenir une variance asymptotique minimale
pour l’estimateur (voir de nouveau [3] pour les détails théoriques). En notant les moments
unitaires empiriques centrés d’ordre 1 et 2 hi,1 = ξi − m1 (θ) et hi,2 = ξi ²−m2 (θ), et les
vecteurs h1 =t (h1,1 , ..., hn,1 ) et h2 =t (h1,2 , ..., hn,2 ), la matrice optimale est définie par :
1. Il est aussi possible d’utiliser la variance de la loi au lieu du moment théorique d’ordre 2 : l’équivalent
empirique est alors la variance empirique des pertes. Cela n’influe pas sur l’estimation obtenue.
28
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Biais Sigma MMG2 N=50
0.0
−0.2
−0.4
−0.6
biaisMMGmodif3_N50_n2000$biais_sigma
−1.0
−0.8
0.5
0.0
−0.5
biaisMMG_N50_n2000$biais_mu_with_n
1.0
0.2
Biais Mu MMG N=50
0
500
1000
1500
2000
0
500
n
1000
1500
2000
n
F IGURE 4.1 – Biais des estimateurs de µ et σ obtenus avec le choix W = I
−1
var(h1 )
cov(h1 , h2 )
cov(h1 , h2 )
var(h2 )
−1
t
= h1 h2
−1
Wopt = [cov(hi )]i=1..2 =
L’estimateur obtenu en minimisant l’équation (4.2) est alors efficace au sens où sa variance est la plus petite possible (en définissant la relation d’ordre sur les matrices : A < B
⇔B − A est semi-définie positive) parmi cette classe d’estimateurs.
Nous le remarquons clairement sur la figure 4.2 où l’estimateur obtenu présente une
volatilité moins importante que précédemment.
Biais Sigma MMG N=50
0.0
−0.2
−0.4
−1.0
−0.8
−0.6
biaisMMG_N50_n2000$biais_sigma
0.8
0.6
0.4
0.2
0.0
−0.2
biaisMMGmodif3_N50_n2000$biais_mu_with_n
0.2
1.0
Biais Mu MMG2 N=50
0
500
1000
1500
2000
0
n
500
1000
1500
2000
n
F IGURE 4.2 – Biais des estimateurs de µ et σ obtenus avec le choix W = Wopt
4.3.3
Les différents algorithmes pour implémenter la méthode
Two-Step MMG
C’est la première version de la MMG, présentée par H ANSEN (1982) (cf. [3]). Comme
son nom l’indique, l’algorithme comporte seulement 2 étapes pour calculer l’estimateur
θ̂2SGM M :
29
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Algorithme 4.1 2-step MMG
1. Calculer θ(1) en minimisant (4.2) avec W = I
2. Calculer θ̂2SGM M en minimisant (4.2) avec W = W θ(1)
Cette version possède l’avantage d’être relativement peu coûteuse en temps de calcul
(2 minimisations à effectuer, dans lesquelles W ne dépend pas de θ). Elle est en revanche
moins précise que les méthodes qui suivent, puisqu’une estimation grossière de la matrice
de covariance est utilisée.
Iterative MMG
Les deux versions améliorées suivantes ont été proposées par Hansen et al. (1996) ([4]).
Dans cette version, nous itérons la méthode précédente jusqu’à l’obtention d’un critère de
convergence pour obtenir θ̂IT GM M :
Algorithme 4.2 Iterative MMG
1. Calculer θ(1) en minimisant (4.2) avec W = I
2. Calculer θ(2) en minimisant (4.2) avec W = W θ(1)
3. Si |θ(2) − θ(1) | < ε alors θ̂IT GM M := θ(2) sinon retourner à l'étape 2 avec
θ(1) ← θ(2)
4. Définir θ̂IT GM M := θ(2)
où ε > 0 est un critère de convergence que nous pouvons prendre arbitrairement proche
de 0 pour améliorer la convergence de la méthode. Cette méthode est donc plus précise
mais plus coûteuse en temps de calcul.
Continuous-updating MMG
Dans cette dernière version, la minimisation est directement faite sur l’équation (4.2), où
W dépend explicitement de θ, la matrice est donc recalculée à chaque itération de l’algorithme d’optimisation lors de la recherche du minimum :
θ̂IT GM M := argmin t g (θ) W (θ)g (θ)
θ
Cette méthode a pour avantage d’être directement implémentable. Cependant, la non
linéarité et la complexité de la fonction à optimiser font que cette méthode est relativement
instable et sensible à l’algorithme d’optimisation choisi et ses starting values.
4.4
Difficultés d’estimation rencontrées
Dans cette section, nous mettons en exergue les différentes difficultés qu’induit l’utilisation des méthodes d’estimation dites “standard” que sont le maximum de vraisemblance et
la méthode des moments généralisée. Nous montrons en quoi elles posent parfois problème
pour estimer la sévérité du risque opérationnel, en l’illustrant sur des exemples réels.
4.4.1
L’instabilité de la vraisemblance en présence d’un seuil de collecte
Présentation du problème
L’obstacle le plus gênant à l’utilisation de l’estimation par maximum de vraisemblance
30
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
dans le cadre du risque opérationnel est l’instabilité de la vraisemblance à optimiser. En
effet, le seuil de collecte modifie la vraisemblance qui devient non convexe et très instable
numériquement.
Nous rappelons l’expression de la vraisemblance dans le cas de n pertes opérationnelles
ξi collectées au dessus d’un seuil H :
L(µ, σ | H) =
n
Y
i=i
f (ξi ; µ, σ)
1 − F (H; µ, σ)
La présence d’un seuil de collecte ajoute donc un facteur 1/ (1 − F (H; µ, σ)) à toutes les
contributions des observations à la vraisemblance. Or ce terme peut devenir très grand pour
certaines valeurs de (µ, σ), ce qui complique fortement l’optimisation numérique lors de la
recherche du maximum (bien évidemment, le même problème se pose si nous utilisons la
log-vraisemblance).
Afin de mieux nous en convaincre, nous traçons sur la figure 4.3 le terme figurant au
dénominateur de la fonction de vraisemblance pour le seuil de collecte en vigueur au Crédit
Agricole (H = 1000C) en fonction de µ et σ.
F IGURE 4.3 – Comportement du terme au dénominateur de la vraisemblance pour H = 1000
Nous observons alors que ce dénominateur est très proche de 0 dès que µ devient négatif. Si la vraisemblance ne présente pas de maximum au niveau des starting values de
l’algorithme d’optimisation (généralement de l’ordre de µ0 = 8 et σ0 = 2) alors ce dernier
va aller chercher l’extrémum de la fonction sur une plage de valeurs où le paramètre µ est
négatif, zone où la vraisemblance devient très instable en raison du facteur au dénominateur de la vraisemblance.
Mise en évidence sur données réelles
Nous pouvons illustrer ce cas sur données réelles : l’opposé de la log-vraisemblance (à
minimiser) est ainsi tracée figure 4.4 en fonction de µ (σ étant fixé à 2), pour un échantillon
de 191 pertes de la catégorie ’dommages’ survenues entre 2003 et 2007. Cet échantillon
de pertes a été choisi en raison de ses “mauvaises” propriétés (présence de plusieurs pertes
égales et de pertes extrêmes, faible adéquation au modèle log-normal...) afin de mettre à
mal les méthodes d’estimation de sa sévérité. Il fait d’ailleurs partie des catégories mises en
évidence précédemment au travers des boxplots (figure 1.1 page 5 ).
Nous remarquons ainsi une forte instabilité de la fonction à minimiser dès que µ 6−7.
Ceci laisse à penser que le minimum trouvé par l’algorithme d’optimisation, s’il converge,
sera incohérent. Pour illustrer ces problèmes numériques, le logiciel R indique que la valeur
de l’opposé de la log-vraisemblance en (µ = −10, σ = 2) vaut −∞.
31
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
2000
1950
1900
1850
1800
1750
–10
–9
–8
–7
–6
–5
–4
–3
–2
mu
F IGURE 4.4 – Opposé de la log-vraisemblance d’un échantillon réel de la catégorie ’dommages’
(banque de détail) en fonction de µ, pour σ = 2.
Dans ces conditions, nous comprenons que la méthode du maximum de vraisemblance
est ici inapplicable et inadaptée. Pourtant, le résultat de l’optimisation avec le même logiciel
semble tout de même converger (retour du code 0 dans le champ $convergence) :
> optim(c(8,2),NegLogVrais, method = "Nelder-Mead")
$par [1] -87.05392 11.51389
$value [1] 1567.848
$convergence [1] 0
Pour autant, les paramètres estimés (µ̂ = −87.05, σ̂ = 11.51) sont absurdes d’un point
de vue métier comme nous l’expliquons dans le paragraphe suivant.
Le problème des µ 6 0
A ce stade de l’étude, nous pouvons nous poser la question de savoir comment interpréter les résultats de l’estimation, et si certaines valeurs de paramètres sont en pratique
inacceptables.
D’un point de vue théorique, la seule contrainte sur les paramètres d’un modèle lognormal est σ > 0. Le résultat précédent est donc en théorie valable. En revanche, une fois
les paramètres de ce modèle estimés, la proportion de pertes inférieures au seuil s’estime
par F (H; µ̂, σ̂). Comme l’avons constaté sur la figure 4.3, ce terme est très proche de 1 dès
que µ 6 0 : toute la masse de probabilité est donc concentrée en-deçà du seuil. Ceci est très
dangereux d’un point de vue métier car les pertes extrêmes (bien supérieures à 1000 C) ne
sont alors pas du tout prises en compte par le modèle. De plus, comme nous le verrons par
la suite, un calcul de charge en capital avec un paramètre µ négatif conduit à des valeurs
aberrantes.
Dans toute la suite de l’étude, nous rejetterons donc systématiquement les résultats d’estimation menant à un µ négatif, en considérant la méthode inadaptée au problème.
Un mot sur l’algorithme d’optimisation
Précisons ici que le problème identifié auparavant n’est pas spécifique à l’algorithme d’optimisation employé. Les résultats précédents ont été obtenus en utilisant la méthode du
simplexe de Nelder-Mead 2 implémentée dans R, qui parait la méthode d’optimisation la
plus adaptée au problème. En effet, contrairement aux algorithmes comme la descente de
2. John Nelder et Roger Mead (1965), “A simplex method for function minimization”, dans Computer Journal,
vol. 7, No.4
32
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
gradient ou ses dérivés (BFGS), elle ne calcule pas la matrice Hessienne de la fonction à optimiser, et ne fait qu’évaluer successivement la fonction en des points judicieusement choisis.
De plus, elle est beaucoup moins sensible aux starting values données.
Nous avons donc testé les principales méthodes d’optimisation sur la série de pertes précédente (disponibles sous R en argument de la commande optim), y compris l’optimisation
sous contraintes. Nous recensons les résultats dans le tableau 4.1.
Méthode d’optimisation
µ̂M L
σ̂M L
- Log-vrais
Convergence
Nelder-Mead
-87.1
11.5
1567.8
Oui
BFGS
-42.7
8.49
1645.6
Oui
Gradient-conjugué
-4.22
4.40
1648.3
Non
BFGS-B (contrainte : µ > 0)
0.00
3.68
1841.2
Oui
BFGS-B (contrainte : µ > 2)
2.00
3.29
1842.9
Oui
TABLE 4.1 – Résultat des différentes méthodes d’optimisation de la log-vraisemblance sur données réelles (catégorie ’dommages’ de la banque de détail)
Nous pouvons alors observer que la méthode de Nelder-Mead donne les “meilleurs”
résultats, en tout cas en ce qui concerne la valeur de la fonction objectif. L’utilisation de
l’optimisation sous contraintes (au moyen de l’algorithme BFGS with Bounds) est un échec,
dans le sens où la contrainte est systématiquement saturée. Cela laisse donc penser que la
vraisemblance, sur ces données réelles, ne possède pas d’extrémum local dans la région des
valeurs positives de µ.
Tentative d’explication théorique
Terminons enfin en apportant un argument théorique au problème mis en évidence. En
effet, les bonnes propriétés théoriques du maximum de vraisemblance (notamment son efficacité et surtout l’absence de biais dans les estimations) requièrent certaines hypothèses,
dont la plus fondamentale est la bonne adéquation du modèle paramétrique d’ajustement :
la loi du phénomène observé doit ici appartenir à la famille lognormale. Or ce n’est manifestement pas le cas sur cet exemple, comme en témoigne la densité empirique tracée
sur la figure 4.5 : elle semble assez éloignée d’une distribution lognormale, et parait avoir
plusieurs modes.
F IGURE 4.5 – Densité empirique de pertes réelles de la catégorie ’dommage’
En conséquence de quoi la convergence de l’estimateur n’est plus assurée (cf. [12]), ce
qui explique en partie les résultats incohérents obtenus sur l’échantillon réel, et l’inadéqua33
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
tion de la méthode du maximum de vraisemblance à l’estimation des paramètres de sévérité
du risque opérationnel sous l’hypothèse lognormale.
4.4.2
Le biais de la méthode des moments généralisée
La méthode des moments généralisée ne souffre pas des écueils évoqués précédemment.
En effet, la fonction à optimiser (4.2 p.28) numériquement reste suffisamment régulière
même avec la prise en compte du seuil de collecte. L’algorithme d’optimisation converge
ainsi systématiquement, vers des valeurs positives de µ sur des données réelles. C’est en
partie pour cela qu’elle a été choisie pour estimer les paramètres de sévérité des pertes
opérationnelles au Crédit Agricole.
Cependant, ses propriétés théoriques ne sont pas comparables à celle du maximum de
vraisemblance. En effet, contrairement au maximum de vraisemblance, elle n’est qu’asymptotiquement sans biais, et converge lentement vers la vraie valeur du paramètre (comme
nous pouvions déjà le pressentir au vu de la figure 4.2 page 29). Afin de mettre en évidence
le problème de manière plus détaillée, nous effectuons des simulations avec un paramètre
µ fixé à 5, un paramètre σ allant de 1 à 2,5 et une volumétrie comprise entre 0 et 5000
observations. Nous estimons alors les paramètres µ et σ pour calculer un écart relatif en
valeur absolue, chaque écart étant moyenné
sur la base de N = 100 estimations. En notant
θ0 la vraie valeur du paramètre et θ̂ni
ses estimations successives par MMG, nous
i=1..N
traçons donc pour chaque n la valeur de l’écart :
θ̂n − θ0 n =
θ0
Les résultats sont regroupés sur la figure 4.6.
F IGURE 4.6 – Valeur absolue de l’écart relatif sur l’estimation des paramètres µ et σ par MMG
Nous pouvons ainsi observer que le biais sur les paramètres est encore important même
avec une volumétrie élevée : de l’ordre de 10% pour 5000 observations quand σ vaut 2.
Comme en pratique les données issues du risque opérationnel dépassent rarement une taille
de n = 1000, le biais résiduel est en pratique bien plus conséquent. De ce fait, comme nous
le verrons dans la suite, l’estimation de la charge en capital sera d’autant moins fiable.
34
Chapitre 5
Les solutions alternatives
envisagées
Nous exposons dans ce chapitre la démarche scientifique suivie pour essayer de s’affranchir des différents écueils des méthodes d’estimation présentées auparavant. Elle aboutit à
la définition de plusieurs méthodes alternatives dont nous présentons les détails théoriques.
5.1
Motivations et démarche scientifique
Dans tout problème d’estimation statistique, la première étape est le choix du modèle
sous-jacent – ici log-normal pour les pertes opérationnelles. Ensuite, l’idée est de se donner
une mesure de distance entre le modèle théorique et les données réelles, et de la rendre
aussi faible que possible. Par exemple, nous montrerons que la méthode du maximum de
vraisemblance est équivalente à la minimisation d’une distance entre la densité réelle et
celle du modèle théorique. En choisissant différentes mesures, nous obtenons autant de
méthodes d’estimation statistiques aux propriétés différentes.
A ce stade, il est donc naturel de se poser les questions suivantes. Est-il possible d’obtenir
de meilleures méthodes d’estimation que celles présentées précédemment en jouant sur les
mesures de distance à minimiser ? Sont-elles plus adaptées au cadre du risque opérationnel ?
5.2
Une autre approximation de la distance minimisée par
le maximum de vraisemblance
Nous montrons dans ce paragraphe que la méthode du maximum de vraisemblance est
équivalente à la minimisation d’une distance particulière, que nous cherchons à approximer
autrement afin d’obtenir une méthode d’estimation un peu plus robuste.
5.2.1
Introduction de la distance K-L
Dans leur article de 1951 intitulé “On information and Sufficiency”, Kullback et Leibler
proposent une mesure de ’distance’ entre deux densités de probabilités. Si R et S sont deux
variables aléatoires continues de densités respectives r et s de même support X , alors la
distance entre leurs densités peut être mesurée par :
D(r, s) = D(R||S) =
r(x) ln
x∈X
35
r(x)
dx
s(x)
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
où D(r, s) ≥ 0, avec égalité ssi r(x) = s(x) p.p.
N.B. : Il ne s’agit pas d’une distance au sens mathématique du terme car elle ne possède
pas la propriété de symétrie (D(r, s) 6= D(s, r)). C’est pourquoi elle est aussi appelée mesure de divergence de Kullback-Leibler (K-L).
Dans le cas simple de deux variables aléatoires normales R ∼ N (µR , σR ²) et S ∼
N (µS , σS ²) , il est possible d’illustrer cette notion sur des exemples. Nous pouvons alors
calculer :
1
D(r, s) =
2
2
σR ²
σR ²
(µR − µS )
− ln
−1 +
σS ²
σS ²
2σS ²
Ceci peut être représenté graphiquement pour différentes valeurs des paramètres (voir pour
cela la figure 5.1).
F IGURE 5.1 – Distances K-L entre deux distributions normales pour différents paramètres
(source : présentation de Rudolf Kulhavy, “A Kullback-Leibler Distance Approach to System
Identification”, Academy of Sciences of the Czech Republic)
5.2.2
Application au maximum de vraisemblance
Soient ξ1 , ξ2 , ..., ξn les variables i.i.d. représentant les pertes opérationnelles issues de la
’vraie’ distribution de densité g. Nous voulons ajuster un modèle paramétrique de densité
théorique {fθ , θ ∈ Θ ⊂ R²}. La distance K-L entre ces distributions est alors :
D(g, fθ ) =
g(x) ln
g(x)
dx =
fθ (x)
g(x) ln g(x)dx −
g(x) ln fθ (x)dx
(5.1)
qui dans le cas discret s’estime le plus simplement par :
n
n
1X
1X
ln g(ξi ) −
ln fθ (ξi )
n i=1
n i=1
La vraie densité g étant inconnue, minimiser (5.2) est alors équivalent à maximiser :
n
X
ln fθ (ξi )
i=1
36
(5.2)
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
qui est la fonction de log-vraisemblance.
5.2.3
L’estimation par Maximum Spacing (MS)
Principe théorique
Reprenons les notations précédentes, en notant G et Fθ les fonctions de répartition correspondant aux densités g et fθ . Nous pouvons alors obtenir une autre approximation de la
mesure K-L (équation 5.1) entre distributions empirique et théorique.
En effet, en considérant les statistiques d’ordre ξ(1) 6 ξ(2) 6 ..., nous pouvons écrire au
premier ordre :
fθ (ξ(j) ) ≈
Fθ (ξ(j) ) − Fθ (ξ(j−1) )
ξ(j) − ξ(j−1)
En effectuant la même approximation pour la densité g, alors nous obtenons une nouvelle approximation discrète de (5.1) :
n+1
G(ξ(j) ) − G(ξ(j−1) )
1 X
ln
n + 1 j=1 Fθ (ξ(j) ) − Fθ (ξ(j−1) )
(5.3)
Minimiser cette expression est équivalent à maximiser :
Sn (θ) =
n+1
X
ln Fθ (ξ(j) ) − Fθ (ξ(j−1) ; θ)
(5.4)
j=1
Le paramètre réalisant le maximum de cette expression est appelé estimateur par Maximum Spacing (littéralement : maximum d’espacement) noté θ̂M S .
N.B. : En notant D(j) (θ) = Fθ (ξ(j) ) − Fθ (ξ(j−1) ) les “espacements”, nous pouvons représenter graphiquement le principe de la méthode (voir figure 5.2). En effet, l’expression
(5.4) peut se réécrire :
Sn (θ) =
n+1
X
ln
h
D(1) D(2) ...D(n+1)
1 i
n+1
j=1
Il s’agit donc, pour effectuer l’estimation, de maximiser la moyenne géométrique des
espacements D(j) (θ) ce qui revient à trouver une distribution uniformisant leur longueur.
F IGURE 5.2 – Principe de l’estimation par Maximum Spacing (source : Wikipedia)
37
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Propriétés de l’estimateur obtenu
S’agissant d’une méthode dérivée du maximum de vraisemblance, nous pouvons nous
attendre à trouver des propriétés très proches sur les estimateurs obtenus. Sous certaines
conditions de régularité, Ranneby [7] prouve la convergence de l’estimateur du Maximum
Spacing, ainsi que sa normalité et son efficacité asymptotiques.
Cheng et Traylor [10] montrent également que ces conditions de régularité du modèle
sous-jacent sont plus larges que dans le cas du maximum de vraisemblance. Ainsi dans
certains cas, l’estimation par maximum spacing produit des estimateurs convergents quand
le maximum de vraisemblance ne réussit pas à estimer les paramètres (en raison de densités
non bornées, par exemple dans le cas de mélanges de lois). Cette méthode d’estimation
parait donc avoir de bonnes propriétés théoriques tout en étant un peu plus robuste que le
maximum de vraisemblance. Néanmoins, elle présente tout de même certaines difficultés
d’estimation.
Les obstacles résiduels à l’estimation
Nous pouvons à présent remarquer que l’expression à maximiser (5.4) pour obtenir l’estimation est sensible aux observations égales. En effet, s’il existe un j tel que ξ(j) = ξ(j−1)
alors elle devient infinie.
Pour éviter cet écueil, Cheng et Amin [11] proposent dans ce cas de remplacer la valeur
de D(j) (θ) par la valeur de la densité fθ (ξ(j) ), étant donné que :
lim
ξ(j) →ξ(j−1)
1
ξ(j) − ξ(j−1)
ξ(j)
fθ (x)dx = fθ (ξ(j−1) ) = fθ (ξ(j) )
ξ(j−1)
Lorsque la collecte recense plusieurs pertes de montant similaire (assez courant dans le
cadre du risque opérationnel), les contributions à l’expression à maximiser sont donc sensiblement les mêmes que dans le cas du maximum de vraisemblance.
Là encore, la prise en compte du seuil de collecte nous oblige à modifier la fonction de
répartition à utiliser dans l’équation (5.4). En effet, il faut utiliser la fonction de répartition conditionnellement au seuil H, ce qui nous oblige à remplacer Fθ (x) par Fθ|H (x) =
(x)−Fθ (H)
P (ξ < x | ξ > H) = Fθ1−F
. De ce fait, nous retrouvons le terme en 1 − Fθ (H) au déθ (H)
nominateur de l’expression à minimiser, ce qui comme nous l’avons vu pose problème lors
de l’optimisation.
Nous nous attendons donc à retrouver certaines difficultés d’estimation rencontrées avec
le maximum de vraisemblance.
Illusration sur un exemple réel
Afin d’avoir une idée des résultats pouvant être obtenus avec cette méthode d’estimation,
nous l’appliquons sur une catégorie de pertes réelles. Il s’agit de la fraude interne collectée
par une banque d’investissement, comportant 47 pertes. Notons qu’il s’agit plus précisément
des pertes hors monétique (c’est-à-dire hors petits montants liés à l’utilisation frauduleuse
de cartes bleues). Ces données sont donc susceptibles de comporter des pertes extrêmes.
Nous recensons dans le tableau 5.1 la valeur des estimateurs obtenus avec la méthode
du maximum spacing (MS) et, pour comparaison, avec les deux autres méthodes détaillées
précédemment. Nous remarquons que le problème d’estimation mis en exergue pour le
maximum de vraisemblance est présent. En revanche, il n’apparait pas sur l’estimateur par
maximum spacing, ce qui confirme qu’il est plus robuste dans certains cas.
Les méthodes MS et MMG donnent donc sur cet exemple réel des résultats qui semblent
corrects à première vue. Pour avoir une première idée de l’adéquation des pertes au modèle
log-normal avec les paramètres estimés par ces méthodes, nous traçons également les QQplots sur la figure 5.3.
38
I.S.F.A.
Mémoire d’actuariat
MS
ML
MMG
µ̂
4.11
-73.8
8.75
σ̂
3.34
10.2
1.51
A. R ENAUDIN
TABLE 5.1 – Résultats d’estimation sur la catégorie Fraude Interne de la banque d’investissement
F IGURE 5.3 – QQ-plots log-normaux avec les paramètres estimés par MS et MMG, pour la
fraude externe de la banque d’investissement
Nous pouvons alors observer que l’adéquation semble meilleure avec une estimation des
paramètres de sévérité par maximum spacing que par la méthode des moments généralisées.
Ceci conforte l’analyse précédente (paragraphe 4.4.2 page 34) sur le biais des paramètres
estimés, l’échantillon étant ici de petite taille (n = 47).
Précisons enfin que l’estimation MS pour la sévérité de l’échantillon ’dommages’ (donné
en exemple au paragraphe 4.4.1 page 31) donne à peu de choses près les mêmes résultats
que par maximum de vraisemblance, c’est-à-dire inacceptables d’un point de vue métier.
Cette méthode n’est donc pas tout à fait appropriée à notre problématique.
5.3
Minimisation de statistiques de tests
Dans ce paragraphe, nous proposons d’utiliser la théorie des tests et ses statistiques
comme mesures de distances à minimiser afin de tenter d’obtenir des méthodes d’estimation
alternatives plus adaptées au risque opérationnel.
Plusieurs statistiques couramment utilisées dans la théorie des tests sont des mesures de
distance entre la fonction de répartition empirique Fn et la fonction de répartition théorique
du modèle paramétrique à ajuster Fθ , qui est ici log-normal. Nous rappelons que la fonction
de répartition empirique Fn est définie par :
n
Fn (x) =
1X
1{x6ξ(j) }
n j=1
Nous
noterons dans la suite zH := Fθ (H) et zj := Fθ (ξ(j) ), et comme précédemment
ξ(j) j=1..n désignent les statistiques d’ordre de l’échantillon de pertes considéré. En présence d’un seuil de collecte (données censurées à gauche), les deux hypothèses testées sont
Fn ∈ Fθ|H contre Fn ∈
/ Fθ|H (voir le paragraphe 5.2.3 page 38 pour la définition de Fθ|H ).
Deux types de tests d’ajustement, et donc de distance, vont être présentés. La première
statistique de test, Kolmogorov-Smirnov (KS), se base sur la distance mesurant l’écart maximum résidant entre Fn et Fθ|H . Les autres s’appuient sur une distance quadratique entre
39
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
ces deux fonctions de répartition prenant ainsi en compte l’ensemble des écarts et non pas
seulement un écart local. C’est le cas des tests de type Cramer von Mises (CvM) et Anderson
Darling (AD). Nous présentons dans la suite leurs propriétés théoriques.
Quelques aspects théoriques
L’estimation de paramètres par minimisation de distance a été originellement proposée
par Wolfowitz en 1953 ([15]). En notant δ(., .) une fonction retournant une distance entre
deux fonctions de répartitions, elle peut se formaliser comme suit : s’il existe θ̂ ∈ Θ tel que
δ(Fn , Fθ̂ ) = inf {δ(Fn , Fθ ), θ ∈ Θ}, alors θ̂ est appelé estimateur par minimum de distance
de θ.
Wolfowitz (1953) prouve la convergence de l’estimateur obtenu avec la distance δ(F1 , F2 ) =
sup |F1 (x) − F2 (x)|. Différents auteurs la généralisent ensuite à plusieurs autres types de
x
distances, notamment des distances quadratiques pour lesquelles l’estimateur obtenu est
asymptotiquement normal (cf. [16] pour un état de l’art complet).
Les principaux attraits des estimateurs par minimum de distance est leur relative simplicité de mise en œuvre (moyennant un algorithme d’optimisation performant), ainsi que
leurs bonnes propriétés quand le modèle théorique paramétrique conjecturé n’est pas correct, ce qui nous l’avons vu parait être le cas pour certaines séries de pertes issues du risque
opérationnel comme EL5 (dommages aux actifs corporels) : se référer au graphique 1.1
page 5.
Statistique KS
La distance mesurée par la statistique de Kolmogorov-Smirnov est l’écart maximal entre
la distribution empirique et la distribution paramétrique du modèle à ajuster :
KS(θ) =
√
nsup Fn (x) − Fθ|H (x)
x
Dans la pratique (voir [13]), nous calculons :

√
+

KS = nsup Fn (ξ(j) ) − Fθ|H (ξ(j) ) =
j
√
−

KS = nsup Fθ|H (ξ(j) ) − Fn (ξ(j) ) =
j
√
n
j
1−zH sup zH + n (1 − zH ) − zj
j
√
n
sup
zj − zH − j−1
1−zH
n (1 − zH )
j
Puis :
KS(θ) = max KS + , KS −
L’estimateur KS est alors obtenu en minimisant cette distance :
θ̂KS := argmin KS(θ)
θ
Statistique CvM
En général, les statistiques basées sur des distances quadratiques sont regroupées en une
famille, dite de Cramer von Mises, et a pour forme générale en présence d’un seuil H :
+∞
Fn (x) − Fθ|H (x) 2 ψ(Fθ|H )dFθ|H (x)
Q(θ) = n
H
où ψ est une fonction de pondération des différentes observations.
Dans le cas d’une pondération uniforme (ψ(x) = 1), nous obtenons une distance quadratique mesurant l’écart moyen entre distributions empirique et théorique, appelée statistique
de Cramer Von Mises. En discrétisant l’intégrale selon les observations et en effectuant des
40
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
changements de variables (se reporter à [13] pour les détails), nous pouvons démontrer
que cette statistique peut également s’écrire :
W 2 (θ) =
n
n
X
X
n
nzH
1
1
2
+
+
(1 − 2j)zj +
(zj − zH )
3
1 − zH
n(1 − zH ) j=1
(1 − zH )2 j=1
C’est cette forme que nous utiliserons en pratique pour minimiser cette distance et obtenir :
θ̂CV M := argmin W 2 (θ)
θ
Statistique AD up
La statistique d’Anderson
Darling est obtenue en changeant la fonction de pondération ψ
(ψ = Fθ|H 1 − Fθ|H ) afin d’attribuer plus de poids aux observations en queues de distribution (queues gauche et droite). L’objectif de gestion du risque opérationnel étant de se prémunir face aux pertes extrêmes exceptionnelles, c’est l’ajustement de la queue droite de la
distribution qui revêt une importance particulière. C’est une version légèrement modifiée de
−2
la statistique AD que nous utiliserons donc, avec une pondération ψ(Fθ|H ) = 1 − Fθ|H
qui attribue un poids plus important aux pertes extrêmes, et un poids moindre aux pertes
moins sévères. Nous la nommerons AD up et nous pouvons montrer qu’elle vaut ici (voir
encore [13] pour les étapes du calcul) :
2
ADup
(θ) = −2n ln(1 − zH ) + 2
n
X
ln(1 − zj ) +
j=1
n
1 − zH X (1 + 2(n − j))
n j=1
1 − zj
Comme précédemment, nous définissons :
2
θ̂ADup := argmin ADup
(θ)
θ
5.4
Minimisation d’une distance inter-quantiles
Nous proposons ici une dernière mesure de distance qui pourrait être minimisée afin
d’estimer les paramètres de sévérité du risque opérationnel. Cette méthode d’estimation
ainsi que ses propriétés théoriques ont été originellement présentées par LaRiccia, et LaRiccia et Wehrly [9].
5.4.1
Principe de la méthode
Le principe de cette approche est similaire à l’analyse des QQ-plots, outils graphiques
permettant de juger de l’adéquation entre des estimations et des données réelles et consistant à tracer les quantiles empiriques (issus des données), en fonction des quantiles théoriques (issus du modèle paramétrique ajusté). Lorsque l’adéquation est parfaite, les points
observés se situent le long de la première bissectrice du repère. Il s’agit donc d’optimiser
l’estimation de manière à ce que les quantiles théoriques les plus proches possibles des
quantiles empiriques.
Pour un échantillon de n pertes ξ1 , . . . , ξn collectées au-delà d’un seuil H, nous nous
intéressons à la distance quadratique entre k quantiles empiriques qb(p1 ), . . . , qb(pk ) et quantiles théoriques Fθ−1 (pi ), où Fθ−1 est la fonction de répartition inverse et θ le vecteur de
paramètres de la loi à ajuster. La distance inter-quantiles s’écrit classiquement :
Q2 (θ, p, ω) =
k
X
2
ωi qb(pi ) − Fθ−1 (pi )
i=1
41
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
p = (p1 , . . . , pk )0 est le vecteur des niveaux des quantiles à ajuster, avec 0 < p1 < . . . < pk <
1
ω = (ω1 , . . . , ωk )0 est le vecteur des poids attribués aux différents termes d’ajustement.
Les quantiles empiriques qb sont construits à partir du vecteur de pertes de l’échantillon, en
fonction du vecteur p = (p1 , . . . , pk )0 . Le ième quantile empirique correspond à la ième perte
de l’échantillon trié si le nombre est entier, et à une interpolation linéaire entre les deux
pertes les plus proches sinon. Comme le montre la figure 5.4 ci-dessous, cela permet de
”lisser” les quantile empiriques et donc la fonction à optimiser, ce qui produit de meilleurs
résultats lors de l’optimisation, notamment lorsque le nombre de données disponibles est
faible.
F IGURE 5.4 – Fonctions quantiles empiriques (en bleu) et quantiles empiriques interpolés (en
rouge) ; illustration sur un échantillon de fraude monétique
L’objectif de l’estimation est donc de trouver le paramètre θ = θbQD minimisant la distance inter-quantiles Q2 (θ, p, ω), afin d’obtenir une bonne adéquation entre les pertes observées (quantiles empiriques) et les pertes estimées par le modèle paramétrique (quantiles
théoriques).
5.4.2
Pondération de la distance
Afin de limiter l’instabilité numérique liée aux termes de la sommes liés à des quantiles
extrêmes dans l’expression de la distance, nous choisissons de considérer les écarts relatifs
entre quantiles en utilisant l’inverse du quantile empirique en guise de pondération :
ωi =
1
qb(pi )2
Ceci permet de relativiser l’importance de chaque niveau de quantile utilisé pour la
minimisation de la distance et d’éviter les problèmes numériques lors de l’optimisation.
5.4.3
Prise en compte des agrégats
Comme dans la MMG, il est également possible de prendre en compte les agrégats. Si les
pertes ξi sont chacune constituées de κi évènements distincts (pour une perte concernant
b∗
un unique évènement), nous considérons alors les
quantilesempiriques q (pi ) obtenus en
considérant l’échantillon « réduit » (ξ1∗ , . . . , ξn∗ ) =
alors :
Q2 (θ, p) =
k
X
i=1
ξ1
ξn
κ1 , . . . , κn
. La distance-quantile devient
2
1
b∗ (pi ) − Fθ−1 (pi )
q
qb(pi )2
42
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Remarque : la normalisation par les quantiles empiriques hors agrégats 1/b
q (pi )2 est conservée même en présence d’agrégats, ceci ayant pour effet de limiter l’impact des pertes composées de plusieurs évènements.
5.4.4
Prise en compte du seuil de collecte
Nous introduisons une dernière modification à la méthode afin de tenir compte du seuil
de collecte des pertes opérationnelles, noté H. Cela se traduit par une transformation des
niveaux de quantiles à ajuster. En effet, le quantile de niveau α de l’échantillon tronqué
correspond en fait à un niveau de quantile αH de la distribution théorique complète, avec
αH > α .
En utilisant la relation liant la distribution conditionnelle Fθ|H à la distribution complète
Fθ :
Fθ|H (x) =
Fθ (x) − Fθ (H)
1 − Fθ (H)
nous déduisons le lien entre αH et α :
αH = α + 1 − α Fθ (H).
(5.5)
En conséquence, nous modifions les quantiles théoriques à ajuster, ce qui implique que
l’expression de la distance à minimiser est :
Q2 (θ, p, H) =
k
X
i=1
2
1
b∗ (pi ) − Fθ−1 pi + (1 − pi )Fθ (H)
q
qb(pi )2
Néanmoins, le paramètre θ intervient doublement dans cette formulation et cela est
source de difficultés numériques lors de l’optimisation. Afin de réduire cette instabilité, nous
décidons d’utiliser un estimateur de dans le terme correcteur Fθ (H) . L’estimateur retenu
est obtenu par minimisation d’une distance-quantile qui tient compte du seuil de collecte en
décalant linéairement les quantiles empiriques vers l’origine :
qb∗ (pi ) ← qb∗ (pi ) − (1 − pi )H
Cette modification permet d’utiliser des quantiles théoriques de la distribution lognormale non tronquée et donc d’éviter toute instabilité numérique dans la minimisation de la
distance :
θe = arg min
θ
k
X
i=1
2
1
b∗ (pi ) − Fθ−1 pi + (1 − pi )H
q
qb(pi )2
Une fois θe ainsi déterminé, l’estimateur θbQD du paramètre de la distribution de sévérité
est finalement obtenu en minimisant la distance suivante :
e 2 (θ, p, H) =
Q
k
X
i=1
5.4.5
2
1
b∗ (pi ) − Fθ−1 pi + (1 − pi )F e(H)
q
θ
qb(pi )2
Choix des différents paramètres
Dans la distance inter-quantiles introduite au paragraphe précédent, il reste plusieurs
éléments à paramétrer. Il s’agit notamment de déterminer le nombre de quantiles à examiner ainsi que le choix de la répartition des niveaux de quantiles. Ergashev [14] fixe des
paramètres arbitraires pour effectuer l’estimation dans le cadre d’une loi de sévérité logStudent mais ne propose pas de justifications.
43
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Nous nous proposons donc d’étudier le choix de ces paramètres dans le cadre d’une
distribution de sévérité lognormale. Dans un premier temps, nous faisons le choix d’une
répartition uniforme des quantiles à ajuster dans l’échantillon. La figure 5.5 illustre les
pertes ordonnées d’un échantillon superposées avec les quantiles intervenant dans l’estimation dans le cas d’une répartition uniforme, sur des pertes réelles provenant du crédit à
la consommation.
F IGURE 5.5 – Quantiles choisis uniformément (en rouge) dans un échantillon réel (montants
de pertes en échelle logarithmique)
Choix du nombre de quantiles à ajuster
Nous choisissons k, le nombre de quantiles à ajuster, inférieur ou égal à n de manière à
ne faire porter l’estimation que sur k pertes de l’échantillon collecté de taille n. Afin d’avoir
une première idée de l’influence du nombre de quantiles à retenir dans l’estimation, nous
calculons en fonction de k les paramètres de sévérité par la méthode QD présentée précédemment sur des échantillons simulés.
Nous simulons deux échantillons log-normaux de paramètres LN (8, 2) et LN (12, 1.5),
censurés au seuil H, de tailles n = 100 et n = 1000, puis nous effectuons l’estimation. Les
résultats sont regroupés sur la figure 5.6.
F IGURE 5.6 – Estimations de µ (bleu) et σ (vert) sur données simulées LN (8, 2) et LN (12, 1.5)
de tailles n = 100 (en haut) et n = 1000 (en bas) en fonction du nombre de quantiles utilisés
Les estimations semblent être très vite stables vis-à-vis du paramètre k. Pour la suite,
nous ferons donc le choix assez naturel de prendre en compte la moitié des données pour
l’estimation, soit k = bn/2c.
44
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Répartition exponentielle des quantiles
Le choix de la répartition uniforme des quantiles n’est pas nécessairement adapté à la
problématique du risque opérationnel. En effet, comme le montre la figure 5.5 dans le
cas d’une répartition uniforme des quantiles, les pertes extrêmes ne sont pas suffisamment
prises en compte dans l’estimation : le corps de la distribution est mieux représenté que
la queue. Or ce sont pourtant les valeurs extrêmes qui influent davantage sur la valeur
de la CaR. Pour y remédier, nous nous proposons de choisir une répartition exponentielle
des quantiles afin de mieux ajuster les quantiles extrêmes. C’est ce que préconise Ergashev
([14]) en répartissant les quantiles avec une fonction de la forme :
(exp)
pi
=C
1 − exp(−im/k)
1 − exp(−m)
où :
C est une constante dans [0, 1] matérialisant le niveau du dernier quantile à ajuster
m un entier positif dont la valeur influe sur la répartition des niveaux de quantiles : plus
cette valeur augmente, plus les quantiles à ajuster sont concentrés en queue de distribution (cf. figure 5.5), et le cas de la répartition uniforme s’obtient pour m −→ 0.
Nous fixerons dans la suite pour un échantillon de n pertes la constante C = 1 − 1/2n.
Cela permet d’avoir un niveau de quantile final cohérent avec la taille de l’échantillon, et de
prendre en compte la dernière perte dans l’estimation.
En effet, le dernier niveau de quantile est alors systématiquement compris entre l’avantdernière et la dernière perte de l’échantillon trié. Du fait de l’interpolation entre les quantiles
empiriques la dernière perte sera donc en partie prise en compte dans l’estimation (voir le
dernier quantile choisi en rouge figure 5.7) . Cela apporte une certaine robustesse à la
méthode en la prémunissant de possibles problèmes numériques, tout en lui apportant une
précision supérieure aux quantiles empiriques sans interpolation qui ne prennent pas du
tout en compte la dernière perte.
F IGURE 5.7 – Quantiles exponentiellement répartis (en rouge) dans un échantillon trié de la
catégorie ’exécution’ avec m = 5 (montants en échelle logarithmique)
Reste donc la question du paramètre de répartition des quantiles, qu’Ergashev [1] fixe
à m = 5 sans justification. Nous nous proposons donc d’étudier son influence dans le paragraphe suivant.
Influence du paramètre de répartition m des quantiles à ajuster
Nous regardons à présent l’influence de cette variable sur l’estimation des paramètres de
sévérité. Nous choisissons pour cela les 12 échantillons réels de pertes collectées entre 2005
et 2009 ayant présenté des critères d’ajustement jugés non satisfaisant lors du backtesting 1
1. Des indicateurs sont produits par la banque à chaque exercice annuel afin d’évaluer la pertinence du modèle
(notamment la précision des estimations, la stabilité et la robustesse des paramètres sur des fenêtres glissantes de
5 ans). Cela permet de confronter les valeurs prédites par le modèle à la réalité de l’année écoulée (par exemple
en terme de nombre de pertes ou de montant attendu), et de procéder à des ajustements le cas échéant
45
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
2009. Leurs caractéristiques 2 sont données dans le tableau 5.2. Nous pouvons donc considérer ces échantillons comme hétérogènes, et/ou ne présentant pas de bonnes propriétés
de log-normalité.
Cas
1
2
3
4
5
6
7
8
9
10
11
12
Entité
Banque de détail 1
Banque de détail 1
Banque de détail 1
Banque de détail 1
Banque de détail 2
Banque de détail 2
Banque d’investissement
Asset Management
Crédit conso 1
Crédit conso 1
Crédit conso 2
Crédit conso 2
Catégorie
EL2M
EL4
EL5
EL7
EL4
EL7
EL7
EL7
EL2
EL7
EL2
EL7
Seuil de collecte
1
1000
1000
1000
1000
1000
1000
1000
1
150
1
1
Nb pertes
22 164
5 245
3 691
9 284
1 121
5 541
7 913
1 520
2 011
107
1 217
226
TABLE 5.2 – Caractéristiques des échantillons de pertes mis en évidence dans le backtesting 2009
Sur chaque échantillon, nous effectuons l’estimation par QD (traits pleins) en fonction
du paramètre m, que nous faisons varier de m ≈ 0 jusqu’à m = 8 (voir figure 5.8).
F IGURE 5.8 – Influence du paramètre m sur l’estimation des paramètres de sévérité (µ en bleu,
σ en vert)
Comme il était possible de le prévoir, on remarque que les valeurs élevées du paramètre
m fournissent généralement des estimations moins élevées du paramètre µ et plus élevées
du paramètre σ. Mais l’influence de cette variable n’est pas décisive dans l’estimation des paramètres. Toutefois, il parait naturel de choisir une valeur de pour laquelle les quantiles sont
concentrés en queue de distribution. Cela permet de mieux ajuster les quantiles extrêmes
(et donc d’aboutir à des CaR plus précises), et de compenser l’effet des pondérations introduites au paragraphe 5.4.2 (p.42) qui ont tendance à uniformiser l’influence des quantiles
2. Pour raisons de confidentialité, des pertes ont été aléatoirement supprimées dans chacun des échantillons.
46
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
dans l’estimation. Le choix de m = 4 parait alors approprié, et a été vérifié empiriquement
comme celui amenant le meilleur ajustement sur ces 12 catégories difficiles (en terme de
tests d’adéquation et QQ-plots ).
Au final, pour un échantillon de pertes de taille n, le vecteur des niveaux des quantiles
à ajuster est donc constitué de la manière suivante :
jnk
1 1 − exp (−4i/k)
(5.6)
pi = 1 −
, avec k =
2n
1 − exp(−4)
2
5.4.6
Récapitulatif des étapes de l’estimation
Comme expliqué précédemment, l’estimation par QD dans le cadre du risque opérationnel se fait finalement de la manière suivante :
1. Collecte des pertes ξ1 , . . . , ξn au dessus d’un seuil H
2. Création du vecteur des niveaux de quantiles p de taille k, répartis exponentiellement
selon (5.6)
3. Calcul d’un estimateur θe de θ avec :
bn/2c
θe = arg min
θ
X
i=1
−1 2
1
∗
b
q (pi ) − Fθ pi + (1 − pi )H
qb(pi )2
4. Utilisation de cet estimateur pour obtenir l’estimateur final :
bn/2c
θbQD = arg min
θ
5.5
X
i=1
2
1
b∗ (pi ) − Fθ−1 pi + (1 − pi )F e(H)
q
θ
qb(pi )2
Premier bilan
A ce stade de l’étude, nous avons introduit et présenté 5 méthodes d’estimation alternatives au maximum de vraisemblance (ML) et à la méthode des moments généralisée
(MMG) :
– Maximum Spacing (MS)
– Kolmogorov-Smirnov (KS)
– Cramer von Mises (CvM)
– Anderson-Darling “up” (ADup)
– Quantile-Distance avec répartition exponentielle des quantiles (QDexp)
Cependant, nous avons aussi vu que toutes ne sont pas adaptées à la réalité du risque opérationnel.
Afin d’avoir un premier aperçu de leur comportement, nous réalisons un premier test sur
les échantillons réels problématiques du backtesting 2009 (voir 5.4.2 page 42).
Nous ne rapporterons pas ici la valeur exacte des paramètres estimés, n’ayant pas de
valeur de référence à laquelle les comparer, mais il s’agit de répertorier les cas où la phase
d’optimisation a conduit à des estimations irréalistes des paramètres (i.e. : caractérisés par
des estimations de µ négatives) ainsi que la convergence de l’algorithme numérique associé.
Ainsi, le tableau 5.3 recense pour chaque méthode le nombre d’estimation(s) problématique(s) ainsi que le taux de convergence de l’algorithme d’optimisation sur les 12 échantillons testés.
Nous remarquons de suite que bien que la convergence de l’algorithme soit pratiquement
toujours assurée (à part dans le cas de la minimisation de la statistique KS), beaucoup de
méthodes fournissent pourtant des estimations incohérentes : paramètre µ̂ négatif, et σ̂
47
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Méthode d’estimation
# {µ̂ 6 0}
Convergence
MLE
5
11/12
MPS
3
11/12
KS
5
9/12
CvM
3
12/12
ADup
6
12/12
QD
0
12/12
MMG
0
12/12
TABLE 5.3 – Cohérence et convergence des différentes méthodes d’estimation sur les 12 échantillons issus du backtesting 2009
associé très élevé. Seules la méthode des moments généralisés (MMG) et celle se basant sur
la distance quantile présentée précédemment (QD) donnent des résultats satisfaisants, aussi
bien en terme de convergence que de cohérence des estimations.
Ces deux critères étant des conditions sine qua none pour l’utilisation pratique d’une
méthode d’estimation dans le cadre du risque opérationnel, nous ne conserverons dans la
suite que les deux méthodes MMG et QD.
48
Chapitre 6
Comparaison théorique des
méthodes d’estimation retenues
Après avoir testé différentes méthodes sur échantillons réels dans le chapitre précédent,
ce chapitre offre un aperçu du comportement de la méthode distance-quantile (QD) en
environnement simulé. Deux types de simulations sont réalisés :
1. Modèles simples : simulations effectuées selon des lois lognormales pour différentes
valeurs de µ et σ : la loi à ajuster correspond donc à la loi dont les données sont issues.
Cela permet d’étudier les propriétés théoriques des estimateurs.
2. Modèles hybrides : simulations effectuées selon un mélange de deux lois lognormales
LN (µ1 , σ1 ) et LN (µ2 , σ2 ) . Cela permet de contrôler les propriétés de robustesse,
d’effectuer un calcul de charge en capital avec les paramètres estimés et de le comparer
à la valeur attendue, par simulations de Monte Carlo.
Par soucis de cohérence vis-à-vis de la réalité, les données que nous simulons sont ensuite
tronquées à gauche d’un seuil H que nous préciserons.
6.1
Modèles simples
Les simulations sont effectuées selon une loi lognormale LN (µ, σ) et les estimations
de paramètres sont moyennées sur N = 1000 simulations. Afin de représenter des cas de
figures communément observés sur des cas réels, plusieurs jeux de paramètres sont utilisés
et chaque échantillon est constitué de n = 200 pertes :
modèle
1
2
3
4
5
6
7
8
9
10
11
12
µ
5
5
5
8
8
8
10
10
10
12
12
12
σ
1
2
3
1
2
3
1
2
3
1
2
3
Les modèles ainsi simulés permettent alors de déterminer différents indicateurs concernant le biais, la précision et la stabilité des estimations par QD et par MMG.
6.1.1
Etude du biais
Nous considérons dans cette partie les échantillons présentés précédemment qui ont
−1
ensuite été censurés au seuil H = min 1000, Fµ,σ
(0.3) . Cela permet d’avoir un seuil qui
ne censure qu’environ 30% des données des échantillons de sévérité faible, tandis que le
seuil réaliste de 1000C sera choisi pour les échantillons dont la sévérité est suffisamment
importante.
49
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Nous rappelons que le biais d’un estimateur θbn de θ est défini par b θbn = E θbn − θ.
Cette espérance sera déterminée en moyennant les estimateurs obtenus sur N estimations
distinctes :
N
1 X bi
b
θ −θ
b θn =
N i=1 n
Les valeurs de biais sont ainsi déterminées pour chacune des deux méthodes et pour les
deux paramètres du modèle log-normal. La figure 6.1 représente les biais relatifs b θbn /θ.
Ces valeurs sont majoritairement positives pour le paramètre µ (partie supérieure de la
figure) et négatives pour σ (partie inférieure).
F IGURE 6.1 – Biais relatifs des estimateurs de µ (en haut) et σ (en bas) pour les 12 modèles
simulés, avec N=1000 simulations
La première observation qui ressort de cette figure est que, sur les différents cas simulés,
la méthode QD présente un faible biais, qui est significativement moins important que la méthode MMG et ce pour chacun des deux paramètres de sévérité et quelque soit l’échantillon
considéré. En outre, cela confirme que l’approximation effectuée pour la prise en compte
du seuil de collecte (voir §5.4.4 page 43) est satisfaisante. Par ailleurs, les deux méthodes
partagent la caractéristique de fournir des estimateurs d’autant plus biaisés que le utilisé
pour simuler le modèle est important.
6.1.2
Précision des estimations
Cette partie présente deux indicateurs communément utilisés pour évaluer la précision
des estimations obtenues par les deux méthodes. Le premier des deux indicateurs déterminé
pour chacun des 12 modèles simulés, est la racine de l’erreur quadratique moyenne relative
(relative root mean square error) :
"N
#1/2
2
1 X i
θ̂ − θ /N
R-rmse =
θ i=1 n
Le second indicateur reprend l’idée du premier en utilisant une échelle logarithmique :
50
I.S.F.A.
Mémoire d’actuariat

N
X
L-rmse = 
ln
i=1
θ̂ni
θ
!!2
A. R ENAUDIN
1/2
/N 
Les erreurs de sous-estimation reçoivent ainsi plus de poids que les erreurs de surestimation,
contrairement au précédent indicateur où ces erreurs ont des poids symétriques. Ceci est
adapté au cadre du risque opérationnel dans le sens où mobiliser un capital trop important
pour sa couverture est moins gênant que de ne pas en mobiliser assez.
La figure 6.2 représente les résultats obtenus par simulations pour chacun des deux
indicateurs.
(a) R-rmse
(b) L-rmse
F IGURE 6.2 – Indicateurs de précision pour µ (à gauche) et σ (à droite) sur les 12 modèles
simulés, avec N=1000 simulations
6.1.3
Stabilité des estimations
Afin d’évaluer la stabilité des estimations fournies par les deux méthodes, un coefficient
de variation relatif est déterminé à partir des résultats précédents. À partir des estimateurs
θbn1 , . . . , θbnN obtenus sur N estimations distinctes, il s’agit du rapport entre l’écart-type et la
moyenne des estimations :
1
ν=
mn
"
N
2
1 X bi
θn − mn
N i=1
#1/2
, avec mn =
N
1 X bi
θ
N i=1 n
Les graphiques de la figure 6.3 montrent que dans la quasi-totalité des cas, et notamment
en ce qui concerne l’estimation de σ, les estimations effectuées via la méthode QD sont plus
stables.
51
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
F IGURE 6.3 – Coefficients de variation obtenus pour les 12 modèles pour µ (à gauche) et σ (à
droite), avec N=1000 simulations
6.2
6.2.1
Modèles hybrides
Simulations des données
Dans cette section, les simulations sont basées sur des modèles mélanges log-normaux.
Chaque vecteur de n pertes est simulé selon une loi lognormale LN (µ1 , σ1 ) en proportion
p, et une loi LN (µ2 , σ2 ) en proportion 1 − p.
Ce choix permet de se rapprocher de la réalité des données collectées. En effet, nous
rappelons que le boxplot tracé en 1.1 page 5 suggère que les pertes opérationnelles de certaines catégories sont hétérogènes et semblent posséder deux groupes de pertes différents,
dont des extrêmes. Ce modèle parait donc plus réaliste pour ajuster la sévérité des pertes.
De plus, cela permet de tester la robustesse des méthodes d’estimations en ajustant un
modèle paramétrique qui n’est cette fois pas le vrai. La valeur de l’estimateur obtenu n’est
pas directement interprétable en tant que telle mais elle peut toutefois être utilisée afin
de calculer une charge en capital, valeur qui peut être comparée à la valeur calculée par
Monte-Carlo avec les vrais paramètres du mélange.
Les caractéristiques des modèles retenus sont recensés dans le tableau ci dessous :
6.2.2
Modèle
µ1
σ1
p
µ2
σ2
1
5
2
0.5
10
1
2
6
1
0.5
7
2
3
8
1
0.5
8
2
Estimations
Les estimations menées sur ces modèles hybrides fournissent les résultats suivants :
6.2.3
Modèle
µ
bQD
σ
bQD
µ
bM M G
σ
bM M G
1
7.71
2.03
8.53
1.64
2
7.22
1.82
7.64
1.59
3
7.75
1.74
7.85
1.72
Calculs de charges en capital
Une fois les paramètres estimés par chaque méthode (ayant donc obtenu µ̂, σ̂, ainsi que
le paramètre de fréquence λ̂ corrigé comme expliqué au paragraphe 4.2.2 page 27), il est
possible de calculer la charge en capital correspondante en effectuant NM C =5 millions de
simulations Monte-Carlo. Le principe est détaillé dans l’algorithme 6.1.
Il est ensuite de comparer les résultats obtenus à la CaR attendue, elle aussi calculée par
simulations de Monte-Carlo. C’est l’objet du tableau 6.1.
52
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Algorithme 6.1 Simulations de Monte-Carlo pour le calcul de CaR
Pour i=1..NM C { Simuler NP ∼ P λ̂
Pour j=1..NP {
Simuler ξ[j] ∼ LN (µ̂, σ̂)
cum_func[i] = cum_func[i] + ξ[j]
}
}
tri_ascendant(cum_func)
retourner cum_func[0.999*NM C ] //quantile empirique niveau 99.9%
Modèle
1
2
3
CaR réelle
12.2
4.48
12.3
CaRQD
11.8 (-4%)
3.09 (-30%)
5.45 (-56%)
CaRMMG
5.50 (-55%)
1.86 (-58%)
5.42 (-57%)
TABLE 6.1 – Valeurs des CaRs (M C) calculées sur modèles hybrides et écart relatif par rapport
à la CaR réelle
Nous remarquons alors que la méthode QD fournit des résultats bien plus proches de la
vraie CaR que la CaR issue des estimations par la méthode MMG.
53
Troisième partie
Diversification et agrégation des
risques opérationnels :
détermination d’un capital
économique
54
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Préliminaires
Une fois la charge en capital au titre du risque opérationnel calculée comme expliqué
dans la partie précédente pour la ligne métier de l’entité considérée, se pose désormais la
question d’évaluer la charge en capital pour une entité complète ainsi que pour un ensemble
d’entités. Faire la simple somme des charges en capital obtenues – ce qui sous-entendrait
une corrélation parfaite entre les lignes métiers des entités – ne tiendrait pas compte d’une
dépendance réaliste entre les risques et mobiliserait de fait des capitaux trop importants.
La position du régulateur est la suivante (article 366-3 de l’arrêté transposant Bâle II en
France) :
“La Commission bancaire peut autoriser la prise en compte des effets de corrélations entre les estimations de pertes pour risque opérationnel lorsque
l’établissement assujetti démontre que son système d’analyse et de mesure de
ces corrélations repose sur des principes robustes et qu’il est mis en œuvre
de manière intègre. Ce système prend en compte l’incertitude que comporte
toute estimation de corrélations, notamment en période de crise. L’établissement assujetti valide ses hypothèses de calcul de corrélations au moyen de
techniques quantitatives et qualitatives appropriées.”
Cette appréciation reste donc assez vague, et il revient à l’établissement bancaire de justifier clairement ses choix en matière de prise en compte de la dépendance pour la mesure
de son risque opérationnel.
Comme le soulignent Frachot et al. ([6]) il existe deux sources de corrélations dans le
modèle LDA, qui correspondent aux deux dimensions du modèle : sévérité et fréquence. La
corrélation sur les sévérités est pourtant délicate à envisager compte tenu des hypothèses du
modèle en elles-mêmes qui imposent l’indépendance des sévérités des pertes au sein d’une
même catégorie de risque, et qui serait difficilement compatible avec une corrélation des
sévérités entre deux types de risques.
L’hypothèse de corrélation sur la fréquence est pour sa part assez naturelle et est plus
facile à prendre en compte. Historiquement, il est par exemple possible d’observer que le
nombre de fraudes externes est faible quand le nombre de fraudes internes est élevé, et
inversement. Dans le modèle, cette corrélation des fréquences se répercute alors sur les
corrélations des pertes annuelles (ou pertes agrégées) :
(
cor(ξ (1) , ξ (2) ) = 0
cor(N1 , N2 ) 6= 0
=⇒ cor(`1 , `2 ) 6= 0
où `i est la perte annuelle convoluée de la sévérité ξ (i) et de la fréquence Ni .
Nous présentons donc dans cette partie, après avoir détaillé les enjeux de la diversification et de l’allocation du capital, deux approches permettant de modéliser la dépendance
entre les pertes annuelles afin d’agréger les charges en capital. La première repose sur une
hypothèse de normalité des pertes annuelles, tandis que la seconde utilise la théorie des
copules. Nous illustrons enfin ces méthodes sur le cas des différentes lignes métiers des entités du Groupe Crédit Agricole S.A. et la diversification de leur risque opérationnel, dans le
cadre de l’ICAAP (pilier 2 de Bâle II, voir §2.3 p.11).
55
Chapitre 7
Enjeux et éléments théoriques
7.1
Agrégation des risques et allocation : des enjeux importants
Afin de se conformer à la règlementation Bâle II, les établissements de bancassurance
doivent non seulement déterminer un capital économique au titre des risques opérationnels
au niveau groupe mais aussi allouer ce capital entre ses différents métiers, ce qui a donc un
impact direct sur la rentabilité perçue de ses activités.
Un enjeu de l’approche avancée (AMA) est de prendre en compte les corrélations, c’està-dire les interactions ou absences d’interactions entre les entités elles-mêmes, ainsi qu’avec
leurs environnements respectifs (par exemple les risques transverses comme les catastrophes
naturelles qu’elles subissent simultanément, ou les risques spécifiques qu’elles subissent séparément).
L’approche AMA doit donc faire apparaitre une réduction (du moins une variation espérée à la baisse) des fonds propres résultant des effets de synergies de la consolidation. Or
toute méthode de répartition des fonds propres s’appuyant sur des coefficients ne dépendant
que des caractéristiques propres à chaque entité - manière la plus naturelle de faire - ne peut
tenir compte de leurs interactions et ne peut donc pas répondre à cet enjeu. Par exemple,
une ventilation au prorata de CaR ou du PNB de chaque entité n’est pas appropriée car elle
ne tient pas compte de la dépendance existant entre ces entités.
Pour un bon pilotage, une bonne analyse des performances ou une prise de décision pertinente, il est indispensable que la méthode d’allocation retenue soit fondée sur la contribution apportée par chaque entité à la réduction globale des risques : une entité contribuant
plus à la réduction des fonds propres du groupe doit être avantagée par rapport aux autres.
A défaut, le risque est de biaiser les analyses de performances et d’être amené à prendre de
mauvaises décisions, comme l’illustre l’exemple suivant.
Un exemple introductif
Pour fixer les idées et comprendre les enjeux de l’agrégation et l’allocation des charges
en capital, considérons l’exemple simple d’un groupe composé de trois entités différentes,
notées E1, E2 et E3.
Supposons que le tableau qui suit recense les capitaux calculés au titre du risque opérationnel pour chaque entité ainsi que leur résultat sur l’année. Il contient aussi la valeur
de la charge en capital au niveau du groupe, établie par agrégation en tenant compte de
la dépendance entre les différentes entités, méthode que nous détaillerons dans la suite du
mémoire.
56
I.S.F.A.
Mémoire d’actuariat
Entité
Résultat (M C)
CaR (MC)
E1
17
200
E2
17
200
E3
14
200
(E1,E2)
400
A. R ENAUDIN
(E2,E3)
280
(E1,E3)
280
(E1,E2,E3)
480
Afin de se rendre compte des effets de diversifications que peut apporter chaque entité,
nous donnons également que la valeur de la CaR de chacun des couples d’entité obtenue
par agrégation.
Cet exemple simple permet de remarquer que l’entité E3, compte tenu de sa corrélation
avec les autres entités, contribue plus que les autres à la diversification de la CaR totale.
Selon l’idée exprimée au paragraphe précédent, le montant alloué la concernant devrait
alors être plus faible que pour les deux autres.
Or une simple allocation au prorata de la CaR de chacune des entités donne le résultat
du tableau 7.1.
Entité
Capital éco. alloué
(M C)
Rentabilité des
fonds propres
E1
160
10.6%
E2
160
10.6%
E3
160
8.75%
TABLE 7.1 – Allocation entre les 3 entités considérées au prorata de leur CaR
Cette allocation élémentaire a donc pour effet d’attribuer le même capital économique
à toutes les entités, et donc d’envisager au vu des chiffres précédent que l’entité E3 est la
moins rentable.
En effectuant l’allocation selon une méthode plus appropriée (dite “cohérente” et qui
tient compte des variations de capital obtenues lorsqu’une entité est consolidée avec d’autres
que nous détaillerons dans la section suivante), nous obtenons des résultats bien différents
comme le montre le tableau 7.2.
Entité
Capital éco. alloué
(M C)
Rentabilité des
fonds propres
E1
180
9.45%
E2
180
9.45%
E3
120
11.67%
TABLE 7.2 – Allocation entre les 3 entités considérées selon une méthode cohérente
Contrairement au cas précédent, l’entité E3 est cette fois considérée comme la plus rentable de toutes. Il semble donc essentiel dans ce contexte de prendre en compte la contribution à la diversification du risque à sa juste valeur, sans quoi il est possible d’aboutir à des
analyses de performance erronées.
C’est notamment l’objet de la section suivante qui expose de manière théorique les propriétés souhaitables des mesures de risque et des méthodes d’allocation à utiliser.
7.2
7.2.1
Mesures de risque
Définition
Comme son nom l’indique, une mesure de risque permet de quantifier le danger inhérent à un risque représenté par une valeur aléatoire X. Plus formellement, une mesure
57
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
de risque est une fonctionnelle % qui attribue à un risque X une valeur %(X) positive et
éventuellement infinie.
%(X) est généralement assimilé au capital dont la banque doit disposer pour faire face
aux éventuelles pertes résultant du risque X.
7.2.2
Propriétés désirables
Afin d’être utile dans ses applications, il est d’usage qu’une mesure de risque vérifie un
certain nombre de propriétés :
1. (Sous-additivité). Soient deux risques X1 et X2 . La mesure % est dite sous-additive si
%(X1 + X2 ) 6 %(X1 ) + %(X2 ).
Cette propriété est synonyme de réduction de risque par diversification, dont l’effet est
alors mesuré par la quantité %(X1 ) + %(X2 ) − %(X1 + X2 ) > 0, représentant l’économie
de capital réalisée en couvrant simultanément les risques X1 et X2 .
2. (Homogénéité). Soient un risque X et a un scalaire positif. La mesure % est homogène
si
%(aX) = a%(X).
Cette propriété peut-être vue comme une invariance par rapport aux unités monétaires
(un changement d’échelle sur le risque fait subir la même transformation au capital).
3. (Monotonicité). Soient deux risques X1 et X2 tels que P(X1 6 X2 ) = 1. La mesure %
est monotone si
%(X1 ) 6 %(X2 ).
Cette propriété traduit simplement le fait qu’il faut plus de capital lorsque le risque
devient plus sévère.
4. (Invariance par translation). Soient un risque X et a un scalaire. La mesure % est
invariante par translation si
%(X + a) = %(X) + a.
Cela garantit alors que %(X − %(X)) = 0.
La vérification de ces quatre premières propriétés amène à la notion de mesure de
risque cohérente, comme introduit par Artzner et al. (1999). Cependant en actuariat,
il est également souhaitable que les mesures de risque satisfassent les trois propriétés
suivantes.
5. (Marge de risque non excessive). Pour un risque X donné, si X 6 xmax alors %(X) 6
xmax .
Ceci veut dire qu’il n’est pas nécessaire de détenir un capital en excédent du montant
maximal que peut prendre une perte pour couvrir ce risque.
6. (Marge de risque non négative). Pour un risque X donné, nous devons avoir %(X) >
E[X].
Le capital requis doit ainsi excéder les pertes espérées (sous peine de ruine pour une
compagnie d’assurance, par exemple).
7. (Marge de risque justifiée). Soit a une constante quelconque. Alors nous devrions avoir
%(a) = a.
Nous présentons dans la suite des exemples de mesures couramment utilisées en gestion
des risques.
58
I.S.F.A.
7.2.3
Mémoire d’actuariat
A. R ENAUDIN
La mesure VaR (Value at Risk)
C’est traditionnellement la mesure la plus utilisée en matière de gestion des risques et
sciences actuarielles : elle apparait explicitement dans les textes règlementaires (Bâle II,
Solvabilité II).
Pour 0 6 α 6 1, la VaR de niveau α associée à la variable aléatoire X est définie de la
manière suivante :
−1
V aRα (X) = FX
(α),
−1
où FX
désigne la fonction de répartition inverse (éventuellement généralisée dans le cas
discontinu) de la v.a X.
Parmi les propriétés précédentes, cette mesure ne vérifie pas la propriété de sous-additivité :
il peut arriver que la diversification conduise à une augmentation de la VaR, notamment
dans le cas où les v.a ont des distributions à queues lourdes (moyennes infinies), ce qui peut
s’avérer dangereux car contre-intuitif. Cependant, dans le cadre de distributions elliptiques 1
pour les risques, cette propriété est vérifiée et cette mesure est alors cohérente.
Notons enfin qu’elle ne vérifie pas non plus la propriété 6 : un contre-exemple est donné
immédiatement pour une loi normale standard en choisissant α < 0.5 (la moyenne étant
dans ce cas égale à la VaR de niveau 50%) ; elle valide néanmoins toutes les autres propriétés
énoncées précédemment.
7.2.4
La mesure TVaR (Tail Value at Risk)
C’est une autre mesure populaire en gestion des risques, qui tend à se généraliser avec
la prise en compte des queues de distributions. Elle est définie de la manière suivante, pour
06α61:
1
T V aRα (X) =
1−α
1
V aRu (X)du
α
Elle peut donc être vue comme une moyenne des mesures V aRu (X) pour u > α. Ceci
fournit donc de l’information sur l’épaisseur de la queue de distribution, contrairement à la
VaR qui n’indique qu’un point de cette queue.
La TVaR a aussi l’avantage d’être une mesure cohérente, et de vérifier toutes les propriétés désirables énoncées précédemment. Malgré ses bonnes propriétés, cette mesure est peu
utilisée en gestion des risques en raison des difficultés numériques pour la calculer, et de
son interprétation délicate.
7.2.5
La mesure CTE (Conditional Tail Expectation)
La mesure CTE avec un niveau de confiance α ∈ [0; 1] vaut :
CT Eα (X) = E [X | X > V aRα (X)]
La CTE correspond donc à la moyenne des 100(1 − α)% des valeurs les plus élevées que
prend X.
Cette mesure vérifie les propriétés 2 à 7. Dans le cas continu, la propriété 1 de sousadditivité est vérifiée et la mesure est cohérente. A noter que dans ce cas, la CTE coïncide
alors avec la TVaR et nous pouvons évaluer l’une ou l’autre indifféremment.
1. Une loi continue est dite elliptique de paramètre de position µ et de matrice de forme symétrique définie
positive Σ si sa densité p peut s’écrire p(x) = (detΣ)−1/2 q t (x − µ)Σ−1 (x − µ) , où q est une fonction réelle à
valeurs positives telle que Rn q kyk2 dy = 1. Cela peut être vu comme la généralisation d’une loi gaussienne.
59
I.S.F.A.
7.3
Mémoire d’actuariat
A. R ENAUDIN
Mesures d’allocation
7.3.1
Définition
Considérons que l’institution financière considérée fait face à un risque X, constitué de
la somme de n risques différents X1 , ..., Xn , (ce sont par exemple les risques portés par ses
différentes entités). Après avoir choisi une mesure de risque % et calculé le capital économique %(X) correspondant à l’agrégation de ses n risques, se pose la question d’allouer ce
capital entre ces risques. Une méthode d’allocation de capital permet d’allouer les bénéfices
de diversification et ainsi obtenir des capitaux individuels dont la somme est égale au capital
économique global.
Denault (2001, [19]) s’est intéressé à ce problème en définissant un ensemble de propriétés désirables que doit respecter une méthode d’allocation. A l’image des mesures de
risques, une telle méthode d’allocation est alors considéréePcomme “cohérente”.
n
En notant K = %(X) la mesure du risque total X = i=1 Xi et Ki la part de capital
ème
allouée au i
risque, un principe d’allocation (ou fonction d’allocation) peut alors être
défini comme une fonction associant au couple (%, n) un vecteur de scalaires (K1 , ..., Kn ).
7.3.2
Propriétés désirables
1. (Allocation complète).
K1 + K2 + ... + Kn = K
Cette propriété intuitive est essentielle afin que le capital soit totalement alloué entre
les différents risques.
2. (Prise en compte des effets de diversification). Pour tout sous ensemble {a, b, ..., z} de
{1, 2, ..., n},
Ka + Kb + ... + Kz 6 %(Xa + Xb + ... + Xz ).
Cela assure ainsi que le capital requis pour un sous-ensemble de risques considéré
seul est plus important que le capital requis pour ce même sous-ensemble lorsqu’il est
diversifié avec d’autres risques.
3. (Symétrie). Le fait de remplacer le risque Xi par le risque Xj avec %(Xi ) = %(Xj ) ne
change pas l’allocation des risques.
4. (Pas de marge de risque injustifiée). Pour un risque constant Xi = a alors l’allocation
correspondante vaut Ki = a.
7.3.3
Allocation basée sur la mesure VaR
C’est l’allocation la plus naturelle lorsque la mesure de risque choisie pour calculer le capital requis pour l’ensemble des risques est la VaR, et elle se définit de la manière suivante :
Ki = E [Xi | X = V aRα (X)]
Nous pouvons aisément vérifier qu’elle vérifie la propriété 1 d’allocation complète en
calculant :
n
X
i=1
Ki =
n
X
E [Xi | X = V aRα (X)]
i=1
=E
" n
X
#
Xi | X = V aRα (X)
i=1
= E [X | X = V aRα (X)]
= V aRα (X) = %(X)
60
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Ce principe d’allocation vérifie également les propriétés 3 et 4, et la 2 sous certaines
conditions qui sont logiquement les mêmes sous lesquelles la mesure VaR est sous-additive
(voir précédemment).
La mesure de risque utilisée dans le cadre du modèle LDA étant la VaR (comme préconisé
par le régulateur), cette méthode d’allocation sera naturellement utilisée dans la suite (cf.
chap 9).
7.3.4
Allocation basée sur la mesure CTE
Le capital alloué au ième risque s’exprime comme :
Ki = E [Xi | X > V aRα (X)]
Lorsque la mesure de risque choisie est la CTE (ou la TVaR avec des variables continues), il
apparait naturel de considérer une allocation selon cette formule. Elle respecte alors toutes
les propriétés mentionnées précédemment, et peut donc être qualifiée de “cohérente”. Le
lecteur pourra se référer à [20] pour une analyse plus approfondie des propriétés et la description d’autres principes d’allocation.
N.B. : La méthode d’allocation ne peut être cohérente que lorsque la mesure de risque
associée l’est aussi (condition nécessaire).
7.4
Mesures de dépendance
Nous insistons dans ce paragraphe sur les différences entre les termes de “corrélation”
et de “dépendance”, souvent confondus en pratique. Nous présentons les propriétés souhaitables d’une mesure de dépendance, et verrons que sorti du cas gaussien, le coefficient de
corrélation linéaire ne les respecte pas.
7.4.1
Définition et propriétés désirables
Une mesure de dépendance δ(., .) est une fonction qui associe à un couple de variables
aléatoires une valeur réelle.
Soient X1 et X2 deux variables aléatoires. Pour qu’une mesure de dépendance soit utilisable en pratique, elle doit respecter les propriétés suivantes :
1. (Symétrie).
δ(X1 , X2 ) = δ(X2 , X1 )
2. (Normalisation).
−1 6 δ(X1 , X2 ) 6 1
3. (Comonotonicité). δ(X1 , X2 ) = 1 ssi X1 et X2 sont comonotones 2 .
4. (Antimonotonicité). δ(X1 , X2 ) = −1 ssi X1 et X2 sont antimonotones.
5. (Invariance). Pour toute fonction monotone f réelle,
(
δ(X1 , X2 )
si f est croissante
δ(f (X1 ), X2 ) =
−δ(X1 , X2 ) si f est décroissante
Lorsque toutes ces propriétés sont satisfaites, la mesure δ est appelée mesure de concordance.
Nous exposons dans les paragraphes suivants des mesures de dépendances couramment
utilisés en statistiques et énumérons leurs différentes propriétés. Nous présentons ensuite
la théorie des copules en vue d’introduire une notion de dépendance stochastiques entre
plusieurs risques .
2. Il est d’usage de parler de comonotonie (resp. antimonotonie) entre des risques lorsqu’ils peuvent chacun
s’écrire comme une fonction croissante (resp. décroissante) d’une même variable aléatoire sous-jacente : ce sont
les deux cas de dépendance parfaite.
61
I.S.F.A.
7.4.2
Mémoire d’actuariat
A. R ENAUDIN
Le coefficient de corrélation linéaire
C’est la manière la plus usitée pour mesurer la dépendance entre deux v.a. Il sera noté r
et il se définit de la manière suivante :
r(X1 , X2 ) = p
cov(X1 , X2 )
var(X1 ).var(X2 )
Il vérifie les deux premières propriétés énoncées ci-dessus : il est symétrique et les bornes
±1 sont atteintes lorsque X1 et X2 sont liées par une relation linéaire.
Cependant lorsque X1 et X2 ne suivent pas une loi normale, r ne vérifie pas les propriétés
3 et 4 : ce n’est donc pas une mesure de concordance : ce n’est en fait qu’une mesure de
dépendance linéaire entre X1 et X2 . De ce fait, son usage est problématique dans le cas
général car son comportement devient contre-intuitif :
– un coefficient de corrélation linéaire nul n’implique pas l’indépendance mais seulement l’absence de relation linéaire,
– une valeur de r très proche de 1 peut néanmoins traduire une relation non-linéaire
entre les deux variables,
– enfin les valeurs possibles de r dépendent des lois marginales FX1 et FX2 : elles sont
notamment modifiées par une transformation croissante de ces marginales. En particulier, la corrélation linéaire entre deux variables X1 et X2 est généralement différente
de celle du couple ln(X1 ) et ln(X2 ), bien que le contenu informationnel dans les deux
couples soit le même.
Bien que la plus utilisée, cette mesure de dépendance peut amener à des analyses erronées
dans la majorité des cas. Nous proposons dans la suite des mesures plus appropriées.
7.4.3
Le tau de Kendall
L’idée du tau Kendall τ est d’apprécier non pas la corrélation des valeur des observations
en elles-mêmes mais les rangs de ces observations.
En notant (X10 , X20 ) un couple de v.a indépendant de (X1 , X2 ) et identiquement distribué, il se définit par la probabilité de concordance des couples moins la probabilité de
discordance :
τ (X1 , X2 ) = P [(X1 − X10 )(X2 − X20 ) > 0] − P [(X1 − X10 )(X2 − X20 ) < 0]
Cette mesure vérifie toutes les propriétés souhaitables énoncées plus haut : c’est donc
une mesure de concordance. Elle jouit donc en particulier de la propriété d’invariance fonctionnelle et les valeurs ±1 peuvent être atteintes quelles que soient les marginales FX1 et
FX2 , cela étant synonyme de dépendance parfaite.
7.4.4
Le rho de Spearman
Comme le tau de Kendall, le rho de Spearman ρS est un coefficient de corrélation sur les
rangs des observations.
Il peut être vu comme le coefficient de corrélation linéaire entre les variables “normalisées” U = FX1 (X1 ) et V = FX2 (X2 ), qui sont par définition de loi uniformes sur [0, 1].
Cela permet alors d’éliminer les effets de marge dont souffre le coefficient de corrélation
standard présenté précédemment, ce qui en fait une mesure de concordance.
Le coefficient de corrélation linéaire, le tau de Kendall et le rho de Spearman sont des
mesures de dépendance globales. Il est toutefois intéressant d’examiner la dépendance sur
les queues de distributions. Ce point fait l’objet de la section suivante.
62
I.S.F.A.
7.4.5
Mémoire d’actuariat
A. R ENAUDIN
Notion de dépendance de queue
Le concept de dépendance de queue fournit une description de la dépendance au niveau des queues de distribution, ce qui permet étudier la survenance simultanée de valeurs
extrêmes, utile dans le cadre du risque opérationnel. Contrairement aux mesures de dépendance présentées précédemment qui portent sur l’ensemble des distributions, c’est une
mesure locale.
En dimension 2, la mesure de dépendance de queue à droite (upper tail index) entre deux
risques X1 et X2 se définit d’un point de vue probabiliste comme la limite de la probabilité
conditionnelle suivante :
−1
−1
λU (X1 , X2 ) = lim P X1 > FX
(α) | X2 > FX
(α)
1
2
α→1−
C’est donc la probabilité que X1 soit un évènement extrême sachant que est X2 est extrême.
Si cette probabilité est nulle, l’apparition d’un évènement extrême n’a pas d’influence sur
l’apparition d’un autre extrême et nous pouvons dire que les extrêmes ne sont pas corrélés.
A l’inverse, si λU est égal à 1 les extrêmes sont parfaitement dépendants.
Nous pouvons de la même manière définir la dépendance de queue à gauche (lower tail
index), bien qu’elle ne soit pas pertinente dans le cadre du risque opérationnel :
−1
−1
λL (X1 , X2 ) = lim+ P X2 < FX
(α) | X1 < FX
(α)
2
1
α→0
7.5
Théorie des copules
Les mesures introduites précédemment permettent de ne mesurer une dépendance qu’entre
deux variables aléatoires. Un outil beaucoup plus puissant pour spécifier ou étudier une dépendance, dite stochastique, entre plusieurs variables aléatoires est présentée dans cette
section.
Le concept de copule a été originellement introduit par Sklar en 1959. Il s’agit une fonction mathématique permettant d’introduire une forme de dépendance entre des variables
aléatoires. D’abord étudiées en mathématiques, elles ont ensuite commencé à être utilisées
en statistique pour l’analyse de données multivariées. Elles ont ensuite fait leur apparition
en actuariat dans les années 1990, notamment pour modéliser la dépendance en assurance
dommages. Mais ce n’est qu’au début des années 2000 que les copules ont connu un essor
notoire avec leurs applications en finance de marché, notamment pour modéliser les rendements de plusieurs titres financiers ainsi que les temps de défaut en risque de crédit. Leur
utilisation sur les places boursières est devenue très large, même si la manière de les utiliser
dans ce cadre a été remise en cause après la crise financière mondiale de 2007.
La notion de copule permet de décomposer la loi jointe d’un vecteur aléatoire de dimension n en n fonctions décrivant les lois marginales seules, et une fonction décrivant la
dépendance entre les composantes de ce vecteur indépendamment des lois marginales : la
copule associée au vecteur. Cela permet ainsi de dissocier la structure de dépendance, qui
est contenue dans la fonction copule, des lois marginales. Nous ne rentrons pas ici dans des
détails trop poussés sur cette théorie, le lecteur pouvant se reporter pour cela à la littérature
très riche sur le sujet, par exemple l’ouvrage référence de Nelsen (1999) [23]. L’objet est
simplement de présenter cet outil mathématique et de comprendre son utilité pour modéliser la dépendance entre plusieurs risques en vue de les agréger, ce qui sera l’objet de la suite
du mémoire.
7.5.1
Définition
Le moyen le plus simple de définir une fonction copule C de dimension n est de la
présenter comme la restriction à [0, 1]n d’une fonction de répartition multivariée dont les
lois marginales sont uniformes sur [0, 1] :
63
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
C(u1 , ..., un ) = P(U1 6 u1 , ..., Un 6 un ), pour tout (u1 , ..., un ) ∈ [0, 1]n
7.5.2
Théorème de Sklar (1959)
C’est un théorème fondamental qui permet de lier la loi multidimensionnelle
F = FX1 ,...,Xn aux lois marginales FX1 , ..., FXn grâce à une fonction copule
C : [0, 1]n −→ [0, 1]. Pour tout (x1 , ..., xn ) ∈ Rn , nous avons ainsi la relation suivante :
F (x1 , ..., xn ) = C (FX1 (x1 ), .., FXn (xn ))
(7.1)
Dans le cas où les lois marginales sont toutes continues, alors la copule C est unique.
Il est possible d’écrire dans ce cas la relation précédente (7.1) en terme de densités :
f (x1 , ..., xn ) = fX1 (x1 )...fXn (xn ).c (FX1 (x1 ), .., FX2 (x2 ))
où c désigne la densité associée à la copule C : c(u1 , .., un ) =
(7.2)
n
∂ C
∂u1 ..∂un (u1 , .., un ).
Corollaire Un corollaire de ce théorème permet d’isoler la fonction copule (unique) à
partir de la fonction de répartition jointe et des lois marginales supposées continues. Nous
pouvons alors écrire pour tout (u1 , ..., un ) ∈ [0, 1]n :
−1
−1
C(u1 , .., un ) = F FX
(u1 ), .., FX
(un )
1
n
7.5.3
(7.3)
Quelques propriétés remarquables
Nous présentons ici quelques propriétés importantes de la théorie des copules. Pour la
démonstration de ces résultats, se reporter à Nelsen (1999).
Invariance par transformations croissantes
Avec les notations précédentes et en considérant des marginales continues, alors C<X1 ,...,Xn >
est l’unique copule associée à la distribution F du vecteur aléatoire X = (X1 , ..., Xn ).
Si h1 , ..., hn sont des fonctions strictement croissantes sur respectivement Im(X1 ),...,
Im(Xn ), alors :
C<h1 (X1 ),...,hn (Xn )> = C<X1 ,...,Xn >
Ce théorème révèle donc une propriété importante de l’outil copule : elle reste invariante sous des transformations strictement croissantes des marginales. Ainsi la copule de la
distribution lognormale est la même que celle associée à la distribution normale, l’une étant
obtenue par transformation strictement croissante de la seconde (y = lnx).
Bornes de Fréchet
Pn
En définissant les fonctions C + (u1 , .., un ) = min(u, .., un ) et C − (u1 , .., un ) = max ( i=1 ui − 1, 0)
alors pour toute copule C nous avons pour tout (u1 , ..., un ) ∈ [0, 1]n :
C − (u1 , .., un ) 6 C(u1 , ..., un ) 6 C + (u1 , .., un )
La fonction C + est une copule est appelée copule comonotone (ou borne supérieure de
Fréchet), car associée à un vecteur (X1 , .., Xn ) dont les composantes sont comonotones. De
manière similaire, la fonction C − est elle associée au cas antimonotone, mais n’est plus une
copule en dimension supérieure à 2.
64
I.S.F.A.
7.5.4
Mémoire d’actuariat
A. R ENAUDIN
Expression de la dépendance de queue
L’expression de la dépendance de queue donnée en §7.4.5 peut facilement s’exprimer en
fonction de la fonction copule :
λU (X1 , X2 ) = lim−
u→1
1 − 2u + C(u, u)
1−u
et
λL (X1 , X2 ) = lim
u→0+
C(u, u)
u
A chaque type de fonction copule est donc associée une mesure de dépendance des extrêmes.
7.5.5
Exemples classiques de copules multivariées
Nous présentons dans ce paragraphe les familles de copules les plus utilisées en gestion
des risques et science actuarielle.
Copule indépendante
Cette copule est associée à des variables indépendantes X1 , ..., Xn est immédiatement
déduite de l’équation (7.1) :
C ⊥ (u1 , ..., un ) = u1 ...un
et a pour densité
c⊥ (u1 , ..., un ) = 1
Cette copule ne possède logiquement aucune dépendance de queue : λU = λL = 0.
Copule normale
C’est la copule associée à un vecteur gaussien, dont la fonction de répartition multivariée
est en fait composée de marginales normales couplées au moyen d’une copule normale. Elle
fait partie de la famille des copules elliptiques (copules associées à des lois elliptiques, dont
la définition est rappelée en bas de page 59).
Soient Φ la fonction de répartition de la loi normale standard et ΦΣ la fonction de
répartition de la loi normale multidimensionnelle de matrice de corrélation Σ. La copule
normale s’écrit alors :
CΣ (u1 , ..., un ) = ΦΣ Φ−1 (u1 ), ..., Φ−1 (un )
Une représentation de sa densité en dimension 2 est donnée figure 7.1. Nous pouvons
alors remarquer qu’elle comporte deux pics symétriques : cela implique que les probabilités
sont plus fortes pour la survenance de deux évènements en queues de distribution (indifféremment droite ou gauche) ; nous pouvons alors parler de dépendance faible des extrêmes.
En revanche, cette copule ne possède pas de dépendance de queue forte (au sens de la
définition en §7.4.5) quand les valeurs du coefficient de corrélation linéaire sont différents
de 1 : elle ne permet donc pas en théorie de corréler les valeurs extrêmes. L’utilisation de
cette copule est cohérente lorsque la corrélation entre risques est mesurée par le coefficient
de corrélation linéaire.
65
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Densité (ρ =0.6)
4
3
2
1
0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
u2
u1
F IGURE 7.1 – Densité bivariée de la copule normale (ρΣ = 0.6)
Copule de Student
Cette copule est cette fois associée à un vecteur aléatoire de loi de Student multivariée,
qui est composé de marginales de loi Student couplées avec une copule de Student. Elle fait
également partie de la famille des copules elliptiques.
Soit TΩ,ν la fonction de répartition multivariée d’une loi de Student, de matrice de corrélation Ω et de degré de liberté ν. La copule de Student a pour expression :
CΩ,ν (u1 , . . . , un ) = TΩ,ν Tν−1 (u1 ), . . . , Tν−1 (un )
Sa densité bivariée est dessinée en figure 7.2. Là encore, nous reconnaissons les deux
pics symétriques caractéristiques d’une copule elliptique.
10
Densité (ν =1)
8
6
4
2
0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
u2
u
1
F IGURE 7.2 – Densité bivariée de la copule de Student (ν = 1, ρΩ = 0.6)
Lorsque nous considérons des corrélations différentes de−1 (ce qui est le cas dans cette
étude où les corrélations sont considérées positives), alors cette copule présente des dépendances de queue à droite et à gauche.
En dimension 2, il est possible de représenter cette mesure de dépendance de queue à
droite λU selon le niveau de corrélation ρΩ figurant dans la matrice de corrélation Ω de la
copule de Student associée, ce qui est l’objet de la figure 7.3, où nous remarquons que cette
66
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
mesure est d’autant plus forte que le degré de liberté de la copule est important.
N.B. : La copule de Student tend vers la copule normale pour ν −→ +∞.
F IGURE 7.3 – Mesure de dépendance des extrêmes en fonction du niveau de corrélation pour
une copule de Student de dimension 2
Copules Archimédiennes
Cette famille de copules est définie à partir d’un générateur ϕ dont le choix donne lieu à
différents types de copules, les plus connues étant celles de Clayton, Gumbel et Frank.
Ce générateur ϕ doit vérifier pour tout u ∈ [0, 1] : ϕ(1) = 0, ϕ0 (u) < 0 et ϕ00 (u) > 0. Les
copules Archimédiennes sont alors définies de la manière suivante :
Cϕ (u1 , . . . , un ) = ϕ−1 (ϕ(u1 ) + ... + ϕ(un ))
(7.4)
Les générateurs correspondants aux copules Archimédiennes usuelles en dimension 2
sont donnés dans le tableau 7.3, avec l’expression de la copule résultante.
Type de copule
Générateur ϕ(u) associé
Clayton (θ > 0)
Gumbel (θ > 1)
u−θ −1
θ
Frank (θ 6= 0)
(−lnu)θ
−θu −1
−ln ee−θ −1
Copule C(u1 , u2 ) résultante
−1/θ
−θ
−θ
u1 + u2−θ− 1
exp − (−lnu1 ) + (−lnu2 )−θ
(e−θu1 −1)(e−θu2 −1)
− θ1 ln 1 +
e−θ −1
TABLE 7.3 – Expressions des générateurs et des copules Archimédiennes associées en dimension 2
Cette famille est paramétrée par un réel θ, quelque soit la dimension de la copule. La
mesure de dépendance a le même signe que θ et croît avec ce paramètre.
La présence de cet unique paramètre rend problématique l’utilisation de cette famille
de copules en dimension supérieure à 2 dans le cadre de la modélisation des dépendances
entre risques. En effet, cela suppose que ces risques sont tous dépendants de la même façon
entre eux, ce qui apparait assez réducteur.
Ce type de copule reste cependant intéressant à étudier car comme nous le voyons sur leurs
densités bivariées représentées figure 7.4 les copules de Clayton et de Gumbel sont asymétriques et présentent de la dépendance de queue (respectivement à gauche et à droite).
67
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
F IGURE 7.4 – Densités bivariées de copules Archimédiennes usuelles, de paramètre θ = 3
Dans le cadre du risque opérationnel il est donc logique de considérer soit la copule de
Gumbel, soit la copule de Clayton qui couple les fonctions de survie marginales, dite copule
de survie 3 . Ces deux copules n’appréhendent alors que des dépendances positives, ce qui
est adapté à notre étude où les dépendances négatives sont exclues.
7.5.6
Simulation
Nous présentons les deux méthodes de base nécessaires pour simuler des réalisations
d’une copule, que nous noterons (u1 , ..., un ).
Méthode des distributions
C’est la méthode la plus naturelle, qui s’appuie sur la relation (7.3) découlant du théorème de Sklar.
Ainsi pour simuler U = (U1 , ..., Un ) elle consiste à simuler préalablement le vecteur
X = (X1 , ..., Xn ) de distribution multivariée F et d’appliquer la transformation
U = (FX1 (X1 ), ..., FXn (Xn )) .
Cette méthode est donc appropriée quand la distribution multivariée générée par la
copule C est facilement simulable. C’est par exemple le cas des lois normales et Student
multivariées : cette méthode sera donc retenue par la suite pour la simulation des copules
de la famille elliptique.
Méthode des distributions conditionnelles
Lorsque la copule n’est pas issue d’une distribution multivariée connue, la méthode précédente est alors inapplicable et il faut passer par cette méthode des distributions conditionnelles. Nous la présentons dans le cas bivarié afin de ne pas complexifier les notations mais
d’un point de vue mathématique elle s’étend commodément au cas multivarié.
Pour simuler des réalisations (u1 , u2 ) d’une copule C en dimension 2, le principe est
donc le suivant :
1. Simuler deux réalisations de variables aléatoires uniformes v1 et v2
2. Poser u1 := v1
3. Plus formellement en notant C ∗ la copule de survie associée à la copule C alors la relation de
Sklar
F (x1 , ..., xn ) = C FX1 (x1 ), ..., FXn (xn ) peut se réécrire F (x1 , ..., xn ) = C ∗ F X1 (x1 ), ..., F Xn (xn ) .
68
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
3. Pour obtenir u2 , il faut passer par la distribution conditionnelle de la copule C sachant
u1 , qui se définit naturellement de la manière suivante :
C2|1 (u1 , u2 ) = P (U2 6 u2 | U1 = u1 ) = lim
ε→0
C(u1 + ε, u2 ) − C(u1 , u2 )
ε
−1
Nous prenons alors u2 = C2|1
(v2 , u1 ).
La difficulté de cette méthode consiste à calculer les copules conditionnelles quand la dimension est importante, ainsi que de les inverser. Elle est néanmoins adaptée au cas des
copules Archimédiennes (voir Genest et McKay (1986) pour le détail des calculs).
7.5.7
Utilisation dans le contexte de l’agrégation de risques
A ce stade, il est utile de se poser la question suivante : comment utiliser la théorie des
copules dans le calculer la charge en capital d’un ensemble de risques (X1 , ..., Xn ) supposés
dépendants ?
En fait l’objectif est de pouvoir exprimer la distribution multivariée F des n risques
considérés, à partir de quoi il sera possible de simuler des valeurs du vecteur (X1 , ..., Xn )
dont les composantes sont dépendantes. Il suffit ensuite de sommer les réalisations des
composantes du vecteur pour obtenir une valeur de la somme des risques agrégés, et de
répéter cette opération un grand nombre de fois afin de reconstituer cette distribution par
simulations.
Pour cela, connaissant les lois de chaque risque que nous voulons agréger (qui constituent les marginales de la distribution multivariée F ), la donnée d’une copule matérialisant
la structure de dépendance entre ces risques permet alors très simplement d’exprimer la
distribution multivariée F avec le théorème de Sklar (équation 7.1 page 64). En d’autres
termes, la donnée de lois marginales et d’une structure de dépendance sous la forme d’une
fonction copule spécifie entièrement la distribution multivariée des risques.
Démarche générale
La simulation d’un vecteur X = (X1 , ..., Xn ) de lois marginales FX1 , ..., FXn et de copule
C se fait en deux étapes :
1. Simulation d’une réalisation u = (u1 , ..., un ) de la copule C de taille n (voir §7.5.6
page 68)
2. Nous obtenons alors une réalisation x de X = (X1 , ..., Xn ) par la transformation
−1
−1
x = (x1 , ..., xn ) = FX
(u1 ), ..., FX
(un )
1
n
Pn
En notant Lagreg = X1 + ... + Xn la somme de ces n risques dépendants, alors i=1 xi
fournit une réalisation de cette variable aléatoire. En répétant un grand nombre de fois les
étapes 1 et 2 ci-dessus, il est donc possible de recréer la distribution de Lagreg : il ne reste
plus qu’à en calculer la mesure de risque choisie (en l’occurrence la VaR) qui est précisément
la charge en capital recherchée.
Exemples
Nous donnons quelques exemples en dimension 2 . L’objet est alors de calculer la distribution bivariée de deux risques X1 et X2 de marginales FX1 et FX2 données, liées par une
copule C spécifiée.
Ainsi si nous considérons des risques de lois normales X1 ∼ N (8, 2) et X2 ∼ N (10, 1), et
une copule normale Cρ de coefficient de corrélation ρ = 0.4 alors le vecteur X = (X1 , X2 ) a
pour fonction de répartition bivariée FX (x1 , x2 ) = Cρ (Φ8,2 (x1 ), Φ10,1 (x2 )), avec la fonction
Cρ définie précédemment et Φµ,σ la fonction de répartition de la loi normale. Cette écriture
69
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
est utile afin de comprendre “l’assemblage” des marginales effectué au moyen de la copule
pour obtenir la distribution bivariée de la figure 7.5 (c’est alors une densité de vecteur
gaussien, les marges et la structure de dépendance étant normales).
−4
x 10
densité bivariée (ρ =0.4)
1
0.8
0.6
0.4
0.2
0
6
6
5.5
4
2
5
0
4.5
−2
marginale 2 : N(10,1)
marginale 1 : N(8,2)
F IGURE 7.5 – Densité bivariée de deux risques gaussiens corrélés par une copule normale (ρ =
0.4)
La grande souplesse de cette méthode d’agrégation par copules est qu’il est possible
de spécifier la copule indépendamment des marginales. Il est donc par exemple possible
de choisir une structure de dépendance archimédienne entre deux risques normaux : la
densité correspondante est alors représentée en figure 7.6. Cela permet de bien percevoir la
structure de dépendance induite par ce couplage.
−4
x 10
densité (θ= 5)
1.5
1
0.5
0
6
6
5.5
4
2
5
0
4.5
−2
N(10,1)
N(8,2)
F IGURE 7.6 – Densité bivariée de deux risques gaussiens corrélés par une copule de Gumbel
(θ = 5)
70
Chapitre 8
Une première approche pour
diversifier les charges en capital :
l’approximation gaussienne
Cette méthode d’agrégation, qui tient compte des effets de diversification entre les
risques, se base sur une formule fermée d’agrégation découlant d’une hypothèse gaussienne
sur les distributions annuelles de pertes. Nous présentons auparavant les enjeux et les propriétés souhaitables en terme de méthodes d’agrégation et d’allocation.
8.1
Hypothèses et méthodologie
L’hypothèse centrale du modèle est de considérer que le vecteur des pertes annuelles
` = (`1 , ..., `J )0 pour les J catégories de risque d’une entité est un vecteur gaussien. En
notant ρj,j 0 la corrélation entre les pertes annuelles des lignes métiers j et j 0 de
l’entité
considérée, nous rappelons que nous avons alors la relation : ρj,j 0 = cov(`j , `j 0 ) sj sj 0 , où
sj ² =var(`j ).
Cette hypothèse se résume donc comme suit :
 2

s1
 .. . .

 .

. ρj,j 0 sj sj 0
0


` ∼ N (m, Σ) avec m = (m1 , ..., mJ ) et Σ =  .

.
..
 ..

2
sJ
Cela implique donc que pour tout j appartenant à [[1, J]], la perte annuelle de la j ème
catégorie de risque d’une entité fixée suit une loi normale :
`j − mj
∼ N (0, 1)
`j ∼ N mj , s2j ⇐⇒
sj
D’après la définition de la CaR au seuil de confiance α, nous pouvons écrire avec Φ la
répartition de la loi normale standard :
P (`j > CaRj ) = 1 − α = P
D’où
α=Φ
`j − mj
CaRj − mj
>
sj
sj
CaRj − mj
sj
=1−Φ
⇐⇒ CaRj = mj + Φ−1 (α) sj
71
CaRj − mj
sj
(8.1)
I.S.F.A.
8.2
Mémoire d’actuariat
A. R ENAUDIN
Formule d’agrégation
L’objectif est de pouvoir calculer la chargeen capital de la somme des pertes annuelles
PJ
des J catégories de risque, soit CaR
j=1 `j = CaRtotale . Or nous connaissons la distribution de cette somme, en tant que transformation linéaire d’un vecteur gaussien :


`1
J
X


`j =t 1.` = (1, · · · , 1)  ...  ∼ N t 1.m, t 1.Σ.1
j=1
`J
Soit
L=
J
X

`j ∼ N 
j=1
J
X
mj ,
j=1
J X
J
X
j=1

ρj,j 0 sj sj 0 
(8.2)
j 0 =1
La relation (8.1) trouvée précédemment permet d’aboutir à la formule d’agrégation entre
les j charges en capital des catégories de risque d’une entité :
v
u J J
J
X
uX X
−1
ρj,j 0 sj sj 0
CaRtotale =
mj + Φ (α) t
j=1 j 0 =1
j=1
CaR −m
Cette relation (8.1) indiquant également que sj = Φ−1j (α) j , la formule précédente peut
finalement s’exprimer en fonction des différentes charges en capital à agréger :
v
u J J
J
X
uX X
mj + t
ρj,j 0 (CaRj − mj ) (CaRj − mj 0 )
CaRtotale =
(8.3)
j=1
j=1 j 0 =1
Dans le cadre usuel d’une sévérité log-normale et d’une loi de Poisson pour la fréquence
supposée indépendante de la sévérité, `j suit une loi Poisson-composée. Le paramètre mj
s’exprime alors simplement comme le produit des moyennes des deux distributions :
mj = λj exp µj + σj2 /2 .
Le paramètre s2j = var(`j ) s’obtient pour sa part avec la formule de décomposition de la
variance (voir équation (3.1) p.16 dans la présentation du modèle LDA) et vaut


2 

s2j = λj  expσj2 − 1 exp 2µj + σj2 + exp µj + σj2 /2 
{z
} |
{z
}
|
[E(ξ)]2
var(ξ)
Cas d’indépendance
Dans le cas particulier où ρj,j 0 = 0 pour j 6= j 0 alors la formule (8.3) précédente devient :
v
u J
J
X
uX
2
ind
CaRtotale =
mj + t
(CaRj − mj )
j=1
j=1
72
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Cas de dépendance totale
Avec ρj,j 0 = 1, la formule se simplifie alors en :
v
2
u
u X
J
J
J
X
X
u


t
CaRdep
=
(CaR
−
m
)
=
m
+
CaRj
j
j
j
totale
j=1
j=1
j=1
ce qui est bien le résultat attendu, et fournit une borne supérieure sur le niveau de capital
agrégé.
8.3
Allocation
Dans le cadre de l’approximation gaussienne du vecteur des pertes annuelles, il est également possible d’obtenir une formule fermée pour l’allocation du capital associée à la mesure de risque VaR (cf. §7.3.3 p.60). Nous rappelons que dans ce cas la contribution du j ème
risque vaut :
Kj = E [`j | L = V aRα (L)]
Or, dans le cas gaussien, il est possible de voir cette l’espérance conditionnelle comme la
projection orthogonale `⊥
j de `j sur l’espace vectoriel engendré par (1, L), ce qui implique :
cov(`j , L)
(L − m)
s2
Nous obtenons ainsi, avec les notations utilisées précédemment, la formule explicite
suivante :
P
s2j + i6=j ρi,j sj si
Kj = mj +
(V aRα (L) − m)
(8.4)
s2
PJ
où m et s2 sont les paramètres de la loi normale suivie par L = j=1 `j , qui ont été calculés
auparavant dans l’équation (8.2) .
E [`j | L] = `⊥
j = mj +
8.4
8.4.1
Exemple simple en dimension 2
Agrégation
Supposons que nous voulons agréger deux catégories de risques dont les pertes annuelles
PN1 (1)
PN2 (2)
sont `1 = i=1
ξi et `2 = i=1
ξi , avec ξ (i) ∼ LN (µi , σi ) et Ni ∼ P (λi ). Nous les
supposons corrélées linéairement avec un coefficient ρ. Le tableau suivant répertorie les
paramètres des deux catégories en question ainsi que les CaR associées :
µ1
8
σ1
2
λ1
10
µ2
10
σ2
1
λ2
50
CaR199.9%
5.34 M C
CaR299.9%
3.60 M C
Dans le cadre de l’approximation gaussienne présentée précédemment dans ce chapitre,
le vecteur ` = (`1 , `2 ) suit une loi gaussienne bivariée N (m, Σ) et donc `i ∼ N (mi , si )
pour i = 1, 2. Cela revient donc à construire la distribution bidimensionnelle de la variable
` en supposant la normalité des marginales `i et de les agréger par une copule normale (cf.
§7.5.5 page 65).
La formule (8.3) établie précédemment permet de calculer le montant de la charge en
capital agrégée, en fonction du paramètre ρ liant les deux catégories de risque.
La figure 8.1 permet de visualiser graphiquement ce montant, en fonction d’un coefficient ρ variant entre 0 et 1 (les corrélations négatives étant exclues). Dans ce cadre gaussien,
nous vérifions alors la sous-additivité des CaRs (ce qui n’est pas toujours le cas, voir §7.2.3).
73
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
9
8.8
CaR agrégée
Dépendance totale
Indépendance
CaR agrégée (M)
8.6
8.4
8.2
8
7.8
7.6
7.4
0
0.1
0.2
0.3
0.4
0.5
ρ
0.6
0.7
0.8
0.9
1
F IGURE 8.1 – Niveau du capital agrégé (niveau 99.9%) entre deux catégories de risques en
fonction de leur coefficient de corrélation linéaire ρ
8.4.2
Allocation
Nous pouvons de même tracer le capital alloué aux deux risques selon leur contribution à la charge en capital totale au moyen de la formule (8.4), en fonction de ρ. C’est le
résultat de la figure 8.2, où nous pouvons vérifier graphiquement la propriété d’allocation
complète : la somme des deux allocations est toujours égale au niveau de capital agrégé
calculé précédemment.
9
Capital alloué (Millions euros)
8
Allocation risque 1
Allocation risque 2
Somme des allocations
CaR agrégée (cf. précédemment)
7
6
5
4
3
0
0.1
0.2
0.3
0.4
0.5
ρ
0.6
0.7
0.8
0.9
1
F IGURE 8.2 – Allocation du capital agrégé selon la CaR99.9% entre deux catégories de risques
en fonction de leur coefficient de corrélation ρ
De plus, nous pouvons constater que cette méthode d’allocation a l’avantage de prendre
en compte la corrélation entre les risques. En effet, au contraire d’une allocation “statique”
au prorata de la valeur des CaR respectives (toujours supérieure pour le risque 1), le capital
alloué à chaque risque change dynamiquement en fonction de leur corrélation ρ. C’est ainsi
qu’à partir d’un certain niveau de corrélation ρ0 ≈ 0.6 le risque 2 prend le pas sur le risque
74
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
1 et nécessite une allocation plus importante, ce qui ne parait forcément évident à première
vue. Notamment, il est intéressant de remarquer que bien que la CaR agrégée soit la somme
des deux CaR individuelles dans le cas d’une dépendance totale (ρ = 1), cette méthode
alloue K1 = 4.38 M C au risque 1 et K2 = 4.56 M C au risque 2. Ainsi nous avons bien
K1 + K2 = CaR1 + CaR2 mais K1 6= CaR1 et K2 6= CaR2 comme nous aurions pu nous y
attendre.
8.5
Avantages et inconvénients
Cette manière de procéder a pour principal avantage d’être facilement applicable. Elle
requiert simplement d’avoir mené les calculs de CaR pour chaque risque comme expliqué
précédemment et spécifié une matrice de corrélation entre ces risques (généralement fournie par des concertations d’experts métiers dans le cadre du risque opérationnel). En outre,
elle ne nécessite aucune simulation et donc pas de temps de calcul. De plus, les paramètres
intervenant dans la formule d’agrégation et d’allocation sont facilement interprétables et
compréhensibles. La charge en capital agrégée croît alors linéairement avec le niveau de
corrélation ce qui est assez intuitif.
Cette méthode peut tout de même apparaitre assez irréaliste en pratique. En effet, l’hypothèse centrale du modèle est très forte. Cela revient à supposer que les pertes annuelles des
différentes catégorie de risques forment un vecteur gaussien, ce qui implique que chaque
perte annuelle est supposée de loi normale. En d’autre termes, cela revient à approximer
toutes les marginales de loi Poisson-composée (généralement Poisson-lognormale) par des
lois normales. Cela peut s’avérer incohérent surtout quand le paramètre de fréquence λ est
élevé, car l’asymétrie de la densité de la perte annuelle est alors accentuée et sa queue de
distribution épaissie, ce qui rend l’approximation gaussienne caduque. De plus, nous avons
vu que cette méthodologie implique d’utiliser une mesure de corrélation linéaire, qui est peu
adaptée aux cas rencontrés en pratique et peut parfois conduire à de fausses interprétations.
Tout cela implique donc de chercher d’autres moyens d’agréger les charges en capital en
utilisant des hypothèses plus réalistes et moins réductrices, reflétant mieux l’exposition au
risque opérationnel de l’établissement bancaire considéré. Tout cela est l’objet du pilier 2 de
Bâle II et nous proposons dans le chapitre suivant une méthodologie rentrant dans ce cadre
règlementaire, qui a été présenté au chapitre 2 (p.7).
75
Chapitre 9
Mise en place d’une nouvelle
méthodologie : agrégation par
copules
En pratique, l’intensité de la dépendance entre risques augmente dans les situations défavorables, ce qui limite l’efficacité des modèles de diversification calibrées avec des structures
gaussiennes ne prenant pas en compte cet effet. L’introduction de structures de dépendance
non linéaires intégrant de la dépendance de queue apparait ainsi comme un élément incontournable de l’évolution des modèles de capital économique au titre du risque opérationnel
dans le cadre de l’ICAAP.
9.1
Principes de la méthode proposée
Nous présentons une méthodologie innovante en vue de l’obtention d’un capital économique pour le risque opérationnel pour un groupe dans le cadre de l’adéquation des fonds
propres (pilier 2 de Bâle II). Cette méthode prend en compte les interactions entre ses catégories de risques et différentes entités au moyen de fonction copules. Nous présentons tout
d’abord les fondements théoriques de la méthodologie, puis l’appliquons dans la pratique
pour agréger les risques opérationnels des entités du Groupe Crédit Agricole. Nous discutons enfin des résultats obtenus et les comparons avec la méthode d’agrégation gaussienne
présentée précédemment.
9.1.1
Objectifs
Nous présentons dans ce paragraphe l’idée générale et les notations de la méthodologie
qui va suivre.
L’objectif est d’agréger les risques opérationnels au niveau d’un groupe constitué de I
entités, chacune composées de J catégories de risque afin d’obtenir un capital économique
pour ce groupe, puis de réallouer ce capital entre ses entités de manière judicieuse. Pour
ce faire, nous nous proposons de raisonner selon une approche type bottom-up (plusieurs
étapes d’agrégations, du niveau le plus élémentaire vers le niveau le plus global à savoir
celui du groupe) en utilisant à chaque étape l’outil copule présenté précédemment pour
modéliser la dépendance entre risques et pouvoir les agréger.
Les risques considérés seront les pertes annuelles `k , appartenant soit à une catégorie
de risque soit à une entité : k ∈ [[1, J]] ∪ [[1, I]]. Nous nous intéressons alors à la distribution
conjointe du vecteur L de ces pertes annuelles, dont nous supposons la dépendance modé-
76
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
lisée par une copule C donnée 1 . Le but est alors de simuler des réalisations de la somme
des composantes de ce vecteur de pertes afin d’en déduire la charge en capital résultant de
l’agrégation de ces risques.
Dans le chapitre où nous détaillions les propriétés et l’utilité des copules dans un contexte
d’agrégation de risques (§7.5.7 page 69), L était simulée à partir de la transformation suivante, écrite en confondant intentionnellement variable aléatoire et fonction de répartition
associée :

 −1
`1 (U1 )


..
(9.1)
L=

.
`−1
n (Un )
Ceci implique alors de connaitre les distributions analytiques des pertes annuelles `1 , ..., `n ,
de chaque catégorie de risque ou entité à agréger. Or ce n’est pas le cas dans le cadre du
modèle LDA (voir chapitre 3) car ces distributions sont de type Poisson-composées. Mais
comme il est néanmoins possible de simuler ces distributions marginales (l’algorithme est
rappelé en 6.1 p.53), nous pouvons utiliser ces marges empiriques en lieu et place des distributions théoriques : c’est la méthode dite des “quantiles empiriques”, qui converge vers
la distribution théorique pour un nombre de simulations S suffisamment grand (voir la démonstration formelle dans [2] p.320, basée sur la convergence presque sûre des quantiles
empiriques vers les quantiles théoriques).
Nous remarquons donc dès à présent l’un des principaux avantages de la méthode :
aucune hypothèse supplémentaire n’est faite sur les marginales à agréger, contrairement à
l’approximation normale de ces marginales présentée dans le chapitre précédent.
9.1.2
Etape 1 : agrégation des catégories de risque
Tout d’abord, il est question de calculer une charge en capital pour l’ensemble des J
catégories de risques pour une entité i considérée. L’intégration des scénarios stand alone
concernant l’entité i est pris en compte en considérant ces scénarios comme des catégories
de risque à part entière (de chaque scénario étant déduit un triplet (µ, σ, λ) aboutissant à
une distribution de perte annuelle et une CaR associée, voir §3.4 p.19).
Le principe est alors de recréer la distribution multidimensionnelle L à partir des lois
marginales `1 , ..., `J (elles-mêmes obtenues par simulations : ce sont donc des marginales
empiriques) et d’une copule C1 choisie.
Simulation de la matrice des pertes annuelles
Pour chaque catégorie de risque j ∈ [[1, J]], nous simulons tout d’abord les distributions
de chacune de leurs pertes annuelles, c’est-à-dire la matrice
 (1)

(1)
` = ( `1
...
`J ) = 

`1
..
.
(S)
`1
...
...
`J
.. 
. 
(S)
`J
(s)
Ni
P
(s)
(s)
(s)
bj et ξ (s) est simulé selon la loi
avec pour tout s ∈ [[1, S]], `j = k=1 ξj,k où Nj ∼ P λ
j,k
de sévérité choisie et préalablement estimée, ici LN µ
bj , σ
bj .
Cette matrice matérialise donc les marges empiriques simulées S fois, que nous allons
agréger selon la structure de dépendance définie par la copule C1 .
1. Nous supposons ici que le type de la copule C a été spécifié. Le problème du choix de la forme de cette
copule sera discuté en §9.1.6 p.79.
77
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Simulation de la copule C1
Afin de pouvoir mettre en œuvre l’agrégation, il faut à présent simuler 2 des réalisations
de la copule C1 . Nous obtenons donc la matrice
 (1)

(1)

C1 = 
u1
..
.
(S)
u1
...
...
uJ
.. 
. 
(S)
uJ
où chacune des S lignes est une réalisation des composantes de la copule C1 de dimension
J.
Obtention de la matrice des simulations de la perte agrégée totale
En combinant la matrice des simulations des pertes annuelles ` et la matrice des simulations de la copule C1 , il est possible deP
simuler la distribution de perte multidimensionnelle
L ainsi que la perte agrégée Lagreg = k `k , où l’indice k parcourt les catégories de risque
considérées.
Ainsi pour chaque ligne la matrice C1 , il est possible d’obtenir une réalisation de L selon
la transformation (9.1) présentée plus haut : les différentes composantes de L sont obtenues comme les quantiles empiriques des colonnes de `, qui representent les distributions
marginales, pris aux niveaux contenus dans les lignes de la matrice C1 .
Cette matrice comportant S lignes, nous obtenons donc autant de simulations du vecteur
L de dimension J. Il suffit enfin de sommer les lignes de cette matrice pour obtenir un
vecteur représentant S simulations de la perte agrégée Lagreg (de dimension 1) : la charge
en capital liée à l’agrégation des risques est alors obtenue en calculant le quantile empirique
de ce vecteur au niveau désiré.
9.1.3
Etape 2 : agrégation des entités
L’objet est maintenant d’agréger les pertes annuelles des I entités, dont les catégories de
risques ont été agrégées à l’étape précédente.
Il s’agit donc de dérouler la même méthode qu’auparavant, avec cette fois en entrée
les vecteurs pertes annuelles des entités : Lagreg
, ..., Lagreg
qui constituent les marginales
1
I
à agréger, et une structure de dépendance modélisée au moyen d’une fonction copule C2
supposée spécifiée, de dimension I.
Plus formellement, nous avons donc une matrice

 agreg(1)
agreg(1)
...
L1
L=(
Lagreg
1
...
Lagreg
I
..
.

)=
LI


agreg(S)
L1
...
agreg(S)
LI
ainsi qu’une matrice

(1)
v1

C2 =  ...
(S)
v1
...
...
(1)

vI
.. 
. 
(S)
vI
à partir desquelles P
nous désirons simuler des valeurs de la perte totale agrégée au niveau
agreg
groupe : Lagreg
=
.
groupe
k Lk
Comme auparavant nous utilisons la transformation (9.1) pour obtenir S simulations
de la perte multidimensionnelle Lgroupe = (Lagreg
, Lagreg
, ..., Lagreg
) dans une matrice
1
2
I
de dimension S × I, puis il suffit de sommer les lignes de cette matrice pour aboutir à S
simulations de la perte des entités agrégées au niveau groupe Lagreg
groupe .
2. Les techniques de simulation des copules ont été abordées §7.5.6 p.68
78
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
La charge en capital CaRgroupe = CaR Lagreg
groupe requise pour le risque opérationnel
au niveau du groupe se déduit alors simplement de ce vecteur en en calculant le quantile
empirique au niveau choisi.
9.1.4
Etape 3 : Allocation
Afin d’allouer le capital calculé précédemment entre les différentes entités du groupe
nous utilisons logiquement une allocation basée sur la mesure de risque VaR, dont les fondements et les propriétés théoriques ont été présentés préalablement (§7.3.3 p. 60).
Cette méthode d’allocation se fonde sur la contribution de la perte annuelle de chaque
entité à la perte annuelle totale du groupe. En notant Ki le capital devant être alloué à la
ième entité, nous avons formellement :
agreg
Ki = E Lagreg
| Lagreg
groupe = CaRα Lgroupe
i
En pratique, nous déterminons cette espérance par simulations. Le calcul de CaRgroupe
présenté précédemment est mené p fois, et à chaque valeur obtenue nous gardons en mémoire les différentes contributions des vecteurs Li à la valeur de CaRgroupe . Il ne reste ensuite qu’à moyenner ces contributions pour obtenir l’allocation du capital CaRgroupe entre
les différentes entités.
9.1.5
Exemple en dimension 2
Afin de bien comprendre la méthodologie d’agrégation exposée dans la section précédente, nous l’appliquons sur un exemple simple en dimension 2.
L’objet est donc d’agréger deux risques `1 et `2 (correspondants aux pertes annuelles de
deux catégories de risque, ou de deux entités) dont la dépendance est modélisée par une
fonction copule notée C1 . Les distributions `1 et `2 étant de type Poisson-composé, nous
procédons par simulations : S = 100 tirages de chaque variable aléatoire sont effectués
dans cet exemple. La figure 9.1 illustre alors comment la distribution de Lagreg = `1 + `2
est reconstituée à partir des tirages de `1 et `2 triés dans des vecteurs `01 et `02 , et de la
matrice des simulations de la copule C1 . Chaque composante du vecteur Lagreg est alors
obtenue en sommant les quantiles empiriques de `01 et `02 dont les niveaux sont donnés par
les composantes des lignes de la matrice C1 .
Une simulation des contributions de `1 et `2 à la CaR agrégée est également représentée. Ces deux contributions sont obtenues en sur la composante du vecteur des simulations
de Lagreg correspondant à sa CaR. Cette composante est constituée de la somme de deux
termes provenant respectivement de `01 et `02 et sont précisément des réalisations des contributions recherchées.
En réitérant Salloc fois cette étape d’agrégation et en calculant à chaque itération ces
deux contributions, nous avons donc bien en moyenne :
contribi
9.1.6
= E [`i | `1 + `2 = CaRα (Lagreg )]
(9.2)
Discussion sur le choix de la copule
Dans les paragraphes précédents de ce chapitre, nous avons raisonné en supposant que
la copule modélisant la dépendance entre les risques à agréger était prédéterminé, car la
question point est délicat à traiter dans le cadre du risque opérationnel. En effet, les procédures d’inférence et d’estimation classiques pour les copules ne peuvent s’appliquer : les
pertes annuelles étant collectées sur un historique de 5 ans, nous ne disposons donc que de
5 points pour chaque risque à agréger. Or les méthodes de sélection de copule optimale 3
3. Voir à ce propos la démarche proposée par Armel, Planchet et Kamega (2010) dans : “Quelle structure de
dépendance pour un générateur de scénarios économiques en assurance ?”
79
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
F IGURE 9.1 – Illustration de l’agrégation de deux pertes annuelles par copule
s’appuient généralement sur des outils graphiques (en dimension 2) ou sur la mesure d’une
distance entre la copule empirique (construite à partir des données collectées) et une copule
paramétrique, ce qui nécessite de disposer de suffisamment d’observations. Nous sommes
donc obligés d’intuiter la structure de dépendance au cas par cas, en se basant sur les propriétés des principales copules présentées auparavant. De même, une fois le choix de la
copule effectué, l’estimation de son ou ses paramètres est difficilement envisageable, faute
de données suffisantes.
La solution la plus naturelle pour appréhender la dépendance en dimension n quelconque est d’utiliser une copule de la famille elliptique (Normale ou Student). En effet, ce
type de copule prend en paramètre une matrice de corrélation de dimension n, ce qui permet de différencier les dépendances entre chacune de ses composantes. De plus, par son
caractère intuitif, ce type de matrice peut facilement être fourni par des experts métiers
dont le rôle est d’apprécier les corrélations entre différentes branches d’activité ou entités
d’un même groupe. Ceci solutionne par la même occasion l’étape d’estimation du paramètre
matrice de corrélation de la copule.
Les autres types de copules, en particulier les copules archimédiennes, ont l’avantage
de pouvoir modéliser des dépendances plus diverses, notamment une asymétrie et une dépendance forte des valeurs extrêmes. En revanche, toute la dépendance n’est résumée que
dans un seul paramètre scalaire et les composantes sont alors toutes corrélées de la même
façon, ce qui ne parait donc pas réaliste dans la pratique. L’estimation de ce paramètre par
des experts est en outre rendue complexe du fait que le domaine de définition du paramètre peut varier avec le type de copule envisagé. Pour les copules archimédiennes, une
solution est d’envisager une construction hiérarchique mais cela pose un certain nombre de
complications et de contraintes que nous détaillerons au chapitre suivant (chapitre 10, p.
88).
En conséquence, nous nous centrerons dans la suite sur l’utilisation de copules issues
de la famille elliptique pour modéliser les dépendances entre pertes annuelles, à savoir les
copules normale et de Student, dont la matrice de corrélation est estimée à dires d’experts.
80
I.S.F.A.
9.2
9.2.1
Mémoire d’actuariat
A. R ENAUDIN
L’exemple du Groupe Crédit Agricole
Mise en œuvre de la méthodologie d’agrégation précédente dans
le cadre de l’ICAAP
Nous présentons ici une application pratique de la méthode d’agrégation présentée dans
la section précédente pour le groupe Crédit Agricole, en utilisant les données de pertes
collectées par ses entités validées en approche avancée AMA. Pour des raisons de confidentialité, certains résultats présentés dans la suite ont été transformés, sans que cela ne nuise
à l’analyse et l’interprétation des calculs.
Etape préliminaire
L’objectif est de mutualiser les données de plusieurs entités selon une nouvelle définition
des lignes métiers afin d’être plus en phase avec la définition des lignes métiers présentée
dans le texte Bâle II. Pour le Groupe Crédit Agricole, les quatre pôles métiers suivants ont
été définis :
1. Banque de financement et d’investissement (BFI) : CA-CIB
2. Gestion d’actifs : Amundi
3. Crédit à la consommation : CA-CF (résultat de la fusion entre Finaref et Sofinco), Agos
4. Banque de détail : LCL, Caisses régionales
Les données de pertes ont donc été regroupées par catégories de risques au sein de chaque
pôle métier, et de nouveaux scénarios stand alone concernant ces différents pôles ont été
élaborés par des experts métiers. Comme rappelé au paragraphe 9.1.2 (p.77), les scénarios stand alone mutualisés sont ensuite considérés comme autant de catégories de risques
supplémentaires aux pôles métiers.
F IGURE 9.2 – Principe d’agrégation des risques opérationnels proposé (bottom-up en 2 étapes)
Etape 1 : agrégation des catégories de risques au sein des pôles métiers
Dans cette première étape, il est question d’agréger les différentes catégories de risques
(ainsi que les scénarios) de chaque pôle métier, en tenant compte de leur dépendance. Cela
81
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
aboutit alors à la construction d’une distribution annuelle de perte pour chaque pôle métier,
par simulation.
Plaçons nous au sein d’un pôle métier – la démarche étant la même pour tous – et
appliquons la méthodologie de la section 9.1 précédente. L’ajustement d’une loi de fréquence (Poisson) et de sévérité (ici lognormale) pour chacune des catégories aboutit à 7
triplets (µ, σ, λ), qui viennent s’ajouter aux nS triplets résultants des nS scénarios stand
alone concernant le pôle en question.
Pour reprendre les notations précédentes, ces paramètres permettent alors de simuler les pertes annuelles de chaque catégorie de risque, regroupés dans la matrice ` =
( `1 . . . `7+nS ). Il est ensuite possible de simuler la copule choisie pour représenter la
dépendance entre catégories de risques/scénarios dans la matrice C1 de dimension 7+nS , et
d’obtenir par simulations le vecteur Lagreg , représentant la distribution de la perte annuelle
du pôle métier considéré.
Etape 2 : agrégation des pôles métiers
Une fois obtenus les vecteurs des distributions de la perte annuelle pour chaque pôle
métier, il est question de les agréger en tenant compte de leur dépendance, afin d’obtenir la
distribution de la perte annuelle pour l’ensemble du groupe. Cela permet alors d’en extraire
la charge en capital diversifiée, ou capital économique au titre des risques opérationnels.
agreg
. . . Lagreg
Avec les notations précédentes, cela revient à utiliser la matrice L = L1
4
et la matrice C2 de dimension 4 modélisant la dépendance entre les pôles pour obtenir le
vecteur Lagreg
groupe .
Ces différentes étapes de la méthodologie d’agrégation sont représentées en figure 9.2.
9.2.2
Parallèle avec la formule standard de Solvabilité II
Le Capital de Solvabilité Requis (SCR, Solvency Capital Requirement) dans Solvabilité
II est l’analogue du capital règlementaire requis dans Bâle II, mais calculé au niveau de
confiance 99.5%. Au niveau d’un groupe d’assurance, le calcul règlementaire du SCR global
se fait de la manière suivante :
SCRglobal = BSCR − Adj + SCRop
Avec :
BSCR : capital de solvabilité requis de base
Adj : terme d’ajustement dû aux effets d’absorption des provisions techniques et des impôts
différés
SCRop : capital requis pour le risque opérationnel (voir 2.4.2 p.12 pour les préconisations
de calcul dans le cadre de Solvabilité II).
Le terme résultant de l’agrégation des modules de risques est le BSCR : un SCR doit être ainsi
être calculé pour chacun de ces modules de risque. Ces SCR peuvent être calculés par une
“formule standard”, c’est-à-dire fournie par les autorités de régulation européennes. Celleci définit pour chaque classe des facteurs de risques spécifiques et une méthode standard
d’évaluation.
Selon les spécifications de la cinquième étude quantitative d’impact (QIS 5), l’agrégation
des risques se fait donc en 2 étapes (voir figure 9.3).
Etape 1 : agrégation entre risques d’un même module
Au sein du module de risque i, il est question d’agréger les J sous-modules de risque. La
formule standard indique alors que :
82
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
F IGURE 9.3 – Structure générale d’agrégation bottom-up des risques dans Solvabilité II (QIS 5)
(module)
SCRi
=
sX
ρp,q × SCRp × SCRq
p,q∈J
Où ρp,q est le coefficient de corrélation (linéaire) entre les sous-modules p et q, et SCRp
et SCRq les capitaux correspondants.
La formule standard fournit les valeurs des matrices de corrélation, et donc des coefficients ρp,q .
Etape 2 : agrégation entre modules de risque
Les SCR des modules de risque ainsi obtenus sont alors agrégés pour obtenir le BSCR,
selon la même formule (en ajoutant un terme provenant du capital requis au titre du risque
lié aux actifs incorporels). Là encore, les coefficients de corrélations sont fournis par le
régulateur. Ils sont actuellement soumis à discussion, mais le QIS 5 a abouti à la matrice
répertoriée dans le tableau 9.1.
ρ
Marché
Contrepartie
Vie
Santé
Non-vie
Marché
1
0.25
0.25
0.25
0.25
Contrepartie
Vie
Santé
Non-vie
1
0.25
0.25
0.5
1
0.25
0
1
0
1
TABLE 9.1 – Matrice de corrélation fournie par le QIS 5 entre les modules de risques de la
formule standard de Solvabilité II
83
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Interprétation
Il apparait clairement que les formules d’agrégation fournies par la formule standard
pour les différentes étapes sont en fait équivalentes à celles obtenues au chapitre précédent (voir l’équation (8.3) p.72). L’agrégation des risques par la formule standard, telle que
proposée actuellement, fait donc l’hypothèse d’un univers Gaussien avec toutes les simplifications que cela implique (hypothèse de dépendance linéaire entre les risques).
9.3
Résultats obtenus
Nous mettons ici en application la méthodologie d’agrégation des risques opérationnels
précédente basée sur les copules au Groupe Crédit Agricole et ses différents pôles métier,
afin d’obtenir un capital économique au niveau groupe au titre des risques opérationnels,
dans le cadre de l’ICAAP.
9.3.1
Capitaux non diversifiés
Afin d’avoir un aperçu du bénéfice de diversification engendré par cette méthode d’agrégation, le tableau 9.2 recense les CaR non diversifiées pour chaque pôle métier du Groupe,
au niveau 99.97%. Ces CaR sont simplement obtenues en sommant les CaR de chaque catégorie de risque les composant. De même, la CaR groupe non diversifiée est obtenue comme
la somme des CaR non diversifiées des différents pôles du Groupe Crédit Agricole.
CaR (MC)
α = 99.97%
Banque de détail
1839
Crédit conso.
85.6
Asset management
389
BFI
1301
Groupe
3615
Répartition
ĂŶƋƵĞĚĞĚĞƚĂŝů
ƌĞĚŝƚĐŽŶƐŽ
ƐƐĞƚDĂŶĂŐĞŵĞŶƚ
&/
TABLE 9.2 – Valeur et répartition des capitaux non diversifiés pour chaque pôle du Groupe
Crédit Agricole
Nous notons que la charge en capital la plus importante est celle du pôle Banque de
détail, et représente plus de la moitié du capital total non diversifié au niveau du Groupe.
9.3.2
Un mot sur les matrices de corrélation
Corrélations à dires d’experts
Dans la suite, nous calculons les valeurs des capitaux obtenus en prenant en compte
les effets de diversification dus à la dépendance entre catégories de risques, et entre pôles
métiers. Comme rappelé au paragraphe 9.1.6 (p.79), nous privilégions les méthodologies
faisant directement intervenir des matrices de corrélation pour effectuer l’agrégation et l’allocation. Parmi elles, nous testons donc l’agrégation par copules elliptiques (Normale et
Student), que nous comparons à la formule d’agrégation ’standard’ reposant sur une hypothèse de normalité du vecteur des pertes annuelles à agréger. Dans la suite, cette matrice de
corrélation est déterminée en interne, sur la base de résultats de discussions entre experts
métiers lors de divers ateliers.
84
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
Pour la première étape, les corrélations entre les différentes catégories de risques de
chaque pôle métier sont obtenues en pondérant les corrélations des catégories de risque des
entités qui font partie du regroupement. Afin de rester cohérent avec le contexte de l’ICAAP,
cette pondération sera choisie comme la CaR au niveau 99.97% de l’entité considérée.
La deuxième étape nécessite pour sa part de connaitre les corrélations entre les différents pôles métiers du groupe. Par mesure de conservatisme, chaque coefficient est alors
obtenu en prenant le maximum des coefficients apparaissant dans les matrices de corrélation disponibles pour chaque entité formant le pôle.
Alternatives et justification
La matrice de corrélation constituant le paramètre de la copule utilisée – auquel nous
pouvons rajouter le degré de liberté ν pour une copule de Student – le cadre classique de
la statistique paramétrique impose alors de les estimer à partir des données empiriques à
notre disposition. Ces données étant les pertes annuelles sur un historique de 5 ans, elles ne
sont donc pas assez nombreuses pour permettre une estimation satisfaisante.
Une alternative serait néanmoins de travailler sur des données mensualisées. La démarche serait alors de calculer les tau de Kendall empiriques τ̂ij entre ces pertes mensuelles,
puis d’utiliser la relation les liant au coefficient de corrélation linéaire 4 pour obtenir les estimations ρ̂ij des coefficients de la matrice de corrélation Σ. Dans le cas de l’utilisation
d’une copule de Student, il reste à estimer le degré de liberté ν qui se fait classiquement par
maximum de vraisemblance sur ces mêmes données 5 .
Pour autant cette démarche, si elle est plus rigoureuse mathématiquement, ne parait
pas acceptable dans sa logique. Elle utilise en effet des données de pertes mensuelles pour
estimer les paramètres d’une copule censée modéliser la dépendance entre pertes annuelles.
De plus, elle n’interdit pas d’obtenir des corrélations négatives entre risques, qui en plus
d’être peu réalistes sont difficilement justifiables auprès du régulateur car sources d’une
diversification très importante.
Nous utiliserons donc dans la suite des matrices de corrélations construites par des experts métiers, selon la méthodologie exposée dans le paragraphe précédent.
9.3.3
Considérations numériques et précision des estimateurs
Dans la méthodologie d’agrégation par copules, la première étape est la plus consommatrice d’espace mémoire (lors de la seconde seuls 4 risques doivent être agrégés). Il s’agit
en effet d’agréger 7 + nS risques, qui sont des vecteurs obtenus par simulations de longueur
NM C .
Pour cette étape le pôle métier le plus consommateur est la banque de détail, où en
raison des nombreux scénarios standalone nous nous devons de travailler avec un total
de 26 risques, soit potentiellement effectuer des opérations sur une matrice de dimension
NM C × 26.
Tous les calculs de charges en capital précédents ont été effectués avec une valeur NM C
de 4 millions de simulations : cela constitue en effet la limite qui pouvant être atteinte en
terme d’espace mémoire alloué par M ATLAB sur les machines utilisées. Néanmoins, nous
avons constaté que cette valeur suffit à garantir une précision inférieure à 1% pour les
calculs CaR diversifiées (la précision étant évaluée par le coefficient de variation relatif,
défini comme le ratio entre l’écart-type des CaR obtenues et leur moyenne).
4. Avec ces notations nous avons la relation ρ̂ij = sin (πτ̂ij /2)
5. En notant c la densité de la copule de Student, F̂i les marginales empiriques, xi les données à notre disposition et uˆi = F̂i (xi ), alors le degré de liberté est estimé en maximisant la pseudo log-vraisemblance (méthode
CML) :
" n
#
X
ˆ i ; ν; Σ̂)
ν̂ = argmax
ln c(u
ν>0
i=1
85
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
En ce qui concerne le calcul des contributions à la CaR agrégée afin d’obtenir les allocations (équation (9.2) p.79), nous le faisons avec Salloc = 1000 itérations. Ce choix est
contraint par le temps de calcul nécessaire, mais permet empiriquement d’obtenir des allocations dont le coefficient de variation relatif est inférieur à 5%. La précision est donc
moindre que sur les charges en capital mais ceci est moins contrariant dans la mesure où
ces allocations sont des chiffres internes au groupe, et non des capitaux règlementaires qui
sont eux calculés avec la précision suffisante (inférieure à 1%).
9.3.4
Agrégation et capital économique avec hypothèse gaussienne
Nous appliquons ici la méthodologie d’agrégation présentée au chapitre 8 (p.71), qui
nous l’avons vu est similaire à celle de la formule standard de Solvabilité II. Les capitaux
diversifiés obtenus à l’issue des deux étapes sont présentés dans le tableau 9.3.
CaR (MC)
Banque de détail
BFI
Asset management
Crédit conso.
Groupe
Etape 1
672
38
242
789
1742
Etape 2
.
.
.
.
1310
Diversification totale
-63%
-55%
-38%
-39%
-64%
TABLE 9.3 – Capitaux obtenus via la formule d’agrégation Gaussienne
9.3.5
Agrégation et capital économique avec copule normale
Les résultats sont regroupés dans le tableau 9.4, au dessous duquel figure également
l’allocation du capital économique obtenu selon la contribution de chaque pôle métier.
CaR (MC)
Banque de détail
BFI
Asset management
Crédit conso.
Groupe
Valeur des capitaux
Etape 1 Etape 2 Diversification totale
413
.
-78%
31
.
-63%
214
.
-45%
751
.
-42%
1411
941
-74%
Allocation
ĂŶƋƵĞĚĞĚĞƚĂŝů
ƌĞĚŝƚĐŽŶƐŽ
ƐƐĞƚDĂŶĂŐĞŵĞŶƚ
&/
TABLE 9.4 – Capitaux obtenus via une agrégation par copule Gaussienne, et allocation du
capital économique du Groupe selon la contribution de chaque pôle métier
Le pourcentage de diversification total conséquent obtenu au niveau groupe (74%) peut
s’expliquer par le fait que la copule normale ne prend pas en compte les dépendances entre
les risques extrêmes (coefficient de dépendance de queue nul). Notons que l’agrégation par
copule normale parait encore moins conservateur que
L’allocation induite par la contribution de chaque pôle métier à la CaR fait quant à
elle apparaitre une grande partie du capital alloué à la Banque de détail. La banque de
86
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
financement et d’investissement (BFI), qui potentiellement comporte les risques les plus
extrêmes, ne se voit allouer quant à elle qu’une faible part du capital.
Cela apparait donc cohérent avec la remarque précédente, à savoir que la contribution de
ce pôle à la CaR est faible si nous ne prenons pas en compte les dépendances qu’il pourrait
y avoir dans les extrêmes, d’où une allocation insuffisamment conservatrice.
9.3.6
Agrégation et capital économique avec copule de Student
Comme l’estimation du degré de liberté de la copule est très délicat en pratique (voir
p.85) , nous avons ici choisi de travailler avec un degré de liberté très faible (ν = 3) par
mesure de conservatisme. Nous constatons alors dans le tableau 9.5 un bénéfice de diversification plus réaliste que dans les deux cas précédents.
CaR (MC)
Banque de détail
BFI
Asset management
Crédit conso.
Groupe
Etape 1
1171
58
294
973
2499
Etape 2
.
.
.
.
2068
Diversification totale
-36%
-31%
-24%
-25%
-43%
Allocation
ĂŶƋƵĞĚĞĚĞƚĂŝů
ƌĞĚŝƚĐŽŶƐŽ
ƐƐĞƚDĂŶĂŐĞŵĞŶƚ
&/
TABLE 9.5 – Capitaux obtenus via une agrégation par copule de Student (ν = 3), et allocation
du capital économique du Groupe selon la contribution de chaque pôle métier
Nous pouvons aussi noter qu’en plus de ce bénéfice de diversification moindre attendu,
l’allocation induite par ce choix de copule laisse apparaitre une part du capital bien plus
importante à la Banque de Financement et d’Investissement (BFI), ce qui apparait plus
prudent. De plus, la répartition proposée est ici comparable au prorata des CaR de chaque
entité, ce qui d’un point de vue métier apparait plus logique.
Pour toutes ces raisons, c’est la valeur du capital au niveau groupe obtenue par cette
méthode qui a été initialement validée par le Groupe comme capital économique au titre de
l’ICAAP.
87
Chapitre 10
Approfondissements et
perspectives
Dans ce dernier chapitre, nous donnons quelques pistes qui pourraient être envisagées
pour modéliser la dépendance entre risques opérationnels, l’objet étant de donner un aperçu
des concepts mathématiques en jeu et de leurs champs d’application. Le détail de leur utilisation pratique et de leur implémentation est un champ de recherche largement ouvert, et
qui reste à explorer.
10.1
Les copules archimédiennes hiérarchiques
10.1.1
Motivations
Nous avons présenté précédemment les copules archimédiennes (7.5.5 p.67). Nous avons
également vu que, bien qu’elles présentent des caractéristiques de dépendance adaptées au
risque opérationnel (notamment au niveau des dépendances de queue asymétriques), leur
utilisation en dimension supérieure à 2 est limitée par leur unique paramètre scalaire qui
a pour conséquence de corréler tous les risques de la même façon ce qui constitue une
hypothèse trop peu réaliste.
Un moyen de remédier à cet écueil, et qui semble assez naturel, est d’envisager une
construction hiérarchique, ou ’imbriquée’, entre ces types de copule. Cela constitue alors un
moyen simple – du moins en apparence – de différencier et de caractériser plus précisément
les dépendances entre risques.
10.1.2
Définition
Une copule C de dimension d est une copule archimédienne hiérarchique (hierarchical
ou nested Archimedean copula) si c’est une copule archimédienne, dont les arguments sont
éventuellement des copules archimédiennes hiérarchiques. Cette définition récursive s’initialise pour d = 2 avec la définition d’une copule archimédienne classique (équation (7.4)
p.67).
Afin de mieux comprendre cette définition, considérons un exemple simple en dimension
d = 3 avec une structure faisant intervenir les générateurs archimédiens ψ0 et ψ1 et s’écrivant
comme suit :
C3 (u1 , u2 , u3 ) = Cψ0 (u1 , Cψ1 (u2 , u3 ))
(10.1)
La définition de copule archimédienne hiérarchique est respectée pour C3 car c’est bien
une copule archimédienne (de générateur ψ0 ) dont le deuxième argument est lui-même
une copule archimédienne hiérarchique (de dimension 2 donc coïncidant avec une copule
88
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
archimédienne classique de générateur ψ1 ). Notons que cette structure peut facilement se
représenter sous forme d’arbre, ce qui est fait sur la figure 10.1.
F IGURE 10.1 – Représentation sous forme d’arbre d’une copule archimédienne hiérarchique en
dimension 3
La copule intervenant au niveau le plus haut est généralement appelée racine (root copula). Plus généralement, une copule est dite parent (parent copula) si au moins une de ses
composantes est une copule hiérarchique, auquel cas cette copule est appelée copule enfant
(child copula). Le niveau de hiérarchie (nesting level) est définie comme la profondeur de
l’arbre, ici égale à 2.
10.1.3
Contraintes
Pour que la structure définie au paragraphe précédent vérifie toutes les propriétés d’une
fonction copule, il faut respecter certaines conditions sur les générateurs utilisés dans sa
construction.
McNeil (2008, [26]) présente une condition suffisante pour que la structure hiérarchique
construite soit effectivement une copule. Il faut que ψi−1 ◦ ψj soit strictement monotone (ou
de manière équivalente : doit être l’inverse d’une transformée de Laplace) pour tous les
nœuds de la structure, de parent i et enfant j.
En pratique, cette condition peut être facilement vérifiée si les générateurs utilisés font
tous partie d’une seule et même famille de copule archimédienne. Ainsi pour une copule hiérarchique à n niveau de hiérarchie, avec des générateurs ψk de paramètre de dépendance θk
issus d’une même famille, ψ0 étant le générateur de la copule racine et ψn celui de la copule
de niveau de hiérarchie le plus élevé, cela revient à imposer à ce que les θk soient croissants.
Ceci est valable pour toutes les familles copules Archimédiennes classiques (Frank, Gumbel,
Clayton), et impose donc de coupler en premier lieu les risques les plus corrélés.
Lorsque la structure hiérarchique comporte des générateurs issus de différentes familles
archimédiennes, la condition énoncée auparavant devient bien plus complexe, voir pour cela
les travaux de Marius Hofert (2010). En conséquence, les combinaisons entre générateurs
de différentes familles seront exclus dans l’exemple qui suit.
10.1.4
Exemple
Afin d’avoir un aperçu de l’utilité d’une construction hiérarchique en grande dimension,
nous considérons la copule de Clayton hiérarchique C9 suivante :
C9 (u)
= Cψ0 (u3 , u6 , u1 , Cψ1 (u9 , u2 , u7 , u5 , Cψ2 (u8 , u4 )))
(10.2)
avec θ0 = 0.5, θ1 = 2, θ2 = 8
Cette structure de dimension 9 comporte trois niveaux de hiérarchie et C9 définit bien
une copule car les générateurs étant tous issus de la famille de Clayton, nous vérifions bien :
0 6 θ0 6 θ1 6 θ2 . Une représentation de C9 et de ces différents paramètres de dépendance
sous forme d’arbre est donné figure 10.2.
89
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
F IGURE 10.2 – Représentation sous forme d’arbre de la copule hiérarchique de Clayton C9
Afin de vérifier les propriétés particulières de cette structure, il est possible de simuler
une telle copule et de tracer les dépendogrammes obtenus pour chaque composante, sous
forme de matrice. La figure 10.3 (obtenue avec le package nacopula de R) permet alors de
bien résumer la structure de dépendance obtenue avec la copule de Clayton hiérarchique
C9 , bien plus riche qu’avec une copule de Clayton classique.
En effet, nous observons alors que la dépendance entre les risques u4 et u8 est la plus
forte, ce qui est logique puisqu’ils sont liés avec le paramètre de dépendance le plus grand,
θ2 = 8. Nous observons ensuite clairement les deux autres niveaux de dépendance : les
risques u9 , u2 ,u7 et u5 sont liés à u4 et u8 avec une dépendance moins élevée (θ4 = 2),
tandis que les risques u3 , u6 et u1 sont tous liés aux autres par le coefficient le plus faible,
proche de l’indépendance (θ0 = 0.5).
F IGURE 10.3 – Dépendogrammes obtenus entre les 9 risques couplés par la copule hiérarchique
de Clayton C9
90
I.S.F.A.
10.1.5
Mémoire d’actuariat
A. R ENAUDIN
Avantages et inconvénients
L’intérêt d’une telle structure par rapport à une copule archimédienne classique est immédiat et a été montré au paragraphe précédent. Cela permet de s’affranchir des propriétés
des copules elliptiques parfois peu réalistes pour modéliser la dépendance entre risque (notamment la symétrie des dépendance de queue) tout en conservant leur principal intérêt, à
savoir la différenciation et la spécification des dépendance entre risque. De plus, la structure
sous forme d’arbre est assez souple et permet d’avoir une approche naturelle et compréhensible par tout le risk management de l’entreprise.
L’utilisation d’une telle copule dans le cadre de l’exemple traité au chapitre précédent
dans le cadre de l’ICAAP (§9.2.1p.81) pourrait paraitre naturel car cela reviendrait à utiliser une seule et même structure hiérarchique Archimédienne pour l’agrégation, recréant
naturellement la hiérarchie des étapes 1 et 2. Cependant, le nombre de risques à coupler
serait très important et les possibilités quasiment infinies (sans compter les différents choix
possibles des générateurs intervenant dans la structure), tout cela sans qu’aucune solution
soit mathématiquement préférable à une autre faute de données suffisantes pour en évaluer
l’adéquation. De plus, la récursivité induite par une telle structure engendre des temps de
calcul très importants en dimension élevée.
10.2
Les vine copulas
10.2.1
Motivations
Afin de contourner les restrictions induites par l’approche précédente, il est possible
d’utiliser une technique assez intuitive basée sur la décomposition en copules bivariées : les
vine copulas. Elles ne constituent pas en toute rigueur une famille de copule telle qu’entendue précédemment, et il s’agit plutôt d’une manière de décomposer la densité multivariée
des risques considérés au moyen de copule bivariées. Elles ont été originellement proposées
par Bedford et Cooke (2001, 2002). C’est une approche assez similaire à la précédente (les
structures de dépendances obtenues s’écrivent naturellement sous forme d’arbres, d’où leur
nom de vine, “plante grimpante” en anglais), qui bénéficie d’une souplesse plus grande dans
le choix des familles des copules et de leur paramètre de dépendance.
10.2.2
La décomposition de Vine (Vine decomposition)
Rappel
Nous avons vu à la section précédente que les les structures hiérarchiques archimédiennes sont obtenues directement depuis l’écriture de la fonction de répartition de la copule, ou des risques considérés. Ainsi pour la copule hiérarchique de dimension 3 représentée figure 10.1 p.89 cela revient à considérer, avec des notations évidentes, la fonction de
répartition tri-variée suivante :
F (x1 , x2 , x3 ) = Cψ0 (F (x1 ), Cψ1 (F (x2 ), F (x3 )))
Principe
Pour obtenir une décomposition en vines copulas, l’idée est désormais de considérer la
décomposition de la densité multivariée des risques considérés en n’utilisant que des copules
bivariées conditionnelles. En dimension 3, il est ainsi possible d’écrire :
f (x1 , x2 , x3 ) = f (x2 ) .f (x1 | x2 ) .f (x3 | x1 , x2 )
91
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
où en utilisant la formule de Bayes
f (x1 | x2 ) = c12 (F (x1 ) , F (x2 )) .f (x1 )
avec c12 (F (x1 ) , F (x2 )) la densité de la copule liant les deux marginales F (x1 ) et
F (x2 ).
En gardant les même notation, il vient donc :
f (x3 | x1 , x2 )
= c13|2 (F (x1 | x2 ) , F (x3 | x2 )) .f (x3 | x2 )
= c13|2 (F (x1 | x2 ) , F (x3 | x2 )) .c23 (F (x2 ) , F (x3 )) .f (x3 )
Et finalement :
f (x1 , x2 , x3 )
=
f (x1 ) .f (x2 ) .f (x3 )
×c12 (F (x1 ) , F (x2 )) .c23 (F (x2 ) , F (x3 ))
(10.3)
×c13|2 (F (x1 | x2 ) , F (x3 | x2 ))
Cette décomposition est appelée décomposition de Vine, et est généralisable en dimension
n (voir [27] pour les formules de décompositions d’ordres supérieurs à 3 et les algorithmes
pour les obtenir). Quelque soit la dimension, la décomposition finale ne fait intervenir que
des copules bivariées (vine copulas), ce qui constitue l’intérêt de l’approche. Remarquons
enfin que cette décomposition n’est pas unique et qu’il est possible d’en obtenir d’autres
en permutant les indices des variables. Ces différentes décompositions sont alors appelées
C-Vine ou D-Vine (voir de nouveau [27] pour leurs définitions exactes et leurs propriétés).
La décomposition de Vine (10.3) aboutit alors naturellement à une structure de dépendance par arbre, dessinée en figure 10.4. Observons que les différents niveaux de l’arbre
correspondent aux différentes lignes de l’équation de décomposition (10.3).
F IGURE 10.4 – Représentation de la décomposition en vine copula de 3 risques selon l’équation
(10.3)
10.2.3
Avantages et inconvénients
L’utilisation de structures de Vine permet de représenter des types de dépendances extrêmement divers, sans pour autant être limité au niveau des paramètres de dépendance et des
choix des copules. En effet, le choix des copules bivariées intervenant dans la décomposition
est libre, ainsi que la valeur de leur paramètre de dépendance. Ce sont donc des structures
très souples pouvant théoriquement s’adapter à tout type de modélisation de dépendance.
92
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
L’unique limitation de cette méthode est le nombre de différentes décompositions à
considérer, qui en grande dimension s’avèrent très élevés (n!/2 possibilités de décomposition en dimension n > 4). Théoriquement, il faudrait pouvoir toutes les examiner et se
fixer un critère d’adéquation pour en choisir la meilleure, ce qui est impossible en pratique
à cause du nombre limité de données et du temps de calcul nécessaire.
Toutefois cette approche reste un champ de recherche encore assez vaste et prometteur,
et peu utilisé en pratique. Le lecteur pourra se référer à [28] pour une première application de ce type de structure à des données issues de risques opérationnels bancaires, en
dimension 10.
93
Conclusion et perspectives
Dans ce mémoire, nous avons travaillé sur la quantification des risques opérationnels
bancaires dans le contexte règlementaire actuel (Bâle II). Les exemples applicatifs que nous
avons présentés concernent les données du Groupe Crédit Agricole. Nous avons essayé d’apporter des solutions aux problèmes pratiques des risk managers et plus généralement aux
difficultés pouvant être rencontrés par ceux travaillant dans le domaine de la gestion quantitative des risques. En particulier, nous avons proposés des solutions aux problèmes d’estimation de la sévérité (biais, non-convergence de l’algorithme liée aux données tronquées...)
dans le cadre du calcul de charge en capital au titre du pilier 1, et nous avons ensuite proposé un modèle permettant de calculer le capital économique au niveau Groupe en agrégeant les risques des différentes entités et permettant de modéliser leur dépendances, dans
le cadre du pilier 2.
En effet, l’ajustement de la sévérité est un paramètre déterminant dans le modèle de calcul des fonds propres destinés à couvrir le risque opérationnel. Lors de la première partie,
nous avons proposé des méthodes basées sur la minimisation d’une distance inter-quantiles,
qui fournit de bons résultats par rapport aux méthodes classiques dérivées du maximum de
vraisemblance ou des tests d’adéquation. Ce sont, avec la MMG, les seules méthodes présentant des résultats d’estimation acceptables dans tous les cas de figure (données simulées
selon un mélange de loi, ou données réelles). De plus, contrairement aux autres méthodes
présentées, leurs comportements est stable lorsque le nombre de données disponibles est
faible, ou quand le modèle ajusté est mal spécifié. Nous avons proposé une calibration des
paramètres apparaissant naturellement dans la méthode QD fournissant de meilleurs résultats sur les queues de distribution, dont l’impact est déterminant pour le calcul de la charge
en capital. Cette méthode d’estimation permet alors d’obtenir un montant de fonds propres
plus représentatif de l’exposition de la banque au risque opérationnel pour chaque catégorie de risque, ce qui est l’enjeu principal du modèle. Allié à une méthodologie d’agrégation
par copules, dont les hypothèses sont plus réalistes qu’une agrégation par formule fermée
avec hypothèse gaussienne, cela nous a permis de calculer un capital économique plus en
adéquation avec les risques opérationnels encourus par la banque.
Le dernier chapitre de ce mémoire reste le plus ouvert. Abandonnant les structures de
dépendance basées sur des hypothèses de lois elliptiques, nous avons donné d’autres formes
de copules (hiérarchiques, Vines...) qui pourraient mieux s’adapter à la modélisation des dépendances rencontrées dans le domaine du risque opérationnel. Des travaux restent à mener
dans cette voie, notamment lorsque l’historique et la quantité de pertes collectée sera plus
importante, ce qui permettrait d’avoir une idée plus précise de la forme de la dépendance
entre les différentes catégories de risque opérationnel et d’en estimer plus fidèlement les
paramètres.
Terminons enfin en précisant que des travaux ont aussi été menés dans le cadre de la
théorie des valeurs extrêmes, mais qu’ils ont été volontairement exclus de ce mémoire. En
effet, l’utilisation d’une telle approche dans le modèle LDA pose encore un certain nombre
de problèmes insurmontables en pratique. Citons entre autres le choix du seuil de modélisation des extrêmes qui doit se faire de manière subjective (en arbitrant entre quantité
de données et biais des estimations) , la sensibilité du capital à ce seuil, l’obtention de
potentielles distributions de sévérités à moyennes infinies dont la convolution produit des
94
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
capitaux totalement irréalistes. Dans ce cadre, la question de la méthode d’estimation des
paramètres de la loi GPD (Generalized Pareto Distribution) reste tout autant cruciale, notamment en raison des ’mauvaises’ propriétés des méthodes usuelles (Maximum likelihood
et Probability Weighted Moments). Nous avons alors constaté des améliorations en utilisant
la méthode QD, dont la définition peut aisément se transposer à tous les types de lois.
95
Bibliographie
[1]
F RACHOT A, M OUDOULAUD O, R ONCALLI T (2003), Loss Distribution Approach in Practice, The Basel Handbook : A Guide for Financial Practitioners
[2]
R ONCALLI T (2009), La gestion des risques financiers, 2ème édition, Economica
[3]
H ANSEN LP (1982), "Large Sample Properties of Generalized Method of
Moments Estimators", Econometrica, 50, 1029-1054
[4]
H ANSEN LP, H EATON J, YARON A (1996), “Finit-Sample Properties of Some
Alternative MMG Estimators." Journal of Business and Economic Statistics,
14, 262-280.
[5]
C HAUSSE P (2010), “Computing Generalized Method of Moments and
Generalized Empirical Likelihood with R." Journal of Statistical Software,
34(11), 1-35.
[6]
F RACHOT A , G EORGES P, R ONCALLI T (2001), “Loss Distribution Approach
for operational risk”, Groupe de Recherche Opérationnelle, Crédit Lyonnais,
France
[7]
RANNEBY B (1984), “The Maximum Spacing Method. An Estimation
Method Related to the Maximum Likelihood Method”, Swedish University
of Agricultural Sciences
[8]
COX D. R, HINKLEY D. V (1974), “Theoretical statistics”. Chapman & Hall,
London
[9]
LA R ICCIA V, WEHRLY T (1985), “Asymptotic Properties of a Family of Minimum Quantile Distance Estimators” Journal of the American Statistical Assocation, Vol.80, No.391
[10]
CHENG R.C.H, TRAYLOR L (1995), “Non-regular maximum likelihood problems (with discussions)”. J. Roy. Statist. Soc. Ser. B 57, 3-44
[11]
CHENG R.C.H, AMIN N.A.K (1983), “Estimating parameters in continuous
univariate distribution with a shifted origin” J. Roy. Statist. Soc. Ser. B 45,
394-403
[12]
WHITE H (1982),”Maximum Likelihood Estimation of Misspecified Models”,
Econometrica, Vol.50, No.1
[13]
CHERNOBAI A, RACHEV S, FABOZZI F (2005), “Composite Goodness-of-Fit
Tests for Left-Truncated Loss Samples”, Departement of Statistics and Applied
Probability, University of California, USA
[14]
ERGASHEV B (2008), “Should Risk Managers Rely on Maximum Likelihood
Estimation Method While Quantifying Operational Risk?”, The Journal Of
Operational Risk, Vol. 3, No.2
[15]
WOLFOWITZ J (1953) “Estimation by the Minimum Distance Method”, Annals of the institute of Statistical Mathematics, Springer
96
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
[16]
PARR W.C. (1981) “Minimum distance estimation: a bibliography”, Commun. Stat. Theory Meth.
[17]
M ARCEAU E (2010), “Modèles et méthodes actuariels pour l’évaluation
quantitative des risques” (polycopié ISFA)
[18]
D ENUIT M, C HARPENTIER A (2004), Mathématiques de l’assurance non-vie,
Tomes I et II, Economica
[19]
D ENAULT M (2001), “Coherent allocation of risk capital”, Ecole des H.E.C.
(Montréal)
[20]
PANJER H (2001), “Measurement of risk, solvency requirement and allocation of capital within financial conglomerates”, Departement of Statistics
and Actuarial Science, University of Waterloo
[21]
E-convergence (2004), “Allocation du capital économique lié aux risques
opérationnels dans un groupe”
[22]
C LAUSS P (2011) “Théorie des copules”, Cours ENSAI
[23]
N ELSEN RB (1999) “An introduction to Copulas”, Lectures Notes in Statistics,
Springer
[24]
L EHERISSE V (2011), “Gestion des risques bancaires”, Cours ENSAI
[25]
PANJER H (1981), “Recursive Evaluation Of A Family Of Compound Distributions”, Astin Bulletin 12, pp. 22-26
[26]
M C N EIL A J (2008), “Sampling Nested Archimedean Copulas", Journal of
Statistical Computation and Simulation, 78, 567-581.
[27]
A AS K, C ZADO C, F RIGESSI A, B AKKEN H (2009), “Pair copula constructions
of multiple dependence”, Insur. Math. Econ., 44, 182–198
[28]
G UEGUAN D, H ASSANI B (2011), “Multivariate VaR for Operationnal Risk
Computation : A Vine Structure Approach”, Université Paris 1 PanthéonSorbonne, Working Paper
[29]
G AMONET J (2009), “Modélisation du risque opérationnel dans l’assurance”, mémoire d’actuariat , Centre d’Etudes Actuarielles
97
Table des figures
1.1 Boxplot pour différentes catégories de pertes opérationnelles .
5
2.1 Les trois piliers Bâle II . . . . . . . . . . . . . . . . . . . . .
2.2 Illustration de la répartition du capital entre risque de crédit,
opérationnel et risque de marché dans une grande banque . .
8
3.1 Les différentes étapes de la méthode LDA pour l’estimation de
la charge en capital . . . . . . . . . . . . . . . . . . . . . . .
3.2 Comparaison des distributions issues du modèle LDA avec la
prise en compte de polices d’assurance (courbes rouges) et sans
(en bleu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1 Biais des estimateurs de µ et σ obtenus avec le choix W = I .
4.2 Biais des estimateurs de µ et σ obtenus avec le choix W = Wopt
4.3 Comportement du terme au dénominateur de la vraisemblance
pour H = 1000 . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Opposé de la log-vraisemblance d’un échantillon réel de la catégorie ’dommages’ (banque de détail) en fonction de µ, pour
σ = 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5 Densité empirique de pertes réelles de la catégorie ’dommage’
4.6 Valeur absolue de l’écart relatif sur l’estimation des paramètres
µ et σ par MMG . . . . . . . . . . . . . . . . . . . . . . . .
5.1 Distances K-L entre deux distributions normales pour différents paramètres (source : présentation de Rudolf Kulhavy,
“A Kullback-Leibler Distance Approach to System Identification”, Academy of Sciences of the Czech Republic) . . . . .
5.2 Principe de l’estimation par Maximum Spacing (source : Wikipedia) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 QQ-plots log-normaux avec les paramètres estimés par MS et
MMG, pour la fraude externe de la banque d’investissement .
5.4 Fonctions quantiles empiriques (en bleu) et quantiles empiriques interpolés (en rouge) ; illustration sur un échantillon de
fraude monétique . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Quantiles choisis uniformément (en rouge) dans un échantillon
réel (montants de pertes en échelle logarithmique) . . . . . .
5.6 Estimations de µ (bleu) et σ (vert) sur données simulées
LN (8, 2) et LN (12, 1.5) de tailles n = 100 (en haut) et
n = 1000 (en bas) en fonction du nombre de quantiles utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
13
17
19
29
29
31
32
33
34
36
37
39
42
44
44
I.S.F.A.
Mémoire d’actuariat
A. R ENAUDIN
5.7 Quantiles exponentiellement répartis (en rouge) dans un
échantillon trié de la catégorie ’exécution’ avec m = 5 (montants en échelle logarithmique) . . . . . . . . . . . . . . . .
5.8 Influence du paramètre m sur l’estimation des paramètres de
sévérité (µ en bleu, σ en vert) . . . . . . . . . . . . . . . . .
6.1 Biais relatifs des estimateurs de µ (en haut) et σ (en bas) pour
les 12 modèles simulés, avec N=1000 simulations . . . . . .
6.2 Indicateurs de précision pour µ (à gauche) et σ (à droite) sur
les 12 modèles simulés, avec N=1000 simulations . . . . . .
6.3 Coefficients de variation obtenus pour les 12 modèles pour µ
(à gauche) et σ (à droite), avec N=1000 simulations . . . .
7.1 Densité bivariée de la copule normale (ρΣ = 0.6) . . . . . . .
7.2 Densité bivariée de la copule de Student (ν = 1, ρΩ = 0.6) . .
7.3 Mesure de dépendance des extrêmes en fonction du niveau de
corrélation pour une copule de Student de dimension 2 . . . .
7.4 Densités bivariées de copules Archimédiennes usuelles, de paramètre θ = 3 . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.5 Densité bivariée de deux risques gaussiens corrélés par une copule normale (ρ = 0.4) . . . . . . . . . . . . . . . . . . . . .
7.6 Densité bivariée de deux risques gaussiens corrélés par une copule de Gumbel (θ = 5) . . . . . . . . . . . . . . . . . . . .
8.1 Niveau du capital agrégé (niveau 99.9%) entre deux catégories
de risques en fonction de leur coefficient de corrélation linéaire
ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Allocation du capital agrégé selon la CaR99.9% entre deux catégories de risques en fonction de leur coefficient de corrélation
ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.1 Illustration de l’agrégation de deux pertes annuelles par copule
9.2 Principe d’agrégation des risques opérationnels proposé
(bottom-up en 2 étapes) . . . . . . . . . . . . . . . . . . . .
9.3 Structure générale d’agrégation bottom-up des risques dans
Solvabilité II (QIS 5) . . . . . . . . . . . . . . . . . . . . . .
10.1 Représentation sous forme d’arbre d’une copule archimédienne
hiérarchique en dimension 3 . . . . . . . . . . . . . . . . . .
10.2 Représentation sous forme d’arbre de la copule hiérarchique de
Clayton C9 . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.3 Dépendogrammes obtenus entre les 9 risques couplés par la copule hiérarchique de Clayton C9 . . . . . . . . . . . . . . . .
10.4 Représentation de la décomposition en vine copula de 3 risques
selon l’équation (10.3) . . . . . . . . . . . . . . . . . . . . .
99
45
46
50
51
52
66
66
67
68
70
70
74
74
80
81
83
89
90
90
92
Liste des tableaux
1.1 Classification des catégories de risque (ELs) pour le risque opérationnel selon
Bâle II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Classification lignes métier (BLs) pour le risque opérationnel selon Bâle II . . . .
4
4
4.1 Résultat des différentes méthodes d’optimisation de la log-vraisemblance sur
données réelles (catégorie ’dommages’ de la banque de détail) . . . . . . . . . . 33
5.1 Résultats d’estimation sur la catégorie Fraude Interne de la banque d’investissement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Caractéristiques des échantillons de pertes mis en évidence dans le backtesting
2009 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.3 Cohérence et convergence des différentes méthodes d’estimation sur les 12 échantillons issus du backtesting 2009 . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.1 Valeurs des CaRs (MC) calculées sur modèles hybrides et écart relatif par rapport
à la CaR réelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.1 Allocation entre les 3 entités considérées au prorata de leur CaR . . . . . . . . . 57
7.2 Allocation entre les 3 entités considérées selon une méthode cohérente . . . . . . 57
7.3 Expressions des générateurs et des copules Archimédiennes associées en dimension 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
9.1 Matrice de corrélation fournie par le QIS 5 entre les modules de risques de la
formule standard de Solvabilité II . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Valeur et répartition des capitaux non diversifiés pour chaque pôle du Groupe
Crédit Agricole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.3 Capitaux obtenus via la formule d’agrégation Gaussienne . . . . . . . . . . .
9.4 Capitaux obtenus via une agrégation par copule Gaussienne, et allocation du
capital économique du Groupe selon la contribution de chaque pôle métier . . .
9.5 Capitaux obtenus via une agrégation par copule de Student (ν = 3), et allocation du capital économique du Groupe selon la contribution de chaque pôle
métier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
100
. 83
. 84
. 86
. 86
. 87