47èmes Journées de Statistique de la Société Française de Statistique
Transcription
47èmes Journées de Statistique de la Société Française de Statistique
47èmes Journées de Statistique de la SFdS Livret des participants http://jds2015.sfds.asso.fr/ Lille, 1-5 juin 2015 Comité de programme Président Vincent Rivoirard (CEREMADE / Université Paris Dauphine) Membres • • • • • • • • • • • • • Liliane Bel (AgroParisTech) Alain Célisse (Painlevé/ Lille1-CNRS, MODAL / Inria) Yann Guedon (Virtual Plants / Cirad-Inria-INRA) Chantal Guihenneuc (EA 4064 / Université Paris Descartes) Julie Josse (Agrocampus Ouest) Béatrice Laurent (IMT / INSA Toulouse) Erwan Le Pennec (École Polytechnique) Olivier Lopez (ENSAE - CREST) Gael de Peretti (Insee) Cristian Preda (Painlevé / Lille1-CNRS) Clémentine Prieur (Université de Grenoble) Emmanuel Remy (EDF R&D) Jean-Michel Zakoian (CREST) Comité d’organisation Président Christophe Biernacki (Painlevé / Lille1-CNRS, MODAL / Inria) Vice-Présidente Sophie Dabo-Niang (LEM / Lille3) Trésorier Alain Duhamel (CERIM / Lille2) Secrétariat Trésorerie Marie-Noëlle Nirel (CERIM / Lille2) Secrétariat Inscriptions Corinne Jamroz (MODAL / Inria) Secrétariat Logistique Sabine Hertsoen (UFR Mathématiques / Lille1) Céline Rouillon (UFR Mathématiques / Lille1) Webmaster Marion Romo (LEM / Lille3) Aboubacar Amiri (LEM / Lille3) Gestion des repas Nicolas Wicker (Painlevé / Lille1-CNRS) Gestion des locaux Marie-Françoise Barme (Painlevé / Lille1-CNRS) Emeline Schmisser (Painlevé / Lille1-CNRS) Proceedings Emmanuel Chazard (CERIM / Lille2) Benjamin Guedj (MODAL / Inria) Baba Thiam (LEM / Lille3) Thomas Verdebout (Université libre de Bruxelles – LEM / Lille3) Programme social Gwenaëlle Castellan (Painlevé / Lille1-CNRS) Radu Stoica (Painlevé /Lille1-CNRS) Yujin Jung (Lille2) Communication Karin Sahmer (ISA) Laurence Broze (RIME Lab/ Lille3) Appariteurs Hiba Alawieh, Aladji Bassene, Anne-Lise Bedenel, Maxime Brunin, Emad Drwesh, Quentin Grimonprez, Jérémie Kellner, Aurore Lavigne, Ingrid Rochel, Ahmed Salem, Hoang Van Hà, François Westerlynck 3 Conférenciers invités • • • • • • • • • • • • • • • François Beck (OFDT/INPES, Paris) David Bessis (tinyclues, Paris) Nicole El Karoui (Université Pierre et Marie Curie, Paris) Arthur Gretton (University College London, Royaume-Uni) Fred Hickernell (Illinois Institute of Technology, États-Unis) Peter Hoff (University of Washington, Seattle, États-Unis) Sophie Lambert-Lacroix (Université Pierre Mendes France, Grenoble) Valérie Monbet (IRMAR, Rennes) Andrea Montanari (Stanford, États-Unis) Gregory Nuel (UPMC, Paris) Fabrizio Ruggeri (Milan, Italie) Gerhard Tutz (Munich, Allemagne) Sara van de Geer (ETH, Zurich, Suisse) – lauréate de la Conférence Le Cam Nicolas Verzelen (INRA, Montpellier) Qiwei Yao (London School of Economics, Royaume-Uni) • Lauréat du prix Norbert Marx : Paul Blanche (University of Copenhagen, Danemark) • Lauréat du prix SFdS-STID : Gauthier Plault (IUT STID, Lyon) • Lauréate du prix Marie-Jeanne Laurent-Duhamel : Mélanie Prague (Harvard T.H. School of Public Health, États-Unis) 5 Informations pratiques Les 47èmes Journées de Statistique auront lieu du 1er au 5 juin 2015, dans le bâtiment M1 du campus de l’Université de Lille 1. Les JdS lilloises, comment ça marche ? Kit de survie pratique Accès au réseau wifi dans tous les amphis et dans le hall. Identifiant : JDS-2015 Code : WIFI-JDS-2015 Tout au long des Journées, une permanence est assurée en salle Cartan, pour toute question pratique. Salles ordinateurs et imprimantes : Clairin / Gauss (voir description locaux). Kit de survie scientifique Des commentaires, des questions, des remarques sur le contenu scientifique des exposés ? La plate-forme YSP Online est là pour vous. Contribuez : https://goo.gl/rHO0HW Votez : https://goo.gl/KHS1LC Suivez les tendances : https://goo.gl/yyU3pl Décryptage des thèmes les plus populaires le vendredi 5 juin à 13h30, en présence d’Anne Gégout-Petit et Nicolas Verzelen. Le succès des Journées, c’est vous ! Par la qualité scientifique des exposés, mais également par votre participation enthousiaste : les 47èmes Journées se veulent collaboratives ! Envoyez à [email protected] vos films et photos de la semaine ! Revivez ensuite les Journées sur https://goo.gl/qeM4Nk Enfin, voici le hashtag des Journées pour Twitter : #JDSLille Autour des Journées La bibliothèque de maths recherche est située dans le bâtiment M2 (en face du M1 en sortant du côté de la salle Cartan). Les repas auront lieu au restaurant universitaire Pariselle (voir plan ci-après) avec les tickets remis lors de votre arrivée. Mercredi 3 juin avant 19h : soirée de gala. Pour aller au stade Pierre Mauroy, descendre soit à la station de métro Cité Scientifique, soit à la station 4 Cantons. Attention, le dernier métro part à 00h17, et il n’y a pas de bus de nuit pour retourner à Lille le mercredi. Jeudi 4 juin à partir de 18h30 : afterwork avec les conférenciers invités, organisé par le groupe Jeunes Statisticiens au Moulin d’Or (Morel & fils), 31 place du Théâtre, 59800 Lille (métro Rihour). 7 Informations pratiques Programme social Un passe pour les transports en commun (valable une journée) vous sera remis lors de votre arrivée. Idéal pour le mercredi ! Visite guidée des Monts de Flandre (Bailleul) Visite guidée des Monts de Flandre en autocar (durée estimée : 2h) Départ en autocar. Rendez-vous à 13h20 au parking du métro 4 Cantons. Retour : gare Lille Flandres (vers 17h45). Vieux-Lille gourmand (Lille) Balade à pieds dans le Vieux-Lille avec visite des monuments historiques et dégustation de spécialités locales (durée estimée : 2h) Rendez-vous à 14h15 à l’accueil de l’Office de Tourisme de Lille, place Rihour (Métro ligne 1, Rihour). Visite de deux brasseries artisanales (Bailleul et Esquelbecq) Visite guidée des brasseries “Beck” et “Thiriez” et dégustation de bière (durée estimée : 4h). Départ en autocar. Rendez-vous à 12h40 au parking du métro 4 Cantons. Retour : Parking du métro 4 Cantons (vers 18h30). Musée du Louvre (Lens) Visite guidée du musée (durée estimée : 1h30). Une pause goûter est prévue après la visite à la cafétéria du musée. Départ en autocar. Rendez-vous à 13h00 au parking du métro 4 Cantons. Retour : gare Lille Flandres (vers 17h45). Route du genièvre (Lille et Wambrechies) Balade en bateau sur la Deûle avec visite d’une distillerie et dégustation de genièvre (durée estimée : 4h) Rendez-vous à 14h15 à l’Ecluse de la Barre (Pont de la Citadelle). Métro ligne 1, station République - Beaux-Arts puis 15 minutes de trajet à pied via le Boulevard de la Liberté (ou en bus). Retour : Ecluse de la Barre (vers 18h30). Musée la Piscine (Roubaix) Visite guidée du musée (durée estimée : 1h30). Une pause goûter est prévue après la visite au café Meert situé à l’intérieur du musée. Rendez-vous à 14h45 à l’accueil du musée La piscine (23 Rue de l’Espérance, 59100 Roubaix) Métro ligne 2, Station Gare Jean Lebas puis 5 minutes de trajet à pied. Rendez-vous à 14h40 à l’accueil du musée. 8 Informations pratiques Locaux Étages Attention, il n’est pas possible de faire le tour des étages. Le haut des amphis est desservi par le grand escalier, le bas par le petit escalier de derrière. Il n’est pas possible d’aller de l’un à l’autre, sauf au niveau des deux rez-de-chaussée. Amphithéâtres • • • • Galois et Painlevé : 3ème étage (grand escalier) et 2ème étage (petit escalier) Cauchy et Châtelet : 1er étage (grand escalier) et rez-de-chaussée haut (petit escalier) Bernoulli : rez-de-chaussée haut Archimède : rez-de-chaussée bas Rez-de-chaussée haut • • • • • • Salles ordinateurs et imprimantes : Clairin / Gauss Incriptions et accueil : Cartan Entreprises : Dirichlet Vestiaire : Cartan Pauses café : Hall et 1er étage AG de la SFB : Levy Rez-de-chaussée bas • Salles disponibles pour travailler : Weierstrass, Riemann, Newton (wifi), Lie (wifi), Lebesgue, Hilbert, Euler, Pascal, Fatou, Hermite, Hadamard, Desmartres • CA SFdS, commission publication et réunion JES 2016 : de La Vallée Poussin Accès au bâtiment M1 9 Plans Campus 10 Plans Accès au Grand Stade (stade Pierre Mauroy) Accueil soirée de gala 11 Plans du bâtiment M1 Rez-de-chaussée bas De la Vallée Poussin Rez-de-chaussée haut CARTAN Dirichlet Gauss Clairin Levy 12 Plans du bâtiment M1 1er étage 2ème étage 3ème étage 13 15 19h00 17h15-18h35 16h55-17h15 15h35-16h55 14h30-15h30 12h50-14h30 11h10-12h50 10h00-11h00 9h30-10h00 8h45-9h30 Cauchy Châtelet Cauchy Châtelet Galois Analyse de sensibilité Pause café Galois Copules Déjeuner Galois Algorithmes stochastiques Painlevé Classification en grande dimension Painlevé Archimède Séries temporelles 1 Archimède Session du groupe Banque finance assurance Cauchy Fred Hickernell Segmentation Painlevé Estimation non paramétrique Réception à l’hôtel de région Statistique mathématique 1 Cauchy Châtelet AMIES 1 Données manquantes Données en grande dimension méthodes Lasso Châtelet Nicole El Karaoui Analyse de survie données censurées Forêts Aléatoires Châtelet Conférence Le Cam : Sara van de Geer Châtelet Ouverture des Journées Accueil des participants Lundi 1er juin 2015 16 17h35-20h00 16h35-17h35 16h15-16h35 14h55-16h15 13h50-14h50 12h30-13h50 11h10-12h30 10h50-11h10 9h50-10h50 8h45-9h45 Plan d’expériences 1 Cauchy Châtelet Cauchy Châtelet Enseignement IUT STID Séries temporelles 2 Châtelet Galois AMIES 2 Pause café Galois Tests statistiques 1 Déjeuner Galois Apprentissage et classification 1 Painlevé Régression logistique Painlevé Extrêmes Painlevé Châtelet Archimède Régression Archimède Régression en grande dimension Cauchy Qiwei Yao Statistique bayésienne non paramétrique Assemblée générale de la SFdS Nicolas Verzelen Cauchy Finance Biostatistiques Châtelet Environnement 1 Pause café Châtelet Prix du Docteur Norbert Marx : Paul Blanche Châtelet David Bessis Mardi 2 juin 2015 19h 12h30 10h50-12h30 10h35-10h50h 9h35-10h35 8h30-9h30 Cauchy Châtelet Cauchy Châtelet Galois Modèles de mélange Painlevé Étude de cas ENBIS Repas de Gala Programme social et culturel Déjeuner ou panier repas (selon programme social choisi) Données fonctionnelles Enseignement et big data Pause café Châtelet Prix Marie-Jeanne Laurent-Duhamel : Mélanie Prague Arthur Gretton Peter Hoff Mercredi 3 juin 2015 17 18 18h30-... 16h45-18h05 16h25-16h45 15h05-16h25 14h00-15h00 12h40-14h00 11h40-12h40 11h20-11h40 10h20-11h20 9h15-10h15 Cauchy Châtelet Galois Fiabilité et incertitudes Pause café Galois Painlevé Trucs et astuces pour StatMath Painlevé Tests statistiques 2 Rencontre Jeunes Statisticiens Enseignement de la statistique Cauchy Châtelet Environnement 2 Statistique spatiale 1 Analyse de données, data mining Statistique mathématique 2 Archimède Archimède Statistique bayésienne Cauchy Painlevé Modèles mixtes Châtelet Déjeuner Galois Statistique d’enquête Valérie Monbet Cauchy Châtelet Graphes Gerhard Tutz Plan d’expériences 2 Statistique pour le climat Cauchy Châtelet Pause café Fabrizio Ruggeri François Beck Châtelet Andrea Montanari Jeudi 4 juin 2015 13h30 - 15h30 12h15 -13h30 11h40-12h15 10h00-11h40 9h45-10h00 8h45-9h45 Cauchy Châtelet Painlevé Estimation de densité Châtelet Clôture des journées Galois Statistique spatiale 2 Châtelet YSP Online Déjeuner ou panier repas Apprentissage et classification 2 Médecine, Épidémiologie Archimède Speed meetings statisticiennes et lycéennes Cauchy Châtelet Pause café Grégory Nuel Sophie Lambert-Lacroix Vendredi 5 juin 2015 19 Table des matières Comités de programme et d’organisation 3 Conférenciers invités 5 Informations pratiques 7 Programme 15 Lundi 1er juin 10h00-11h00 - Conférence Le Cam (Sara Van de Geer) . . . . . . . . . . . . . . Norm-regularized empirical risk minimization . . . . . . . . . . . . . . . . . . . . . 11h10-12h50 - Forêts aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sélection de variables groupées avec les forêts aléatoires. Application à l’analyse des données fonctionnelles multivariées . . . . . . . . . . . . . . . . . . . . . . . Feature extraction and selection of electrodermal reaction towards stress level recognition : two real-world driving experiences . . . . . . . . . . . . . . . . . Consistance des forêts aléatoires médianes . . . . . . . . . . . . . . . . . . . . . . . Random forests and big data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prix ENSAI-SFdS : Prévision de la validation d’un brevet . . . . . . . . . . . . . . 11h10-12h50 - Analyse de survie, données censurées . . . . . . . . . . . . . . . . Modèle à hasards non proportionnels et survie marginale . . . . . . . . . . . . . . . Analyse de survie appliquée à la modélisation de la transmission des maladies infectieuses : mesurer l’impact des interventions . . . . . . . . . . . . . . . . . Normalité asymptotique d’estimateurs à noyau de la densité et du taux de hasard pour des données censurées . . . . . . . . . . . . . . . . . . . . . . . . . . . Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lasso pour données censurées à gauche : une comparaison par simulation d’algorithmes proposés dans la littérature . . . . . . . . . . . . . . . . . . . . . . 11h10-12h50 - Algorithmes stochastiques . . . . . . . . . . . . . . . . . . . . . . . Modeles mixtes et penalité fused lasso pour une comparaison de groupes . . . . . . Modélisation conjointe de données longitudinales non-linéaires et de survie dans le contexte du cancer de la prostate métastatique et hormono-résistant . . . . Ré-échantillonnage dans un schéma séquentiel d’échantillonnage préférentiel . . . . Evaluation de l’algorithme SAEM dans le cadre de données longitudinales et de données d’événements répétés : application à la maladie de Gaucher . . . . Widening and clustering techniques to apply monotone CFTP algorithm . . . . . . 11h10-12h50 - Estimation non-paramétrique . . . . . . . . . . . . . . . . . . . . . Estimation non-paramétrique dans des modèles d’équations différentielles stochastiques à effets aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation du noyau de division dans une population structrurée par taille . . . . On the lower bounds for the rates of convergence in estimation at a point under multi-index constraint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 31 31 21 31 31 32 32 32 33 33 33 33 34 34 34 34 35 35 35 36 36 36 36 37 L-estimation des quantiles conditionnels . . . . . . . . . . . . . . . . . . . . . . . . Kernel estimation of the intensity of Cox processes . . . . . . . . . . . . . . . . . . 11h10-12h50 - Séries temporelles 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . Test d’un modèle non-paramétrique pour des séries chronologiques lorsque les vecteurs aléatoires sont non stationnaires et absolument réguliers . . . . . . . . On periodic threshold GARCH processes : probabilistic structure and empirical evidence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . QML inference for volatility models with covariates . . . . . . . . . . . . . . . . . . Estimation de la VaR conditionnelle d’un portefeuille de rendements GARCH multivariés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Two-stage least absolute power deviation estimation for a general class of conditionally heteroskedastic models . . . . . . . . . . . . . . . . . . . . . . . . . . 14h30-15h30 - Nicole El Karoui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Détection robuste d’instants de rupture dans l’intensité d’un processus de Poisson 14h30-15h30 - Fred Hickernell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Guaranteed fixed-width confidence intervals for Monte Carlo and quasi-Monte Carlo simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15h35-16h55 - Données en grandes dimensions, méthodes Lasso . . . . . . . . Test de normalité en grande dimension par méthodes à noyaux . . . . . . . . . . . De l’usage du saut de dualité pour la pré-sélection dynamique des variables pour le Lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Puissance du test TLT construit depuis l’estimateur Lasso . . . . . . . . . . . . . . Sélection de variables par le GLM-Lasso pour la prédiction du risque palustre . . . 15h35-16h55 - Session du groupe Banque Finance Assurance . . . . . . . . . . Consistency of tree-based estimators in censored regression with applications in insurance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Parameter estimation for mixed-type distributions with application to destruction rate modeling in insurance . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution hybride pour la modélisation de données asymétriques à queue lourde : application sur des données assurentielles . . . . . . . . . . . . . . . . . . . Dépendance des personnes âgées : une approche multi-états basée sur la notion de processus semi-markovien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15h35-16h55 - Données manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . Imputation par régression dans le modèle linéaire fonctionnel avec valeurs manquantes dans la réponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Méthodes statistiques pour prendre en compte l’occurrence de données manquantes aléatoires conjointement avec la méthode du temps jusqu’à détérioration d’un score de qualité de vie : une étude de simulation . . . . . . . . . . . . L’effet de visites manquantes sur l’estimateur des GEE, une étude par simulation . Imputation multiple pour variables qualitatives par analyse des correspondances multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15h35-16h55 - Copules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prise en compte d’information pour l’estimation de quantiles agrégés . . . . . . . . Estimating new multivariate risk measures . . . . . . . . . . . . . . . . . . . . . . . Probit transformation for nonparametric kernel estimation of the copula density . Application des copules à l’estimation de fronts de Pareto . . . . . . . . . . . . . . 15h35-16h55 - Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vraisemblance auto-pénalisante pour la sélection du nombre de ruptures dans la segmentation bidimensionnelle utilisée pour l’analyse des données Hi-C . . . Formation d’un phénomène temporel à l’aide d’un méta-modèle via la segmentation Détection de motifs disruptifs au sein de plantes : une approche de quotientement/classification d’arborescences . . . . . . . . . . . . . . . . . . . . . . . Heuristique de pente pour les modèles de détection de ruptures multiples . . . . . 17h15-18h35 - AMIES 1 - Panorama . . . . . . . . . . . . . . . . . . . . . . . . . . 22 37 37 37 38 38 38 38 39 39 39 39 39 40 40 40 40 40 41 41 41 41 42 42 42 42 43 43 44 44 44 44 45 45 45 45 46 46 46 Programme de la session spéciale AMIES 1 - Panorama . . . . . . . . . . . . . . . 17h15-18h35 - Statistique mathématique 1 . . . . . . . . . . . . . . . . . . . . . . Intervalles de confiance valides en présence de sélection de modèle . . . . . . . . . Z-estimateurs indexés par la fonction objective . . . . . . . . . . . . . . . . . . . . Certainty bands for the conditional cumulative distribution function and applications Consistance de la minimisation du risque empirique pour l’optimisation de l’erreur relative moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17h15-18h35 - Analyse de sensibilité . . . . . . . . . . . . . . . . . . . . . . . . . . Plans emboîtés pour l’estimation itérative des indices de Sobol’ par méthode répliquée Discrete and continuous nonparametric kernel estimations for global sensitivity analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analyse de sensibilité et application en finance . . . . . . . . . . . . . . . . . . . . Redéfinition de la pod comme fonction de répartition aléatoire . . . . . . . . . . . 17h15-18h35 - Classification en grandes dimensions . . . . . . . . . . . . . . . . Détection de profils conditionnels dans des matrices creuses pour la sélection génomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variable selection by decorrelated HCT for supervised classification in high dimension Sélection de modèles pour la classification de données de régression en grande dimension : un résultat théorique . . . . . . . . . . . . . . . . . . . . . . . . . Une pénalité de groupe pour des données multivoie de grande dimension . . . . . . Mardi 2 juin 08h45-09h45 - David Bessis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Titre à venir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 09h50-10h50 - Prix Norbert Marx (Paul Blanche) . . . . . . . . . . . . . . . . . Évaluation des capacités pronostiques de modèles joints pour données longitudinales et de survie : inférence et application au pronostic de la démence . . . . . . 11h10-12h30 - Environnement 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mélange de prédicteurs pour la prévision séquentielle de la pollution par les PM10 en Haute-Normandie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Processus avec sauts sur arbres : détection de changements adaptatifs . . . . . . . Équation différentielle stochastique basée sur un potentiel gaussien pour décrire le déplacement en écologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sciences participatives et suivi de la biodiversité . . . . . . . . . . . . . . . . . . . 11h10-12h30 - Finance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Impact de la compétition bancaire sur la méthode de financement . . . . . . . . . . A new approach in nonparametric estimation of returns in mean-downside risk portfolio frontier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Test de changement de régimes dans des séries financières par un modèle conditionnellement hétéroscédastique à seuil endogène . . . . . . . . . . . . . . . . . Transmission des chocs de rendement et de volatilité entre marchés boursiers : application de modèles GARCH multivariés . . . . . . . . . . . . . . . . . . 11h10-12h30 - Apprentissage et classification 1 . . . . . . . . . . . . . . . . . . . Classification ascendante hiérarchique à noyaux et pistes pour un meilleur passage à l’échelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Classification de courbes individuelles et prévision désagrégée de la consommation électrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Classification ascendante hiérarchique avec contraintes de proximité géographique . Sélection de groupes de variables corrélées par classification ascendante hiérarchique et group-Lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11h10-12h30 - Statistique bayésienne non-paramétrique . . . . . . . . . . . . . . Quantification de l’incertitude d’une partition issue d’un processus de Dirichlet à mélange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation bayésienne non-paramétrique pour les processus de Hawkes . . . . . . . 23 46 46 46 47 47 47 47 48 48 48 49 49 49 49 50 50 51 51 51 51 51 51 51 51 52 52 52 53 53 53 54 54 54 54 54 55 55 55 55 Vitesse de convergence de l’a posteriori pour les modèles non-paramétriques de Markov cachés à espace d’état fini . . . . . . . . . . . . . . . . . . . . . . . Approche bayésienne non-paramétrique pour la factorisation de matrice binaire à faible rang avec loi de puissance . . . . . . . . . . . . . . . . . . . . . . . . 11h10-12h30 - Régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Partial Least Squares : une nouvelle approche au travers de polynômes orthogonaux Extension de la régression linéaire généralisée sur composantes supervisées à une partition thématique des régresseurs . . . . . . . . . . . . . . . . . . . . . . Sélection d’estimateurs ridge en régression gaussienne . . . . . . . . . . . . . . . . Une formule exacte pour la validation croisée dans le cadre de la régression ’poolsample’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13h50-14h50 - Nicolas Verzelen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Détection de communautés dans des réseaux aléatoires . . . . . . . . . . . . . . . . 13h50-14h50 - Qiwei Yao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Segmenting multiple time series by contemporaneous linear transformation : PCA for time series . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14h55-16h15 - Biostatistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Un modèle statistique pour la pharmacovigilance . . . . . . . . . . . . . . . . . . . Modèle poisson-gamma pour le recrutement de patients lors d’essais cliniques. Etude des limites de pertinence du modèle par simulations . . . . . . . . . . . . . Unsupervised clustering under local constraints of dynamics using multiple equivalence tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Statistical estimation of genomic tumoral alterations . . . . . . . . . . . . . . . . . 14h55-16h15 - Series temporelles 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . Propriétés asymptotiques des estimateurs pour des modèles VARMA à coefficients dépendant du temps, avec exemples . . . . . . . . . . . . . . . . . . . . . . Un estimateur de qmv-poisson pour les séries temporelles multivariées à valeurs entières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A unified approach to the estimation of periodically integrated autoregressive models Inférence statistique des modèles autorégressifs à coefficients aléatoires périodiques 14h55-16h15 - Tests statistiques 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . Test de comparaison de deux modèles de régression non-paramétriques basé sur les coefficients de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tests d’uniformité sur la sphère unité de grande dimension . . . . . . . . . . . . . Tests d’adéquation pour des données directionnelles bruitées . . . . . . . . . . . . . Procédure diagnostique en arbre utilisant les tests lisses d’adéquation . . . . . . . . 14h55-16h15 - Extrêmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modèles multivariés pour l’indépendance asymptotique des extrêmes . . . . . . . . Conditional tail index estimation for random fields . . . . . . . . . . . . . . . . . . Quantiles extrêmes conditionnels et application à la surveillance en temps réel d’un système aquatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . On the effects of model misspecification in the study of non-stationary series of maxima : a stochastic simulation perspective . . . . . . . . . . . . . . . . . 14h55-16h15 - Régression en grandes dimensions . . . . . . . . . . . . . . . . . . Utilisation d’estimateurs en plusieurs étapes appliqués à des modèles additifs modélisant la prévision de consommation électrique . . . . . . . . . . . . . . . Estimation conjointe de plusieurs modèles de régression avec des pénalités `1 . . . Binarsity : prédiction en grande dimension via la sparsité induite par la binarisation de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Une relaxation continue du rasoir d’Ockham pour la régression en grande dimension 16h35-17h35 - Enseignement, IUT STID . . . . . . . . . . . . . . . . . . . . . . . Les plans d’expériences : apprentissage actif . . . . . . . . . . . . . . . . . . . . . . Étude de cas en statistique et informatique décisionnelle : un exemple basé sur une enquête en DUT STID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 56 56 56 56 57 57 57 57 58 58 58 58 58 59 59 59 60 60 60 60 61 61 61 61 61 62 62 62 63 63 63 63 64 64 64 64 65 65 65 Prix SFdS-STID : De l’automatisation d’un outil de pilotage à l’analyse de la productivité au sein d’un call center . . . . . . . . . . . . . . . . . . . . . . . . 16h35-17h35 - Plan d’expériences 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . Processus gaussiens déformés pour l’apprentissage de zones instationnaires . . . . . The informational approach to global optimization in presence of very noisy evaluation results. Application to the optimization of renewable energy integration strategies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation des mesures de sensibilité globale basées sur les dérivées via un métamodèle par processus gaussien . . . . . . . . . . . . . . . . . . . . . . . . . 16h35-17h35 - AMIES 2 - Témoignages . . . . . . . . . . . . . . . . . . . . . . . . CorReg : prétraitement en régression linéaire par modélisation explicite des corrélations. Application aux variables manquantes . . . . . . . . . . . . . . . . . Modèle linéaire généralisé hiérarchique Gamma-Poisson à 3 facteurs aléatoires. Application au contrôle de qualité . . . . . . . . . . . . . . . . . . . . . . . . . Intégration de données hétérogènes pour l’identification de signatures moléculaires : une approche par score-local . . . . . . . . . . . . . . . . . . . . . . . . . . 16h35-17h35 - Régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . Nouveaux modèles de choix qualitatifs prenant en compte des caractéristiques individuelles et des caractéristiques de choix . . . . . . . . . . . . . . . . . . . Courbes de prédictivité appliquées au criblage virtuel . . . . . . . . . . . . . . . . . Adaptive sparse PLS for logistic regression . . . . . . . . . . . . . . . . . . . . . . . Mercredi 3 juin 08h30-09h30 - Peter Hoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bayes and empirical Bayes methods for tensor data . . . . . . . . . . . . . . . . . . 08h30-09h30 - Arthur Gretton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kernel nonparametric tests of homogeneity, independence and multi-variable interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 09h35-10h35 - Prix Marie-Jeanne Laurent-Duhamel (Mélanie Prague) . . . . Utilisation des modèles dynamiques pour l’optimisation des traitements des patients infectés par le VIH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10h50-11h50 - Études de cas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Penalized MDF for protein movement detection . . . . . . . . . . . . . . . . . . . . Conservative estimates of excursion sets in reliability engineering . . . . . . . . . . Etude de cas pour la modélisation de la consommation domestique d’eau chaude . 10h50-12h30 - Enseignement et Big Data . . . . . . . . . . . . . . . . . . . . . . . Le mastère spécialisé big data de Télécom ParisTech . . . . . . . . . . . . . . . . . Enseigner la statistique pour l’analyse de mégadonnées . . . . . . . . . . . . . . . . Un DU d’analyste big data en formation continue courte au niveau L3 . . . . . . . Systèmes de recommandations : algorithmes de bandits et évaluation expérimentale Pourquoi et comment enseigner l’analyse de données massives (Big Data) . . . . . 10h50-12h30 - Données fonctionnelles . . . . . . . . . . . . . . . . . . . . . . . . . Estimation robuste de courbes moyennes de consommations électriques par sondage en population finie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sur le calcul d’une moyenne de surfaces fonctionnelles . . . . . . . . . . . . . . . . Régression linéaire fonctionnelle bayésienne explicable . . . . . . . . . . . . . . . . Modélisation non paramétrique de la régression pour variables explicatives fonctionnelles avec autocorrélation des erreurs . . . . . . . . . . . . . . . . . . . Classification des hydrogrammes avec des outils de l’analyse de données fonctionnelles 10h50-12h30 - Modèles de mélange . . . . . . . . . . . . . . . . . . . . . . . . . . . Nonparametric mixture models with conditionally independent multivariate component densities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Classification de données binaires via l’introduction de mesures de similarités dans les modèles de mélange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 66 66 66 66 66 67 67 67 68 68 68 68 69 71 71 71 71 71 71 71 72 72 72 72 73 73 73 73 74 74 74 74 75 75 75 76 76 76 76 Transformation des données et comparaison de modèles pour la classification des données RNA-seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation de l’apparentement entre plusieurs individus à l’aide d’un algorithme EM Choix de modèles quand la vraisemblance est incalculable . . . . . . . . . . . . . . 11h50-12h30 - The challenge of communicating about complicated statistical models - Session sponsored by ENBIS . . . . . . . . . . . . . . . . . . . . . . Skeletons, flying carpets and ridge gymnastic. Visualizing models with multiple X and Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Jeudi 4 juin 09h15-10h15 - Andrea Montanari . . . . . . . . . . . . . . . . . . . . . . . . . . . . Computational barriers to statistical inference . . . . . . . . . . . . . . . . . . . . . 10h20-11h20 - François Beck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Entre invisible et indicible : comment aborder des sujets sensibles telles que les usages de drogues ou la santé mentale dans les enquêtes en population générale ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10h20-11h20 - Fabrizio Ruggeri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . On Bayesian estimation of thermal diffusivity in materials . . . . . . . . . . . . . . 11h40-12h40 - Statistique pour le climat . . . . . . . . . . . . . . . . . . . . . . . Estimation of multivariate critical layers : applications to rainfall data . . . . . . . A statistical analysis of trends for warm and cold spells by means of counts . . . . Estimation par maximum de vraisemblance par paires de champs gaussiens multivariés spatio-temporels. Application à une fonction de covariance entièrement non séparable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11h40-12h40 - Plan d’expériences 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . Plans en blocs ’pairwise’ partiellement équilibrés résolvables et plans numériques ’Space filling’ associés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cages and mice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Méthodologie des surfaces de réponse pour données fonctionnelles . . . . . . . . . . 11h40-12h40 - Graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inférence de structure de modèle graphique à l’aide d’arbres couvrants . . . . . . . Détection de l’indépendance locale entre neurones . . . . . . . . . . . . . . . . . . . Modelling time evolving interactions in networks through a non stationary extension of stochastic block models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11h40-12h40 - Statistique d’enquête . . . . . . . . . . . . . . . . . . . . . . . . . . L’algorithme CURIOS pour l’optimisation du plan de sondage en fonction de la non-réponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comment enquêter les familles sans domicile ? L’expérience de l’enquête ENFAMS L’essaimage statistique, une généralisation du Bootstrap . . . . . . . . . . . . . . . 11h40-12h40 - Modèles mixtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation de l’héritabilité dans les modèles linéaires mixtes parcimonieux . . . . . Estimation dans les modèles mixtes fonctionnels en présence de déformations individuelles non-linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation paramétrique pour des modèles mixtes complexes à l’aide de méta-modèles 14h00-15h00 - Gerhard Tutz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regularized regression for discrete structure . . . . . . . . . . . . . . . . . . . . . . 14h00-15h00 - Valérie Monbet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modèles auto-régressifs à chaîne de Markov cachée pour des séries temporelles multivariées de température de l’air . . . . . . . . . . . . . . . . . . . . . . . . 15h05-16h25 - Analyse de données, data mining . . . . . . . . . . . . . . . . . . . Analyse discriminante par noyaux associés pour données mixtes . . . . . . . . . . . Analyse discriminante matricielle descriptive. Application à l’étude de signaux EEG Comparaison de méthodes multivariées pour la détection d’observations atypiques Multiway regularized generalized Canonical Correlation Analysis . . . . . . . . . . 26 77 77 77 78 78 79 79 79 79 79 79 79 79 80 80 80 80 81 81 81 81 81 82 82 82 83 83 83 84 84 84 85 85 85 86 86 86 86 86 87 87 15h05-16h25 - Statistique spatiale 1 . . . . . . . . . . . . . . . . . . . . . . . . . . Détection automatique de cibles sous-résolues . . . . . . . . . . . . . . . . . . . . . Borne pour l’erreur de discrétisation du maximum d’un champ aléatoire . . . . . . Spatial dependence in (origin-destination) air passenger flows . . . . . . . . . . . . Un modèle de mélange pour la segmentation de données spatiales . . . . . . . . . . 15h05-16h25 - Statistique mathématique 2 . . . . . . . . . . . . . . . . . . . . . . Problèmes d’adéquations entre distributions : une approche par un modèle de déformations et la distance de Wasserstein . . . . . . . . . . . . . . . . . . . . Reconstruction simpliciale de variété via l’estimation d’espace tangent . . . . . . . Éléments spectraux d’une fonction cyclostationnaire . . . . . . . . . . . . . . . . . Méthodes statistiques d’identification et de quantification en métabolomique. Application aux spectres RMN . . . . . . . . . . . . . . . . . . . . . . . . . . . 15h05-16h25 - Tests statistiques 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tests d’indépendance entre deux processus ponctuels et application en neurosciences Influence de la forme de la fenêtre de scan sur la distribution des statistiques de scan bidimensionnelles discrètes . . . . . . . . . . . . . . . . . . . . . . . . . Détection de motifs de dépendance avec délai . . . . . . . . . . . . . . . . . . . . . Contrôle du taux de faux positifs dans le cas dépendant bilatéral . . . . . . . . . . 15h05-16h25 - Statistique bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . Identifier les segments génomiques expliquant les variations de fonctions de réponse : intérêt des équations différentielles stochastiques dans un contexte bayésien Étude des propriétés fréquentistes des estimateurs bayésiens de la différence de deux proportions, du risque relatif et du rapport de cotes . . . . . . . . . . . . . Autour des a prioris peu informatifs dans les modèles bayésiens de régression logistique Bayesian Model Averaging à l’aide d’un échantillonnage préférentiel adaptatif et multiple pour l’estimation du risque de leucémie infantile radio-induite . . . 16h45-18h05 - Environnement 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Une construction statistique échangeable pour le post-traitement des ensembles de séries météorologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Construction bayésienne de prévisions probabilistes à partir des sorties d’un modèle déterministe pluie-débit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analyse du comportement multivarié de la réponse hydro-géomorphologique basée sur les statistiques des rangs . . . . . . . . . . . . . . . . . . . . . . . . . . Courbe régionale d’indice de crue basée sur la classification hydro-géomorphologique 16h45-18h05 - Enseignement de la statistique . . . . . . . . . . . . . . . . . . . . La statistique vue par des étudiants en sciences de l’éducation : formation inititale versus formation continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . Évolution de la moyenne et de l’écart-type chez les étudiants en sciences humaines et sociales : étude sur des échantillons appariés . . . . . . . . . . . . . . . . « J’aime pas les stats ! » Mesure et analyse de l’attitude à l’égard des statistiques dans une école de management . . . . . . . . . . . . . . . . . . . . . . . . . Compétitions d’apprentissage automatique avec le package R rchallenge . . . . . . 16h45-18h05 - Fiabilité et incertitudes . . . . . . . . . . . . . . . . . . . . . . . . . L’utilisation du modèle de Cox-PLS dans la prévision de défaillance des entreprises Méthodes de détection d’une rupture dans des échantillons de petite taille suivant des lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Echantillonnage préférentiel et méta-modèles : méthodes bayésiennes optimale et défensive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Le facteur de Bayes appliqué à la validation des codes de calcul . . . . . . . . . . . 16h45-18h25 - Trucs et astuces pour Stat Math : la symétrisation . . . . . . . Symétrisation 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Symétrisation 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . On the restricted eigenvalues condition for Gaussian matrices . . . . . . . . . . . . Un test adaptatif fondé sur la symétrisation . . . . . . . . . . . . . . . . . . . . . . 27 87 87 88 88 88 89 89 89 89 89 90 90 90 91 91 91 91 92 92 92 93 93 93 94 94 95 95 95 96 96 96 96 97 97 97 98 98 98 98 99 Symétrisation dans les problèmes à deux échantillons : le cas des processus de Poisson 99 18h30-... - Rencontre Jeunes Statisticiens . . . . . . . . . . . . . . . . . . . . . . . 99 Vendredi 5 juin 101 08h45-09h45 - Sophie Lambert-Lacroix . . . . . . . . . . . . . . . . . . . . . . . . 101 Modèles mixtes fonctionnels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 08h45-09h45 - Grégory Nuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Prédiction individuelle du risque de cancer en fonction des antécédents familiaux . 101 10h00-11h40 - Médecine, épidémiologie . . . . . . . . . . . . . . . . . . . . . . . . 101 Using a structural Bayesian approach to account for measurement error : an application to radiation epidemiology . . . . . . . . . . . . . . . . . . . . . . . . 101 Application de la cartographie du risque aux données contagieuses . . . . . . . . . 101 Comparing t-year absolute risk prediction strategies : the multi-split testing approach102 Semi-parametric dose finding methods . . . . . . . . . . . . . . . . . . . . . . . . . 102 Prix ESSAI-SFdS : Implémentation d’une solution de mesure d’aide à la décision de bioéquivalence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 10h00-11h40 - Apprentissage et classification 2 . . . . . . . . . . . . . . . . . . . 103 Sélection de variables en classification non-supervisée sans estimation de paramètres 103 Classification non-supervisée de trajectoires . . . . . . . . . . . . . . . . . . . . . . 103 Mélanges de lois de Student à échelles multiples pour la caractérisation de tumeurs par IRM multiparamétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Méta-algorithme de classement. Application à la sécurité routière . . . . . . . . . . 104 Modélisation statistique de la toxicité de molécules et domaine de validité : application en chémoinformatique . . . . . . . . . . . . . . . . . . . . . . . . . . 104 10h00-11h40 - Statistique spatiale 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Spatial statistics in discrete-choice models . . . . . . . . . . . . . . . . . . . . . . . 105 Asymptotic spectral theory for nonlinear random fields . . . . . . . . . . . . . . . . 105 Estimation non-paramétrique de la fonction de régression par la méthode des k-plus proches voisins pour données spatiales . . . . . . . . . . . . . . . . . . . . . 105 Critères de choix de modèle pour champs de Gibbs cachés . . . . . . . . . . . . . . 105 Prédire l’intensité locale d’un processus ponctuel partiellement observé . . . . . . . 106 10h00-11h40 - Estimation de densité . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Approche bayésienne dans l’estimation non-paramétrique de la densité des données de dénombrement par noyau associé . . . . . . . . . . . . . . . . . . . . . . 106 Estimation rapide non-paramétrique de la densité de la distribution d’entropie maximale pour les statistiques d’ordre . . . . . . . . . . . . . . . . . . . . . . . . 106 Déconvolution adaptative de densité sur R+ . . . . . . . . . . . . . . . . . . . . . . 107 Comportement asymptotique de l’estimateur à noyau de la densité, avec données discrétisées, pour des champs aléatoires dépendants et non-stationnaires . . 107 BlockShrink probability density estimator for dependent processes . . . . . . . . . 107 10h00-11h40 - Speed meetings - Statisticiennes et lycéennes . . . . . . . . . . . 107 13h30-15h30 - YSP Online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Liste des participants 109 Index des auteurs 119 28 29 Lundi 1er juin 2015 10h00-11h00 - Conférence Le Cam (Sara Van de Geer) Norm-regularized empirical risk minimization Sara van de Geer (ETH Zürich) The usefulness of `1 -norm regularization in high-dimensional problems is nowadays well recognized. A fundamental property of the `1 -norm that allows for adaptive estimation and oracle results is its decomposability. The `1 -norm of a vector β ∈ Rp is kβk1 = p X |βj |. j=1 With decomposability of k · k1 we mean that for any set S ⊂ {1, . . . , p}, kβk1 = kβS k1 + kβ−S k1 , where βS = {βj : j ∈ S} and β−S := {βj : j ∈ / S}. In this talk, we review results for alternative norms Ω on Rp . Fix some β ∈ Rp . We call Ω weakly decomposable at β if Ω ≥ Ω+ + Ω − , where Ω+ and Ω− are semi-norms on Rp , and where Ω+ (β) = Ω(β) and Ω− (β) = 0. We will show sharp oracle results - depending on the (approximate) weak decomposability of Ω at certain “oracle" values β - for empirical risk minimizers with regularization penalty proportional to Ω. We also present an approach based on the so-called triangle property. We say that Ω has the triangle property at β if there exists semi-norms Ω+ and Ω− such that for all β 0 max z T (β 0 − β) ≥ Ω− (β 0 ) − Ω+ (β 0 − β). z∈∂Ω(β) Here, ∂Ω(β) is the sub-differential of Ω at β. Several examples with various loss functions (least squares, minus log-likelihood) and penalties (wedge penalty, nuclear norm penalty) will illustrate the theory. 11h10-12h50 - Forêts aléatoires Sélection de variables groupées avec les forêts aléatoires. Application à l’analyse des données fonctionnelles multivariées Baptiste Gregorutti (Safety Line), Bertrand Michel (UPMC), Philippe Saint Pierre (UPMC) Dans cet article, nous étudions la sélection de groupes de variables avec les forêts aléatoires. Dans un premier temps, nous introduisons une nouvelle mesure d’importance pour des groupes de variables. Nous étudions théoriquement cette mesure pour un modèle de régression additive. Nous montrons en particulier qu’en toute généralité, l’importance d’un groupe ne peut s’écrire comme la somme des importances individuelles des variables le composant. Dans une seconde partie, nous présentons une approche originale de sélection de variables en analyse de données fonctionnelles. En particulier, lorsque l’on observe un grand nombre de covariables à valeurs dans un espace de fonctions, chacune de ces variables peut être vue comme le groupe formé par ses coefficients de base (ondelettes, ACP fonctionnelle, etc.). Nous proposons donc d’utiliser l’importance groupée et un algorithme pas-à-pas pour sélectionner les covariables fonctionnelles. Cette méthode est appliquée au problème de l’analyse des données des enregistreurs de vol pour la prédiction des risques opérationnels en aéronautique. 31 Lundi 1er juin 2015 Feature extraction and selection of electrodermal reaction towards stress level recognition : two real-world driving experiences Neska El Haouij (U2S-ENIT, CEA-LinkLab), Raja Ghozi (U2S-ENIT), Jean-Michel Poggi (Univ. Paris Descartes et Univ. Paris Sud), Sylvie Sevestre Ghalila (CEA-LinkLab), Mériem Jaidane (U2S(ENIT), CEA LinkLab) This study is based on the electrodermal activity (EDA) which is a reliable physiological indicator of human arousal. Signals resulting from two different driving experiences, are used to classify the stress level assuming that city driving produces higher stress level compared to highway driving. For each EDA dataset, six features are extracted from each 1-min segment : the mean, the standard deviation and four electrodermal response characteristics defining the “startle” level. In our work, we were able to identify these features by order of relevance using random forest and to confirm this order using a cross validation on a recognition algorithm. Startle features were found to be the most relevant for the first database while the mean was selected as the best feature to recognize stress level for the second database. Consistance des forêts aléatoires médianes Erwan Scornet (UPMC - Institut Curie) Les forêts aléatoires, proposées par L. Breiman (2001), comptent parmi les méthodes les plus utilisées dans les problèmes d’estimation de la régression en grande dimension, particulièrement dans des domaines comme la génomique. Bien que les forêts aléatoires montrent de très bonnes performances en pratique, la compréhension théorique des phénomènes mis en oeuvre dans ces algorithmes demeure incomplète. Dans cet exposé, nous montrerons que la forêt médiane est consistante alors même que les arbres qui la compose sont inconsistants. Ce résultat illustre les avantages d’une forêt par rapport à un unique arbre de décision. Random forests and big data Robin Genuer (ISPED Univ. Bordeaux, Inria SISTM), Jean-Michel Poggi (Univ. Paris Descartes et Univ. Paris Sud), Christine Tuleau-Malot (Lab. Jean-Alexandre Dieudonnée, Univ. Nice - Sophia Antipolis), Nathalie Villa-Vialaneix (INRA, UR 875 MIAT, Toulouse) Le Big Data est un des grands défis que doit relever la statistique et a de nombreuses conséquences sur les plans théorique et algorithmique. Le Big Data implique toujours le caractère massif des données mais comprend bien souvent aussi des données en flux (en ligne) et implique le traitement de données hétérogènes. Récemment, certaines méthodes statistiques ont été adaptées pour traiter le Big Data, par exemple les modèles de régression linéaire, les méthodes de classification et les schémas d’échantillonnage. Basées sur des arbres de décision et exploitant les idées d’agrégation et de bootstrap, les forêts aléatoires introduites par Breiman en 2001, sont une méthode statistique non paramétrique puissante et versatile permettant de prendre en compte dans un cadre unique tant les problèmes de régression que les problèmes de classification binaire ou multi-classes. Ce papier examine les propositions disponibles de forêts aléatoires en environnement parallèle ainsi que sur les forêts aléatoires en ligne. Ensuite, nous formulons diverses remarques avant d’esquisser quelques directions alternatives pour les forêts aléatoires dans le contexte du Big Data. Prix ENSAI-SFdS : Prévision de la validation d’un brevet Sandra Fourcade (Ensai), Ketsia Guichard (Ensai), Marion Vichery (Ensai/Ensae) Notre objectif est de prévoir la validation en France de brevets délivrés par l’Office Européen des Brevets (OEB). Cette étude, proposée par la Caisse des Dépôts et Consignation Propriété Intellectuelle et Bluestone, s’inscrit dans le cadre plus général de la notation des brevets, dont la validation nationale (en France et dans d’autres états membres de l’OEB) est une composante importante. Nous disposons de données décrivant l’ensemble des brevets du champ technologique ’IT methods for management’ délivrés par l’OEB avec une date de dépôt postérieure à 1988. 32 Lundi 1er juin 2015 Une analyse descriptive préalable ne permet de révéler que peu de variables discriminantes de la validation en France des brevets, mais elle révèle toutefois de nombreuses corrélations entre les variables potentiellement explicatives - corrélations prises en compte par la suite. Les modèles de régressions logistiques ensuite mis en œuvre avec différents schémas d’échantillonnage montrent un pouvoir prédictif très relatif ; en revanche, la modélisation par forêt aléatoire révèle finalement une meilleure capacité prédictive. Nos modélisations permettent également de mettre en lumière un certain nombre de caractéristiques des brevets apparemment liées à leur validation en France, parmi lesquelles : le nombre de déposants de la demande de brevet, le nombre de revendications du brevet ou encore le pays prioritaire. 11h10-12h50 - Analyse de survie, données censurées Modèle à hasards non proportionnels et survie marginale Roxane Duroux (LSTA, UPMC, Paris), Cécile Chauvel (Laboratoire Jean Kuntzmann, Université Joseph Fourier, Grenoble), John O’Quigley (LSTA, UPMC) Nous nous plaçons dans le cadre de l’analyse de survie, c’est-à-dire de l’analyse de données censurées. On notera T la variable aléatoire modélisant le temps de décès et Z un vecteur de covariables. Nous souhaitons modéliser la loi de T sachant Z en prenant en compte dans l’analyse la fonction de survie marginale de T . Nous proposerons dans ce cadre un nouvel estimateur convergent de E[β(T )]. Analyse de survie appliquée à la modélisation de la transmission des maladies infectieuses : mesurer l’impact des interventions Génia Babykina (Université Lille 2, CERIM), Simon Cauchemez (Institut Pasteur, Paris) Dans l’article, la modélisation de la transmission des maladies infectieuses au sein de ménages est approchée par l’analyse de données de survie. Des approches similaires ont été précédemment utilisées pour estimer les paramètres décrivant la transmission de la grippe dans les ménages. Nous explorons ici la performance de ces méthodes pour évaluer l’impact d’interventions (usage de masques ou traitements antiviraux) visant à réduire la transmission dans le ménage. Le taux d’infection journalier pour un individu est défini comme la somme du risque que cet individu soit infecté par tous les membres déjà malades du ménage et du risque d’infection communautaire qui peut dépendre des caractéristiques propres de la communauté et du jour. Le risque de transmission de la maladie au sein du ménage dépend des caractéristiques de l’individu susceptible d’être atteint et de l’infectivité de l’individu contagieux, cette dernière étant une fonction du temps. L’impact d’interventions est pris en compte dans la fonction d’infectivité dont l’évolution au cours du temps dépendra de l’intervention. L’inférence se fait dans un cadre Bayésien, où une stratégie d’augmentation de données est mise en place pour gérer les problèmes de données manquantes, les instants d’infection n’étant pas observés. L’algorithme MCMC est utilisé pour explorer la distribution jointe a posteriori des paramètres et des données augmentées. L’étude de Monte Carlo montre la convergence et l’absence de biais dans les estimations. Cette analyse de simulation démontre que ces méthodes peuvent être utilisées pour évaluer l’impact d’interventions visant à réduire la transmission dans les ménages. Normalité asymptotique d’estimateurs à noyau de la densité et du taux de hasard pour des données censurées Fatiha Messaci (Université des frères Mentouri), Mohamed Boukeloua (Université des frères Mentouri) Dans ce travail, nous considérons l’estimation non paramétrique de la densité de probabilité et du taux de hasard d’une variable aléatoire d’intérêt X pouvant être censurée. D’abord, nous considérons un cadre général de censure dans lequel, au lieu d’observer X, nous observons une variable 33 Lundi 1er juin 2015 Z et un indicateur de censure qui détermine si l’observation est complète ou non. En utilisant une idée classique de l’estimation à noyau, nous introduisons un estimateur de la densité de X et nous établissons sa normalité asymptotique. Ensuite, nous appliquons notre résultat en vu de déduire la normalité asymptotique des estimateurs de la densité et du taux de hasard dans les cas de la censure à droite, la censure double et la censure mixte. Dans le premier cas, l’observation Z=min(X,R) où R est une variable de censure à droite. Pour les deux autres cas, Z=max((min(X,R),L), où L est une variable de censure à gauche et la variable X est indépendante du couple (L,R). Ce qui différencie les deux derniers modèles est que dans le premier L est inférieure à R (p.s), alors que dans le cas de la censure mixte les variables X,R et L sont indépendantes. Signalons le fait que les résultats de normalité asymptotique dans les deux premiers cas existaient déjà dans la littérature statistique sous des conditions qui semblent plus contraignantes et sont, à notre connaissance, nouveaux dans le dernier cas. Finalement, nous illustrons la normalité asymptotique des estimateurs précédents par une étude de simulation, complétée par des tests graphiques et numériques. Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum (Laboratoire MSTD. Faculté de m), Farida Hamrani (Laboratoire MSTD. Faculté de m) Our interest in this work of simulation is to compare the performance of the kernel estimator of the regression function in the random left truncated (RLT) model, when the data are independent, α-mixing and associated. We recall some results for the first and second case and we give our result in the associated case Lasso pour données censurées à gauche : une comparaison par simulation d’algorithmes proposés dans la littérature Perrine Soret (SISTM Inria), Marta Avalos (INSERM U897, SISTM Team Inria), Linda Wittkop (INSERM U897), Rodoplhe Thiebaut (INSERM U897, SISTM Team Inria), Daniel Commenges (INSERM U897, SISTM Team Inria) Dans le cas de la recherche contre le VIH, lorsque la sensibilité d’une technique de dosage utilisée pour quantifier la charge virale, est faible, certaines valeurs sont censurées à gauche. Il existe un seuil de quantification analytique, en dessous duquel la valeur exacte de la mesure n’est pas connue, les concentrations sont dites indétectables. Cependant, même incomplètes, ces données apportent de l’information et méritent d’être conservées dans l’analyse. Nous proposons une comparaison par simulation de différents algorithmes proposés dans la littérature qui prennent en compte la censure dans une étude de grande dimension et dont les implémentations sont disponibles. Les méthodes ont été adaptées à l’hypothèse de données censurées gaussiennes. 11h10-12h50 - Algorithmes stochastiques Modeles mixtes et penalité fused lasso pour une comparaison de groupes Edouard Ollier (Université Lyon 1), Adeline Leclercq-Samson (Université Joseph Fourier, Grenoble), Xavier Delavenne (Groupe de Recherche sur la Thrombose, EA3065, Université de SaintEtienne, Jean Monnet, F-42023, S), Vivian Viallon (Univ Lyon 1 - UMRESTTE - IFSTTAR) Nous considerons des donnees longitudinales possedant une structure de groupes. Par exemple, en recherche clinique, les groupes peuvent correspondre à differentes modalites de traitement. Ces donnees peuvent etre analysees par groupe, un modele non lineaire mixte etant alors estime dans chacun de ces groupes. La comparaison entre les groupes est ensuite realisee en identifiant les parametres dont l’estimation varie significativement a travers les groupes. Dans ce travail, nous nous interessons a l’estimation jointe de modeles non-lineaires mixtes par une methode de vraisemblance penalisee de type fused lasso. Cette approche permet d’identifier automatiquement 34 Lundi 1er juin 2015 les parametres qui ne varient pas entre certains groupes. La vraisemblance d’un modele non lineaire mixte etant non explicite, on utilise une version stochastique de l’algorithme EM. L’approche est illustree par simulation, et utilisee pour les donnees d’un essai clinique etudiant l’interaction medicamenteuse entre un anticoagulant et un antibiotique. Modélisation conjointe de données longitudinales non-linéaires et de survie dans le contexte du cancer de la prostate métastatique et hormonorésistant Solène Desmée (INSERM, IAME, UMR 1137 ; Univ Paris Diderot), Jérémie Guedj (INSERM, IAME, UMR 1137 ; Univ Paris Diderot), Christine Veyrat-Follet (Sanofi), France Mentré (INSERM, IAME, UMR 1137 ; Univ Paris Diderot, Sorbonne Paris Cité) Dans les essais cliniques sur le cancer de la prostate métastatique hormono-résistant, l’évaluation du traitement repose principalement sur le délai de survie et la cinétique de l’antigène spécifique de la prostate (PSA). La modélisation conjointe est de plus en plus utilisée pour caractériser la relation entre un délai de survie et la cinétique d’un biomarqueur, mais des difficultés numériques limitent souvent cette approche à des modèles linéaires. Ici nous avons évalué par simulation la capacité de l’algorithme Stochastic Approximation Expectation-Maximization implémenté dans Monolix à estimer les paramètres d’un modèle conjoint où la cinétique du PSA était définie par un modèle non linéaires à effets mixtes. Nous avons considéré plusieurs scénarios avec des paramètres de lien entre PSA et survie croissants et les résultats ont été comparés à ceux obtenus avec un modèle en deux étapes. Le modèle conjoint estime précisément les paramètres longitudinaux et de survie, contrairement au modèle en deux étapes. Ensuite, nous avons développé un modèle conjoint pour caractériser le lien entre la cinétique du PSA et la survie dans une étude clinique en construisant un modèle de la cinétique du PSA physiologique et complexe. Notre attention s’est particulièrement portée sur le choix de la forme de la fonction de risque instantané. Cette étude encourage l’utilisation plus systématique de modèles conjoints afin de décrire la relation entre un processus longitudinal non-linéaire et un risque d’évènement. Ré-échantillonnage dans un schéma séquentiel d’échantillonnage préférentiel Coralie Merle (Université de Montpellier) Nous nous intéressons au calcul de la vraisemblance d’un modèle à processus latent pour une valeur (φ) fixée du paramètre d’intérêt. Nous appliquons une méthode d’échantillonnage préférentiel sur les trajectoires d’un processus Markovien de saut inhomogène en temps jusqu’à un temps d’arrêt τ . Pour améliorer cet échantillonnage de l’espace des trajectoires, avant d’atteindre le temps d’arrêt, nous proposons de ré-échantillonner les débuts des trajectoires en fonction des poids et de l’état courant. Nous expliquerons quand et comment ré-échantillonner. Les méthodes d’échantillonnage préférentiel sont particulièrement utilisées en génétique des populations. En effet, la distribution du polymorphisme génétique d’un échantillon actuel dépend de l’évolution de la taille de la population au travers de processus stochastiques latents : son histoire passée. Mais ces méthodes sans ré-échantillonnage ne sont pas toujours efficaces, en particulier pour des modèles de populations dont la taille varie au cours du temps. Nous mettrons en évidence le gain obtenu grâce au ré-échantillonnage sur le cas d’une contraction de la taille de la population. Evaluation de l’algorithme SAEM dans le cadre de données longitudinales et de données d’événements répétés : application à la maladie de Gaucher Marie Vigan (INSERM, IAME, UMR 1137 ; Univ Paris Diderot, Sorbonne Paris Cite. MODAL’X, Univ Paris Ouest Nanterre), Jérôme Stirnemann (Division of General Internal Medicine, Geneva Univ Hospital), France Mentré (INSERM, IAME, UMR 1137 ; Univ Paris Diderot, Sorbonne Paris Cité) 35 Lundi 1er juin 2015 La modélisation conjointe est utilisé pour décrire la relation entre l’évolution des biomarqueurs et des événements, répétés ou non. L’algorithme SAEM implémenté dans Monolix a été étendu et évalué pour les modèles conjoints. Dans ce travail, nous cherchons à évaluer, par simulation, la précision d’estimation des paramètres et les propriétés du test du rapport de vraisemblance pour détecter l’impact de l’évolution des biomarqueurs sur la survenue d’événements. Ensuite, les données du registre national français de la maladie de Gaucher ont été analysés à l’aide d’un modèle conjoint. Nous avons testé le lien entre les données longitudinales de chitotriosidase et la survenue d’événements osseux répétés. L’évolution des biomarqueurs est définie par un modèle non linéaire à effets mixtes de décroissance exponentielle et les données d’événement par un modèle de fragilité avec un risque de base exponentielle. Différents scénario sont étudiés : i) absence, faible ou forte association entre l’évolution des biomarqueurs et les événements, ii) probabilité différente d’événements et iii) absence ou présence de censure. Pour chaque scénario, nous simulons 500 jeux de données avec 200 patients. Les estimations ont été effectuées en utilisant l’algorithme SAEM de Monolix 4.3.0, avec 3 chaînes de Markov, et la vraisemblance a été évaluée par échantillonnage préférentiel avec 20000 chaînes. Pour tous les scénarios, les résultats nous donnent de bonnes estimations des paramètres avec peu de biais. Le risque de première espèce et la puissance à détecter un lien ont été évalué pour difféerents scénario. Widening and clustering techniques to apply monotone CFTP algorithm Mohamed Yasser Bounnite (Université Cadi Ayyad), Abdelaziz Narroallah (Department of Mathematics, Cadi Ayyad University, Faculty of Sciences Semlalia) Le célèbre protocole du à Propp et Wilson (1996,1998) nommé couplage depuis le passé ’Coupling From The Past (CFTP’), assure la simulation exacte de la distribution stationnaire d’une chaîne de Markov. Dans le cas où le cardinal de l’espace d’état est très grand, l’algorithme CFTP dans sa forme standard déploit un nombre important d’opérations ; réclamant ainsi, trop de place mémoire. Afin de remédier à cette complexité, nous proposons une approche d’élargissement de l’espace d’état, rendant la chaîne de Markov stochastiquement monotone et apériodique. En conséquent, le coût de la simulation est réduit en utilisant l’algorithme CFTP monotone. Un algorithme est également proposé dit ’CFTP par Grappe’ dédié a une structure donnée de l’espace d’état, permet de réduire le coût de la simulation. 11h10-12h50 - Estimation non-paramétrique Estimation non-paramétrique dans des modèles d’équations différentielles stochastiques à effets aléatoires Charlotte Dion (LJK & MAP5), Valentine Genon-Catalot (MAP5) Nous étudions des modèles d’équations différentielles stochastiques à effets aléatoires dans le coefficient de dérive. En observant de manière continue N trajectoires d’un processus donné, nous proposons une procédure pour estimer la densité commune des effets aléatoires, supposés indépendants et identiquement distribués. Les différences entre les observations sont alors dues au mouvement Brownien et à la réalisation des effets aléatoires, c’est pourquoi ces derniers font l’objet d’une étude approfondie. Dans un premier nous nous intéressons au modèle d’OrnsteinUhlenbeck à un effet aléatoire puis nous étudions un modèle de diffusion général à deux effets aléatoires linéaires dans la dérive. Nous proposons dans les deux cas une procédure d’estimation des effets aléatoires et de leur densité : univariée ou bivariée. Estimation du noyau de division dans une population structrurée par taille Van Ha Hoang (Université de Lille 1) 36 Lundi 1er juin 2015 Dans ce travail, nous considérons une population de cellules structurée par la taille. La taille des cellules croît de façon déterministe et les cellules se divisent à des temps exponentielles. La population est décrite par une mesure empirique et nous observons les divisions sur l’intervalle de temps continu [0, T ]. Nous nous intéressons ici au problème d’estimation du noyau de division h(·) (ou noyau de fragmentation) dans le cas de données complètes. Nous construisons un estimateur adaptatif à noyau K fondé sur un choix de fenêtre inspiré par la méthode de Goldenschluger et Lepski. Nous obtenons une inégalité oracle et une vitesse de convergence exponentielle. On the lower bounds for the rates of convergence in estimation at a point under multi-index constraint Nora Serdyukova (Université de Concepción) Dans le cadre de l’estimation non paramétrique d’une fonction multidimensionnelle on cherche à obtenir la borne inférieure minimax. On suppose que la fonction à estimer possède la structure ’ multi-index ’, dans lequel ni fonction de lien et ni vecteurs d’indice ne sont connus. Par exemple, en régression, ce hypothèse signifie que l’espérance de la variable réponse est défini par celle sachant uniquement une projection du vecteur de covariables sur un sous-espace de dimension plus petite. Par conséquent, cette manière de réduire la dimension est un compromis convenable entre les approches paramétrique et purement non paramétrique. D’après les résultats obtenus pour les pertes ponctuelle, sous l’hypothèse structurelle, on a un nouveau type de bornes inférieures minimax. L-estimation des quantiles conditionnels Ines Jlassi (Université de Monastir), Ali Gannoun (Université Montpellier 2), Salah Khardani (Ecole Nationale d’Ingénieurs de Monastir) Un intéressant problème dans l’étude de l’interdépendance entre deux variables aléatoires X et Y est l’estimation des quantiles conditionnels. Nous étudions ici une méthode d’estimation non paramétrique des quantiles conditionnels : une méthode d’estimation à noyau basée sur les statistiques d’ordre. Nous présentons également quelques résultats de convergence de l’estimateur ainsi qu’une comparaison des performances avec autres estimateurs. L’exposé sera illustré par des simulations et une application sur des données biomédicales (Courbes de références). Kernel estimation of the intensity of Cox processes Gaspar Massiot (IRMAR), Nicolas Klutchnikoff (IRMA) Un processus de Cox d’intensité aléatoire λ = (λ(t))t∈[0,1] est un processus de comptage N = (Nt )t∈[0,1] tel que la loi conditionnelle de N sachant λ est un processus de Poisson d’intensité λ. Par abus, nous appellerons processus de Cox un processus de comptage N = (Nt )t∈[0,1] accompagné d’un co-processus Z == (Zt )t∈[0,1] tel que, conditionnellement à Z, la loi de N est un processus de Poisson d’intensité θ(Z) avec θ une fonction déterministe. Idéalement, on voudrait estimer la fonction θ à partir d’un n-échantillon (N 1 , Z 1 ), . . . , (N n , Z n ) de copies de (N, Z). Cependant, un telle approche se heurte inévitablement au fléau de la dimension, car la convariable est à valeurs dans un espace de dimension infinie. En pratique, il n’est souvent pas nécessaire, ou tout du moins ce n’est pas strictement nécessaire pour la modélisation, d’observer toute la trajectoire du co-processus, mais seulement ses valeurs en des instants aléatoires. De la sorte, si le co-processus n’est observé qu’en un nombre fini d’instants aléatoires, on circonvient au fléau de la dimension. Nous construisons et étudions sous ce modèle les propriétés d’un estimateur de type noyau pour la fonction θ. Sa consistance, un théorème de la limite centrale ainsi qu’une vitesse de convergence pour l’erreur quadratique moyenne sont données. 37 Lundi 1er juin 2015 11h10-12h50 - Séries temporelles 1 Test d’un modèle non-paramétrique pour des séries chronologiques lorsque les vecteurs aléatoires sont non stationnaires et absolument réguliers Echarif El Harfaoui (Université Chouaib Doukkali (Faculté des Sciences)), Michel Harel (Université de Limoges (ESPE)) Dans cette note, nous étudions quelques méthodes générales pour tester un modèle paramétrique associé à une série chronologique markovienne à valeurs réelles lorsque les vecteurs aléatoires sont non stationnaires et absolument réguliers. Notre idée est d’utiliser un processus empirique marqué basé sur les résidus qui converge en loi vers un processus gaussien. On periodic threshold GARCH processes : probabilistic structure and empirical evidence Abdelouahab Bibi (UMC(1)) In this paper, we propose a natural extension of threshold GARCH (TGARCH) processes to periodically time-varying coefficients (PTGARCH) one, so some theoretical probabilistic properties of PTGARCH are discussed. This models, can be viewed as a special of random coefficient GARCH models. For this class of processes, firstly, we establish theoretical conditions, which ensure that the process in the threshold model is strictly and second-order stationary (in periodic sense). Secondary, we derive conditions ensuring the existence of moments of any order. As a consequence, we observe that some subclass have the β-structures of threshold periodic ARMA processes (PTARMA) and hence admit PARMA representation. The concept of geometric ergodicity and β-mixing of PTGARCH processes are also discusses under general and tractable assumptions. These results are applicable to standard GARCH models and have statistical implications such that parameter estimation and order identification. Some examples as special cases are proposed and studied. QML inference for volatility models with covariates Christian Francq (Université Lille 3 et CREST), Le Quyen Thieu (LSTA, UPMC, Paris) La loi asymptotique de l’estimateur du quasi-maximum de vraisemblance gaussien est établie pour la vaste classe des modèles GARCH asymétriques avec covariables exogènes. La vraie valeur du paramètre n’est pas contrainte à se situer à l’intérieur de l’espace des paramètres, ce qui nous permet de développer des tests de significativité des paramètres. En particulier, la pertinence des variables exogènes peut être évaluée. Les résultats sont obtenus sans faire l’hypothèse que les innovations sont indépendantes, ce qui permet de prendre en compte différents ensembles d’information. Des expériences de Monte Carlo et des applications sur séries financières illustrent les résultats asymptotiques. En particulier, une étude empirique montre que la volatilité réalisée est une covariable utile pour prévoir les carrés des rendements, mais ne constitue pas un proxy idéal de la volatilité. Estimation de la VaR conditionnelle d’un portefeuille de rendements GARCH multivariés Christian Francq (Crest), Jean-Michel Zakoian (Crest) Nous considérons l’estimation de la valeur à risque (VaR) conditionnelle d’un portefeuille d’actifs. La composition du portefeuille peut varier au cours du temps et le vecteur des rendements est supposé satisfaire un modèle de la forme t = µt (ϕ0 ) + Σt (ϑ0 )βt , où µt (ϕ0 ) et Σt (ϑ0 ) sont respectivement la moyenne et la variance conditionnelle de t . Sous l’hypothèse que la loi de l’innovation βt est sphérique, la VaR conditionnelle est caractérisée par un paramètre. Nous donnons un estimateur de ce paramètre de VaR et nous étudions sa distribution asymptotique. Une autre approche multivariée, qui n’est pas fondée sur l’hypothèse de sphéricité, est développée et ses 38 Lundi 1er juin 2015 propriétés asymptotiques sont établies. Des expériences de Monte Carlo et une étude empirique illustrent la supériorité de ces deux approches multivariées sur l’approche univariée fondée sur la série du rendement du portefeuille agrégé. Two-stage least absolute power deviation estimation for a general class of conditionally heteroskedastic models Abdelhakim Aknouche (U.S.T.H.B) Dans ce travail, nous proposons une méthode, dite des moindres déviations fonctionnelles absolues en puissances en deux étapes (2S-LAPD), pour l’estimation d’une classe générale de modèles conditionnellement hétéroscédastiques, comprenant notamment le modèle GARCH, le modèle GARCH asymétrique en puissance et le modèle ARCH infini. L’estimateur proposé est indexé par une fonction instrumentale dont le choix permet de contrôler et alléger les hypothèses sur les moments du processus d’innovation, hypothèses sur la base desquelles nous montrons consistance et normalité asymptotique (CAN) de l’estimateur 2S-LAPD. Dans le cas d’une puissance du carré, l’estimateur 2S-LAPD possède la même variance asymptotique que le quasi-maximum de vraisemblance généralisé et ce pour certaines classes de fonctions instrumentales et même pour des innovations à queues lourdes et/ou asymétriques. De plus, pour une puissance unité, l’estimateur 2S-LAPD se réduit à des variantes en deux-étapes de l’estimateur des moindres déviations absolues (2S-LAD). 14h30-15h30 - Nicole El Karoui Détection robuste d’instants de rupture dans l’intensité d’un processus de Poisson Nicole El Karoui (UPMC) Nous considérons le problème de détection optimale d’un instant de changement non-observable dans le taux d’un processus de Poisson non homogène, dans un cadre non bayésien. Nous cherchons une règle d’arrêt qui minimise le critère robuste de Lorden. Ce dernier est formulé en terme de nombre d’événements avant détection, à la fois en terme de délai que du point de vue de contraintes concernant les fausses alarmes. Dans le cas d’un processus de Wiener, un tel problème a été résolu en utilisant la stratégie dite ’custom’ par de nombreux auteurs (Moustakides (2004), ou Shyraiev (1963,..2009)). Dans notre situation, nous montrons l’optimalité de la règle d’arrêt cusum en utilisant du calcul des variations finies, et des propriétés élémentaires de martingales afin de caractériser la performance des fonctions de la règle de détection cusum en termes de fonctions d’échelle. Elles apparaissent comme des solutions d’équations différentielles retardées que nous résolvons de manière élémentaire. Le cas de la détection d’une baisse d’intensité est aisé à étudier, du fait que les fonctions de performance sont continues. Dans le cas d’une augmentation, les propriétés de martingale requièrent d’utiliser un temps local discontinu. Néanmoins, à partir d’une identité reliant les fonctions d’échelle, l’optimalité de la règle cusum reste satisfaite. Des applications numériques sont proposées. 14h30-15h30 - Fred Hickernell Guaranteed fixed-width confidence intervals for Monte Carlo and quasiMonte Carlo simulation Fred Hickernell (Illinois Instit. of Technology) Monte Carlo and quasi-Monte Carlo simulation is widely used for estimating the means of random variables and approximating multidimensional integrals. Applications arise in financial risk management, computer generated images, statistical physics, and other areas. Users would like to know how many samples are required to ensure that the estimate is within a given error tolerance 39 Lundi 1er juin 2015 of the true quantity with a high degree of certainty. Unfortunately, most methods for constructing fixed-width confidence intervals rely on asymptotic results or heuristics. Quasi-Monte Carlo methods, which are based on low discrepancy sequences, may be much more accurate than IID Monte Carlo, but the existing theoretical error bounds for quasi-Monte Carlo methods do not lend themselves to practical computation. This talk describes recently derived data-based error bounds for (quasi-) Monte Carlo methods, which have rigorous guarantees of success. The key to constructing these error bounds is to identify suitable cones of random variables or integrands. In turn, these data-based error bounds may then be used to construct guaranteed fixed-width confidence intervals. These algorithms described have been implemented in freely available software. 15h35-16h55 - Données en grandes dimensions, méthodes Lasso Test de normalité en grande dimension par méthodes à noyaux Jérémie Kellner (Université Lille I), Alain Célisse (UMR 8524 CNRS-Université Lille 1) Nous proposons un nouveau test de normalité dans un espace de Hilbert à noyau reproduisant (RKHS). Ce test reprend le principe de la MMD (Maximum Mean Discrepancy) - traditionnellement employé pour des tests d’homogénéité ou d’indépendance. Notre méthode intègre une procédure spéciale de bootstrap paramétrique - typique des tests d’adéquation - qui est parcimonieuse en temps de calcul par rapport au bootstrap paramétrique standard. En outre, une borne théorique pour l’erreur de Type-II est donnée. Enfin, des simulations montrent la puissance de notre test là où les tests de normalité courants deviennent rapidement inutilisables en grande dimension. De l’usage du saut de dualité pour la pré-sélection dynamique des variables pour le Lasso Olivier Fercoq (Institut Mines-Télécom, Télécom ParisTech, CNRS LTCI), Alexandre Gramfort (Institut Mines-Télécom, Télécom ParisTech, CNRS LTCI), Joseph Salmon (Institut MinesTélécom, Télécom ParisTech, CNRS LTCI) À l’aide de certificats d’optimalité vérifiées par les solutions du Lasso il est possible d’écarter, avant optimisation, certaines des variables non pertinentes. Ce faisant on peut accélérer drastiquement les algorithmes résolvant le problème du lasso. Nous proposons de nouvelles règles de pré-sélection qui reposent sur le saut de dualité. Elles s’appuient sur la création de régions dites de sécurité, dont le diamètre tend vers zéro, sous l’hypothèse que l’on dispose d’un algorithme convergeant pour résoudre le Lasso. Cette propriété permet à la fois de dépister plus de variables non pertinentes, et de considérer de plus grandes plages pour le paramètre de régularisation. Même si notre cadre englobe tout algorithme résolvant le Lasso, nous démontrons la pertinence de notre approche pour la méthode de descente par coordonnées, particulièrement bien adaptée pour des problèmes de grande dimension. Des gains de temps de calcul importants sont ainsi obtenus par rapport aux précédentes règles de pré- sélection. Puissance du test TLT construit depuis l’estimateur Lasso Jean-Marc Azaïs (Institut Math Toulouse (IMT)), Yohan de Castro (Laboratoire de Math Orsay), Stephane Mourareau (Institut Math Toulouse (IMT)) Dans des travaux récents, Taylor, Lockhart et Tibshirani ont proposé une nouvelle statistique de test pour le problème général de détection de signal en utilisant les propriétés de l’algorithme LARS (Least-Angle Regression). Sous l’hypothèse nulle, ils donnent une distribution exacte pour leur statistique de test et ce en dimension quelconque. A notre connaissance, aucun résultat n’a encore été démontré concernant son comportement sous l’alternative. Dans ce papier, nous prouvons que ce test est bien sans biais. De plus, nous comparons son efficacité à celle du test d’adéquation du χ2 dans de nombreux cas. 40 Lundi 1er juin 2015 Sélection de variables par le GLM-Lasso pour la prédiction du risque palustre Bienvenue Kouwaye (Université Paris 1 SAMM), Noël Fonton (Université d’Abomey-Calavi), Fabrice Rossi (Université Paris 1 SAMM) Nous étudions dans ce travail une méthode de sélection de variables basée sur le Lasso dans le contexte épidémiologique. L’un des objectifs est de construire automatiquement un modèle prédictif en limitant le recours aux experts médicaux qui opèrent des prétraitements sur les données collectées. Ces prétraitements consistent entre autres à recoder certaines variables en classe et à choisir manuellement certaines interactions en se basant sur la connaissance des données. L’approche proposée utilise toutes les variables explicatives sans traitement et génère automatiquement toutes les interactions entre les variables, ce qui nous conduit en grande dimension. Nous utilisons le Lasso qui est une méthode robuste de sélection de variables en grande dimension. Le nombre d’observations dans les études épidémiologiques étant faible, nous proposons une validation croisée à deux niveaux pour éviter le risque de sur apprentissage dans la phase de sélection de variables. Les estimateurs Lasso étant biaisés et la variable d’intérêt qu’est le nombre d’anophèles à prédire étant discret, nous utilisons un modèle GLM pour débiaiser les variables sélectionnées par le Lasso et faire de la prédiction. Les résultats montrent que quelques variables climatiques et environnementales seulement sont des facteurs principaux liés au risque d’exposition au paludisme. 15h35-16h55 - Session du groupe Banque Finance Assurance Consistency of tree-based estimators in censored regression with applications in insurance Xavier Milhaud (ENSAE ParisTech - CREST LFA), Olivier Lopez (ENSAE - CREST), Pierre Thérond (Univ Lyon 1, ISFA) Les arbres de regression et de classification sont devenus tres populaires dans les trente dernieres annees. L’application historique de cette technique concerne l’estimation non-parametrique d’une esperance conditionnelle, en fonction de certains facteurs de risque representes par des covariables. Nous adaptons ici cette methode au cas de donnees de survie, pour lesquelles la problematique de censure des donnees doit etre traitee. Les proprietes de ces estimateurs par morceaux sont etudiees, et des resultats theoriques permettent de conclure sur la vitesse de convergence de tels estimateurs. Ces resultats sont ensuite valides par une etude simulatoire, puis deux applications sur donnees reelles en assurance sont proposees afin d’illustrer l’interêt de la methode. Parameter estimation for mixed-type distributions with application to destruction rate modeling in insurance Christophe Dutang (LMM, Université du Mans), Giorgio Spedicato (associate member of the Casualty Actuarial Society) Within actuarial jargon, an exposure curve is a distribution of the ratio between the limited expected loss at various limits and the unlimited expected loss. We present destruction rate models either defined by their distribution function or equivalently by their exposure curve. A particular attention is given to one-inflated distributions and the so-called MBBEFD distribution. Parameter estimation for these two models is carried out by maximum likelihood estimation and moment matching estimation. Properties of these estimators are studied. Finally, numerical illustrations are given in the actuarial context. Distribution hybride pour la modélisation de données asymétriques à queue lourde : application sur des données assurentielles Nehla Debbabi (URCA et SUP’COM), Marie Kratz (ESSEC, Business School, Paris) 41 Lundi 1er juin 2015 L’un des principaux problemes rencontres en theorie des valeurs extrêmes concerne l’estimation de l’indice de queue de distribution, fortement liee a la determination d’un seuil a partir duquel une distribution de Pareto generalisee (GPD) peut être ajustee. Les approches existantes d’estimation de ce seuil peuvent être classees en deux categories : les approches supervisees, ou le seuil est determine graphiquement selon le probleme etudie, et les approches non supervisees, ou le seuil est determine algorithmiquement. Notre etude appartient a cette seconde categorie, proposant un modele hybride reliant une distribution gaussienne a une GPD avec une exponentielle, cette derniere distribution jouant le rôle d’intermediaire entre comportements en moyenne et asymptotique. Un nouvel algorithme est ensuite developpe pour estimer les parametres de ce modele. L’efficacite de notre modele hybride est etudiee en termes de qualite d’ajustement sur des donnees simulees et reelles, et comparee avec d’autres approches existantes. Une application assurantielle est developpee sur des donnes de sinistres incendie a titre illustratif. Dépendance des personnes âgées : une approche multi-états basée sur la notion de processus semi-markovien Guillaume Biessy (SCOR Global Life SE) La tarification des produits d’assurance dépendance se base aujourd’hui sur des modèles simples, où la dépendance est considérée comme un état unique et homogène. En raison du vieillissement de la population et des progrès rapides de la médecine, il est primordial d’acquérir une vision plus claire de ce risque. Nous pensons que cet objectif peut être atteint en prenant en compte plusieurs niveaux de dépendance. Un processus multi-états est dit semi-markovien lorsque les probabilités de transition du processus dépendent à la fois de l’état actuel et du temps passé dans cet état. De tels processus s’avèrent plus flexibles que les processus markoviens simples, et ont fait l’objet de nombreuses publications dans le domaine de l’épidémiologie. Cependant, leur application à l’assurance dépendance est restée principalement théorique, en raison notamment du manque de données accessibles aux assureurs. Cette communication a pour but de présenter la démarche de construction d’un modèle semi-markovien considérant 2 niveaux de dépendance. Ce travail s’appuie sur des données recueillies dans le cadre de l’Allocation Personnalisée d’Autonomie (APA). Tout d’abord, nous introduisons les paramètres intervenant dans la modélisation des transitions entre les états. Nous procédons ensuite à l’estimation de ces paramètres par la méthode du maximum de vraisemblance, en tenant compte des spécificités liées aux données APA. Enfin, nous proposons une application du modèle à la tarification d’un produit d’assurance dépendance fictif, à l’aide d’une méthode de type Monte Carlo. 15h35-16h55 - Données manquantes Imputation par régression dans le modèle linéaire fonctionnel avec valeurs manquantes dans la réponse Christophe Crambes (Université de Montpellier), Yousri Henchiri (Université du Québec à Montréal) Nous nous intéressons au modèle linéaire fonctionnel lorsque la variable d’intérêt, réelle, est sujette à des observations manquantes et la variable explicative, fonctionnelle, est complètement observée. Une méthode d’imputation des données manquantes par régression est présentée, en utilisant l’estimation du coefficient fonctionnel du modèle par régression fonctionnelle sur composantes principales. Nous étudions le comportement asymptotique de l’erreur commise lorsque la valeur manquante est replacée par la valeur imputée par régression, dans un cadre de données manquantes ’missing at random’. Le comportement de la méthode est également étudié en pratique sur des données simulées. 42 Lundi 1er juin 2015 Méthodes statistiques pour prendre en compte l’occurrence de données manquantes aléatoires conjointement avec la méthode du temps jusqu’à détérioration d’un score de qualité de vie : une étude de simulation Amélie Anota (Unité de méthodologie et de qualité de vie en cancérologie (EA3181), CHRU de Besançon), Francesco Cottone (Italian Group for Adult Hematologic Diseases (GIMEMA) , Rome, Italie), Fabio Efficace (Italian Group for Adult Hematologic Diseases (GIMEMA) , Rome, Italie), Franck Bonnetain (Unité de méthodologie et de qualité de vie en cancérologie (EA3181), CHRU de Besançon) L’objectif de ce projet était de comparer trois approches statistiques pour prendre en compte les données manquantes aléatoires conjointement avec la méthode du temps jusqu’à détérioration d’un score de qualité de vie (QdV) utilisée en cancérologie via une étude de simulations. Les méthodes comparées étaient les méthodes de probabilités inversées et d’appariement du score de propension ainsi qu’une méthode d’imputations multiples basée sur l’algorithme de MonteCarlo par Chaîne de Markov. Ces méthodes ont été comparées selon le nombre d’évènements, la médiane de détérioration, l’erreur de type I et la puissance statistique du test du Log-rank, le coefficient Hazard Ratio mesurant l’effet traitement, le coefficient Kappa de Cohen pour comparer les évènements et le coefficient de corrélation de Spearman pour comparer les temps de survie. Les données de QdV longitudinales ont été simulées selon un modèle à crédit partiel longitudinal en considérant que la QdV suit une loi normale multivariée. Cinq items à 4 modalités de réponse ont été considérés, reflétant la dimension physique du questionnaire EORTC QLQ-C30. Cinq covariables associées à l’occurrence de données manquantes ont été simulées. Les simulations sont en cours d’implémentation et les résultats seront présentés lors du congrès. L’effet de visites manquantes sur l’estimateur des GEE, une étude par simulation Julia Geronimi (IRIS), Gilbert Saporta (Cedric-Cnam) La recherche clinique s’intéresse régulièrement au suivi longitudinal du patient au cours de plusieurs visites. Toutes les visites prévues ne sont pas effectuées et il n’est pas rare d’avoir un nombre de visites différent selon les individus. Les Generalized Estimating Equations permettent d’étudier une réponse continue ou discrète autocorrélée. Cette méthode permet un nombre de visites qui diffère selon les patients. Les GEE sont robustes aux données manquantes complètement aléatoires. Cependant dans le cas où les visites de fin d’étude sont moins nombreuses, l’estimateur peut être biaisé. Nous proposons une étude par simulation pour étudier l’impact de visites non effectuées sur les estimateurs obtenus par GEE sous divers schéma de données manquantes. Deux types de réponses sont étudiées avec une structure échangeable ou auto-régressive d’ordre un. Le nombre de sujets touchés et le nombre de visites supprimées varient afin d’évaluer leur impact. Nos simulations montrent que les estimateurs calculés par GEE sont résistants jusqu’à un certain taux de données manquantes. Les résultats sont homogènes quelle que soit la structure de données manquantes imposée. Imputation multiple pour variables qualitatives par analyse des correspondances multiples Vincent Audigier (Agrocampus Ouest), François Husson (Agrocampus Ouest), Julie Josse (Agrocampus Ouest) Il est très fréquent de rencontrer des données manquantes dans la pratique de la statistique. Or la plupart des méthodes statistiques ne peuvent pas être directement appliquées sur un jeu incomplet. Pour dépasser cette difficulté on peut remplacer les données manquantes par des valeurs plausibles, on parle alors d’imputation simple. Cependant, l’imputation simple ne permet pas de prendre en compte l’incertitude liée aux données imputées. Pour refléter cette incertitude, on peut proposer plusieurs imputations pour chaque donnée manquante. On parle alors d’imputation multiple. L’objet de cette présentation est de proposer une méthode d’imputation multiple dédiée 43 Lundi 1er juin 2015 aux variables qualitatives et basée sur l’analyse des correspondances multiples (ACM). L’emploi d’une approche bootstrap va permettre de se doter de M jeux de composantes principales et vecteurs propres. Ces jeux de paramètres sont ensuite utilisés pour construire M imputations du jeu de données permettant de refléter l’incertitude sur les paramètres du modèle d’imputation. Après avoir rappelé les principes de l’imputation multiple, nous présenterons notre méthodologie. La méthode proposée sera ensuite évaluée par simulation et comparée aux quelques méthodes existantes : imputation multiple par modèle loglineaire, par équations enchaînées et par modèle à classes latentes. La méthode proposée fournit de bonnes estimations ponctuelles des paramètres d’intérêt et de bons intervalles de confiance. De plus, elle peut s’appliquer sur des jeux de données de tailles quelconques et permet notamment de traiter les cas où le nombre d’individus est inférieur au nombre de variables. 15h35-16h55 - Copules Prise en compte d’information pour l’estimation de quantiles agrégés Véronique Maume-Deschamps (Université Claude Bernard Lyon 1), Esterina Masiello (Université Claude Bernard Lyon 1), Andrés Cuberos (SCOR) On propose une méthode d’estimation de quantiles agrégés basée sur la copule ’checkerboard’. Cette méthode permet de prendre en compte de l’information sur la distribution multivariée. Estimating new multivariate risk measures Elena Di Bernardino (CNAM), José María Fernández Ponce (Universidad de Sevilla, Departamento de Estadística e Investigación Operativa), Fátima Palacios Rodríguez (Universidad de Sevilla, Departamento de Estadística e Investigación Operativa), María del Rosario Rodríguez Griñolo (Universidad Pablo de Olavide, Departamento de Economía, Métodos Cuantitativos e Historia Económica) Adrian and Brunnermeier (2011) proposed a risk measure with the purpose of quantifying the systemic risk in the financial system. This measure is called CoVaR (Conditional Value-at-Risk). CoVaR measures a financial institution’s contribution to systemic risk and its contribution to the risk of other financial institutions. In spite of the fact that the problem of measuring risk market has been traditionally handled in a univariate version, by Value-at-Risk, many multidimensional extensions have been investigated in the last decade. Two multivariate extensions of the classic univariate CoVaR are defined in this work. These new multivariate measures are based on the level sets of multivariate distribution functions (resp. of multivariate survival distribution). Several important properties of the new multivariate risk measures are provided. Particularly, elicitability, invariance and comonotonic dependence properties are examined. Interestingly, easily computed expressions for the multivariate CoVaRs are given in the class of Archimedean copulas. The aim of this work is focussed on the estimation of the multivariate CoVaR measures. A semiparametric estimation procedure is presented for the proposed multivariate risk measure. The estimators are obtained from the expressions of the multivariate CoVaRs under Archimedean copula conditions. Furthermore, they are constructed by using a semiparametric estimator of the generator associated with the copula (resp. survival copula) and the empirical estimation of the quantile function. The performance of the defined estimators is studied by considering different models of simulated data. Finally, the estimators of the multivariate CoVaR measures are calculated in an insurance real case. Probit transformation for nonparametric kernel estimation of the copula density Arthur Charpentier (UQAM), Gery Geenens (University of New South Wales), Davy Paindaveine (ULB) 44 Lundi 1er juin 2015 Nous proposons ici plusieurs estimateurs de densité de copule bivariées basés sur des noyaux. Afin de contourner les biais de bord, les données sont normalisées par une transformation probit. On estimate alors la densité par noyau sur l’espace transformée, et en utilisation la transformation inverse, on obtient un estimateur pour la densité de la copule. Des améliorations de cet estimateur naif sont proposées. Application des copules à l’estimation de fronts de Pareto Mickaël Binois (Mines Saint-Etienne), Didier Rullière (ISFA, Lyon 1), Olivier Roustant (Mines Saint-Etienne) Il est courant en optimisation de débuter par un tirage aléatoire dans l’espace des variables pour initialiser une population ou créer un métamodèle. En particulier, dans le cas multi-objectifs, cela conduit à un ensemble de points non-dominés qui ne renseignent que peu sur le vrai front de Pareto. Nous proposons d’étudier ce problème du point de vue de l’analyse multivariée, en introduisant un cadre probabiliste et en particulier en utilisant les copules. Ainsi, des expressions pour les lignes de niveau sont accessibles dans l’espace des objectifs et permettent par conséquent d’obtenir une estimation de la position du front de Pareto, lorsque le niveau tend vers zéro. Des expressions analytiques explicites sont disponibles quand des copules archimédiennes sont utilisées. La procédure d’estimation correspondante est détaillée puis appliquée sur plusieurs exemples. 15h35-16h55 - Segmentation Vraisemblance auto-pénalisante pour la sélection du nombre de ruptures dans la segmentation bidimensionnelle utilisée pour l’analyse des données Hi-C Vincent Brault (AgroParisTech/INRA), Maud Delattre (AgroParisTech), Emilie Lebarbier (AgroParisTech), Céline Lévy-Leduc (AgroParisTech), Tristan Mary-Huard (INRA/AgroParisTech, UMR 518, 75231, Paris, France) Nous proposons d’étudier un modèle statistique utilisé pour analyser les données Hi-C. Ces données représentent la mesure du degré d’interaction physique entre différentes positions chromosomiques (voir par exemple Dixon et al. 2012) : les zones de fortes interactions dans le génome forment des blocs diagonaux de valeurs homogènes différentes du reste de la matrice. Dans ce cadre, Lévy-Leduc et al. (2014) proposent un modèle de segmentation bidimensionnelle d’une matrice symétrique dont l’objectif est de retrouver les instants de ruptures délimitant ces blocs. Dans leur article, Lévy-Leduc et al. (2014) utilisent un algorithme de programmation dynamique pour estimer les instants de ruptures maximisant la vraisemblance et proposent de sélectionner leur nombre en maximisant cette dernière sans pénalisation. Dans cet exposé, nous démontrerons que l’estimation obtenue du nombre de ruptures est consistante si la distance minimale entre deux ruptures estimées n’est pas trop petite. Ce résultat sera illustré par des simulations. Formation d’un phénomène temporel à l’aide d’un méta-modèle via la segmentation Christian Derquenne (EDF R&D) Est-ce qu’une réponse temporelle est systématiquement expliquée par les mêmes facteurs ? Corollairement, quels sont les poids respectifs de ces facteurs explicatifs dans la formation de cette réponse ? L’approche proposée permet de répondre à ces deux questions afin de comprendre comment se forme une réponse temporelle non stationnaire par morceaux à l’aide préditeurs temporels, mais aussi quelles sont les contributions statistiques de ceux-ci. Pour cela, nous appliquons, tout d’abord une méthode de segmentation de série temporelle afin d’exhiber des comportements distincts sous forme de segments contigus, puis sur chacun d’eux, différentes stratégies de régression multiple (estimateur des moindres carrés avec sélection des prédicteurs pas à pas, régression Partial 45 Lundi 1er juin 2015 Least Squares) sont utilisées afin d’obtenir un méta-modèle. Ce dernier fournit des informations fructueuses pour l’expert du domaine d’application car il lui permet non seulement de détecter les ruptures de comportements de sa variable réponse, mais aussi d’analyser l’influence de ses facteurs significatifs. Différents types de résultats sont proposés à l’expert : les équations de régression avec les coefficients standardisés, des tableaux de contributions des prédicteurs par segment de la variable réponse, des graphiques affichant la série temporelle de la réponse observée, de son estimation et les prédicteurs significatifs pour chaque segment de la réponse. Cette approche est appliquée à des prix de marché de l’énergie. Les futurs travaux de recherche seront principalement consacrés à la prévision à court terme d’une réponse temporelle à l’aide de l’approche méta-modèle. Détection de motifs disruptifs au sein de plantes : une approche de quotientement/classification d’arborescences Pierre Fernique (Inria), Jean-Baptiste Durand (Univ. Genoble Alpes), Yann Guédon (CIRAD, UMR AGAP et Inria, Virt) Les modèles de détection de ruptures multiples pour séquences sont transposés aux arborescences. L’objectif est de quotienter une arborescence en sous-arborescences homogènes. Comme les algorithmes optimaux de segmentation de séquences ne peuvent être transposés aux arborescences, nous proposons ici une méthode heuristique permettant de segmenter efficacement une arborescence. Les sous-arborescences obtenues sont ensuite groupées dans une phase de posttraitement car des sous-arborescences disjointes relativement similaires sont observées dans les canopées d’arbre. Ces modèles sont illustrés par le cas du manguier où les collections de sousarborescences permettent d’identifier les motifs disruptifs (juxtaposition de sous-arborescences végétatives, florifères ou en pause) observés dans les canopées. Heuristique de pente pour les modèles de détection de ruptures multiples Yann Guédon (CIRAD, UMR AGAP et Inria, Virt) En ce qui concerne la détection de ruptures multiples, la sélection du nombre de ruptures a fait l’objet ces dernières années de nombreux travaux. Mais les approches proposées sont soit dédiées à un modèle particulier (par exemple modèle gaussien de changement sur la moyenne) soit donnent des résultats peu satisfaisants sur des séquences de taille petite ou moyenne. Nous proposons ici d’appliquer l’heuristique de pente, un critère non-asymptotique de vraisemblance pénalisée récemment proposé, pour sélectionner le nombre de ruptures. Nous appliquons en particulier la méthode d’estimation de la pente dirigée par les données, le point clé étant de définir la forme de la pénalité. L’approche proposée est illustrée sur deux jeux de données de référence pour les modèles de détection de ruptures multiples. 17h15-18h35 - AMIES 1 - Panorama Programme de la session spéciale AMIES 1 - Panorama Anne Philippe (Université de Nantes), Thierry Dumont (Université Paris Ouest) 17h15 : Présentation générale de AMIES par Anne Philippe ; 17h30 : Thèse de statistiques dans une PME : la localisation intra-muros WiFi - Présentation d’un partenariat réussi université / entreprise par Thierry Dumont ; 18h15 : Discussions 17h15-18h35 - Statistique mathématique 1 Intervalles de confiance valides en présence de sélection de modèle François Bachoc (University of Vienna), Hannes Leeb (University of Vienna), Benedikt M. Pötscher (University of Vienna) 46 Lundi 1er juin 2015 Dans le contexte de la régression linéaire, on considère l’inférence statistique en présence de sélection de modèle. Sur ce sujet, Berk et al. (Annals of Statistics, 2013) ont récemment introduit une nouvelle classe d’intervalles de confiance, appelés intervalles de confiance PoSI, qui couvrent une certaine quantité d’intérêt non-standard. Ces intervalles de confiance sont uniformément valides, quelle que soit la procédure de sélection de modèle sous-jacente. Dans cet article, nous généralisons les intervalles de confiance PoSI à la prédiction post-sélection de modèle. Nous définissons deux prédicteurs non standards : le premier étant l’extension naturelle de la quantité d’intérêt de Berk et al., le second ayant des propriétés d’optimalité plus pertinentes. Pour ces deux prédicteurs, nous construisons des intervalles de confiance, qui étendent ceux de Berk et al., et nous donnons des résultats théoriques, exacts et asymptotiques, associés. Nous renforçons ces résultats par une étude de simulation. Z-estimateurs indexés par la fonction objective François Portier (ISBA-Louvain-La-Neuve) ˆ On étudie la convergence de Z-estimateurs θ(η) pour lesquels la fonction objective dépend d’un paramètre η appartenant à un espace de Banach H. On démontre la consistence uniforme sur H, la convergence faible dans l∞ (H) et la validité du bootstrap. Lorsque η est un paramètre de “tuning” ayant pour valeur optimale η0 , on donne des conditions pour qu’un estimateur ηˆ puisse être remplacé par η0 sans changer la variance asymptotique. Ces conditions ne demandent pas de vitesse particulière concernant la convergence de ηˆ vers η0 . De manière similaire on montre que ˆ η ) est valide même sans effectuer un bootstrap de ηˆ. On s’intéresse à plusieurs le bootstrap de θ(ˆ applications et on étudie plus en details le cas où η est la fonction de poids d’une régression pondérée. Cette nouvelle approche permet d’obtenir des conditions générales quant à la procédure d’estimation des poids optimaux. La précision de différentes procédures est évaluée par simulation. Certainty bands for the conditional cumulative distribution function and applications Aurélie Muller-Gueudin (IECL, Inria, BIGS), Sandie Ferrigno (IECL Inria, BIGS), Myriam Maumy-Bertrand (IRMA, Strasbourg) Nous étudions l’estimateur polynomial local de la fonction de répartition conditionnelle. Nous donnons un résultat de consistence uniforme de cet estimateur, puis nous en déduisons des bandes de confiance asymptotiques de cette fonction. En corollaires, nous pouvons obtenir des estimateurs et des bandes de confiance asymptotiques pour les quantiles et la fonction de regression. Nous illustrons nos résultats par des simulations. Consistance de la minimisation du risque empirique pour l’optimisation de l’erreur relative moyenne Arnaud de Myttenaere (viadeo), Bénédicte Le Grand (Université Paris 1 Panthéon Sorbonne, CRI), Fabrice Rossi (Université Paris 1 SAMM) Nous nous intéressons au problème de la minimisation de l’erreur relative moyenne dans le cadre des modèles de régression. Nous montrons que l’optimisation de ce critère est équivalente à la minimisation de l’erreur absolue par régressions pondérées et que l’approche par minimisation du risque empirique est, sous certaines hypothèses, consistante pour la minimisation de ce critère. 47 Lundi 1er juin 2015 17h15-18h35 - Analyse de sensibilité Plans emboîtés pour l’estimation itérative des indices de Sobol’ par méthode répliquée Laurent Gilquin (Inria), Clémentine Prieur (Université de Grenoble), Elise Arnaud (Université de Grenoble) Ce travail s’intéresse à l’estimation d’indices de Sobol d’ordre un et deux pour l’analyse de sensibilité. Dans ce cadre, l’utilisation de la méthode répliquée permet d’assurer un nombre d’appels considérablement réduit par rapport aux méthodes classiques. L’objectif de cette étude est de proposer une approche itérative par plans répliqués, pour estimer les indices de sensibilité. L’élément clé est la construction de plans emboîtés. Nous proposons ici une adaptation de la méthode répliquée par l’utilisation d’un plan emboîté pour estimer les indices de Sobol’ d’ordre un ou d’ordre deux globaux. Pour l’estimation des indices d’ordre un, nous exploitons un plan particulier ayant déjà été introduit dans la littérature. Pour l’estimation des indices d’ordre deux globaux, la méthode repose sur des tableaux orthogonaux. Nous présentons donc deux approches pour construire un tableau orthogonal de force deux emboîté. La première méthode est stochastique et repose sur des résultats de théorie des graphes. L’ idée de la méthode est de combler itérativement les zones lacunaires de l’espace des paramètres d’entrée. La deuxième méthode consiste à construire un tableau orthogonal de force deux d’index supérieur à un, puis à rééchantillonner à l’intérieur de chaque cellule par une loi uniforme. Nous conduisons des tests numériques sur des fonctions classiques afin de comparer les indices d’ordre un et d’ordre deux globaux obtenus par chacune des deux méthodes à ceux obtenus par une méthode standard (non emboîté). Discrete and continuous nonparametric kernel estimations for global sensitivity analysis Tristan Senga Kiessé (Université de Nantes), Andy Andrianandraina (Université de Nantes) Ce travail porte sur la méthode d’estimation à noyau discret dans le cadre de l’analyse de sensibilité d’un modèle f visant à évaluer l’influence des variables d’entrée discrètes X sur la variable réponse Y. En effet, l’estimation à noyau discret est maintenant connue pour être adaptée au lissage des distributions de données à support discret. Cependant, dans le cadre de l’analyse de sensibilité, seule l’estimation à noyau continu a été étudiée jusqu’à récemment pour évaluer l’influence de variables d’entrée continues comme discrètes. Ici, l’approche à noyau discret est utilisée pour construire un estimateur non-paramétrique du modèle Y=f(X) décomposé par analyse de variance. Des simulations sur la fonction test d’Ishigami et sur un cas d’étude issu du domaine de l’agriculture montrent l’intérêt de l’approche par noyau discret en comparaison avec l’approche par noyau continu, à travers l’estimation des indices de sensibilité de Sobol. Pour des paramètres d’entrée discrets qui sont moyennement ou très influents, l’approche discrète estiment mieux la contribution de leur variance sur la variance totale du modèle par rapport à l’approche continue. Analyse de sensibilité et application en finance Ibrahima Niang (Université Claude Bernard Lyon 1), Véronique Maume-Deschamps (Université Claude Bernard Lyon 1), Alexandre Janon (Université Paris Sud), Areski Cousin (Université Claude Bernard Lyon 1) Les récents épisodes d’instabilité financière de 2008 ont remis en cause la précision des modèles mathématiques utilisés en finance pour évaluer les risques financiers et actuariels. Bien souvent, cette modélisation basée sur des approches stochastiques est imparfaite, notamment en raison des incertitudes sur les paramètres qui défissent le modèle. Nous souhaitons à travers ce travail, présenter des outils d’analyse de sensibilité globale basèe sur les indices de Sobol pour quantifier, pour un modèle financier donné, l’impact de l’incertitude des paramètres du modèle sur une quantité d’intérêt appelée sortie du modèle. Cette sortie du modèle représente en général, le prix 48 Lundi 1er juin 2015 d’un actif financier, la probabilité de défaut où de ruine d’une compagnie d’assurance, la MCEV (market consistent embedded value), la Value at Risk(VaR), etc. Redéfinition de la pod comme fonction de répartition aléatoire Thomas Browne, Jean-Claude Fort (Université Paris Descartes) les probabilités de détection de défauts (POD) sont des outils standards dans l’industrie pour évaluer la performance d’un procédé de contrôle données. Elles se modélisent mathématiquement par une courbe déterministe qui est une fonction de la taille du défaut étudié. les aléas pris en compte pour le calcul de la probabilité sont les prorpiétés géomtriques de la structure étudiée (X ∈ Rd ) ainsi qu’un bruit d’observation... la courbe de POD possède les caractéristiques d’une fonction de répartition. le but est ici de faire évoluer ce modèle en un fonction de répartition aléatoire X. pour chaque réalisation x des paramètres X πX lui associe la POD correspondante, i.e. la courbe de probabilités calculées sous la condition X = x. pour quantifier une distribution aléatoire de f.d.r. il est nécessaire de définir un nouveau cadre de travail. On cherche à répondre aux questions suivantes : comment comparer les possibles réalisations ? Peut-on par exemple parler de courbe moyenne ? À l’aide de la distance de Wasserstein on propose des définitions de PODmoyenne, de POD-quantiles par analogie avec les notions d’espérance et de quantiles de variables aléatoires réelles. on s’intéresse également à la définition d’estimateurs pour ces grandeurs ainsi qu’à leurs propriétés asymptotiques. Pour des besoins industriels il est important de distinguer les variables de X les plus influentes. dans ce but on propose une extension des méthodes d’analyse de sensibilité de type Sobol. 17h15-18h35 - Classification en grandes dimensions Détection de profils conditionnels dans des matrices creuses pour la sélection génomique Mathieu Emily (Agrocampus Ouest), Alain Mom (Université Rennes 2) L’objectif de cet article est de proposer une méthodologie statistique pour détecter des profils conditionnels particuliers, appelés profils sparse-spécifiques. Ces profils correspondent à des signatures moléculaires caractérisant la présence d’une sélection génomique. L’approche proposée s’appuie sur une classification hiérarchique obtenue à partir d’une nouvelle dissimilarité appelée d2s . Par une approche théorique, appuyée par des simulations, nous montrons que d2s est adaptée à la détection de profils sparse-spécifiques, notamment dans le cas de matrices de contingences creuses. L’application de notre méthodologie à un jeu de données traitant de la sélection génomique chez le chien domestique illustre également les avantages de notre dissimilarité d2s par rapport à des dissimilarités classiques comme les distances du χ2 et d22 . Variable selection by decorrelated HCT for supervised classification in high dimension Emeline Perthame (Agrocampus Ouest IRMAR), David Causeur (Agrocampus Ouest IRMAR) Nous considérons un problème de classification supervisée où Y est une variable aléatoire de Bernoulli et X un vecteur de covariables suivant une loi normale. Dans ce contexte, l’analyse linéaire discriminante (LDA) atteint de bonnes performances de classification, même en grande dimension où de nombreux algorithmes de sélection de variables permettent de réduire la dimension. Dans ce cadre, le Higher Criticism Thresholding (HCT) permet d’estimer le support du signal, même en situation de covariables corrélées. Toutefois, certains auteurs suggèrent qu’il peut être amélioré en considérant cette dépendance. Dans le contexte des tests multiples, plusieurs auteurs montrent l’impact négatif de la dépendance sur la stabilité de la sélection de variables et suggèrent de travailler sur des données ajustées de la dépendance. Nous proposons une méthode 49 Lundi 1er juin 2015 combinant une sélection par HCT suivie d’une LDA, les deux étapes étant fondées sur un postulat d’indépendance entre les covariables, conditionnellement à un vecteur de facteurs latents. La méthode HCT s’appuie sur la distribution asymptotique de p-values associées à des statistiques individuelles de sélection (souvent des t-tests). Sous l’hypothèse d’un modèle à facteurs latents, on peut définir des statistiques de sélection décorrélées, par ajustement de l’effet des facteurs, et leurs p-values associées. Un nouvel HCT est déduit de l’expression analytique de la fonction de répartition conditionnelle des p-values, dépendant de la structure de dépendance. L’estimation du modèle de classification proposé utilise également la structure en facteurs pour gérer la dépendance. Les propriétés de la méthode sont illustrées sur des simulations et sur des données réelles. Sélection de modèles pour la classification de données de régression en grande dimension : un résultat théorique Emilie Devijver (Université Paris-Sud / Select) Les modèles de mélange en régression sont utilisés pour modéliser la relation qui existe entre la réponse et les prédicteurs, lorsque ces données sont hétérogènes. Avec l’augmentation des données de grande dimension, les modèles doivent aujourd’hui tenir compte des problèmes entrainés. Durant cet exposé, nous proposerons deux procédures de classification non supervisée en grande dimension. Dans chacune, nous construisons une collection de modèles de mélanges en faisant varier la dimension des modèles, pour pallier la grande dimension. Nous estimons les paramètres de chaque modèle par maximum de vraisemblance, sous contrainte de faible rang ou non, puis nous sélectionnons un modèle grâce à l’heuristique de pente introduite par Birgé et Massart. Nous obtenons une inégalité oracle pour chacune de nos procédures, ce qui nous permet de justifier la sélection de modèles par un critère pénalisé. Une pénalité de groupe pour des données multivoie de grande dimension Laurent Le Brusquet (L2S, UMR CNRS 8506 - CentraleSupelec,Bioinformatics/Biostatistics Platform IHU-A-ICM,Brain and Spine), Arthur Tenenhaus (L2S, UMR CNRS 8506 - CentraleSupelec,Bioinformatics/Biostatistics Platform IHU-A-ICM,Brain and Spine), Gisela Lechuga (L2S, UMR CNRS 8506 - CentraleSupelec,Bioinformatics/Biostatistics Platform IHU-A-ICM,Brain and Spine), Vincent Perlbarg (Bioinformatics/Biostatistics Platform IHU-A-ICM, Brain and Spine), Louis Puybasset (AP-HP, Pitié-Salpêtrière Hospital, Surgical Neuro-Intensive Care Unit), Damien Galanaud (AP-HP, Pitié-Salpêtrière Hospital, Department of Neuroradiology) Le problème de la classification supervisée de données multivoie de grande dimension avec un a priori de structure de groupes sur les variables est étudié. Plus précisément la pénalité proposée vise à modifier les termes de régularisation pour tenir compte d’une part de la structure tensorielle et d’autre part le la structure de groupes des données. Sans surcoût calculatoire notable, le but cherché étant un gain en interprétabilité, la pénalité est conçue de manière à : (i) Séparer l’influence des variables de l’influence des modalités et (ii) Homogénéiser les poids associés à des variables d’un même groupe. La pénalité est ici développée pour l’analyse discriminante et la régression logistique. Une application à l’analyse de données de neuroimagerie multimodale est présentée. 50 Mardi 2 juin 2015 08h45-09h45 - David Bessis Titre à venir David Bessis (tinyclues) 09h50-10h50 - Prix Norbert Marx (Paul Blanche) Évaluation des capacités pronostiques de modèles joints pour données longitudinales et de survie : inférence et application au pronostic de la démence Paul Blanche (University of Copenhagen) La modélisation conjointe de marqueurs longitudinaux et de données de survie gagne actuellement en popularité. Motivé par l’intérêt croissant pour la médecine personnalisée, elle commence notamment à être utilisée pour calculer des prédictions de risques individuels dites dynamiques. Ces prédictions sont dites dynamiques car elles sont actualisées au fur et à mesure que l’information sur le profil de santé d’un sujet évolue au cours de son suivie. Dans ce travail, nous nous intéressons aux méthodes statistiques pour quantifier et comparer les capacités pronostiques de ce type de prédictions. L’aire sous la courbe ROC et le Brier score sont proposés pour quantifier les capacités pronostiques. Une approche non paramétrique de pondération par l’inverse de la probabilité de censure est proposée. Elle permet de s’adapter simplement à la présence de données censurées et d’éventuels risques concurrents, ce qui est important puisque leur présence est fréquente en recherche médicale. Quelques résultats asymptotiques sont présentés et des tests et des méthodes de calcul d’intervalles de confiance ponctuels et simultanés en sont dérivés. 11h10-12h30 - Environnement 1 Mélange de prédicteurs pour la prévision séquentielle de la pollution par les PM10 en Haute-Normandie Jean-Michel Poggi (Université Paris Descartes), Benjamin Auder (Univ. Paris-Sud Orsay), Bruno Portier (Normandie Université, INSA Rouen) Dans le cadre de la surveillance de la qualité de l’air en Normandie, on expérimente les méthodes d’agrégation séquentielle pour la prévision le jour pour le lendemain, des concentrations de PM10. Outre le domaine d’application et l’adaptation au contexte concret du travail du prévisionniste, la principale originalité de ce travail est que l’ensemble initial d’experts contient à la fois des modèles statistiques bâtis à l’aide de différentes méthodes et d’ensemble de prédicteurs divers, ainsi que des experts qui sont des modèles déterministes de prédiction physico-chimiques modélisant pollution, météo et atmosphère. Des résultats numériques sur des données récentes d’avril 2013 à mars 2014, sur trois sites de mesures, illustrent et comparent diverses méthodes d’agrégation. Les résultats obtenus montrent qu’une telle stratégie améliore nettement les performances du meilleur expert tant en erreurs qu’en alertes et assure un « débiaisage » du nuage réalisés-prévus, difficile à obtenir d’ordinaire. Processus avec sauts sur arbres : détection de changements adaptatifs Paul Bastide (AgroParisTech - Univ Paris Sud), Stéphane Robin (AgroParisTech/INRA), Mahendra Mariadassou (INRA) En écologie comparative et évolutive, les traits quantitatifs d’un jeu d’espèces peuvent être vus comme le résultat d’un processus stochastique courant le long d’un arbre phylogénétique. Cette modélisation permet de prendre en compte les corrélations produites par une histoire évolutive 51 Mardi 2 juin 2015 partagée. Le processus stochastique est choisi afin de de capturer les mécanismes qui gouvernent l’évolution d’un trait. Les écologues préfèrent ainsi le processus d’Orstein-Uhlenbeck (OU) au Mouvement Brownien (BM), plus simple mais moins réaliste. Le processus OU modélise la sélection naturelle s’opérant sur un trait par un mécanisme de rappel vers une valeur centrale, interprétée comme optimale dans un environnement donné. On s’intéresse ici à des changements de niche évolutive qui auraient entraîné un changement abrupt dans la valeur de cet optimum, et dont il s’agit de retrouver la position sur l’arbre. À partir des mesures d’un trait pour un jeu d’espèces liées par un arbre phylogénétique connu, on se propose de construire, d’étudier, et d’implémenter efficacement un modèle à données incomplètes permettant d’inférer simultanément la position des sauts et la valeur des paramètres. Les sauts sur l’arbre induisent naturellement une classification des espèces actuelles en groupes cohérents avec la phylogénie et définis par une même valeur de trait. Au vu des données, seule cette classification est identifiable, ce qui pose problème pour la localisation exacte des sauts sur l’arbre. On se propose alors de dénombrer, d’une part, les allocations non-identifiables équivalentes, et, d’autre part, les solutions distinctes identifiables. Cette dernière quantité nous sert alors à calibrer une pénalité de sélection de modèle. Équation différentielle stochastique basée sur un potentiel gaussien pour décrire le déplacement en écologie Pierre Gloaguen (IFREMER), Sylvain Le Corff (CNRS), Marie-Pierre Etienne (Agroparistech) En écologie, comprendre les mécanismes guidant le mouvement d’un individu est un enjeu pour définir de meilleures mesures de gestion. Afin de décrire le déplacement d’un individu en temps continu, les équations différentielles stochastiques (EDS) offrent un cadre général. Cependant, les modèles de mouvement existant se basant sur les EDS sont restreintes aux EDS « pratiques » (Ornstein Ulhenbeck). Nous proposons un cadre plus général de modélisation-estimation pour décrire le mouvement d’un individu à partir de données GPS. Le processus bidimensionnel des positions d’un individu est supposé être solution d’une l’EDS dont la dérive est une surface de potentiel. Cette surface de potentiel traduit l’attractivité du mouvement dans lequel se déplace l’individu. En se basant sur les travaux de Beskos et al (2006), on propose un cadre d’estimation se basant sur la simulation du processus solution de l’EDS, conditionnellement aux observations (les données GPS). Cette simulation conditionnelle se fait de manière exacte, évitant les erreurs d’approximation des schémas discrétisés. Intégrées à une approche EM, ces simulations permettent de trouver l’estimateur du maximum de vraisemblance des paramètres de dérive, et de la diffusion. Nous montrerons une application de ce modèle à des données réelles. Sciences participatives et suivi de la biodiversité Camille Coron (Université Paris Sud), Clément Calenge (ONCFS), Christophe Giraud (Université Paris Sud), Romain Julliard (MNHN) Les programmes de sciences participatives se sont beaucoup développés au cours des vingt dernières années, notamment dans le domaine de l’écologie et du naturalisme. Nous disposons dans ce travail de deux jeux de données issus de tels programmes : un jeu de données dites standardisées et un jeu de données dites opportunistes. Le premier présente un nombre plus faible de données, mais qui sont associées à un protocole d’observation et de récolte très précis, tandis que le deuxième fournit un très grand nombre de données rapportées selon les souhaits et habitudes des observateurs. Grâce à ces données, nous cherchons à estimer les abondances relatives de plusieurs espèces sur différentes régions de l’espace et/ou à différents moments. Nous prouvons dans un premier temps que la combinaison de ces deux types de jeux de données permet une estimation plus précise de ces abondances, que l’utilisation des seules données standardisées. La prise en compte dans un deuxième temps des préférences respectives des observateurs et des observés pour les différents types d’habitats présents sur l’espace considéré permet des estimations plus réalistes et applicables. 52 Mardi 2 juin 2015 11h10-12h30 - Finance Impact de la compétition bancaire sur la méthode de financement Jérémie Bertrand (Groupe ISA), Jean-Christophe Statnik (Lille 2) Durant les 20 dernières années, la littérature sur l’impact de la compétition bancaire sur le choix de la méthode de financement - relationnel vs. transactionnel - n’a fait que croitre, tant théoriquement qu’empiriquement. Cependant, cette question n’a toujours pas été résolue. Dans cette étude, nous amenons une réponse à cette question en utilisant une nouvelle approche dans la mesure de la méthode de financement : une mesure de la quantité d’information soft utilisée par la banque lors de l’octroi du crédit et de son coût (spread). Utilisant cette nouvelle approche, nous démontrons que les banques préfèrent utiliser un financement relationnel lorsque la compétition bancaire est faible. De plus, nous démontrons que le lien entre la compétition et le choix de financement n’est pas linéaire mais concave : relationnel lorsque la compétition est faible, transactionnel lorsqu’elle augmente et, passé un certain seuil de compétition, à nouveau relationnel. A new approach in nonparametric estimation of returns in mean-downside risk portfolio frontier Ali Gannoun (Université de Montpellier), Hanen Ben Salah (ISG Tunis, ISFA Lyon1), Mathieu Ribatet (Université Montpellier 2), Christian de Peretti (ISFA, Lyon1) La variance est devenue la définition mathématique la plus populaire du risque pour la sélection de portefeuille. Quand les distributions des rendements sont asymétriques, la sélection du portefeuille basée sur la variance peut être un handicap potentiel, de fait qu’elle sacrifie trop de rendements prévus en éliminant les rendements extrêmes. Pour palier à ce problème, la semi-variance a été proposée comme une autre mesure alternative du risque. C’est une mesure du Downside Risk. Dans ce modèle, les investisseurs minimisent uniquement les rendements inférieurs à un taux de rendement cible. Le modèle moyenne-downside risk utilise une matrice semivariance-covariance endogène aux aux poids des actifs constituants le portefeuille. Le problème d’optimisation est difficile à résoudre. Athayde (2001) explicite un algorithme itératif convergeant pour le résoudre. Néanmoins, il souligne que, pour un nombre limité d’observations, la frontière efficiente présente une discontinuité. Pour contrecarrer cette faiblesse, il propose dans un article de (2003) de remplacer les données par des moyennes calculées par la méthode du noyau. Ben Salah et al (2014) proposent un estimateur plus robuste basé sur l’estimation non paramétrique de la médiane conditionnelle mais l’algorithme est lent à converger. Dans cette communication, nous proposons une amélioration sensible de cet algorithme en commençant par remplacer tous les rendements des actions par leurs estimateurs non paramétriques (utilisant la moyenne ou la médiane), puis déduire les estimateurs des rendements du portefeuille et appliquer l’algorithme classique d’Athayde sur les données estimées. L’application de cette nouvelle approche sera effectuée sur des nombre marchés nationaux et internationaux. Test de changement de régimes dans des séries financières par un modèle conditionnellement hétéroscédastique à seuil endogène Youssef Saidi (Bank Al-Maghrib, Rabat) En finance, les modèles autorégressifs conditionnellement hétéroscédastiques (ARCH), et leurs nombreuses extensions se sont avérés être des instruments très efficaces. Une nouvelle classe de modèles conditionnellement hétéroscédastiques non linéaires, introduite dans Saïdi (2003) et Saïdi et Zakoïan (2006), fait dépendre la volatilité de la position relative des innovations passées. Cette dernière se rattache aux extensions précédentes par l’existence de plusieurs régimes. Dans ce papier, nous proposons une méthode de test de changement de régime dont la construction repose sur la nouvelle classe de modèles introduite par Saïdi (2003) et Saïdi et Zakoïan (2006), et inspirée de la méthode développée par Tsay (1989) pour les modèles autorégressifs à seuils. Ensuite, nous testons 53 Mardi 2 juin 2015 la présence de la modification des régimes de volatilité dans le rendement de l’indice boursier CAC 40 en utilisant le modèle proposé. Transmission des chocs de rendement et de volatilité entre marchés boursiers : application de modèles GARCH multivariés Ahmed El Ghini (Universite Mohammed V de Rabat), Youssef Saidi (Bank Al-Maghrib, Rabat) Dans ce papier, nous nous intéressons à l’étude des liens de volatilité et de rendement entre le marché financier marocain et ceux des États-Unis et trois pays européens (France, Allemagne et Royaume-Uni) avant et après la crise financière des subprimes de 2008. Plus précisément, nous utilisons les indices boursiers MASI, CAC, DAX, FTSE et NASDAQ représentatifs respectivement des marchés boursiers : marocain, français, allemand, anglais et américain. Notre échantillon porte sur les indices boursiers journaliers de la période allant du 2 janvier 2002 au 31 décembre 2012 (jours fériés exclus). A partir de nos résultats d’estimation des modèles bi-variés VAR-BEKK GARCH, nous analysons la transmission des chocs de rendement et de volatilité entre le marché financier marocain et les autres marchés financiers considérés. Par ailleurs, l’identification de la date de rupture structurelle relative à la crise des subprimes est effectuée en utilisant les deux tests de changement structurel de Lee-Strazicich ( 2003, 2004) et Bai-Perron (1998, 2003). Les résultats empiriques obtenus mettent en évidence un changement des degrés d’interdépendance et les effets de spillover entre les grands marchés financiers considérés et le marché financier marocain émergent liés à la crise financière globale de 2008. 11h10-12h30 - Apprentissage et classification 1 Classification ascendante hiérarchique à noyaux et pistes pour un meilleur passage à l’échelle Julien Ah-Pine (Université de Lyon), Xinyu Wang (Université de Lyon) Nous nous intéressons au problème de la classification ascendante hiérarchique d’un ensemble d’individus représentés dans un espace euclidien. Nous donnons une expression de la formule de Lance et Williams en fonction de produits scalaires plutôt qu’en termes de distances. Nous établissons les conditions dans lesquelles cette nouvelle expression est équivalence à la méthode initiale. L’intérêt de cette approche est double. Tout d’abord, nous pouvons étendre naturellement les techniques classiques de classification ascendante hiérarchique aux fonctions noyaux. Ensuite, le raisonnement sur des matrices de produits scalaires est davantage propice à la définition de méthodes de filtrage de mesures de proximités. Nous proposons alors de prétraiter la matrice de proximités de façon à la rendre éparse afin de permettre un meilleur passage à l’échelle de ces techniques de classification. Classification de courbes individuelles et prévision désagrégée de la consommation électrique Jairo Cugliari (Université Lumière Lyon 2), Yannig Goude (EDF R&D), Jean-Michel Poggi (Univ. Paris Descartes et Univ. Paris Sud) La disponibilité de données électriques, à des résolutions temporelles et géographiques plus fines met l’industrie face à de nouveaux défis et opportunités. Nous nous intéressons à la prévision non paramétrique d’une série par désagrégation et le profilage des consommateurs individuels à des fins commerciales. On se propose de construire des outils de classification utiles pour les deux tâches en général considérées séparément. L’idée est de décomposer le signal global de telle sorte que la somme des prévisions désagrégées améliore considérablement la prédiction du signal global. La stratégie est en trois étapes : à partir d’une première classification de courbes par partitionnement on définit des super-consommateurs, on construit ensuite une hiérarchie de partitions à l’intérieur de laquelle on sélectionne la meilleure partition pour de la prévision désagrégée. 54 Mardi 2 juin 2015 Classification ascendante hiérarchique avec contraintes de proximité géographique Amaury Labenne (IRSTEA UR - ETBX), Marie Chavent (Univ. Bordeaux, IMB / Inria, CQFD), Vanessa Kuentz-Simonet (IRSTEA UR - ETBX), Jérôme Saracco (Univ. Bordeaux, IMB / Inria, CQFD) La Classification Ascendante Hiérarchique (CAH) est une méthode bien connue de classification d’individus décrits par différentes variables. Cette méthode vise à rassembler dans une même classe les individus qui se ressemblent du point de vue des variables. Cependant lorsque les individus dont on dispose sont des territoires géographiques, on souhaite parfois que des individus proches géographiquement se retrouvent dans la même classe sans que cela ne nuise trop à la qualité de la partition. La méthode ClustGeo que nous avons développée permet d’intégrer des contraintes de proximité géographique au sein d’une CAH, pour cela on utilise le critère d’homogénéité de Ward sur deux matrices différentes de distances. Sélection de groupes de variables corrélées par classification ascendante hiérarchique et group-Lasso Quentin Grimonprez (Inria Lille - Nord Europe), Alain Célisse (Inria Lille-Nord Europe & Laboratoire Paul Painlevé, Université Lille 1), Guillemette Marot (Inria Lille-Nord Europe & EA 2694, Université Lille 2) Dans un contexte de sélection de variables, utiliser des régressions pénalisées en présence de fortes corrélations peut poser problème. Seul un sous-ensemble des variables corrélées est sélectionné. Agréger préalablement les variables liées entre elles peut aider aussi bien à la sélection qu’à l’interprétation. Cependant, les méthodes de regroupement de variables nécessitent la calibration de paramètres supplémentaires. Nous présenterons une nouvelle méthode combinant classification ascendante hiérarchique et sélection de groupes de variables. 11h10-12h30 - Statistique bayésienne non-paramétrique Quantification de l’incertitude d’une partition issue d’un processus de Dirichlet à mélange Aurore Lavigne (Université de Lille), Silvia Liverani (Brunel University London) Nous présentons ici nos résultats sur la quantification de l’incertitude liée à une partition. Dans la littérature sur la classification, une unique partition est généralement identifiée comme “optimale” par rapport à un critère donné, et l’incertitude sur cette partition n’est en général pas discutée. En effet, l’espace des partitions est vaste et complexe, et quantifier cette incertitude reste une tâche difficile. Nous nous intéressons à l’incertitude associée aux partitions obtenues à l’aide d’un processus de Dirichlet à mélange sous le paradigme bayésien. Nous proposons deux méthodes pour quantifier l’incertitude. L’une est basée sur la distribution marginale a posteriori de la variable d’allocation du processus de Dirichlet, l’autre sur la comparaison des probabilités d’appartenance de chaque individu à chaque classe dans le modèle de mélange estimé. Pour cette seconde méthode, nous fournissons aussi une représentation graphique de ces probabilités. Finalement, nous étudions comment ces méthodes sont liées, et nous les utilisons pour comparer certaines des stratégies utilisées pour définir la partition “optimale”. Nous appliquons ces méthodes à un jeu de données en océanographie. Estimation bayésienne non-paramétrique pour les processus de Hawkes Sophie Donnet (INRA), Vincent Rivoirard (Université Paris Dauphine), Judith Rousseau (Université Paris Dauphine) Les processus de Hawkes multidimensionnels sont utilisés pour la modélisation des potentiels d’actions neuronaux. L’estimation des fonctions d’intensité permet de comprendre la structure 55 Mardi 2 juin 2015 d’interactions des neurones. L’estimation non-paramétrique de ces fonctions a été proposée par des méthodes de type LASSO dans un cadre fréquentiste. Nous nous intéressons à leur estimation non-paramétrique dans un cadre bayésien. Pour cela, nous mettons en place des algorithmes du type Sequential Monte Carlo Sampler, particulièrement adaptés à ces processus ponctuels. Vitesse de convergence de l’a posteriori pour les modèles non-paramétriques de Markov cachés à espace d’état fini Elodie Vernet (Université Paris Sud) Les modèles de Markov cachés (HMMs) sont très utilisés en pratique, comme en génomique, reconnaissance de parole ou économétrie. Comme la modélisation paramétrique des densités d’émission peut conduire à de mauvais résultats en pratique, un récent intérêt pour les modèles de Markov cachés non paramétriques est apparu dans les applications. Or ces modèles ont peu été étudiés en théorie. Je présenterai des résultats asymptotiques sur les modèles bayésiens non paramétriques de Markov cachés à espace d’états fini. Je donnerai des hypothèses garantissant l’obtention de vitesses de convergence. Je finirai par exhiber des vitesses obtenues pour des a priori usuels. Approche bayésienne non-paramétrique pour la factorisation de matrice binaire à faible rang avec loi de puissance Adrien Todeschini (Inria Bordeaux), François Caron (Univ. Oxford) Nous proposons un modèle bayésien non paramétrique (BNP) à faible rang pour les graphes bipartis. Récemment, Caron (2012) a proposé un modèle BNP où chaque élément possède son propre paramètre de sociabilité permettant de capturer le comportement en loi de puissance observé dans les graphes bipartis réels. Ce modèle peut être considéré comme une factorisation non négative de rang un de la matrice d’adjacence. En nous appuyant sur les mesures composées aléatoires récemment introduites par Griffin et Leisen (2014), nous dérivons une généralisation de rang p de ce modèle où chaque élément est à présent associé à un vecteur p-dimensionnel de paramètres de sociabilité représentant plusieurs dimensions latentes. Tout en préservant les propriétés désirées d’interprétabilité, de passage à l’échelle et de comportement en loi de puissance, notre modèle est plus flexible et offre de meilleures performances prédictives comme illustré sur plusieurs jeux de données. 11h10-12h30 - Régression Partial Least Squares : une nouvelle approche au travers de polynômes orthogonaux Mélanie Blazère (Institut de mathématiques de Toulouse), Fabrice Gamboa (Institut de mathématiques de Toulouse), Jean-Michel Loubes (Institut de mathématiques de Toulouse) La méthode PLS est largement utilisée pour la prédiction en régression multivariée, notamment lorsque l’on a de fortes corrélations au sein des variables explicatives ou lorsque ces dernières dépassent le nombre d’ observations. La PLS est une méthode de réduction de dimension astucieuse qui cherche à résoudre le problème de multicollinéarité en créant de nouvelles variables latentes qui maximisent la variance des variables initiales tout en restant optimales pour la prédiction. Si la PLS se révèle être très utile et puissante dans de nombreux domaines, elle n’en reste pas moins une procédure complexe et peu de ses propriétés théoriques sont connues. Dans cet exposé, je vous présenterai une nouvelle façon de considérer la PLS basée sur les liens étroits qu’elle a avec des polynômes orthogonaux particuliers que j’expliciterai et que nous appellerons par la suite polynômes résiduels. La théorie des polynômes orthogonaux permet ensuite d’obtenir une expression analytique explicite pour ces polynômes. Nous verrons que cette expression éclaire la dépendance entre l’estimateur PLS et le signal et le bruit. A la suite de quoi, nous montrerons la puissance de cette nouvelle approche dans l’analyse des propriétés statistiques de la PLS en 56 Mardi 2 juin 2015 établissant de nouveaux résultats sur son risque empirique et son erreur quadratique moyenne de prédiction. Nous évoquerons aussi certaines propriétés de seuillage de cet estimateur. Nous conclurons enfin en montrant de quelle façon l’approche par polynômes orthogonaux fournit un cadre unifié permettant de retrouver facilement des propriétés déja connues. Extension de la régression linéaire généralisée sur composantes supervisées à une partition thématique des régresseurs Catherine Trottier (Univ. Paul Valéry Montpellier), Xavier Bry (I3M), Frédéric Mortier (CIRAD), Guillaume Cornu (CIRAD), Thomas Verron (SEITA) Nous proposons de construire des composantes permettant de régulariser un Modèle Linéaire Généralisé Multivarié (MGLM). Un ensemble de réponses aléatoires Y est supposé dépendre, via un GLM, d’un ensemble X de variables explicatives, ainsi que d’un ensemble T de covariables additionnelles. X est partitionné en R blocs X1 , . . . , XR , conceptuellement homogènes, considérés comme autant de thèmes explicatifs. Les variables dans chaque Xr sont supposées nombreuses et redondantes. Il est donc nécessaire de régulariser la régression linéaire généralisée dans chaque thème. À l’inverse, les variables de T sont supposées peu nombreuses et sélectionnées de sorte à n’exiger aucune régularisation. On procède à la régularisation en cherchant dans chaque thème un nombre approprié de composantes orthogonales permettant de modéliser Y tout en extrayant une information structurelle pertinente dans chaque thème. Nous proposons un critère très général mesurant la pertinence structurelle d’une composante dans un thème, que nous introduisons dans l’algorithme des Scores de Fisher d’estimation du modèle. La méthode, nommée THEME-SCGLR, est testée sur simulations et appliquée à la modélisation de l’abondance des espèces d’arbres dans la forêt tropicale du bassin du Congo. Sélection d’estimateurs ridge en régression gaussienne Carole Binard (Laboratoire J.A. Dieudonné) Dans le cadre de la régression Gaussienne à variance inconnue, Baraud et al. (2012) ont développé une procédure permettant de sélectionner un estimateur de l’espérance d’un vecteur Gaussien Y, sélection opérée au sein d’une collection arbitraire d’estimateurs. Dans un premier temps, nous comparons les performances de cette procédure appliquée aux estimateurs Ridge à celles de la validation croisée. Dans un second temps, nous considérons des estimateurs Ridge à noyaux et comparons cette procédure à la validation croisée. Puis nous regardons, d’un point de vue théorique, la sélection d’estimateurs Ridge par morceaux qui consiste à sélectionner un ’meilleur’ paramètre de lissage sur chacun des morceaux d’une partition fixée de [0,1]. Une formule exacte pour la validation croisée dans le cadre de la régression ’pool-sample’ Tristan Mary-Huard (INRA/AgroParisTech), Julien Chiquet (UMR 8071 CNRS/UEVE/USC INRA), Alain Célisse (UMR 8524 CNRS-Université Lille 1), Mathias Fuchs (LMU) En régression ’pool sample’, on dispose d’un échantillon de N individus pour lesquels les variables explicatives sont mesurées, tandis que la variable réponse n’est disponible que pour n < N d’entre eux. Cette disymétrie entre information disponible sur les variables d’une part et la réponse d’autre part amène à modifier la forme des estimateurs classiques (OLS et Ridge) pour exploiter l’intégralité des données. Lorsque plusieurs modèles sont en compétition et doivent être comparés, cette modification doit être intégrée aux procédures de validation croisée. Nous proposons ici une approche fondée sur le rééchantillonnage des seules variables réponses pour la validation croisée. Nous montrons qu’une formule exacte et explicite peut alors être obtenue pour le critère de validation croisée proposé. La sélection de modèles peut être alors réalisée sur la base de ce critère sans en payer le coût algorithmique. 57 Mardi 2 juin 2015 13h50-14h50 - Nicolas Verzelen Détection de communautés dans des réseaux aléatoires Nicolas Verzelen (INRA) L’analyse des réseaux est aujourd’hui un domaine ayant donné lieu à une abondante littérature aux croisements de la combinatoire, de l’algorithmique, de la physique des systêmes complexes et plus récemment des statistiques. La détection de communautés vise à découvrir des groupe de noeuds fortement liés entre eux et faiblement liés aux autres. Dans cet exposé, on discutera de modèles de réseaux aléatoires permettant de rentre compte de l’hétérogénéité rencontrée dans les réseaux réels. Ce cadre probabiliste permet de formaliser statistiquement le problème de détection de communautés. On obtiendra ainsi une caractérisation fine des difficultés statistiques inhérentes au problème de détection en faisant apparaître un compromis précision statistique contre complexité algorithmique. 13h50-14h50 - Qiwei Yao Segmenting multiple time series by contemporaneous linear transformation : PCA for time series Qiwei Yao (London School of Economics) We seek for a contemporaneous linear transformation for a p-variate time series such that the transformed series is segmented into several lower-dimensional subseries, and those subseries are uncorrelated with each other both contemporaneously and serially. The method may be viewed as an extension of principal component analysis (PCA) for multiple time series. Technically it also boils down to an eigenanalysis for a positive definite matrix. When p is large, an additional step is required to perform a permutation in terms of either maximum cross-correlations or FDR based on multiple tests. The asymptotic theory is established for both fixed p and diverging p when the sample size n tends to infinity. Numerical experiments with both simulated and real datasets indicate that the proposed method is an effective initial step in analysing multiple time series data, which leads to substantial dimension-reduction in modelling and forecasting highdimensional linear dynamical structures. The method can also be adapted to segment multiple volatility processes. 14h55-16h15 - Biostatistique Un modèle statistique pour la pharmacovigilance Valérie Robert (Université Paris Sud), Gilles Celeux (SELECT Inria Saclay), Christine Keribin (Université Paris Sud, Laboratoire de Mathématiques d’Orsay) Les effets indésirables des médicaments sont le plus souvent découverts après l’autorisation de mise sur le marché de ces médicaments. La pharmacovigilance consiste alors à détecter le plus précocement possible l’existence d’associations entre médicaments et événements indésirables. Dans cette optique, des méthodes statistiques exploratoires (IC, Bate et al., 1998 ; GPS, Dumouchel, 1999...) sont développées depuis une vingtaine d’années. Cependant, ces méthodes sont limitées par l’utilisation de données agrégées (tableau de contingence), ce qui présume d’une homogénéité des individus à l’origine des notifications. Or il est raisonnable de supposer une certaine hétérogénéité dans la population étudiée. L’objectif est donc de proposer une alternative à ces méthodes intégrant cette dimension hétérogène du problème grâce à l’étude des données individuelles peu informatives, produisant des matrices creuses. Dans ce cadre, en adaptant le modèle des blocs latents (Govaert et Nadif, 2008), nous proposons un nouveau modèle statistique qui fournit une classification simultanée des lignes et des colonnes de deux tableaux de données binaires en leur imposant 58 Mardi 2 juin 2015 le même classement en ligne. Il permet alors d’établir des classes d’individus selon leur profil médicamenteux et des sous-groupes d’effets et de médicaments en interaction. Dans cet exposé, nous présenterons le modèle et montrerons la nouveauté de cette approche en pharmacovigilance. Nous donnerons des conditions suffisantes pour obtenir son identifiabilité et nous l’expérimenterons sur des matrices simulées creuses ou non. Modèle poisson-gamma pour le recrutement de patients lors d’essais cliniques. Etude des limites de pertinence du modèle par simulations Nathan Minois (INSERM UMR 1027 - UPS TLSE), Guillaume Mijoule (Département de Mathématiques, Université Paris XI), Stéphanie Savy (INSERM UMR 1027 - Université Toulouse III), Valérie Lauwers-Cances (Unité Épidémiologique, CHU Toulouse), Sandrine Andrieu (INSERM UMR 1027 - Université Toulouse III - Unité Épidémiologique, CHU Toulouse), Nicolas Savy (Université Toulouse III - Institut Mathématiques de Toulouse, UMR 5219) étant donné un nombre de patients nécessaire pour la mise en place d’un essai clinique ou d’une cohorte, une des questions importantes est l’estimation du temps minimum requis, suivant les moyens de recrutement déployés, permettant d’atteindre ce nombre de sujets nécessaire. depuis une quinzaine d’année, l’utilisation de processus de poisson est devenue une approche acceptable, avec cependant un manque de prise en compte de la variabilité des intensités de recrutement entres les centres recruteurs. pour pallier à ce problème anisimov et fedorov utilisent le modèle nommé gamma-poisson dans lequel l’ensemble des intensités est considéré comme distribué selon une loi gamma. ce modèle s’est montré efficace sous les hypothèses d’un nombre de centres important (les résultats théoriques sont asymptotiques) et lorsque les intensités de recrutement sont constantes dans le temps. dans le but d’évaluer son application sur données réelles, nous avons étudié son efficacité lorsque ces hypothèses ne sont pas respectées. l’impact de telles erreurs de spécifications est estimé via des études par simulation suivant différents scénarios. nous finissons par donner des recommandations dans l’utilisation du modèle lorsqu’au moins une des hypothèses n’est pas respectée. Unsupervised clustering under local constraints of dynamics using multiple equivalence tests Fuchen Liu (Université Paris Descartes MAP5 - UMR CNRS 8145&Intrasense), Yves Rozenholc (Inria Saclay Ile de France Equipe Select), Charles-André Cuenod (Université Paris Descartes LRI - INSERM U970 PARCC&Hôpital Européen Georges Pompidou) L’imagerie de perfusion joue un rôle majeur pour étudier la microvascularisation tumorale qui est perturbée par une angiogenèse anormale pendant la croissance de la tumeur. Enregistrant une information dynamique liée à l’injection d’un bolus d’agent de contraste, ce type d’imagerie permet de construire des biomarqueurs diagnostic, prognostic ou de suivi dans le cadre des traitements anti-angiogéniques. Toutefois l’imagerie de perfusion souffre d’un fort niveau de bruit et il est nécessaire d’améliorer le rapport signal sur bruit, par exemple via la construction de régions d’intérêt (ROI) au sein desquelles l’information dynamique est moyennée. Réalisée de façon manuelle ou automatique avec des outils mal adaptés, ces ROI souffrent actuellement d’un manque d’homogénéité ou d’une perte d’information dynamique. Nous proposons de remédier à ces problèmes à travers une classification non supervisée qui préserve les dynamiques et offre un degré d’homogénéité contrôlable. Notre méthode s’appuie sur une utilisation de tests d’équivalence multi-résolution, qui préservent la structure dynamique, et d’un algorithme itératif de type dendrogramme qui protège les propriétés de l’image. La construction itérative s’arrête automatiquement à l’aide d’un contrôle des erreurs de type I et II permettant ainsi de choisir le nombre de classes automatiquement. 59 Mardi 2 juin 2015 Statistical estimation of genomic tumoral alterations Yi Liu (Inria Saclay Ile de France Equipe Select), Christine Keribin (Université Paris Sud, Laboratoire de Mathématiques d’Orsay), Tatiana Popova (nstitut Curie, INSERM U830), Yves Rozenholc (Inria Saclay Ile de France Equipe Select) La caractérisation des altérations génomiques tumorales est une étape importante dans le développement de la médecine personnalisée en cancérologie. Parmi les méthodes de traitement des données de micro-array, la méthode GAP (Genome Alteration Print) de Popova et al. caractérise les mutations à partir de la segmentation des signaux du nombre de copies et de la fréquence de l’allèle majoritaire (BAF) obtenus en chaque site de SNP. Elle utilise un critère déterministe que nous proposons de remplacer par une modélisation probabiliste paramétrique. Nous définissons ainsi un modèle de mélange gaussien dont les classes caractérisent les types de mutations. Ce modèle est estimé par maximum de vraisemblance grâce à l’algorithme EM, permettant d’obtenir l’estimation des paramètres et la caractérisation de l’altération tumorale de chaque segment. Dans notre approche, la ploidy de la tumeur est déduite de l’utilisation d’un critère pénalisé de sélection de modèle. Notre modèle est testé avec des données simulées et expérimentales. 14h55-16h15 - Series temporelles 2 Propriétés asymptotiques des estimateurs pour des modèles VARMA à coefficients dépendant du temps, avec exemples Guy Mélard (Université libre de Bruxelles, ECARES et ITSE), Abdelkamel Alj (Université Moulay Ismail, FSJES, Meknès), Christophe Ley (Université libre de Bruxelles, Dépt de Mathematiques) Cet article concerne les modèles vectoriels autorégressifs-moyenne mobile (VARMA) à coefficients dépendant du temps pour représenter des séries chronologiques non stationnaires. Contrairement à Dahlhaus (2000) et certaines parties d’Azrak et Mélard (2006) dans le cas univarié, les coefficients dépendent du temps mais pas de la longueur n des séries. Sous des suppositions appropriées, on montre qu’un estimateur quasi-maximum de vraisemblance gaussien est presque sûrement consistant et asymptotiquement normal. Les résultats théoriques sont illustrés au moyen de deux exemples de processus bivariés généralisant Kwoun et Yajima (1986). On montre que les suppositions sous-jacentes à la théorie s’appliquent. Dans le second exemple les innovations sont aussi marginalement hétéroscédastiques avec une corrélation variant de -0,8 à 0,8. Dans les deux exemples, la matrice d’information asymptotique est obtenue dans le cas gaussien. Finalement, le comportement pour échantillons finis est vérifiée par une étude de Monte Carlo pour n allant de 25 à 400. Les résultats confirment la validité des propriétés asymptotiques même pour des séries courtes et révèlent que la matrice d’information asymptotique déduite de la théorie est correcte. Un estimateur de qmv-poisson pour les séries temporelles multivariées à valeurs entières Ali Ahmad (Université de Lille 3) Nous utilisons l’estimateur de quasi maximum de vraisemblance de poisson (PQMLE) pour estimer, équation par équation, les paramètres des moyennes conditionnelles d’une série temporelle multivariée à valeurs entières. Des conditions de régularité sont données pour la consistance et la normalité asymptotique de cet estimateur. des applications à des modèles particuliers, comme les modèles INAR et INGARCH multivariés, sont ainsi considérées. des illustrations numériques, sur des simulations de Monte Carlo et sur des données réelles, sont fournies. A unified approach to the estimation of periodically integrated autoregressive models Georgi Boshnakov (University of Manchester), Lina Hamadeh (University of Manchester) 60 Mardi 2 juin 2015 Stochastic trends and periodicity are common features of time series, for example in economics and business. These features are often intertwined in such a way that traditional seasonal decomposition, exponential smoothing and seasonal unit root (including ARIMA) methods are not always fully satisfactory. We consider an approach based on periodically correlated and periodically integrated models. Using the multi-companion form of the periodic autoregressive model and a spectral parameterisation, we develop a general framework for periodically integrated models which allows for fitting models with any configuration of non-periodic, seasonal and periodic unit roots. Since we work directly with the eigenvalues, we are able to directly fix some of them to be equal to one, thus eliminating the need to impose complex non-linear restrictions on the autoregressive parameters. Inférence statistique des modèles autorégressifs à coefficients aléatoires périodiques Nassim Touche (Université de Bejaia), Abdelhakim Aknouche (U.S.T.H.B), Nacer Demouche (Université Bouira) Dans ce travail, nous nous intéressons à l’inférence statistique du modèle autorégressif à coefficients aléatoires périodiquement distribués (PRCA) dans lequel l’innovation et le coefficient aléatoire ne sont pas astreints à être non-corrélés. Nous établissons consistance et normalité asymptotique pour l’estimateur des moindres carrés pondérés en quatre étapes (4SWLSE) ainsi que pour l’estimateur du quasi-maximum de vraisemblance Gaussien (QMLE) et ce indépendamment de l’hypothèse de stationnarité périodique stricte. Des applications aux tests de stationnarité périodique ainsi qu’à des données rélles sont proposées. 14h55-16h15 - Tests statistiques 1 Test de comparaison de deux modèles de régression non-paramétriques basé sur les coefficients de Fourier Zaher Mohdeb (Univ. Mentouri Constantine) Dans ce travail, nous proposons une nouvelle méthode de comparaison de deux fonctions de régression f1 et f2 dans le cas homoscédastique et un échantillonnage fixé. Notre approche est basée sur les coefficients de Fourier empiriques des fonctions de régression respectivement de f1 et f2 . On obtient la distribution asymptotique de la statistique de test proposée, sous l’hypothèse nulle « f1 = f2 » ainsi que sous les alternatives globales et locales. Une étude par simulation est menée pour montrer la performance du test proposé. Tests d’uniformité sur la sphère unité de grande dimension Davy Paindaveine (ULB), Christine Cutting (Université libre de Bruxelles), Thomas Verdebout (Université libre de Bruxelles) Nous considérons le problème de test d’uniformité sur la sphère unité en grande dimension. Notre intérêt se porte principalement sur les propriétés de puissance. A cette fin, nous considérons des contre-hypothèses à symétrie rotationnelle et nous identifions les hypothèses contigués à l’hypothèse nulle d’uniformité. Ceci révèle une structure de normalité locale et asymptotique (LAN), qui, pour la première fois, permet de recourir au troisième lemme de Le Cam en grande dimension. Sous des conditions très faibles, nous obtenons la loi asymptotique non nulle du test de Rayleigh en grande dimension et montrons que ce test mène à des taux de convergence plus lents. Tous nos résultats (n, p)-asymptotiques sont "universels", dans le sens que la dimension p peut aller vers l’infini de façon arbitraire en fonction de la taille d’échantillon n. Une partie de nos résultats couvre également le cas de petite dimension, ce qui permet d’expliquer heuristiquement le comportement asymptotique du test de Rayleigh en grande dimension. Une étude de Monte Carlo confirme nos résultats asymptotiques. 61 Mardi 2 juin 2015 Tests d’adéquation pour des données directionnelles bruitées Thanh Mai Pham Ngoc (Université Paris Sud), Peter T. Kim (University of Guelph), Jae-Yong Koo (Korea University), Claire Lacour (Université Paris Sud) Nous disposons d’observations bruitées sur la sphère unité de R3 . Celles-ci sont le résultat de directions corrompues par une rotation aléatoire. il s’agit là d’un problème de déconvolution sphérique puisque la densité des observations est la convolée de la densité originelle et de celle du bruit. C’est l’analogue sphérique du problème bien connu de la déconvolution sur la droite réelle. Nous nous attacherons à tester si les directions originelles proviennent de la densité uniforme ou non à partir des données bruitées. Le test d’adéquation mis en oeuvre se fait dans un cadre nonparamétrique sur des classes de Sobolev ou analytiques. Nous considérons deux types de bruit ’smooth’ et ’supersmooth’, plus le bruit étant régulier et plus le problème inverse devient difficile. La procédure de test statistique proposée s’appuie sur les harmoniques sphériques. Les vitesses de tests obtenues sont optimales au sens minimax. Nous illustrerons nos résultats théoriques par des simulations et sur des données réelles provenant de l’astrophysique où ce problème de test de la densité uniforme est particulièrement prégnant. Procédure diagnostique en arbre utilisant les tests lisses d’adéquation Walid Al akhras (Université Montpellier), Gilles Ducharme (Université Montpellier) Un test d’adéquation est une procédure d’évaluation de l’hypothèse H0 : F = F0 , où F est la loi, inconnue, d’une variable aléatoire X qui prend ses valeurs dans l’ensemble S, et F0 est la loi de référence. Cette hypothèse H0 peut être non rejetée ou rejetée. Dans ce dernier cas, il est alors intéressant de connaître les raisons d’un tel rejet. Pour cela, il faut appliquer des procédures qui s’appellent “Procédures de diagnostic d’adéquation” (PDA). Dans la littérature, il y a deux classes de PDA. La première est locale et basée sur les composantes de la statistique du X 2 de Pearson (1900) ; elle permet de déterminer des intervalles de S où le modèle ne colle pas au données. La deuxième est globale et basée sur les composantes de la statistique du test lisse de Neyman (1937) ; elle donne des informations sur les écarts entre les moments du modèle posé en H0 et ceux des données. Il nous a semblé que si on pouvait les combiner d’une certain façon, il serait possible d’aller plus loin dans l’extraction d’informations diagnostiques. Notre idée consiste à proposer une procédure de diagnostic locale basée sur le test lisse. Il faut donc disposer de tests lisses “locaux”, c’est-à-dire restreints à des éléments d’une partition de S. La méthode qu’on utilise est basée sur une structuration en arbre des hypothèses de la famille de tests, cette méthode assure un contrôle fort de taux d’erreur FWER. 14h55-16h15 - Extrêmes Modèles multivariés pour l’indépendance asymptotique des extrêmes Nejib Dalhoumi (Université Montpellier), Jean-noel Bacro (Université Montpellier), Gwladys Toulemonde (Université Montpellier) L’absence d’un cadre paramétrique exhaustif pour les extrêmes multivariés constitue un obstacle majeur pour l’étude de la dépendance des extrêmes. En effet, sous l’hypothèse de maxstabilité, les problèmes liés à la dépendance asymptotique sont résolus mais les modèles max-stables sont restrictifs en ce qui concerne les aspects d’indépendance asymptotique. Ledford et Tawn (1996, 1997) ont proposé un modèle décrivant le comportement de queue d’une distribution bivariée avec une décroissance plus lente dans le cas des variables asymptotiquement indépendantes. Ce modèle a constitué la brique de base pour la majorité des résultats de modélisation de queues de distributions présentés dans la dernière décennie. Par exemple, Resnick (2002) et Resnick et Maulik (2004) ont utilisé ce modèle pour définir la variation régulière cachée d’un vecteur bivarié, ce qui leur a permis de définir une nouvelle mesure adaptée à l’indépendance asymptotique. Ramos et Ledford (2011) ont utilisé le processus ponctuel introduit par Ledford et Tawn (1997) pour définir une mesure angulaire régulière cachée particulière et une nouvelle loi de maxima. Ces derniers imposent 62 Mardi 2 juin 2015 une condition de normalisation sur la mesure angulaire régulière cachée qui généralise la condition relative au cadre max-stable. De façon générale, cette nouvelle condition est difficile à satisfaire. En utilisant la technique de Ramos et Ledford (2011), nous montrons comment construire des mesures angulaires satisfaisant cette condition de normalisation à partir de distributions positives définies sur un simplexe et, par suite, comment de nouveaux modèles paramétriques multivariés permettant de gérer dépendance et indépendance asymptotiques peuvent être obtenus. Conditional tail index estimation for random fields Aladji Bassene (Université de Lille), Sophie Dabo-Niang (Université de Lille), Aliou Diop (Université Gaston Berger) Estimation de l’indice de queue conditionnel pour des champs aléatoires. Nous traitons l’estimation de l’indice de queue d’une distribution à queue lourde en présence de covariables pour les processus spatiaux en utilisant l’estimateur de Hill. Soit un processus spatial strictement stationnaire, nous étudions une estimation de l’indice de queues lourdes de la fonction de distribution conditionnelle spatiale de la variable réponse Y étant donnée la variable explicative X. Notre estimateur est construit sur la base de l’estimateur bien connu de Hill tout en combinant une approche de fenêtre mobile pour capter l’information des covariables. La consistance de l’estimateur de Hill est obtenue lorsque l’échantillon considéré est une suite alpha-mélangeante. Quantiles extrêmes conditionnels et application à la surveillance en temps réel d’un système aquatique Gilles Durrieu (Université de Bretagne Sud), Ion Grama (Université de Bretagne Sud), QuangKhoai Pham (Université de Bretagne Sud), Jean-Marie Tricot (Université de Bretagne Sud) Nous présentons une méthode statistique pour estimer les quantiles extrêmes de la distribution de la vitesse de fermeture des valves en valvométrie. L’idée de notre approche est d’ajuster la queue de la fonction de distribution de cette vitesse par une distribution de Pareto de paramètre θt,τ au delà d’un seuil τ . Le paramètre θt,τ est estimé en utilisant un estimateur à noyau non paramétrique de taille de fenêtre h à partir des observations plus grandes que τ . Nous donnons sous des hypothèses de régularités les vitesses de convergence des estimateurs des quantiles extrêmes et de θt,τ . Notre modélisation fournit en temps réel une analyse du comportement d’un bioindicateur du milieu marin et apparaît comme un moyen efficace pour la surveillance de la qualité des eaux d’un système aquatique. On the effects of model misspecification in the study of non-stationary series of maxima : a stochastic simulation perspective Tipaluck Krityakierne (Department of Mathematics and Statistics, University of Bern), David Ginsbourger (Department of Mathematics and Statistics, University of Bern), Jörg Franke (Institute of Geography, University of Bern), Christoph Welker (Institute of Geography, University of Bern), Olivia Martius (Institute of Geography, University of Bern), Martin Grosjean (Oeschger Centre for Climate Change Research, University of Bern) Accounting for possible non-stationarities in series of maxima is of crucial importance for quantifying risks in a changing climate. However, when appealing to models relying on the Generalized Extreme Value distribution, it happens that practitioners do not take such non-stationarities into account, or simply truncate data sets in order to reduce the influence of past trends. Here we adopt a stochastic simulation approach for studying the effects of model misspecifications on return level estimation errors in the case of GEV-distributed simulated data, both with fixed and time-varying location parameters. Our results suggest that in the case of a location parameter with a linear trend in time, truncating the data does lead to an improved estimation of return levels with small return periods, but turns out to degrade estimation for larger return periods. Finally, we will present results obtained on series of yearly maxima from climatological and hydrological series of measures recorded in Switzerland over more than a century. 63 Mardi 2 juin 2015 14h55-16h15 - Régression en grandes dimensions Utilisation d’estimateurs en plusieurs étapes appliqués à des modèles additifs modélisant la prévision de consommation électrique Vincent Thouvenot (EDF/Univ. Orsay), Anestis Antoniadis (Univ. Joseph Fourier/ Univ. Cap Town), Xavier Brossat (EDF), Yannig Goude (EDF R&D), Jean-Michel Poggi (Univ. Paris Descartes et Univ. Paris Sud) L’électricité ne se stockant pas aisément, EDF a besoin d’outils de prévision de consommation et de production efficaces. Le développement de nouvelles méthodes automatiques de sélection et d’estimation de modèles de prévision est nécessaire. En effet, grâce au développement de nouvelles technologies, EDF peut étudier les mailles locales du réseau, ce qui amène à un nombre important de séries chronologiques à étudier. De plus, avec les changements d’habitude de consommation et la crise économique, la consommation électrique en France évolue. Pour cette prévision, nous adoptons ici une méthode semi-paramétrique à base de modèles additifs. L’objectif de ce travail est de présenter des procédures automatiques de sélection et d’estimation de composantes d’un modèle additif. Nous utilisons du Group LASSO, qui est, sous certaines conditions, consistant en sélection, et des P-Splines, qui sont consistantes en estimation. Les procédures sont illustrées sur des applications pratiques. Estimation conjointe de plusieurs modèles de régression avec des pénalités `1 Vivian Viallon (Univ Lyon 1 - UMRESTTE - IFSTTAR), Edouard Ollier (Université Lyon 1) Nous proposons une nouvelle approche, ainsi que des extensions, reposant sur l’utilisation de pénalisation L1 avec comme objectif l’estimation conjointe de plusieurs modèles de régression. Ce type de problème survient régulièrement en statistique appliquée, notamment en recherche clinique et en épidémiologie, lorsque les données proviennent de plusieurs strates d’observation. Un des intérêts principaux de notre approche est qu’elle peut être réécrite comme un simple Lasso pondéré sur une transformation des données originales. Son implémentation est de fait directe sous une variété de modèles de régression puisqu’il suffit d’utiliser les packages R disponibles pour l’implémentation du Lasso pondéré. Nous obtenons par ailleurs les propriétés oraculaires asymptotiques pour la version adaptative de notre approche, ainsi que des résultats non-asymptotiques préliminaires. A travers une étude de simulations, nous établissons par ailleurs les bonnes propriétés empiriques de notre approche. Nous l’illustrons enfin sur un jeu de données en épidémiologie du risque d’accident de la route. Binarsity : prédiction en grande dimension via la sparsité induite par la binarisation de variables ElMokhtar EzZahdi Alaya (LSTA-UPMC), Stéphane Gaiffas (CMAP, Ecole Polytechnique), Agathe Guilloux (LSTA, Université Pierre et Marie Curie) Nous considérons le problème d’estimation d’une fonction de régression en grande dimension. Pour cela, nous nous intéressons à la construction et à la mise en oeuvre d’une nouvelle notion de sparsité nommée binarsity. Elle compte le nombre de valeurs différentes du vecteur de paramètres à estimer dans un espace engendré par des variables binarisées. Nous introduisons une procédure d’estimation basée sur une relaxation convexe avec poids de binarsity. Nous proposons des inégalités oracles pour cette procédure et un algorithme efficace pour la résolution du problème convexe étudié. 64 Mardi 2 juin 2015 Une relaxation continue du rasoir d’Ockham pour la régression en grande dimension Pierre-Alexandre Mattei (MAP5, Université Paris Descartes), Pierre Latouche (SAMM, Université Paris 1 Panthéon-Sorbonne), Charles Bouveyron (MAP5, Université Paris Descartes), Julien Chiquet (LaMME, Université d’Evry) Nous considérons le problème de la régression parcimonieuse bayésienne. Dans ce cadre, un modèle génératif est proposé dans lequel un a priori de type spike-and-slab est supposé sur le paramètre de régression en multipliant un vecteur déterministe binaire, traduisant la parcimonie du problème, avec un vecteur aléatoire gaussien. Notre principale contribution consiste en l’utilisation d’une méthode d’inférence approchée basée sur une relaxation continue simple du modèle ainsi qu’un algorithme de type expectation-maximization. Nous pouvons ainsi maximiser la vraisemblance marginale des donne ?es avant de sélectionner quelles variables sont pertinentes grâce au rasoir d’Ockham. Des comparaisons numériques entre notre méthode (appelée spinyReg) et d’autres procédés de régression parcimonieuse (lasso, lasso adaptatif, stability selection et spike-and-slab) sont présentées. Que ce soit sur données réelles ou simulées, l’approche choisie se révèle être particulièrement efficace, tant en performances de prédiction que de sélection. Une nouvelle base de données de régression en grande dimension est également présentée : il s’agit de prédire le nombre de visiteurs du musée d’Orsay à une certaine heure en observant l’activité des 1200 stations Vélib’ de Paris. Dans ce cas, spinyReg permet de sélectionner efficacement quelles stations sont particulièrement liées à la fréquentation du musée. Un paquet R implémentant l’algorithme spinyReg est en cours de développement et est accessible à l’adresse https ://r-forge.rproject.org/projects/spinyreg. 16h35-17h35 - Enseignement, IUT STID Les plans d’expériences : apprentissage actif Céline Helbert (Institut Camille Jordan) Nous proposons ici le témoignage de la conception d’un cours en école d’ingénieur où le problème réel, l’apprentissage actif et coopératif sont au coeur de l’aquisition des compétences. Outre un déroulement plutôt classique (alternance cours-TP), le cours s’articule autour de deux temps forts. Le premier temps fort consiste en un cours introductif, première séance de cours au format TD, où les élèves sont confrontés à trois problèmes relevant des plans d’expériences. Cette séance permet d’identifier et de s’approprier le besoin d’outils de planification expérimentale. Le deuxième temps fort consiste en une séance “étude de cas” où les élèves répartis par petits groupes doivent apporter une solution à un problème réel posé par un commanditaire extérieur, disponnible sur place pour interagir avec eux. L’action se déroulant en temps limité, les étudiants ne peuvent réussir qu’en coopérant et en interagissant fortement avec l’acteur industriel à l’origine du problème. Les élèves, souvent déstabilisés en début de cours, ressortent avec des acquis solides en plans d’expériences et des compétences développées en formalisation de problèmes. Étude de cas en statistique et informatique décisionnelle : un exemple basé sur une enquête en DUT STID Frédérique Letué (LJK), Marlène Villanova-Oliver (STID Grenoble/LIG) Dans le nouveau Programme Pédagogique National (PPN) du DUT STID figure un module intitulé « étude de cas en statistique et informatique décisionnelle ». Si les projets tuteurés par exemple constituent depuis toujours dans la formation une occasion d’associer au sein d’un même cadre pédagogique la statistique et l’informatique, il s’agit ici d’instaurer un enseignement alliant explicitement les deux disciplines. Nous présentons la première version de ce module, tel qu’il a eu lieu à l’automne 2014 au sein du Département STID de Grenoble. Ce module s’adresse aux étudiants de 2ème année de DUT et s’est tenu au cours du premier semestre. Nous détaillons le contexte dans lequel s’inscrit le module en faisant le point sur les cours déjà dispensés à ce 65 Mardi 2 juin 2015 public en statistique et informatique au moment où a eu lieu le module. Celui-ci est ensuite plus particulièrement présenté à travers son format, le cas sur lequel il s’appuie et son contenu. Nous mettons ensuite en regard les attentes du cours et les difficultés rencontrées permettant ainsi de dégager des pistes d’amelioration possibles. Prix SFdS-STID : De l’automatisation d’un outil de pilotage à l’analyse de la productivité au sein d’un call center Gauthier Plault (IUT STID, Lyon) 16h35-17h35 - Plan d’expériences 1 Processus gaussiens déformés pour l’apprentissage de zones instationnaires Sébastien Marmin (UniBerne-É.Cent.Marseille-IRSN), David Ginsbourger (Université de Berne), Jean Baccou (IRSN), Frédéric Perales (IRSN), Jacques Liandrat (École Centrale de Marseille) En planification d’expériences simulées, le recours à des méthodes de prédiction issues des statistiques spatiales a fait ses preuves pour raffiner l’exploration de l’espace des variables dans des régions d’intérêt. Les modèles considérés ici substituent la fonction inconnue par un processus gaussien interpolant (krigeage). Dans ce contexte, la covariance des processus gaussiens est souvent supposée stationnaire. Cette hypothèse peut conduire à des prédictions décevantes si le comportement de la réponse est très hétérogène en espace. Cette situation est rencontrée dans beaucoup d’études en sûreté nucléaire, ce qui motivent cette présentation. La première partie est consacrée à la comparaison et à la validation de modèles sur des données hautement non-stationnaires, provenant d’un code de calcul développé à l’IRSN simulant la fissuration de matériaux hétérogènes et utilisé dans le cadre d’études relative au vieillissement des centrales nucléaires. Deux approches connues de modélisation par processus gaussien non-stationnaires sont abordées : déformation de l’espace des variables et combinaison localisée de plusieurs processus gaussiens. La deuxième partie est dédiée à la planification adaptative d’expériences pour l’exploration de zones de variations brutales. Pour cela, nous définissons et comparons plusieurs critères qui sélectionnent les points à évaluer dans des zones fortement non-stationnaires. Nous concluons en présentant les avancées obtenues sur un cas test en mécanique de la fissuration d’un bimatériau. The informational approach to global optimization in presence of very noisy evaluation results. Application to the optimization of renewable energy integration strategies Héloïse Dutrieux (EDF R&D), Ivana Aleksovska (CentraleSupelec), Julien Bect (L2S), Emmanuel Vazquez (L2S), Gauthier Delille (EDF R&D), Bruno François (L2EP) Nous considérons le problème de l’optimisation globale d’une fonction f à partir d’évaluations très bruitées. Nous adoptons un point de vue bayésien séquentiel : les points d’évaluation sont choisis de manière à réduire l’incertitude sur la position de l’optimum global de f , cette incertitude étant mesurée par l’entropie de la variable aléatoire correspondante (Informational Approach to Global Optimization, Villemonteix et al., 2009). Lorsque les évaluations sont très bruitées, l’erreur d’estimation de l’entropie par simulation conditionnelle devient non négligeable par rapport à ses variations sur son domaine de définition. Nous proposons une solution à ce problème en choisissant les points d’évaluation comme si plusieurs évaluations allaient être faites en ces points. Une application à l’optimisation d’une stratégie d’insertion des énergies renouvelables dans un réseau de distribution d’électricité illustre la méthode proposée. 66 Mardi 2 juin 2015 Estimation des mesures de sensibilité globale basées sur les dérivées via un métamodèle par processus gaussien Matthias De Lozzo (CEA), Amandine Marrel (CEA) Les phénomènes physiques sont souvent étudiés via des simulateurs numériques aux entrées incertaines, dont les impacts sur la sortie peuvent être quantifiés grâce à une analyse de sensibilité globale (GSA). Les indices de Sobol, basés sur une décomposition de la variance de sortie, sont souvent utilisés pour une GSA quantitative. Récemment, des mesures de sensibilité globale basées sur les dérivées (DGSMs), avec un sens plus physique, ont été étudiées. Cependant, les simulateurs fournissent rarement le gradient de la sortie, compliquant l’estimation des DGSMs. Pour pallier ce problème, nous estimons les DGSMs via un métamodèle par processus gaussien (GPM) approchant le simulateur. Nous proposons deux estimateurs de DGSM basés sur ce GPM : un estimateur plug-in défini par le DGSM du prédicteur du GPM et un autre estimateur défini par l’espérance du DGSM associé à une instance du GPM, pouvant s’accompagner d’un intervalle de confiance. Pour des noyaux gaussiens et des lois uniformes, des formules analytiques sont données pour ces estimateurs. Pour les autres situations, des méthodes d’estimation de type Monte-Carlo sont proposées : une version propagative de l’échantillonneur de Gibbs et une approximation par loi du chi-deux. Un test de significativité est également construit pour le criblage, permettant d’isoler les entrées non influentes. La convergence des estimateurs et les méthodes de Monte-Carlo sont comparées sur une fonction analytique. Enfin, ces développements sont appliqués à un modèle de transport hydrogéologique de strontium 90, montrant l’intérêt du test de significativité et discutant du sens des DGSMs. 16h35-17h35 - AMIES 2 - Témoignages CorReg : prétraitement en régression linéaire par modélisation explicite des corrélations. Application aux variables manquantes Clément Théry (ArcelorMittal), Christophe Biernacki (Lille 1, Inria), Gaétan Loridant (ArcelorMittal) La régression linéaire suppose en général l’usage de variables explicatives décorrélées, hypothèse souvent irréaliste pour les bases de données d’origine industrielle où les corrélations sont nombreuses et mènent à des estimateurs dégénérés. Le modèle proposé explicite les corrélations présentes sous la forme d’une famille de régressions linéaires entre covariables, permettant d’obtenir par marginalisation un modèle de régression parcimonieux libéré des corrélations, facilement interprétable et compatible avec les méthodes de sélection de variables. La structure de corrélations est estimée à l’aide d’un algorithme MCMC qui maximise la vraisemblance de la loi marginale sur les données. Un package R dénommé CorReg (sur le CRAN) permet la mise en oeuvre de cette méthode. La puissance CorReg repose sur le couple modèle génératif / modélisation automatique et explicite des corrélations multiples. Le modèle génératif sur les données et la modélisation explicite des corrélations permettent de gérer les valeurs manquantes, c’est cette conséquence de CorReg qui sera présentée. Modèle linéaire généralisé hiérarchique Gamma-Poisson à 3 facteurs aléatoires. Application au contrôle de qualité Florence Loingeville (Inria Lille - Nord Europe), Julien Jacques (Université Lumière Lyon 2), Cristian Preda (Laboratoire Paul Painlevé), Philippe Guarini (AGLAE), Olivier Molinier (AGLAE) Le dénombrement de particules dans une phase homogène est idéalement représenté par la loi de Poisson. En pratique, il s’avère pourtant que la dispersion des résultats de dénombrements de germes est supérieure à celle attendue d’après le modèle de Poisson. Nous proposons dans ce 67 Mardi 2 juin 2015 travail un Modèle Linéaire Généralisé Hiérarchique Gamma-Poisson à trois facteurs aléatoires, afin d’estimer les dispersions induites par les différents facteurs d’un essai interlaboratoires. Intégration de données hétérogènes pour l’identification de signatures moléculaires : une approche par score-local Marine Jeanmougin (Institut Curie), Mickael Guedj (Pharnext), Christophe Ambroise (Laboratoire de Mathématiques et Modélisation d’Evry (UMR 8071)) Au cours de la dernière décennie, les progrès en Biologie Moléculaire ont favorisé l’essor de techniques d’investigation à haut-débit. En particulier, l’étude du transcriptome à travers les puces à ADN ou les nouvelles technologies de séquençage, a permis des avancées majeures dans les sciences du vivant et la recherche médicale. Dans ces travaux, nous nous intéressons au problème de sélection d’un ensemble de gènes d’intérêt, aussi appelés ’signature moléculaire’. De telles signatures sont utilisées en recherche médicale, et en particulier en oncologie, pour le diagnostic et le pronostic ainsi que pour l’identification de nouvelles cibles thérapeutiques. Afin de pallier les limites des méthodes classiques de sélection de gènes qui s’avèrent peu reproductibles, nous présentons un nouvel outil, DiAMS (DIsease Associated Modules Selection), dédié à l’identification de modules enrichis en gènes significativement associés à la maladie. DiAMS repose sur une extension du score-local et permet l’intégration de données d’expressions et de données d’interactions protéiques. Dans cet exposé, nous détaillerons les différents principes de cette approche et proposerons une stratégie de simulation afin d’évaluer les performances de notre méthode, en terme de puissance, de taux d’erreur de type I et de reproductibilité. DiAMS sera ensuite intégré dans un pipeline d’analyse que nous appliquerons à l’étude de la rechute métastatique dans le cancer du sein. 16h35-17h35 - Régression logistique Nouveaux modèles de choix qualitatifs prenant en compte des caractéristiques individuelles et des caractéristiques de choix Jean Peyhardi (Université de Montpellier) En économétrie, les modèles logit multinomial et logit conditionnel sont des modèles de choix qualitatifs très utilisés qui prennent en compte respectivement des caractéristiques individuelles et des caractéristiques de choix. Ils se différencient par leur paramétrisation bien qu’ils partagent la fonction de lien canonique. Cette fonction de lien se décompose en le ratio de probabilités référence et la fonction de répartition logistique. Nous proposons alors de conserver le ratio référence, approprié pour des modalités de choix qualitatives, mais de sélectionner la fonction de répartition parmi une plus grande famille, contenant par exemple celle associée à la loi de Student. Ces nouveaux modèles donnent bien souvent de meilleurs résultats que les modèles classiques et restent pour autant facilement estimables et interprétables. Ceci est vérifié sur un jeu de données classique sur les modes de transport entre Sydney et Melbourne. Courbes de prédictivité appliquées au criblage virtuel Charly Empereur-Mot (CNAM - Lab. GBA), Hélène Guillemain (CNAM - Lab. GBA), Aurélien Latouche (CNAM - Lab. CEDRIC), Jean-François Zagury (CNAM - Lab. GBA), Vivian Viallon (Univ Lyon 1 - UMRESTTE - IFSTTAR), Matthieu Montes (CNAM - Lab. GBA) Le criblage virtuel permet de calculer des scores d’affinité de liaison entre une vaste bibliothèque de molécules et une cible d’intérêt thérapeutique. Il est utilisé extensivement dans le processus de conception de médicaments afin de réduire le nombre de molécules à tester expérimentalement. La métrique de référence pour une évaluation comparative des performances des méthodes de criblage virtuel est la courbe de ROC, qui permet d’évaluer la performance globale d’une méthode à mieux classer les molécules actives qu’inactives dans des tests rétrospectifs. Cependant, elle ne prend pas en compte la dispersion des scores d’affinité, complexifiant la détermination de valeurs 68 Mardi 2 juin 2015 de score à utiliser pour sélectionner des composés à tester expérimentalement lors de criblages prospectifs. Il existe une métrique de référence dans le domaine de l’épidémiologie, la courbe de prédictivité, qui permet d’estimer 1. la capacité prédictive de marqueurs biologiques pour le diagnostic d’une maladie et 2. leurs valeurs seuils justifiant des examens plus poussés ou plus invasifs. En transférant cette métrique au domaine du criblage virtuel, il est possible d’estimer la capacité prédictive d’une méthode de criblage au-delà d’un quantile de scores, ainsi que la valeur de score seuil pour laquelle nous avons une bonne confiance en cette capacité prédictive, pertinente pour la sélection des molécules à tester expérimentalement lors de criblages virtuels prospectifs. Nous proposons l’utilisons des courbes de prédictivité, reposant sur des modèles de régression logistique, pour compléter les outils d’analyse des résultats de criblage virtuel. Adaptive sparse PLS for logistic regression Ghislain Durif (Université Lyon 1 – LBBE), Franck Picard (Université Lyon 1 – LBBE), Sophie Lambert-Lacroix (UMR 5525 UPMF) Depuis quelques années, l’analyse de données rencontrent des problématiques liées à la grande dimension. Dans ce contexte, c’est-à-dire quand le nombre de variables considérées est bien supérieures au nombre d’observations dans l’échantillon, les méthodes classiques de classification sont inappropriées, ce qui appelle au développement de nouvelles méthodologies. Je présenterai une nouvelle méthode appropriée pour la classification en grande dimension. Elle utilise la régression sparse Partial Least Squares ou SPLS, réalisant compression et sélection de variables combinés à une régression logistique pénalisée par Ridge. Par des simulations, nous montrons la précision, la stabilité et la convergence de notre méthode, comparé à d’autres approches dans l’état de l’art. En particulier, il apparaît que la compression améliore l’exactitude de la sélection, et que notre méthode est plus stable concernant le choix des hyper-paramêtres par validation croisée, contrairement aux approches réalisant la classification avec la sparse PLS. 69 Mercredi 3 juin 2015 08h30-09h30 - Peter Hoff Bayes and empirical Bayes methods for tensor data Peter Hoff (University of Washington) Many modern multivariate datasets are naturally represented as arrays or tensors. For example, multivariate and/or longitudinal network data may be represented as a multiway data array. In this talk I will discuss some tools for modeling such data, such as the array normal distribution, reduced-rank tensor models and Stein estimation. Regarding the array normal distribution, we will consider applications such as ANOVA and factor analysis, and discuss priors that provide optimal equivariant inference. For mean estimation, we will discuss methods for dimension-specific eigenvalue shrinkage, and extensions of these methods to accommodate ordinal array-valued data. 08h30-09h30 - Arthur Gretton Kernel nonparametric tests of homogeneity, independence and multivariable interaction Arthur Gretton (University College London) We consider three nonparametric hypothesis testing problems : (1) Given samples from distributions p and q, a homogeneity test determines whether to accept or reject p=q ; (2) Given a joint distribution pxy over random variables x and y, an independence test investigates whether pxy = px py , (3) Given a joint distribution over several variables, we may test for whether there exist a factorization (e.g., Pxyz = Pxy Pz , or for the case of total independence, Pxyz = Px Py Pz ). The final test (3) is of particular interest in fitting directed graphical models, as it may be used in detecting cases where two independent causes individually have weak influence on a third dependent variable, but their combined effect has a strong influence, even when these variables have high dimension. We present nonparametric tests for the three cases described, based on distances between embeddings of probability measures to reproducing kernel Hilbert spaces (RKHS), which constitute the test statistics (eg for independence, the distance is between the embedding of the joint, and that of the product of the marginals). The tests benefit from decades of machine research on kernels for various domains, and thus apply to distributions on high dimensional vectors, images, strings, graphs, groups, and semigroups, among others. The energy distance and distance covariance statistics are particular instances of these RKHS statistics. 09h35-10h35 - Prix Marie-Jeanne Laurent-Duhamel (Mélanie Prague) Utilisation des modèles dynamiques pour l’optimisation des traitements des patients infectés par le VIH Mélanie Prague (Harvard T. H. Chan) De nos jours, la plupart des patients infectés par le VIH ont une charge virale qui peut être rendue indétectable par des combinaisons antirétrovirales hautement actives (cART) ; cependant, il existe des effets secondaires de ces traitements qui doivent être pris à vie. L’utilisation des modèles mécanistes dynamiques basés sur des équations différentielles ordinaires (ODE) a considérablement amélioré les connaissances de la dynamique HIV-système immunitaire et permet désormais d’envisager une personnalisation du traitement. L’objectif de ces travaux de thèse est d’améliorer les techniques statistiques d’estimation de paramètres dans les modèles mécanistes dynamiques afin de proposer des stratégies de surveillance et d’optimisation des traitements chez les patients infectés par le VIH. Dans une première partie, nous présentons les problématiques d’inférence dans les modèles ODE avec effets mixtes sur les paramètres. Nous introduisons un algorithme d’estimation bayésienne basé sur une maximisation de la vraisemblance pénalisée puis un programme associé 71 Mercredi 3 juin 2015 NIMROD. Nous montrons la puissance des approches mécanistes dynamiques concernant l’évaluation des effets traitements par rapport aux méthodes descriptives basées sur des modèles de regression d’analyse des trajectoires des biomarqueurs. Dans une deuxième partie, nous définissons le modèle à cellules cibles : un système ODE à 4 compartiments décrivant la dynamique du VIH, des CD4 quiescents, activés et activés-infectés. Nous l’ajustons sur des données cliniques et nous montrons qu’il possède de bonnes capacités prédictives. Nous proposons une preuve de concept de la possibilité de contrôler individuellement la dose de traitement. Cette stratégie adaptative tire parti des critères de stabilité des modèles ODE et réajuste la dose du patient en fonction de sa réaction à la dose précédente par une procédure bayésienne. Pour finir, nous introduisons les différents facteurs, en particulier génétiques et pharmacologiques, à prendre en compte pour envisager l’ individualisation des changements de cART. Ce travail passe par la quantification in vivo d’effets de cART en utilisant des indicateurs d’activité antivirale établis in vitro. 10h50-11h50 - Études de cas Penalized MDF for protein movement detection Hiba Alawieh (Université Lille 1), Nicolas Wicker (Université Lille 1), Baydaa Al Ayoubi (Université Libanaise), Luc Moulinier (ICube/LBGI) La structure tridimensionnelle des protéines peut prendre différentes conformations qui dépendent des réactions qu’elles subissent. Plusieurs méthodes existent pour étudier ces changements conformationnels, mais une seule, appelée DynDom, est clairement consacrée à la détection de mouvement et elle est dirigé vers la détection biaisée des domaines de mouvement. Nous proposons une méthode alternative fondée sur l’analyse multivariée des données, en pénalisant une méthode d’analyse multidimensionnelle qui s’appelle ’Multidimensional fitting’ (MDF). L’idée consiste à approcher les distances de la première conformation aux distances de la seconde conformation en ne modifiant que la matrice de coordonnées de la première structure. Cette méthode est appliquée sur des protéines différents. Conservative estimates of excursion sets in reliability engineering Dario Azzimonti (IMSV University of Bern), David Ginsbourger (Department of Mathematics and Statistics, University of Bern), Clément Chevalier (University of Zurich), Yann Richet (IRSN) Dans le cadre de la modélisation par processus Gaussiens, nous nous penchons sur un problème d’estimation d’ensemble d’excursion pour une fonction chère à évaluer. L’espérance de Vorob’ev, récemment revisitée dans ce contexte, donne une estimation de l’ensemble d’excursion sous une contrainte de volume égal au volume d’excursion moyen, mais ne permet pas directement de tirer des conclusions en termes d’ensemble de confiance. L’espérance de Vorob’ev est en effet un ensemble de niveau particulier de la probabilité de couverture, c’est à dire d’une probabilité marginale de dépassement de seuil pour le champ Gaussien sous-jacent. Il a été montré récemment en se concentrant plus spécifiquement sur les probabilités jointes d’excursion en plusieurs points qu’il était possible de construire des ensembles de confiance dans le cas des champs Gaussiens Markoviens. De tels ensembles de confiance sont définis comme ensembles de volume maximal parmi les ensembles de probabilité donnée d’être contenu dans l’ensemble d’excursion. Nous étendons ici cette approche au cas non-Markovien et explorons plusieurs pistes pour améliorer le calcul de la probabilité jointe d’excursion en plusieurs points. De plus, nous appliquons cette méthode pour obtenir une estimation conservative de l’ensemble des configurations sûres dans le cadre d’un cas test IRSN en sûreté-criticité nucléaire. Nous introduisons finalement une stratégie de réduction d’incertitude pour l’estimation conservative séquentielle d’un ensemble d’excursion. Etude de cas pour la modélisation de la consommation domestique d’eau chaude Aurore Lomet (CEA), Frédéric Suard (CEA), David Chèze (CEA) 72 Mercredi 3 juin 2015 Ce papier présente une étude sur la modélisation de la consommation d’eau chaude sanitaire (ECS) de résidences équipées de ballons d’eau. L’objectif est de prévoir les besoins journaliers des habitants afin d’anticiper ces besoins dans un système de pilotage visant à réduire les dépenses énergétiques. Dans le cadre de cette étude, les usages réels de plusieurs résidences en France ont été analysés sur une période de deux ans. Les données mesurent en continu le volume journalier consommé, la température à l’entrée et à la sortie du ballon par jour. Cette étude préliminaire a mis en évidence la présence de variations aléatoires, une faible influence saisonnière, une périodicité d’une semaine pour l’ensemble des résidences qui sont cependant distinctes par différents profils journaliers suivant la résidence observée et le jour de la semaine. N’ayant aucune information a priori, nous proposons des modèles de séries temporelles avec une partie auto-régressive dont la forme est basée sur l’analyse de données. Les estimations de ces modèles nécessitent peu de ressources et peuvent être aisément embarquées. Ces modèles sont comparés à l’état de l’art sur l’ensemble des données réelles disponibles et sur des données de consommation de résidences en Suède. Les résultats montrent une nette amélioration de la qualité de la prévision pour les processus auto-régressifs et la généricité de notre approche. 10h50-12h30 - Enseignement et Big Data Le mastère spécialisé big data de Télécom ParisTech Stephan Clémençon (Télécom ParisTech) Les espoirs, comme les craintes, suscitées par le Big Data, la perspective d’usages maîtrisés de megadonnées désormais perçues comme un levier de progrès et d’innovation dans de nombreux secteurs invitent les équipes académiques à definir de nouveaux programmes de formation, interdisciplinaires, associant technique (mathématiques et informatique) et réflexion strategique (aspects légaux, création de valeur économique, cas d’usage) en collaboration étroite avec l’Industrie et les Services. Enseigner la statistique pour l’analyse de mégadonnées Philippe Besse (Université de Toulouse, INSA & IMT, UMR CNRS 5219), Nathalie VillaVialaneix (INRA, UR 875 MIAT, Toulouse), Anne Ruiz-Gazen (Gremaq (TSE)) L’objectif de cette communication est un retour d’expérience sur l’introduction d’un cours et/ou de notions liées à l’analyse des mégadonnées ’Big Data’ et abordant les notions d’exploration, apprentissage, parallélisme dans ce contexte. Plus précisément, nous décrirons deux cours de ce type, que nous avons conçus en collaboration bien que leurs contextes, contenus et organisations diffèrent. Il s’agit, d’une part des modules d’Exploration et Logiciels Statistiques (4ème année) et d’Apprentissage Statistique 5ème année) du cursus Génie Mathématiques et Modélisation de l’INSA de Toulouse et, d’autre part, d’un cours de ’Multivariate data analysis - Big data analytics’ dispensé en 1ère année du master ’Economics and Statistics’ de Toulouse School of Economics. Notre objectif, outre une introduction basique à la problématique enseignée, est de montrer les difficultés, matérielles et pédagogiques, auxquelles se heurte l’enseignant statisticien pour aborder ces concepts et de présenter quelques choix que nous avons faits et la manière dont ils ont été reçus par les étudiants. Un DU d’analyste big data en formation continue courte au niveau L3 Jean-Michel Poggi (Université Paris Descartes), Charles Bouveyron (MAP5, Université Paris Descartes), Georges Hébrail (EDF), François-Xavier Jollois (Université Paris Descartes) Nous présentons le diplôme d’université (DU) Analyste Big Data, délivré depuis cette année par le département STID de l’IUT de l’Université Paris Descartes. D’un volume global de 150h, réservé aux apprenants en formation continue courte, au niveau L3, il constitue une voie de diplomation originale dans ce domaine émergent. Constitué de 5 modules, le DU est articulé autour de deux modules plutôt dédiés aux méthodes informatiques, deux plutôt statistiques qui font la part belle 73 Mercredi 3 juin 2015 aux données de type « open data » et à la fouille des réseaux sociaux, et un dernier module dédié aux enjeux cruciaux concernant la qualité et la confidentialité des données. Il s’agit d’orienter fortement vers la mise en oeuvre des outils liés à ce sujet émergent. Ainsi plus d’une moitié des intervenants sont issus du monde économique et industriel, en collaboration avec une équipe académique mélangeant statisticiens et informaticiens. Systèmes de recommandations : algorithmes de bandits et évaluation expérimentale Jonathan Louëdec (IMT-IRIT / Université Paul Sabatier), Max Chevalier (IRIT / Université Paul Sabatier), Aurélien Garivier (IMT / Université Paul Sabatier), Josiane Mothe (IRIT / Université Paul Sabatier) Les systèmes de recommandation à très grande échelle sont aujourd’hui omniprésents sur internet : ouvrages conseillés à l’achat dans les librairies en ligne, articles recommandés sur les sites d’information, sans parler des cadres publicitaires qui financent l’essentiel de très nombreux sites aujourd’hui... Trouver la meilleure recommandation à faire à un visiteur peut être considéré comme un ’problème de bandits’ : il faut en même temps apprendre ses préférences, et utiliser les interactions déjà passées pour maximiser le nombre de recommandations suivies, tout en restant capable de gérer des flux de données très importants. Nous présentons ici quelques-uns des algorithmes les plus célèbres pour résoudre ce type de problèmes, et notamment l’algorithme UCB (upperconfidence bound), l’algorithme EXP3 (Exponential weights for Exploration and Exploitation) et le Thompson Sampling (du nom de l’inventeur, au début des années trente, de cette méthode d’inspiration bayésienne). Leurs mérites respectifs sont soulignés et discutés, avec la présentation des résultats théoriques les plus importants les concernant. En outre, nous montrerons comment expérimenter l’efficacité de ces méthodes pour la recommandation : ceci pose une difficulté particulière, car des jeux de données statiques rendent peu aisée l’évaluation de méthodes vouées à servir lors d’interactions avec des utilisateurs. Nous montrerons en particulier comment mettre en place des expériences sur deux jeux de données célèbres : movielens et jester. Pourquoi et comment enseigner l’analyse de données massives (Big Data) Chloé Friguet (IUT de Vannes), Frédérique Letué (LJK), Vincent Vandewalle (IUT de Roubaix) Les dernières années ont connu une grande effervescence autour du « big data » ou données massives. Celles-ci soulèvent de nouveaux enjeux scientifiques autour des problèmes de stockage des données (volume des données massives), de leur hétérogénéité (variété) et de leur traitement en temps réel (vélocité). Ces enjeux relèvent de l’informatique, mais aussi de la statistique. Face à ce défi, de nombreux établissements proposent aujourd’hui des modules, voire des formations entières dédiées au “big data”, la demande en spécialistes de ce nouveau domaine étant très forte. La table ronde proposée abordera les enjeux pédagogiques liés à ces nouvelles formations. 10h50-12h30 - Données fonctionnelles Estimation robuste de courbes moyennes de consommations électriques par sondage en population finie Anne De Moliner (EDF R&D), Hervé Cardot (Université de Bourgogne), Camelia Goga (Université de Bourgogne) De nombreuses études menées à EDF RetD se basent sur l’analyse de courbes de consommations électriques moyennes pour différents groupes de clients. Ces courbes moyennes sont estimées à l’aide de panels de milliers de courbes individuelles, sélectionnées selon un plan de sondage, et mesurées au pas de temps demi-horaire. Cependant, du fait de la forte asymétrie des consommations électriques, ces échantillons contiennent fréquemment des individus atypiques, qui peuvent avoir à eux seuls un impact important sur les estimations, en particulier lorsque l’on travaille sur 74 Mercredi 3 juin 2015 de petites sous-populations. Afin de limiter l’influence de ces individus atypiques, nous avons testé quatre estimateurs basés sur le concept de biais conditionnel permettant d’adapter les méthodes d’estimation robuste en sondages (Beaumont et al (2013)) au cadre des données fonctionnelles. Pour cela, on propose soit d’utiliser la notion de profondeur afin de réaliser la troncature des influences de manière cohérente entre les différents instants, soit de se ramener au cas de variables non corrélées par une Analyse en Composantes Principales Sphérique (Locantore (1999)). Ces estimateurs sont comparés entre eux et à des estimateurs non robustes sur des données réelles. Sur le calcul d’une moyenne de surfaces fonctionnelles Benjamin Charlier (I3M -Université de Montpellier), Nicolas Charon (Center for Imaging Sciences, Johns Hopkins University), Alain Trouvé (Centre de Mathématiques et Leurs Applications, École Normale Supérieure de Cachan) On appelle surface fonctionnelle une surface géométrique sur laquelle est définie une fonction à valeurs réelles. Ce type de données, très courant en imagerie médicale, reste complexe à étudier d’un point de vue statistique. Pour analyser un jeu de données composé de surfaces fonctionnelles, il est nécessaire de modéliser et de quantifier les variations géométriques et fonctionnelles de manières jointes. Dans cet exposé, nous décrivons un cadre mathématique et numérique pour calculer une moyenne de surfaces fonctionnelles à la manière des modèles statistiques de déformations. Le cadre mathématique permet de montrer que les formulations variationnelles proposées pour résoudre ce problème possèdent bien des solutions. Une méthode de résolution algorithmique est implémentée dans le logiciel fshapesTk qui est disponible en ligne. Régression linéaire fonctionnelle bayésienne explicable Paul-Marie Grollemund (Université de Montpellier), Christophe Abraham (UMR Mistea, Montpellier SupAgro - INRA), Meïli Baragatti (UMR Mistea, Montpellier SupAgro - INRA), Pierre Pudlo (I3M, UMR CNRS 5149, Université de Montpellier) Nous nous plaçons dans le cadre d’un modèle de régression linéaire où la variable à expliquer est réelle et la covariable est fonctionnelle. Nous proposons un modèle bayésien basé sur la projection de ce paramètre dans une base d’histogrammes parcimonieuse et adaptative. Afin d’obtenir une estimation de la fonction coefficient explicable, nous sommes aussi amenés à introduire une nouvelle fonction de coût. Certaines grandeurs du modèle proposé étant analytiquement intractables, il est nécessaire en pratique d’utiliser des stratégies MCMC pour les déterminer. La structure des estimations obtenues facilite, autant qu’il soit possible, leur interprétation. Modélisation non paramétrique de la régression pour variables explicatives fonctionnelles avec autocorrélation des erreurs Camille Ternynck (Masdar Institute - iWater), Sophie Dabo-Niang (Université de Lille), Serge Guillas (University College London) Dans cette présentation, nous introduisons une nouvelle approche basée sur l’estimateur à noyau pour estimer le modèle de régression non linéaire en présence de variables réponses réelles et de variables explicatives à valeurs dans un espace fonctionnel. Par ailleurs, le processus résiduel est considéré stationnaire et autocorrélé. La procédure consiste à pré-blanchir la variable dépendante en se basant sur l’autocorrélation estimée. L’idée principale est de transformer le modèle de régression original de sorte que le terme d’erreur du modèle transformé devienne non corrélé. Nous établissons la convergence de l’estimateur de la régression ainsi que sa normalité asymptotique en considérant de variables explicatives a-mélangeantes, le cas le plus général de variables faiblement dépendantes. Bien que, dans la littérature sur les méthodes à noyau, il est généralement préférable d’ignorer entièrement la structure de corrélation, nous montrons ici que la fonction d’autocorrélation du processus des erreurs apporte de l’information utile permettant d’améliorer l’estimation de la fonction de régression. Nous appliquons l’estimateur proposé à des données simulées ainsi qu’à des données de concentration en ozone dans l’air. Lorsque le processus des erreurs présente une 75 Mercredi 3 juin 2015 forte corrélation, nous constatons que notre procédure permet d’améliorer les résultats obtenus avec l’estimateur classique. Classification des hydrogrammes avec des outils de l’analyse de données fonctionnelles Camille Ternynck (Masdar Institute - iWater), Mohammed Ali Ben Alaya (Institut National de la Recherche Scientifique), Fateh Chebana (Institut National de la Recherche Scientifique), Sophie Dabo-Niang (Université de Lille), Taha B.M.J. Ouarda (Masdar Institute - iWater) La classification des hydrogrammes de débit joue un rôle important dans un grand nombre d’études hydrologiques et hydrauliques. Elle permet, par exemple, de prendre des décisions quant à l’implémentation de structures hydrauliques, de caractériser différents types de crues induisant une meilleure compréhension des comportements extrêmes des débits. Les méthodes employées pour classifier les hydrogrammes sont généralement basées sur un nombre fini de caractéristiques de l’hydrogramme, n’incluant pas toute l’information disponible contenue dans la série de données. Dans ce travail, nous adaptons et appliquons trois méthodes statistiques de classification pour données fonctionnelles pour l’analyse des hydrogrammes de débit. La classification fonctionnelle emploie directement toutes les données de la série étudiée et utilise toute l’information disponible sur la forme, le pic, la date, etc. Les méthodes sont appliquées aux données provenant de la province du Québec, Canada. Nous montrons que les classes obtenues en utilisant la méthodologie fonctionnelle présentent de l’intérêt et peuvent mener à une meilleure représentation que celles obtenues en utilisant une méthode multidimensionnelle hiérarchique usuelle. L’approche fonctionnelle présente l’avantage d’utiliser toute l’information contenue dans l’hydrogramme, réduisant ainsi la subjectivité inhérente à l’analyse multidimensionnelle sur le type et le nombre de caractéristiques à utiliser, et par conséquent diminuant l’incertitude associée. 10h50-12h30 - Modèles de mélange Nonparametric mixture models with conditionally independent multivariate component densities Lynh V.T.Hoang (Université d’Orleans, France), Didier Chauveau (Université d’Orleans, France) Les mélanges non-paramétriques font l’objet de nombreux travaux récents, portants sur la détermination de modèles identifiables ainsi que de méthodes d’estimation souvent fondées sur le principe de l’algorithme EM. Ces modèles sont plus flexibles que les mélanges paramétriques car les densités des composantes y sont semi- ou totalement non-paramétriques. Dans le cas d’observations multivariées, l’hypothèse communément posée afin d’assurer l’identifiabilité consiste à admettre que les coordonnées sont indépendantes, conditionnellement à la sous-population de provenance des individus. Or dans de nombreux cas cette hypothèse n’est pas raisonnable. Nous proposons ici un nouveau modèle de mélange multivarié, dans lequel les densités des composantes sont composées de blocs indépendants conditionnellement à la sous-population, mais eux-mêmes multivariés et non-paramétriques. Ce modèle est identifiable, et nous définissons un algorithme de type ’EM non paramétrique’ incluant une stratégie de choix de fenêtres, afin d’en estimer les paramètres. Les performances de ce modèle et cet algorithme sont illustrés au travers de simulations et d’une étude sur un jeu de données réel pour un objectif de classification. Classification de données binaires via l’introduction de mesures de similarités dans les modèles de mélange Seydou Nourou Sylla (Inria- IRD- UGB), Stephane GIrard (Inria Grenoble), Abdou Ka Diongue (UGB), Aldiouma Diallo (IRD), Cheikh Sokhna (IRD) Les évaluations dans le domaine sanitaire font de plus en plus appel aux données relatives aux causes de décès provenant des autopsies verbales dans les pays ne tenant pas de registres d’état 76 Mercredi 3 juin 2015 civil ou disposant de registres incomplets. La méthode d’autopsie verbale permet de disposer des causes probables de décès. Cette communication présente une méthode de classification sur des données binaires de diagnostics par autopsie verbale dans les zones de Niakhar, Bandafassi et Mlomp (Sénégal). Cette méthode combine l’utilisation de mesures de similarités avec une méthode de classification récente basée sur l’introduction d’un noyau dans le modèle de mélange gaussien. Transformation des données et comparaison de modèles pour la classification des données RNA-seq Mélina Gallopin (Université Paris Sud 11, Orsay), Andrea Rau (INRA, Jouy-en-Josas), Gilles Celeux (Inria, Saclay Ile-de-France), Florence Jaffrézic (INRA, Jouy-en-Josas) Les données d’expression issues du séquençage haut-débit RNAseq sont des données de comptage très hétérogènes. Il est naturel de les représenter par des modèles basés sur des lois discrètes comme la loi de Poisson ou la loi binomiale négative. Mais des transformations simples des données peuvent permettre de se ramener à des modèles plus répandus fondés sur des lois gaussiennes. Nous montrons comment comparer objectivement les vraisemblances de ces modèles travaillant sur des données différentes. Nous nous focalisons pour mener ces comparaisons sur des problèmes de classification où les mélanges de Poisson et gaussiens peuvent être mis en compétition. Estimation de l’apparentement entre plusieurs individus à l’aide d’un algorithme EM Fabien Laporte (INRA, UMR 0320 / UMR 8120), Alain Charcosset (INRA, UMR 0320 / UMR 8120 Génétique Quantitative et Evolution), Tristan Mary-Huard (INRA/AgroParisTech, UMR 518, 75231, Paris, France) L’apparentement entre deux individus est une distribution de probabilités liée au nombre d’allèles hérités d’un ou plusieurs ancêtres communs. Ce concept a de multiple applications en génétique, dont l’étude de la génétique d’association, Yu (2006) ou la médecine légale. Plus récemment, la matrice d’apparentements a aussi été utilisée en prédiction génomique. Dans cette présentation, nous nous focaliserons sur l’estimation proposée par Milligan (2002) qui modélise le problème d’estimation à l’aide d’un modèle de mélange. Dans ce modèle, les variables observées sont 4 allèles qui définissent un mode IBS (Identity by State). Les variables cachées sont les origines ancestrales des allèles, qui définissent un mode IBD (Identity by Descent) du marqueur. L’objectif est d’estimer les proportions des modes IBD sur l’ensemble des marqueurs. Milligan suppose que les marqueurs sont multialléliques (plus de 3 allèles). En considérant que les marqueurs bialléliques sont largement utilisés, et que l’information des marqueurs peut être phasée (i.e. l’origine du gamète de l’allèle est connue), nous étendons l’approche à ces hypothèses. Nous l’étendons aussi au cas où les individus sont originaires de populations différentes, ce qui n’est pas pris en compte par la plupart des modèles d’estimation de l’apparentement. Cette méthode d’estimation sera disponible dans un package R. Les temps de calcul et les performances de ce dernier sont illustrés sur des données simulées. Choix de modèles quand la vraisemblance est incalculable Christine Keribin (Université Paris Sud, Laboratoire de Mathématiques d’Orsay) Les critères pénalisés comme le critère BIC sont des méthodes fréquemment utilisées pour la sélection de modèles et qui nécessitent le calcul de la vraisemblance. Malheureusement, il peut arriver que la vraisemblance ne soit pas numériquement calculable, comme c’est le cas par exemple pour le modèle des blocs latents (LBM). LBM est un modèle de mélange pour la classification croisée (co-clustering), permettant la classification non supervisée simultanée des lignes et colonnes de grandes matrices de données. A cause de la structure de dépendance complexe entre les variables d’appartenance à une classe en ligne et en colonne conditionnellement aux observations, il est nécessaire d’opérer des approximations pour calculer l’étape d’estimation de l’algorithme EM, 77 Mercredi 3 juin 2015 conduisant ainsi à un minorant de la vraisemblance maximisée. Pour la même raison, l’approximation asymptotique usuelle pour définir le critère BIC doit être remise en question. D’un autre côté, le critère de vraisemblance complète intégrée (ICL) peut être calculé de façon exacte pour LBM, mais nécessite d’étudier l’influence d’hyper-paramètres. Les liens entre les deux critères sont analysés et une comparaison avec l’inférence bayésienne est discutée. 11h50-12h30 - The challenge of communicating about complicated statistical models - Session sponsored by ENBIS Skeletons, flying carpets and ridge gymnastic. Visualizing models with multiple X and Y Christian Ritter (Ritter and Danielson Consultin) C’est une frustration perpétuelle pour les statisticiens et des scientifiques : Des modèles complexes avec des multiples entrées et sorties sont difficiles à visualiser ; et communiquer par rapport à la signification statistique et l’interprétation scientifique n’est pas du tout évident. Ici nous étudions la transition d’une visualisation qui montre l’effet de plusieurs variables X sur une seule variable de réponse Y vers deux classes de graphiques à deux réponses, les squelettes et les tapis volants. Ensuite nous montrons comment l’incertitude par rapport aux données et modèles peut être intégrée. 78 Jeudi 4 juin 2015 09h15-10h15 - Andrea Montanari Computational barriers to statistical inference Andrea Montanari (Stanford University) Classical statistics aims at developing optimal procedures for estimating probabilistic models from data. The fundamental limit to this procedures is of information-theoretic nature. Simply, the data do not contain sufficient information to estimate the unknown object. Modern applications have brought into the limelight a certain number of statistical problems whereby the fundamental bottleneck is not statistical, but computational. I will discuss two such problems arising from graph (or matrix) estimation and an interesting line of attack. 10h20-11h20 - François Beck Entre invisible et indicible : comment aborder des sujets sensibles telles que les usages de drogues ou la santé mentale dans les enquêtes en population générale ? François Beck (INPES) Entre invisible et indicible : comment aborder des sujets sensibles telles que les usages de drogues ou la santé mentale dans les enquêtes en population générale ? 10h20-11h20 - Fabrizio Ruggeri On Bayesian estimation of thermal diffusivity in materials Fabrizio Ruggeri (IMATI) Two approaches are presented to estimate the thermal conductivity or diffusivity of a homogeneous material from the temperature evolution acquired in few internal points. Temperature evolution is described by the classical one-dimensional heat equation, in which the thermal conductivity (or diffusivity) is one of the coefficients. In the first approach noisy measurements lead to a partial differential equation with stochastic coefficients and, after discretisation in time and space, to a stochastic differential equation. Euler approximation at sampled points leads to a likelihood function, used in the Bayesian estimation of the thermal conductivity under different prior densities. An approach for generating latent observations over time in points where the temperature is not acquired is also included. Finally, the methodology is experimentally validated, considering a heated piece of polymethyl methacrylate (PMMA) with temperature measurements available in few points of the material and acquired at high frequency. In the second approach a Bayesian setting is developed to infer unknown parameters that appear into initial-boundary value problems for parabolic partial differential equations. The realistic assumption that the boundary data are noisy is introduced, for a given prescribed initial condition. We show how to derive the global likelihood function for the forward problem, given some measurements of the solution field subject to Gaussian noise. Given Gaussian priors for the time-dependent Dirichlet boundary values, we marginalize out analytically the global likelihood using the linearity of the discretized solution. This approach is fully implemented in the case of the heat equation where the thermal diffusivity is the unknown parameter. We assume that the thermal diffusivity parameter can be modeled a priori through a lognormal random variable or by means of a space-dependent stationary lognormal random field. Synthetic data are used to carry out the inference. We exploit the concentration of the posterior distribution of the thermal diffusivity, using the Laplace approximation and therefore avoiding costly MCMC computations. Expected information gains and predictive posterior densities for observable quantities are numerically estimated for different experimental setups. 79 Jeudi 4 juin 2015 11h40-12h40 - Statistique pour le climat Estimation of multivariate critical layers : applications to rainfall data Elena Di Bernardino (CNAM), Didier Rullière (ISFA, Lyon 1) Dans un environnement multivarié, le calcul de zones critiques et de périodes de retour associées est un problème difficile. Un cadre théorique possible pour le calcul de ces périodes de retour est essentiellement basé sur la notion de Copule et sur les ensembles de niveau d’une distribution de probabilité multivariée. Dans ce travail, nous proposons une méthodologie rapide et paramétrique pour estimer les zones critiques multivariées de distributions et leurs périodes de retour associées. Le modèle est basé sur des transformations des distributions marginales et sur des transformations de la structure de dépendance au sein de la classe des copules Archimédiennes. La méthodologie est illustrée sur des données réelles de précipitation. Sur ce jeu de données, nous développons également un modèle imbriqué transformé. A statistical analysis of trends for warm and cold spells by means of counts Jesper Rydén (Université d’Uppsala) Nous nous intéressons à l’analyse des valeur extrêmes dans la climatologie ; plus précisément, les périodes de températures exceptionnellement chauds ou froid, c’est-à-dire, des hot spells (en cas des temperatures élevées). Ici, on regarde le nombre anuel des spells en Uppsala, Suéde. Ces nombres sont vraiment des nombres entiers. Donc, la théorie et la méthodologie statistique de la régression Poisson est approprié. On examine un trend possible pour la période 1840–2012. Le trend pour des spells chauds est trouvé positif, plus large que celui des chauds froids, et statistiquement significatif (α = 0.05). La méthodologie peut être utilisée pour l’analyse des autres indicateurs climatiques. Estimation par maximum de vraisemblance par paires de champs gaussiens multivariés spatio-temporels. Application à une fonction de covariance entièrement non séparable Marc Bourotte (INRA), Denis Allard (INRA) Lors de l’analyse de données spatio-temporelles, le statisticien cherche à modéliser les liens directs et croisés entre le temps, l’espace et les différentes variables dans un but d’estimation, de prédiction, de simulation. Dans un cadre gaussien, cela revient à proposer des modèles pertinents de covariance qui assurent à toute matrice de covariance issue de ce modèle d’être semi-définie positive. On construit facilement des modèles valides en utilisant la propriété de séparabilité. Dans ce cas, une matrice de covariance issue de ce processus est simplement le produit de Kronecker d’une matrice de covariance temporelle, d’une matrice de covariance spatiale et une matrice de corrélation. Cependant c’est une hypothèse qui peut être trop simpliste pour certains jeux de données comme les données climatiques. Nous proposons une famille paramétrique de fonctions de covariances croisées entièrement non séparables pour les champs aléatoires multivariés spatiotemporels. Néanmoins, proposer un modèle valide de covariance croisée n’est pas la seule difficulté. En effet, estimer l’ensemble des paramètres de la fonction de covariance croisée est une tâche importante et délicate. L’approche par maximum de vraisemblance classique fonctionne bien mais devient rapidement inutilisable lorsque le nombre d’observations dépasse quelques milliers de données. Dans ce cas, une stratégie consiste à maximiser la vraisemblance composite et notamment la vraisemblance par paires. Dans ce travail, nous utilisons la vraisemblance par paires pour inférer les paramètres d’une fonction de covariance entièrement non séparable. Nous présenterons les difficultés rencontrées dans la procédure d’estimation et les solutions proposées. 80 Jeudi 4 juin 2015 11h40-12h40 - Plan d’expériences 2 Plans en blocs ’pairwise’ partiellement équilibrés résolvables et plans numériques ’Space filling’ associés Imane Rezgui (Departement des Mathematiques,), Zebida Gheribi-Aoulmi (Departement des Mathematiques,) Les plans d’expérience numériques continuent toujours à susciter la curiosité des scientifiques dans divers domaines (Médecine : Electrophorèse capillaire (Lee et al. (1997)), Informatique : la programmation multi-objectifs (Leung et Wang (2000)). etc...). Parmi les différentes méthodes de construction de ces plans, les plans classiques qui satisfont certaines propriétés combinatoires peuvent être utilisés comme plans de base (par exemple Fang et al. (2004) et Fang et al. (2005)). Dans notre papier, une méthode de construction à partir de schémas d’association à m classes associées est décrite pour obtenir une série de plans ’Pairwise’ Partiellement Equilibrés résolvables rendant ainsi leur construction très aisée. L’expression des paramètres de ces plans est donnée. L’application de l’algorithme ’RBIBD-UD’ Fang et al. (2006) permet l’obtention des plans numériques ’Space filling ’ associés. Une illustration de la méthode de construction est effectuée, en considérant un schéma d’association rectangulaire. Cages and mice Nicolas Wicker (Université Lille 1) Un plan d’expérience est étudié où des souris doivent être placées dans des cages en respectant certaines contraintes. Trois méthodes différentes sont présentées pour résoudre deux problèmes différents. Dans le premier, les souris sont placées dans des cages avec la contrainte que les voisins doivent être évités. Dans le second, une nouvelle contrainte oblige les souris à changer de côté à chaque étape de telle sorte qu’une moitié des souris ne rencontre que l’autre moitié des souris. Une méthode est présentée pour le premier problème et deux pour le second, dont l’une exploite les corps finis d’une manière simple et semblable à ce qui se fait pour les carrés latins mutuellement orthogonaux. Méthodologie des surfaces de réponse pour données fonctionnelles Angelina Roche (Université Paris Descartes) La méthodologie des surfaces de réponse est aujourd’hui une méthode classique utilisée en ingénierie pour optimiser une réponse réelle (par exemple un rendement ou la probabilité de défaillance d’un matériau) dépendant de plusieurs covariables. Issue des travaux de Box et Wilson (1951), elle a depuis fait l’objet d’un intérêt constant, motivé par la variété des applications possibles. Nous proposons dans cette contribution une adaptation de cette méthodologie au cadre fonctionnel c’est-à-dire que nous cherchons à optimiser une variable d’intérêt dépendant d’une ou plusieurs fonctions. Nous illustrerons le fonctionnement de la méthode sur des données simulées ainsi que sur une application à la sûreté nucléaire. 11h40-12h40 - Graphes Inférence de structure de modèle graphique à l’aide d’arbres couvrants Loïc Schwaller (AgroParisTech/INRA), Stéphane Robin (AgroParisTech/INRA) On se propose d’apprendre la structure d’un modèle graphique non-orienté (aussi appelé champ aléatoire de Markov) en calculant la probabilité d’apparition a posteriori de certaines structures locales telles que les arêtes. Cette tâche serait impossible à réaliser de manière exacte sans restreindre l’espace des graphes explorés. Nous nous limitons ici à celui des arbres couvrants. Les distributions a priori sur les structures et les distributions sont choisies de telle manière à permettre une inférence rapide et exacte des probabilités a posteriori sur les arêtes, l’intégration sur 81 Jeudi 4 juin 2015 l’espace des arbres étant réalisée à l’aide d’un résultat d’algèbre appelé théorème Arbre-Matrice. Enfin, on montre que l’hypothèse d’arborescence n’empêche pas notre approche d’exhiber de bon résultats sur des données simulées selon un modèle non-arborescent ainsi que sur des données de cytométrie de flux. Détection de l’indépendance locale entre neurones Christine Tuleau-Malot (Lab. Jean-Alexandre Dieudonnée, Univ. Nice - Sophia Antipolis), Patricia Reynaud-Bouret (Lab. Jean-Alexandre Dieudonné, Univ. Nice - Sophia Antipolis), Vincent Rivoirard (CEREMADE, Univ. Paris Dauphine), Thomas Bessaïh (NPA, Univ. Pierre et Marie Curie), Régis Lambert (NPA, Univ. Pierre et Marie Curie), Nathalie Leresche (NPA, Univ. Pierre et Marie Curie), Michael Quiquempoix (NPA, Univ. Pierre et Marie Curie) Dans le domaine des Neurosciences, les avancées technologiques récentes ont permis d’obtenir une meilleure compréhension de la dynamique de l’activité neuronale. Ainsi, la capacité d’enregistrer l’activité de plusieurs neurones simultanément a permis de mettre en lumière un phénomène de synchronisation de l’activité neuronale, notamment entre des paires de neurones. Cette synchronisation a d’abord été déterminée d’un point de vue pratique, puis d’un point de vue théorique, notamment par la méthode des « unitary events » développée par Grün et al. Par ailleurs les enregistrements simultanés ont également permis de montrer, d’un point de vue pratique, qu’en réponse à une stimulation, seulement un groupe de neurones intervient et non l’ensemble des neurones. Ainsi, il existe une connectivité fonctionnelle qui diffère de la connectivité biologique. C’est à cette connectivité fonctionnelle que nous nous sommes intéressés. Ainsi, nous avons proposé une procédure statistique faisant intervenir une modélisation par un processus de Hawkes et un critère d’estimation de type Lasso. Cette procédure permet de déterminer des graphes d’indépendance locale qui ne sont rien d’autres que les graphes de connectivité fonctionnelle recherchés. Modelling time evolving interactions in networks through a non stationary extension of stochastic block models Marco Corneli (Université Paris 1), Pierre Latouche (Université Paris 1), Fabrice Rossi (Université Paris 1) Le modèle à blocs stochastiques (SBM) décrit les interactions entre les sommets d’un graphe selon une approche probabiliste, basée sur des classes latentes. SBM fait l’hypothèse implicite que le graphe est stationnaire. Par conséquence, les interactions entre deux classes sont supposées avoir la même intensité pendant toute la période d’activité. Pour relaxer l’hypothèse de stationnarité, nous proposons une partition de l’horizon temporel en sous intervalles disjoints, chacun de même longueur. Ensuite, nous proposons une extension de SBM qui nous permet de classer en même temps les sommets du graphe et les intervalles de temps où les interactions ont lieu. Le nombre de classes latentes (K pour les sommets, D pour les intervalles de temps) est enfin obtenu à travers la maximisation de la vraisemblance intégrée des données complétées (ICL exacte). Après avoir testé le modèle sur des données simulées, nous traitons un cas réel. Pendant une journée, les interactions parmi les participants de la conférence HCM Hypertext (Turin, 29 Juin - 1er Juillet 2009) ont été traitées. Notre méthodologie nous a permis d’obtenir une classifications intéressante des 24 heures : les moments de rencontre tels que les pauses café ou buffets ont bien été détectés. La complexité de l’algorithme de recherche, linéaire en fonction du nombre initial de clusters (Kmax et Dmax respectivement), nous oriente vers l’utilisation d’instruments avancés de classification, pour réduire le nombre attendu de classes latentes et ainsi pouvoir utiliser le modèle pour des réseaux de grand dimension. 82 Jeudi 4 juin 2015 11h40-12h40 - Statistique d’enquête L’algorithme CURIOS pour l’optimisation du plan de sondage en fonction de la non-réponse Thomas Merly-Alpa (INSEE), Antoine Rebecq (INSEE) La non-réponse est un problème épineux en sondages, car la théorie a été construite sur l’hypothèse d’une participation totale de l’échantillon à l’enquête. Or les mécanismes de réponse sont mal connus, et les estimateurs corrigés de la non-réponse peuvent présenter de larges biais résiduels. Usuellement, la non-réponse est traitée en fin de collecte, en utilisant des techniques telles que le calage. Nous pensons qu’il est souhaitables de tenir compte des mécanismes de réponse de la population enquêtée dès la phase d’échantillonnage. C’est pourquoi nous présentons ici l’algorithme CURIOS (Curios Uses Representativity Indicators to Optimize Samples) qui vise à construire un meilleur échantillon en résolvant un problème d’optimisation. Celui-ci consiste en un compromis entre un indicateur de dispersion minimale des poids corrigés de la non-réponse, et un indicateur de similarité avec une allocation initiale, qu’on assimilera ici avec l’allocation de Neyman avec prise en compte de la non-réponse. Nous donnons ici une méthode basée sur l’étude de la variance d’un estimateur du total d’une variable d’enquête, méthode démontrée analytiquement sous de bonnes conditions, i.e dans le cas d’un problème classique rencontré par les instituts nationaux de statistique. Nous indiquons également une méthode numérique empirique permettant de tester les allocations obtenues sur différents scénarios. Enfin, nous réaliserons de telles simulations dans le cadre très simple d’un sondage stratifié et d’une non-réponse uniforme par strate afin d’étudier les résultats obtenus par l’algorithme. Comment enquêter les familles sans domicile ? L’expérience de l’enquête ENFAMS Carme Caum Julio (Observatoire du Samusocial), Candy Jangal (Observatoire du Samusocial) Menée en 2013 par l’Observatoire du Samusocial de Paris, l’enquête ENFAMS (enfants et familles sans logement) a interrogé 801 familles sans logement hébergées en Ile-de-France en hôtel social ou en centre d’hébergement et parlant au moins une des 17 langues de l’enquête. Connaitre davantage une population très peu étudiée mais pourtant en forte augmentation, constituait le principal objectif de l’enquête. Celle-ci se déroulait en deux temps : une enquête sociodémographique par questionnaire administrée par un binôme enquêteur/ psychologue et une enquête épidémiologique réalisée par des infirmières à partir d’un questionnaire et de relevés anthropométriques. Si l’enquête a rencontré des obstacles communs des enquêtes auprès les sans domicile, population dite « difficile à atteindre », elle a également été confrontée à des imprévus. Le recensement des structures d’hébergement, voie d’accès vers les familles, ainsi que la sensibilisation à l’enquête des gérants de structures et des familles, ont constitué des obstacles solides dès les premières étapes de l’enquête. De plus, plusieurs intervenants (enquêteurs, infirmières, parent et enfant) étaient associés selon un certains nombre de contraintes. Des scénarios variés ont dû être gérés, mobilisant une équipe pluridisciplinaire réactive. Les temps de transport et d’enquêtes longs et imprévisibles ont contraint de réduire le nombre de familles à enquêter. En dépit des difficultés rencontrées, l’enquête des familles sans domicile hébergées est possible, dès lors que ses spécificités sont intégrées au dispositif d’enquête et que l’équipe reste proche du terrain. L’essaimage statistique, une généralisation du Bootstrap Alain Morineau (DEENOV), Thi Minh Thao Huynh (MODULAD), Roland Marion-Gallois (MEDTRONIC) L’essaimage statistique permet de créer, à partir d’un échantillon observé appelé source, des pseudo-échantillons appelés essaims (Journées Statistiques, Toulouse, 2013). La procédure transfère dans tout essaim les principales propriétés statistiques de la source : fréquences, moyennes, dispersions et liaisons entre les variables. Si la source est une image fidèle de la population, tout 83 Jeudi 4 juin 2015 essaim l’est également et peut jouer le rôle d’un nouvel échantillon. Alors que les répliques Bootstrap d’un échantillon-source ont nécessairement la taille de la source, les essaims peuvent avoir des tailles beaucoup plus grandes. Dans ce sens l’essaimage généralise le Bootstrap, en particulier pour l’étude des variabilités et pour le calcul des intervalles de confiance : on sait maintenant évaluer leur amplitude en fonction de la taille de l’échantillon. On distingue deux méthodes pour construire des intervalles de confiance par essaimage. L’une est plus couteuse que l’autre en calculs. On compare les résultats. On montre que l’essaimage conduit à des intervalles percentiles en tout point comparables aux intervalles percentiles du Bootstrap (amplitude et bornes) dans le cas particulier où les deux méthodes sont concurrentes, c’est-à-dire si on se restreint à des essaims ayant tous la taille de la source. D’une façon plus générale on montre comment la qualité des intervalles de confiance par essaimage varie en fonction de la qualité de la source représentant la population, au même titre que pour les intervalles Bootstrap. Dans le cas plus général des intervalles par essaimage, on sait évaluer comment leur amplitude diminue quand la taille de l’essaim augmente. 11h40-12h40 - Modèles mixtes Estimation de l’héritabilité dans les modèles linéaires mixtes parcimonieux Anna Bonnet (AgroParisTech/INRA), Elisabeth Gassiat (Université Paris Sud), Céline LévyLeduc (AgroParisTech) L’héritabilité d’un caractère biologique est définie comme la part de sa variation au sein d’une population qui est causée par des facteurs génétiques. Pour de nombreux caractères complexes, il existe une grande différence entre la variation génétique expliquée par les études de population et celle expliquée par les variants spécifiques révélés grâce aux études d’association (GWAS). Nous proposons un estimateur de l’héritabilité dans les modèles linéaires mixtes parcimonieux en grande dimension, dont nous avons étudié les propriétés théoriques. Nous mettons en évidence que lorsque la taille des effets aléatoires est trop grande par rapport au nombre d’observations, nous ne pouvons fournir une estimation précise pour l’héritabilité. Malheureusement, la taille typique des données que nous étudions vérifie justement la condition N « n, par exemple n=200 et N=500000. La deuxième partie de notre travail a été de proposer une méthode de sélection de variables afin de réduire la taille des effets aléatoires, dans le but d’améliorer la précision de l’estimation de l’héritabilité. Notre méthode fournit également un intervalle de confiance grâce une méthode de bootstrap non paramétrique adaptée à des observations corrélées. Nous avons appliqué notre méthode sur des données sur le cerveau : il s’agit d’environ 2000 adolescents qui ont été génotypés et dont le volume des différentes régions du cerveau a été mesuré grâce à des IRM. Nous trouvons des résultats cohérents avec ceux trouvés avec des méthodes sans sélection de variable, mais nous avons des intervalles de confiance plus petits. Estimation dans les modèles mixtes fonctionnels en présence de déformations individuelles non-linéaires Gerda Claeskens (KU Leuven), Madison Giacofci (KU Leuven), Gijbels Irène (KU Leuven), Jansen Maarten (Université Libre de Bruxelles) Nous nous intéressons à l’étude de données fonctionnelles, mesurées de manière répétée sur un ensemble d’individus. Dans un contexte multi-individus, les courbes individuelles sont souvent mesurées sur une discrétisation propre, non régulière, et il est courant d’observer des variations inter-individuelles aussi bien en amplitude (i.e. taille des principales caractéristiques des courbes) qu’en phase (i.e. timing des ces caractéristiques). Il existe une vaste littérature concernant l’étude séparée de chacun de ces types de variations, cependant, leur prise en compte simultanée reste un sujet relativement peu abordé. Nous proposons une nouvelle procédure basée sur une modélisation fonctionnelle mixte des signaux, intégrant des effets aléatoires fonctionnels modélisant les 84 Jeudi 4 juin 2015 variations en amplitude autour d’un effet fixe fonctionnel moyen, et des fonctions de déformations (warping) aléatoires individuelles modélisant les variations inter-individuelles en phase. Notre approche consiste alors en une décomposition des effets fixes et aléatoires dans une base d’ondelettes, permettant la considération de signaux spatialement inhomogènes, tandis que les déformations individuelles sont interpolées à l’aide de splines cubiques monotones d’Hermite, offrant une relation directe entre leurs noeuds et les caractéristiques des courbes étudiées. L’estimation des paramètres du modèle est alors réalisée par maximum de vraisemblance, à l’aide de l’algorithme MCEM, une variante de l’algorithme EM, consistant à remplacer l’étape E, dont le calcul est rendu difficile par la non-linéarité des fonctions de déformations, par une approximation de Monte-Carlo. Le comportement général de notre procédure est étudié sur une vaste étude de simulation et nous illustrons notre méthode sur un jeu de données réelles. Estimation paramétrique pour des modèles mixtes complexes à l’aide de méta-modèles Pierre Barbillon (AgroParisTech), Célia Barthélémy (Inria Saclay), Adeline Leclercq-Samson (Université Joseph Fourier, Grenoble) Les processus biologiques sont très souvent mesurés de manière répétée sur un même sujet. Cela donne naturellement lieu à des données longitudinales. Ces données sont généralement analysées grâce à des modèles mixtes qui permettent de discriminer la variabilité inter-sujet de la variabilité intra-sujet. Les fonctions de régression utilisées dans ces modèles intègrent des mécanismes biologiques complexes qui peuvent être des solutions d’équations différentielles ordinaires multidimensionnelles ou d’équations aux dérivées partielles. Lorsque ces solutions n’ont pas de forme analytique, on fait appel à des méthodes numériques qui se révèlent très coûteuses en temps de calcul. Les méthodes statistiques couramment utilisées pour estimer les paramètres des modèles mixtes se fondent sur l’utilisation d’une version stochastique de l’algorithme EM (SAEM) que l’on couple avec un algorithme MCMC. Cet algorithme demande un grand nombre d’évaluations des fonctions de régression du modèle ce qui n’est pas praticable si ces fonctions sont coûteuses. C’est pourquoi nous aurons recours à un méta-modèle fondé sur une approximation par processus gaussien des fonctions coûteuses. Nous intégrerons la nouvelle source d’incertitude due à cette approximation dans ce que nous appellerons un méta-modèle mixte. Nous établirons le lien entre la qualité d’approximation du méta-modèle et la proximité entre les estimations obtenues dans le modèle mixte exact et dans le “méta-modèle” mixte. Des simulations numériques seront également proposées pour illustrer la pertinence de cette approche. 14h00-15h00 - Gerhard Tutz Regularized regression for discrete structure Gerhard Tutz (Ludwig-Maximilian Uni. München) Regularization methods are an effective tool to identify relevant structures in regression models. They are useful in particular when modelling categorical data, because even for a moderate number of predictors and response categories many parameters are needed to specify the link between predictors and responses. The focus is on regularization by penalty terms, which are tailored to the discrete data problem. First categorical predictors in univariate generalized linear models are considered. Several penalty based methods that enforce variable selection and clustering of categories are presented and investigated. It is distinguished between ordered predictors where clustering refers to the fusion of adjacent categories and nominal predictors for which arbitrary categories can be fused. The methods allow to identify which categories do actually differ with respect to the dependent variable. In multicategorical response models appropriate penalization that allows to select predictors instead of single effects uses grouping structures that collect all the parameters linked to one explanatory variable. Selection of covariates is shown to work well in a general model which includes global predictors as well as predictors that are specific to the response 85 Jeudi 4 juin 2015 categories. In repeated measurement studies with several measurements taken on a specific unit one often tries to account for the heterogeneity of units by using random effects models. Fixed effect models with an appropriate penalization of the subject-effects are presented as an alternative that avoids some of the problems of random effects models. They allow to model the heterogeneity of the population and identify clusters of unit that share the same effect. As an alternative to penalization tree-based estimators are considered to obtain clusters of categories in high dimensional problems. In the last part mixture models that aim at the modelling of uncertainty of the response and the response styles are investigated. An adjacent categories model is proposed that simultaneously models the content related effects and the heterogeneity in response styles. By accounting for response styles it provides a simple remedy for the bias that occurs if the response style is ignored. The model allows to include explanatory variables that have a content-related effect as well as an effect on the response style. 14h00-15h00 - Valérie Monbet Modèles auto-régressifs à chaîne de Markov cachée pour des séries temporelles multivariées de température de l’air Valérie Monbet (Université de Rennes 1) Le climat a un impact direct sur la production agricole, la production d’énergies renouvelables, l’évolution des paysages (érosion, submersion, ...), certains écosystèmes sensibles, la qualité de l’air, etc. Une approche classique pour étudier l’impact du climat sur des systèmes consiste à développer des générateurs aléatoires de conditions météorologiques qui permettent de simuler rapidement un grand nombre de situations météorologiques. Les séquences simulées sont typiquement utilisées en entrée de modèles économiques ou écologiques. Dans cet exposé, nous proposons des modèles auto-régressifs à changement de régime markovien permettant de simuler conjointement des séries temporelles de température de l’air en plusieurs sites répartis en France. Dans ces modèles, plusieurs modèles autorégressifs multivariés sont utilisés pour décrire l’évolution spatio-temporelle de la température et les transitions entre les différents régimes sont controlées par une chaine de Markov cachée qui représente des types de temps. Nous discuterons aussi des extensions dans lesquelles la chaine de Markov est non homogène. Nous verrons que ces modèles sont interprétables et permettent de reproduire la dynamique spatio-temporelle observée dans les données. 15h05-16h25 - Analyse de données, data mining Analyse discriminante par noyaux associés pour données mixtes Sobom Matthieu Somé (Université de Franche-Comté), Célestin C. Kokonendji (Université de Franche-Comté) L’objet de ce travail est de proposer une méthode non-paramétrique d’analyse discriminante pour des variables mixtes : continues, catégorielles et comptages. Après la présentation du modèle à l’aide des noyaux associés multiples composés, nous proposons deux types de validation croisées pour la sélection appropriée des matrices des fenêtres à chaque famille de données. En particulier, la classique est utilisée pour les données homogènes ayant la même mesure de référence ; tandis qu’une version profilée de validation croisée est introduite pour les données mixtes. Des simulations pour les cas continu, discret et mixte avec respectivement les noyaux associés multiples bêtaxbêta, binomialxbinomial et bêtaxbinomial montrent le caractère approprié et efficace de cette méthode. Une application à des données réelles composée de variables continues, de comptages et catégorielles est finalement présentée. 86 Jeudi 4 juin 2015 Analyse discriminante matricielle descriptive. Application à l’étude de signaux EEG Juliette Spinnato (Aix-Marseille Université, I2M), Marie-Christine Roubaud (Aix-Marseille Université, I2M), Margaux Perrin (Université Lyon 1, CRNL), Emmanuel Maby (Université Lyon 1, CRNL), Jeremie Mattout (Université Lyon 1, CRNL), Boris Burle (Aix-Marseille Université, LNC), Bruno Torrésani (Aix-Marseille Université, I2M) Nous nous intéressons à l’approche descriptive de l’analyse discriminante linéaire de données matricielles dans le cas binaire. Sous l’hypothèse de séparabilité de la variabilité des lignes de celle des colonnes, les combinaisons linéaires des lignes et des colonnes les plus discriminantes sont déterminées par la décomposition en valeurs singulières de la différence des moyennes des deux classes en munissant les espaces des lignes et des colonnes de la métrique de Mahalanobis. Cette approche permet d’obtenir des représentations des données dans des plans factoriels et de dégager des composantes discriminantes. Une application à des signaux d’électroencéphalographie multi-capteurs illustre la pertinence de la méthode. Comparaison de méthodes multivariées pour la détection d’observations atypiques Aurore Archimbaud (Gremaq (TSE) et Ippon Innovation), Klaus Nordhausen (University of Turku), Anne Ruiz-Gazen (Gremaq (TSE)) Dans cette présentation, nous nous intéressons à la détection d’observations atypiques, comme par exemple des fraudes ou des produits défectueux, au sein de données numériques multivariées. Différentes méthodes non-supervisées basées sur l’analyse de matrices de variances-covariances classiques ou robustes existent dans la littérature statistique. Notre objectif est de comparer trois de ces méthodes : la distance de Mahalanobis, la méthode ICS (Invariant Coordinate Selection) et l’ACP robuste avec son diagnostic graphique. Ces méthodes conduisent chacune à des scores qui sont calculés pour toutes les observations, avec des scores élevés associés aux éventuelles observations atypiques. Nous montrons en particulier que seule la méthode ICS permet la sélection de composantes pertinentes pour la détection d’atypiques ce qui constitue un avantage si le nombre de variables non pertinentes pour caractériser les atypiques est élevé. Les résultats seront illustrés sur des exemples simulés et sur des exemples réels. Multiway regularized generalized Canonical Correlation Analysis Arthur Tenenhaus (L2S, UMR CNRS 8506 - CentraleSupelec,Bioinformatics/Biostatistics Platform IHU-A-ICM,Brain and Spine), Laurent Le Brusquet (L2S, UMR CNRS 8506 - CentraleSupelec,Bioinformatics/Biostatistics Platform IHU-A-ICM,Brain and Spine), Gisela Lechuga (L2S, UMR CNRS 8506 - CentraleSupelec,Bioinformatics/Biostatistics Platform IHU-A-ICM,Brain and Spine) L’Analyse Canonique Généralisée Régularisée (RGCCA) permet l’étude des relations entre différents blocs de données. Danc ce papier, une version multivoie de RGCCA (MGCCA) est proposée. MGCCA cherche à décrire et comprendre les relations entre tenseurs. 15h05-16h25 - Statistique spatiale 1 Détection automatique de cibles sous-résolues Solenne Thivin (Thales Optronique), Erwan Le Pennec (Ecole Polytechnique), Michel Prenat (Thales Optronique) Nous cherchons à mettre en place un algorithme de détection de cibles sous-résolues dans des images de ciel infra-rouges en niveau de gris. Nous souhaitions prendre en compte la covariance spatiale de l’image pour effectuer la détection. Celle-ci peut être supposée localement stationnaire et nous avons donc décidé de travailler localement : l’image est donc découpée en patch de taille 87 Jeudi 4 juin 2015 16 × 16 et le test de détection s’effectue patch par patch (les paramètres ne sont estimés que que le patch traité). Chaque patch est modélisé par un champ gaussien stationnaire caractérisé par son vecteur moyenne et sa matrice de covariance. Pour prendre en compte l’aspect faible portée de la covariance spatiale, nous avons supposée que la matrice de covariance avait une structure parcimonieuse imposée. Nous souhaitions aussi effectuer cette détection tout en garantissant le taux de fausses alarmes. Nous avons donc décidé d’appliquer un test de rapport de vraisemblance généralisé. La détection s’effectue alors en plusieurs étapes : estimation de la matrice de covariance sous la contrainte de structure pour chaque patch, calcul de la statistique de test pour le pixel testé et seuillage de cette statistique. Pour tenir compte du fait que le modèle est probablement faux , nous n’utilisons pas comme seuil le quantile de la loi de la statistique de test sous l’hypothèse nulle mais des seuils estimés à partir d’un échantillon de patchs issus d’images réelles . Enfin, pour tenir compte des différentes textures présentes dans les patchs, nous avons ajouté une étape de classification des patchs avant l’estimation des quantiles empiriques classe par classe. Borne pour l’erreur de discrétisation du maximum d’un champ aléatoire Malika Chassan (Institut de Math. de Toulouse), Jean-Marc Azaïs (Institut Math Toulouse (IMT)), Guillaume Buscarlet (TAS France), Norbert Suard (CNES), Sébastien Trilles (TAS France) Le but de cette étude est de développer des outils pour évaluer l’erreur de discrétisation pour le maximum d’un champ aléatoire observé sur une grille. Ce travail est financé par le CNES, et Thales Alenia Space France. En positionnement par satellite, les SBAS (Satellite Based Augmentation System), comme EGNOS, disposent de données permettant de corriger les positions estimées. Nous travaillerons avec le GIVDe (Grid Ionospheric Vertical Delay error). Cette variable est fournie pour une grille virtuelle : la grille des IGPs (Ionospheric Grid Points). Cette grille est grossière (un point tous les 5 degrés en latitude et longitude, soit env. 500km au niveau de l’équateur). Dans cette étude, on cherche à évaluer la différence entre le maximum du GIVDe sur la grille et le maximum non observé du GIVDe sur la zone couverte par cette grille. Pour cela, on applique d’abord un modèle de Krigeage qui servira de base de comparaison pour notre nouvelle méthode. Cette dernière est inspirée du modèle de Slepian dans le sens où elle fournit une approximation locale du champ aléatoire au niveau de son maximum global. Le résultat principal donne la distribution limite de l’erreur de discrétisation pour un champ gaussien stationnaire. Spatial dependence in (origin-destination) air passenger flows Paula Margaretic (Central Bank of Chile), Romain Doucet (Airbus), Christine Thomas-Agnan (oulouse School of Economics), Quentin Villotta (Airbus) Nous explorons l’estimation des flux de passagers aériens (origine-destination), par paires de villes, afin de prendre en compte explicitement l’autocorrélation spatiale. A notre connaissance, nous sommes les premiers à appliquer des modèles économétriques spatiaux et des approches de filtrage spatial au transport aérien. S’appuyant sur un échantillon mondial de 279 villes sur la période de 2010 à 2012, nous trouvons des preuves significatives d’autocorrélation spatiale dans les flux de passagers aériens. Ainsi, et contrairement à la pratique courante, nous montrons que nous devons intégrer la structure spatiale existante dans les données lors de l’estimation des flux de passagers aériens. Il est important de souligner qu’une erreur dans cette démarche peut conduire à des coefficients estimés inefficaces et des biais dans les prédictions. Un modèle de mélange pour la segmentation de données spatiales Allou Samé (IFSTTAR), Jean-Philippe Tarel (IFSTTAR), Nadir Ait Saidi (IFSTTAR) Cet article décrit une approche basée sur les mélanges de lois, pour la modélisation et la segmentation de données spatiales. La dépendance spatiale des données y est prise en compte par le biais des proportions du mélange, qui sont modélisées par des transformations logistiques de fonctions polynomiales des coordonnées spatiales. Les paramètres du modèle proposé sont estimés par la méthode du maximum de vraisemblance via un algorithme EM spécifique, qui incorpore 88 Jeudi 4 juin 2015 un algorithme de Newton-Raphson pour l’estimation des coefficients des fonctions logistiques. Les expérimentations, menées sur des images simulées, donnent des résultats encourageants en termes de précision de segmentation. 15h05-16h25 - Statistique mathématique 2 Problèmes d’adéquations entre distributions : une approche par un modèle de déformations et la distance de Wasserstein Hélène Lescornel (Inria Saclay), Eustasio Del Barrio (Université de Valladolid), Jean-Michel Loubes (Institut de Mathématiques de Toulouse) Notre objectif est de déterminer si des distributions sont comparables dans le sens où elles proviennent de différentes déformations d’un profil commun. On suppose disposer de J échantillons indépendants composés chacun de n réalisations i.i.d. de variables indépendantes Xj de loi µj , pour j de 1 à J. Le but est de déterminer s’il existe des fonctions φ∗1 , ..., φ∗J dans un certain ensemble G, et des variables aléatoires indépendantes j suivant une même loi µ telles que Xj = (φ∗j )−1 (j ). Pour cela, nous cherchons à aligner les distributions des variables φj (Xj ) en faisant varier les fonctions φj . Nous allons pour cela minimiser la distance de Wasserstein entre ces lois et leur barycentre au sens de Wasserstein : s’il existe des fonctions φ1 ,. . . , φJ telles que ces variables φj (Xj ) ont même distribution, le modèle est en effet valide. Nous appliquons cette idée aux distributions empiriques que nous pouvons déterminer à l’aide des observations. Nous considérons des lois dans R, ce qui nous permet d’utiliser l’expression de la distance de Wasserstein avec les fonctions quantiles. Nous obtenons différents résultats de convergence pour une statistique de test, l’un dans ce cadre général, l’autre en considérant des familles de fonctions paramétriques. Nous les appliquons à la construction de différentes procédures de tests. Reconstruction simpliciale de variété via l’estimation d’espace tangent Eddie Aamari (Université d’Orsay), Clément Levrard (Inria Saclay) On s’intéresse au problème de reconstruction de variété dans un cadre semi-asymptotique. Sous ˆ du support des contraintes géométriques de régularité, nous proposons un estimateur calculable M D ˆ M ⊂ R d’une mesure inconnue dont on observe un n-échantillon i.i.d.. M a la même topologie que M et on donne une vitesse de convergence pour la distance de Hausdorff. La méthode s’appuie sur la construction d’un complexe de Delaunay tangentiel. Après avoir réduit la question à l’estimation des espaces tangents de M, le problème est traité par analyse en composantes principale locale. Si le temps le permet, nous présenterons une technique de débruitage des données par ACP locale dans le cadre d’un modèle de mélange. Éléments spectraux d’une fonction cyclostationnaire Alain Boudou (Institut de Mathématiques de T), Sylvie Viguier-Pla (Institut de Mathématiques de T) Considérons une fonction cyclostationnaire, nous montrons qu’on peut lui associer une et une seule mesure spectrale. Moyennant une hypothèse de continuité supplémentaire, nous lui associons également une série stationnaire unique, qui peut se prêter à une analyse en composantes principales dans le domaine des fréquences. Méthodes statistiques d’identification et de quantification en métabolomique. Application aux spectres RMN Patrick Tardivel (INRA-ENVT), Rémi Servien (INRA-ENVT), Didier Concordet (ENVT), Cécile Canlet (INRA), Marie Tremblay-Franco (INRA), Laurent Debrauwer (INRA) 89 Jeudi 4 juin 2015 La métabolomique est une science qui s’intéresse à l’identification et la quantification de métabolites (petites molécules) à partir d’un mélange obtenu dans le sang, l’urine, le plasma, . . . . Une des techniques les plus employées pour la caractérisation de métabolites est la résonance magnétique nucléaire du proton (RMN). Pour chaque métabolite la RMN produit un spectre spécifique. De même pour le mélange, la RMN génère un spectre qui est une combinaison convexe des spectres des métabolites qui le composent. Cependant, tous ces signaux sont observés bruités (variation de l’amplitude des pics) et déformés (variation de la forme et de la localisation des pics). Ainsi, il est très délicat de calculer exactement les proportions des métabolites du mélange. Nous proposons dans un premier temps d’estimer la déformation associée à chaque métabolite. Dans un deuxième temps, une méthode statistique basée sur une approche par programmation linéaire permet d’obtenir une estimation parcimonieuse des proportions. Enfin, des résultats sur des données réelles et simulées montrent l’efficacité de notre méthode. Ce projet bénéficie du soutien financier du Ministère de l’Écologie, du Développement Durable et de l’Énergie dans le cadre du programme national de recherche Risk’OGM et de l’IDEX Toulouse ’transversalité 2014’. 15h05-16h25 - Tests statistiques 2 Tests d’indépendance entre deux processus ponctuels et application en neurosciences Mélisande Albert (Université de Nice, LJAD), Yann Bouret (Univ. de Nice, LPMC), Magalie Fromont (IRMAR, Université Rennes 2), Patricia Reynaud-Bouret (CNRS Université de Nice Sophia-Antipolis) Considérant un échantillon de couples i.i.d. de processus ponctuels, observés sur une plage de temps donnée, on se pose la question de la détection de dépendances entre les processus marginaux sous-jacents. Cette question est motivée par l’étude des synchronisations de potentiels d’action en neurosciences (c.f. Tuleau-Malot et. al (2014), Pipa et Grün (2003) ou Grün et. al (2010)). Devant le débat actuel sur la modélisation de l’activité neuronale, notre but est de proposer des tests d’indépendance ne nécessitant aucune hypothèse contraignante sur la distribution des potentiels d’action. Nos travaux se situent dans la lignée de ceux de Romano (1989) qui a proposé des tests d’indépendance basés sur des méthodes de bootstrap et de permutation (c.f. Hoeffding (1952)). Cependant, ici, en raison des motivations biologiques et de la nature de nos variables (à savoir des processus ponctuels), nos statistiques de test sont plus complexes, et ne peuvent être vues comme des processus empiriques évalués sur des familles particulières d’événements. Il nous a donc fallu introduire de nouvelles statistiques de test (à savoir des U -statistiques renormalisées), et pousser plus loin les arguments de Romano afin de justifier les approches par bootstrap ou permutation. Après avoir présenté les motivations d’un point de vue biologique, nous validerons chacune des approches en présentant des résultats généraux de consistance en terme de distance de Wasserstein sous l’hypothèse d’indépendance, ainsi que sous n’importe quelle alternative. Enfin nous en déduirons que les tests correspondants sont de taille asymptotique voulue et consistants contre toute alternative raisonnable. Influence de la forme de la fenêtre de scan sur la distribution des statistiques de scan bidimensionnelles discrètes Michaël Genin (Université de Lille 2), Cristian Preda (Laboratoire Paul Painlevé), Alain Duhamel (Université de Lille 2) Les statistiques de scan bi-dimensionnelles discrètes sont usuellement définies avec une fenêtre de scan de forme rectangulaire. Cependant, elles peuvent être définies pour toute forme convexe de fenêtre de scan. Aussi, dans ce travail, nous nous intéressons ‘a l’influence de la forme de la fenêtre de scan sur la distribution de probabilité des statistiques de scan bidimensionnelles discrètes.. Nous montrons que la forme de la fenêtre de scan a une influence sur la distribution. Ceci est réalisé par une adaptation d’une méthode d’approximation de la distribution basée sur les 90 Jeudi 4 juin 2015 propriétés des extremums de suites de variables aléatoires 1-dépendantes aux statistiques de scan bi-dimensionnelles à fenêtre de forme convexe. Ce résultat est illustré par une étude de simulation pour les modèles de Poisson et binomiaux, dans laquelle nous avons considéré les cas des formes carrées, rectangulaires et circulaires (cercle discret). Détection de motifs de dépendance avec délai Julien Chevallier (UNSA), Thomas Laloë (UNSA) La méthode des Unitary Events (UE) est couramment utilisée pour détecter des motifs de dépendance parmi les trains de spike de plusieurs neurones. Cette méthode a tout d’abord été introduite pour traiter des données binnées (temps discret) via le calcul du nombre de coïncidence binné (Grün, 1996). Cette méthode de comptage a récemment été transposée dans le cadre de données à temps continu (processus ponctuels) dans l’article de Tuleau-Malot et al. (2014). Ils y introduisent le nombre de coïncidence avec délai pour deux neurones. Le but de notre travail a été de généralisé cette méthode de comptage à un nombre quelconque de neurones. Sous l’hypothèse d’indépendance, il est possible de calculer l’espérance et la variance de ce nombre de coïncidence dans un cadre Poissonien et de dériver un test d’indépendance. Une étude empirique montre qu’il est possible d’affaiblir l’hypothèse Poissonienne. Contrôle du taux de faux positifs dans le cas dépendant bilatéral Marine Roux (Gipsa-Lab) L’analyse de données volumineuses incite souvent à se poser un grand nombre de questions simultanément. Il faut alors construire des procédures statistiques capables de répondre pertinemment à ces questions. L’exemple typique se situe en génomique avec les données de puces à ADN, pour lesquelles il s’agit, le plus souvent, d’identifier les gènes différentiellement exprimés entre deux conditions (malades/sains par exemple). Une procédure pertinente serait une procédure qui d’une part sélectionne suffisamment de gènes, et qui d’autre part ne sélectionne pas “trop” de gènes à tort. A cette fin, une méthode populaire est le contrôle du False Discovery Rate (FDR) défini comme la moyenne de la proportion d’erreurs parmi les hypothèses rejetées. En pratique, la méthode la plus utilisée pour contrôler le FDR est la procédure de Benjamini et Hochberg (1995). Si elle garantit le contrôle du FDR sous une dépendance positive (Benjamini et Yekutieli, 2001), son comportement reste toujours assez mal compris dans le cas d’une dépendance non positive. Notre travail apporte des contributions à ce problème en explorant le cas de tests bilatéraux avec des statistiques de tests gaussiennes ?equi-corrélées. Le résultat principal de notre étude est la démonstration de la conjecture de Reiner-Benaim (2007), qui fournit une borne du FDR dans le cas de deux tests. Par suite, nous étudions également le cas d’un nombre supérieur de tests à l’aide d’une formule exacte. 15h05-16h25 - Statistique bayésienne Identifier les segments génomiques expliquant les variations de fonctions de réponse : intérêt des équations différentielles stochastiques dans un contexte bayésien Bénédicte Fontez (Montpellier Supagro), Timothée Flutre (Inra), Fabien Campillo (Inria), Pierre Roumet (Inra) Tout organisme vivant, quel qu’il soit, se développant au cours du temps, il est nécessaire, voire primordial, de prendre cette dimension en considération. Grâce à la montée en puissance des capteurs haut-débit, de plus en plus de caractères d’intérêt sont mesurés sous forme de fonctions de réponse et de courbes de croissance. Par exemple en agronomie, dans un but de sélection artificielle, il devient alors pertinent de chercher à identifier les segments génomiques expliquant les variations de fonctions de réponse au sein d’une population (quantitative trait locus, QTL). 91 Jeudi 4 juin 2015 Habituellement, les individus sont d’abord utilisés séparément les uns des autres pour estimer, chez chacun, les coefficients d’une fonction de réponse, ceux-ci étant ensuite testés pour association avec les segments génomiques. Cette méthode ad hoc entraîne une perte importante d’information, d’autant plus que l’incertitude associée à l’estimation des paramètres est généralement négligée lors du test. Des auteurs comme Wu et al. (2007) ont proposé des approches fonctionnelles pour tenir compte de la dynamique sous-jacente à la croissance dans la détection de QTL. Nous proposons d’étendre cette approche à un modèle plus réaliste où la fonction de réponse est définie comme un processus aléatoire caractérisé par une équation différentielle stochastique (EDS). L’inférence est réalisée dans un cadre bayésien qui permet d’estimer l’effet du QTL et, simultanément, de sélectionner la période de temps durant laquelle le QTL est influent. Étude des propriétés fréquentistes des estimateurs bayésiens de la différence de deux proportions, du risque relatif et du rapport de cotes François Lefebvre (GMRC, CHU Strasbourg), Nicolas Meyer (GMRC, CHU Strasbourg) Les intervalles de confiance d’un estimateur ont des taux de couverture parfois éloignés de la valeur nominale. Ils restent cependant très utilisés, notamment dans les essais thérapeutiques. D’un autre côté, alors que les intervalles de crédibilité semblent avoir de bonnes propriétés fréquentistes, les analyses statistiques des essais thérapeutiques ne se font pas souvent sous inférence bayésienne. Une étude de simulations a été réalisée afin d’étudier les propriétés fréquentistes des intervalles de confiance de la différence de deux proportions, du risque relatif et du rapport de cotes estimés selon différentes méthodes et des intervalles de crédibilité de ces mêmes paramètres estimés avec trois lois a priori différentes peu ou très peu informatives sur les proportions. Pour cela, les taux de couverture exacts des intervalles de confiance ont été comparés aux taux de couverture exacts des intervalles de crédibilité estimés directement d’après les lois a posteriori des paramètres. Les taux de couverture des intervalles de crédibilité pour la différence de deux proportions, le risque relatif et le rapport de cotes sont très proches de la valeur nominale, même pour des petits échantillons, notamment quand la loi a priori est uniforme alors que les taux de couverture des intervalles de confiance peuvent s’en éloigner fortement. Il est donc recommandé d’utiliser l’inférence bayésienne dans l’estimation de ces intervalles. Autour des a prioris peu informatifs dans les modèles bayésiens de régression logistique Mickaël Schaeffer (GMRC, CHU Strasbourg), François Lefebvre (GMRC, CHU Strasbourg), Erik Sauleau (Lab. Biostatistiques Université de Strasbourg), Nicolas Meyer (Lab. Biostatistiques Université de Strasbourg) L’estimation de la distribution associée au coefficient d’un modèle de régression logistique peut être effectuée par des méthodes bayésiennes. Dans ce cas, l’utilisation de lois a priori très peu informatives, comme les distributions Gaussiennes à variance large, peuvent parfois amener à des estimations biaisées ou à une surestimation de la variance a posteriori. Dans cet article, nous proposerons une variance à utiliser dans le cas d’un a priori peu informatif, afin d’éviter toute surestimation a posteriori, et d’améliorer la qualité des prédictions. Nous établirons un lien entre la paramétrisation de deux distributions Beta a priori pour des proportions et la paramétrisation du coefficient associé à la comparaison dans un modèle de régression logistique. Cette paramétrisation est établie en utilisant une des propriétés de la régression logistique, à savoir l’égalité du coefficient de la régression avec le logarithme d’un rapport de cotes, c’est-à-dire un rapport de distribution Beta. Nous montrerons à l’aide de simulations que la distribution ainsi définie présente un gain en terme de variabilité estimée à posteriori 92 Jeudi 4 juin 2015 Bayesian Model Averaging à l’aide d’un échantillonnage préférentiel adaptatif et multiple pour l’estimation du risque de leucémie infantile radioinduite Sophie Ancelet (IRSN), Merlin Keller (EDF R&D) En épidémiologie des rayonnements ionisants (RI), plusieurs modèles dose-risque de cancer radio-induit peuvent s’ajuster de manière équivalente à un même jeu de données. Ces modèles différent de par le choix d’une relation dose-risque, en excès de risque relatif ou absolu, et des facteurs de risque susceptibles de modifier cette relation. Cette incertitude de modèle est ignorée en pratique : un seul modèle est généralement selectionné pour estimer les risques de cancer radioinduit. Une telle approche peut mener à des estimations d’excès de risque biaisées en forçant un unique modèle à s’ajuster à des données qui n’en vérifient pas nécessairement toutes les caractéristiques et à une sous-estimation de l’incertitude de ces estimations. Walsh et Kaiser (2011) ont récemment proposé de combiner plusieurs modèles de risque de cancer radio-induit en utilisant une approche fréquentiste, appelée inférence multi-modèles (MMI), basée sur le calcul de poids AIC. Nous proposons d’utiliser une approche alternative bayésienne, connue pour ses bonnes propriétés en termes d’estimation et de prédiction : le Bayesian Model Averaging (BMA). Pour inférer les modèles en compétition et réaliser le BMA, nous proposons une approche par échantillonnage préférentiel adaptatif et multiple basé sur une fonction d’importance originale : une copule Gaussienne avec lois marginales de Student décentrées. Nous analysons les forces et faiblesses de l’algorithme AMIS implémenté dans un cas d’étude réel portant sur l’estimation de l’excès de risque de leucémie infantile chez les survivants des bombardements d’Hiroshima-Nagasaki. Enfin, nous comparons les approches BMA et MMI à partir de ce cas d’étude et de simulations. 16h45-18h05 - Environnement 2 Une construction statistique échangeable pour le post-traitement des ensembles de séries météorologiques Éric Parent (AgroParisTech), Marie Courbariaux (AgroParisTech), Pierre Barbillon (AgroParisTech) Les techniques de prévisions probabilistes visent à produire une distribution prédictive de la quantité d’intérêt au lieu d’une seule ’meilleure’ estimation ponctuelle. Pour les prévisions de débits en rivière qui intéressent les producteurs d’hydroélectricité tels EDF ou Hydro-Québec, les principales sources d’incertitude sont dues (a) à la méconnaissance des pluies et températures futures (incertitude météorologique), (b) aux erreurs de représentation de la transformation pluie-débit (incertitude hydrologique). Il faut d’abord modéliser séparément ces sources d’incertitudes avant de les intégrer pour obtenir une fonction prédictive de densité de probabilité. Cette communication focalise sur la modélisation de l’incertitude météorologique. (L’ incertitude hydrologique est décrite dans une autre communication des mêmes auteurs à ces journées.) L’incertitude météorologique est aujourd’hui décrite grâce à la génération de plusieurs scénarios de l’évolution à plus ou moins long terme des variables météorologiques généralement localisées, telles la pluie et la température sur un bassin-versant. Dans le jargon météorologique, ces trajectoires hypothétiques potentielles sont appelés membres d’une prévision d’ensemble. L’incertitude météorologique semblerait donc pouvoir être prise en utilisant tour à tour chaque membre d’ensemble comme un intrant pour le modèle pluie-débit. Cependant les membres du système de prévision d’ensemble constituent un échantillon souvent biaisé et sous-dispersé d’une prévision probabiliste digne de ce nom. Pour le post-traitement visant à recalibrer la prévision d’ensemble, nous développons un modèle fondé sur l’hypothèse d’échangeabilité, une propriété essentielle de tout système de prévision météorologique à base d’ensemble. 93 Jeudi 4 juin 2015 Construction bayésienne de prévisions probabilistes à partir des sorties d’un modèle déterministe pluie-débit Marie Courbariaux (AgroParisTech), Éric Parent (AgroParisTech), Pierre Barbillon (AgroParisTech) Les techniques de prévisions probabilistes visent à produire une distribution prédictive de la quantité d’intérêt au lieu d’une seule ’meilleure’ estimation ponctuelle. Pour les prévisions de débits en rivière qui intéressent les producteurs d’hydroélectricité tels EDF ou Hydro-Québec, les principales sources d’incertitude sont dues (a) à la méconnaissance des pluies et températures futures (incertitude météorologique), (b) aux erreurs de représentation de la transformation pluie débit (incertitude hydrologique). Il faut d’abord modéliser séparément ces sources d’incertitudes avant de les intégrer pour obtenir une fonction prédictive de densité de probabilité. Cette communication focalise sur la modélisation de l’incertitude hydrologique (l’incertitude météorologique est décrite dans une autre communication des mêmes auteurs à ces journées). Pour quantifier l’incertitude hydrologique, un modèle conjoint de la série des débits modélisés à partir de la pluie et des débits observés est développé. Nous nous appuyons sur une construction bayésienne : après modélisation (normale sur variables transformées) du comportement a priori du régime naturel des débits, la prévision est mise à jour en tenant compte de l’information véhiculée par les sorties de la transformation pluie-débit. On cherche ensuite à améliorer la modélisation auto-régressive des erreurs en introduisant deux régimes de fonctionnement commandés par des variables explicatives selon un modèle Probit, estimé par l’algorithme EM. Notre travail porte sur des séries de prévisions de flux de la rivière régulièrement émises par deux producteurs d’hydroélectricité en France et au Québec. Nous comparons les résultats de nos constructions statistiques à leurs systèmes actuels empiriques de prévision opérationnelle. Analyse du comportement multivarié de la réponse hydro-géomorphologique basée sur les statistiques des rangs Emna Gargouri-Ellouze (ENIT), Rim Chérif (ISSTE,et ENIT), Julie Carreau (Université Montpellier 2) L’analyse fréquentielle régionale est proposée pour estimer les quantiles de débits dans les bassins non jaugés. Pour régionaliser les bassins versants, les méthodes de partitionnement telles que l’analyse de cluster sont souvent appliquées. La délimitation des régions est basée sur des distances calculées entre les sites dans l’espace multidimensionnel : hydrologique, physiographique et géomorphologique. Ce travail vise à construire des courbes de fréquence pluie-débit- régionales grâce aux copules. La méthode de classification hiérarchique est utilisée pour la délimitation des bassins hydrologiquement homogènes. Cette méthode utilise la distance modifiée de Mahalanobis, basée sur les rangs et le tau de Kendall. Nous considérons dans ce travail de petits bassins versants situés dans la Dorsale tunisienne, suivis depuis 1992. Pour chaque région, le Kendall plot entre débit maximum et la pluie révèle que la dépendance existe et qu’elle est positive. L’utilisation de la distance modifiée de Mahalanobis basée sur les rangs et le tau de Kendall, conduit à deux régions distinctes. Dans chaque région, nous avons construit une courbe de fréquence pluie-débit- régionale en utilisant la copule de Gumbel bivariée. La détermination des telles courbes régionales permet l’évaluation des caractéristiques de ruissellement qui représente un enjeu important dans la gestion des ressources en eau et aide à la prise de décision en matière de protection de l’environnement. Courbe régionale d’indice de crue basée sur la classification hydro-géomorphologique Rim Chérif (ISSTE et ENIT), Emna Gargouri-Ellouze (ENIT) Cette étude consiste en l’élaboration de courbes fréquentielles régionales des débits, à partir de la classification hydro-géomorphologique des bassins versants. la délimitation des régions homogènes est basée sur les distances calculées entre les sites dans un espace multidimensionnel de variables : hydrologiques, physiques et géomorphologiques. l’homogénéité hydrologique des 94 Jeudi 4 juin 2015 groupes résultants est vérifiée en utilisant le test de hosking et wallis (1997, 2007) reposant sur les évaluations des l-moments des quantiles des débits spécifiques maximums observés. la courbe d’indice de crue est construite pour chaque groupe homogène. plusieurs distributions ont été testées (gev, weibull, log-normal...), le meilleur ajustement a été retenu pour modéliser les courbes régionales fréquentielles d’indice de crue. dans ce travail, on considère vingt (20) bassins tunisiens placés dans la dorsale tunisienne, contrôlés depuis 1992. l’analyse de classification a été réalisée après normalisation des diverses variables hydro-géomorphologiques, ce qui a permis de définir deux classes homogènes. la comparaison des lois de distribution a été réalisée en calculant les erreurs quadratiques moyennes et les erreurs moyennes. pour la première région homogène, la loi weibull est définie comme le meilleur ajustement à la courbe régionale des débits spécifiques maximums standardisés. pour la seconde région la loi log-normale est considérée comme le meilleur ajustement. ce résultat est utile en cas des bassins non jaugés ou faiblement jaugés. il reste une étude préliminaire, d’autres méthodes pourront être examinées ainsi que d’autres caractéristiques pourront être intégrées telles que les paramètres de sol. 16h45-18h05 - Enseignement de la statistique La statistique vue par des étudiants en sciences de l’éducation : formation inititale versus formation continue Jean-Marie Marion (UCO), Alain Bihan-Poudec (UCO) L’apprentissage de la statistique n’arrive pas sur un terrain vierge. Avant même leurs premiers cours de statistique à l’université, les étudiants en ont une idée préconçue. Nos recherches ont montré qu’elle dépendait des filières où se trouvaient les étudiants et pouvait s’analyser en termes de représentations sociales (Bihan-Poudec, 2012, 2013). A notamment été mis en évidence le fait qu’être en formation initiale ou en formation continue modifiait notablement l’attitude envers la statistique (Bihan-Poudec et Marion, 2013 ; Marion et Bihan-Poudec, 2014). Un questionnaire issu des travaux sur la théorie des représentations sociales (Moscovici, 2004) et appliqué à la situation enseignement/apprentissage de la statistique a été établi (Bihan-Poudec et Marion, 2014) ; ce questionnaire s’articule autour des trois dimensions de la représentation sociale de la statistique : conception de la discipline, intérêt pour celle-ci et expérience antérieure. Ce questionnaire a été soumis à 147 étudiants de Sciences de l’Éducation : la plupart de ceux-ci sont en formation initiale, les autres sont des adultes en formation continue. À partir de la comparaison de réponses recueillies auprès de ces deux publics, nos propos visent à présenter certains résultats de cette enquête et en particulier ceux issus d’une Analyse Factorielle Multiple afin d’affiner, voire de renouveler les conclusions antérieurement présentées (Marion et Bihan-Poudec, 2014). Évolution de la moyenne et de l’écart-type chez les étudiants en sciences humaines et sociales : étude sur des échantillons appariés Véronique Dubreil (Université Catholique de l’Oue), Noëlle Zendrera (Université Catholique de l’Oue) Nous poursuivons notre grande étude sur les notions de moyenne et d’écart-type vues par les étudiants de sciences humaines et sociales en premier cycle universitaire. Ces derniers sont interrogés avant et après l’enseignement de statistique descriptive, sur le degré de maîtrise qu’ils pensent avoir de ces notions ; ils sont aussi invités à donner une définition de chacune d’entre elles. Jusqu’à présent, nous avons exploité les données globales de l’ensemble des étudiants. Nous avons ainsi constaté qu’ils ont une meilleure maîtrise de la moyenne comparée à celle de l’écart-type. Non seulement, la majorité des étudiants pensent maîtriser la conception de la moyenne, alors qu’ils n’ont qu’une vague idée de l’écart-type avant l’enseignement de statistique, et qu’ils pensent à peine maîtriser cet indice à l’issue du cours, mais encore, après le cours de statistique, plus des deux-tiers d’entre eux donnent des définitions correctes de la moyenne, contre à peine un tiers pour l’écart-type. L’objectif est maintenant d’observer l’évolution des conceptions de ces deux indices, 95 Jeudi 4 juin 2015 étudiant par étudiant. L’étude détaillée des réponses confirme les résultats énoncés précédemment, tout en montrant une diversité d’évolution chez les étudiants aussi bien pour la moyenne que pour l’écart-type. Nus développerons ces aspects lors de notre communication. « J’aime pas les stats ! » Mesure et analyse de l’attitude à l’égard des statistiques dans une école de management Nadine Galy (Toulouse Business School), Kevin Carillo (Toulouse Business School), Cameron Guthrie (Toulouse Business School), Anne Vanhems (Toulouse Business School) L’enseignement de la statistique s’avère particulièrement difficile auprès des étudiants d’école de management. En effet, les cours de statistique sont souvent perçus comme secondaires par rapport à des disciplines telles que la finance ou le marketing, et les étudiants ont des difficultés à percevoir la pertinence de tels enseignements pour leur carrière future. A cela s’ajoutent des a priori négatifs envers la statistique : certains n’aiment tout simplement pas la matière ou pensent qu’ils auront des difficultés à la comprendre, d’autres la jugent inutile ou ne veulent pas faire l’effort d’investissement nécessaire. L’attitude développée par les élèves va ainsi exercer un impact sur leur comportement académique, leur façon d’appréhender le cours et au final sur leur réussite à l’examen. Notre étude nous a permis de mesurer l’attitude des étudiants d’école de management à l’égard des cours de statistique, de mettre en relation cette attitude avec leurs caractéristiques personnelles, et de vérifier son impact sur la réussite du module. Pour mesurer l’attitude envers la statistique, nous avons adapté l’instrument de Schau (Survey of Attitudes Toward Statistics, SATS 36). Le questionnaire a été traduit et administré à 420 étudiants de première année d’école de management (niveau L3) durant un cours d’introduction à la statistique. Une analyse confirmatoire et l’étude des indices de fiabilité et de validité a permis de valider la version française de l’échelle. Compétitions d’apprentissage automatique avec le package R rchallenge Adrien Todeschini (Inria Bordeaux), Robin Genuer (ISPED Univ. Bordeaux, Inria SISTM) En apprentissage automatique, les performances empiriques obtenues sur données réelles sont déterminantes dans le succès d’une méthode. Ces dernières années ont vu l’apparition d’un grand nombre de compétitions d’apprentissage automatique. Ces challenges sont motivés par des applications industrielles (prix Netflix) ou académiques (challenge HiggsML) et mettent en compétition chercheurs et data scientists pour obtenir les meilleures performances. Nous avons souhaité confronter les étudiants à cette réalité en leur soumettant un challenge dans le cadre du cours d’apprentissage automatique. Leur classement est affiché sur une page web mise à jour automatiquement permettant une émulation parmi les étudiants. L’historique des résultats leur permet également de visualiser leur progression au fil des soumissions. De plus, le challenge peut se poursuivre en dehors des sessions encadrées favorisant l’autonomie et l’exploration de nouvelles techniques d’apprentissage et outils informatiques. Le système que nous avons mis en œuvre est disponible sous forme de package R afin d’être réutilisé par d’autres enseignants. S’appuyant sur les outils R Markdown et Dropbox, il ne nécessite aucune configuration réseau et peut être déployé très facilement sur un ordinateur personnel. 16h45-18h05 - Fiabilité et incertitudes L’utilisation du modèle de Cox-PLS dans la prévision de défaillance des entreprises Sami Ben Jabeur (IPAG Business School) L’objectif de cet article est d’appliquer le modèle Cox-PLS (Partial Least Squares) à la prévision de la détresse financière d’entreprises françaises afin d’estimer leur risque de défaut et d’élaborer un indicateur du risque de faillite. Cette recherche est motivée par les insuffisances des modèles de prévision traditionnels. L’échantillon est composé de 800 petites et moyennes entreprises françaises 96 Jeudi 4 juin 2015 pour lesquelles des données comptables et financières ont été collectées et une batterie de 33 ratios financiers a été calculée sur la période 2006-2008. Les prévisions issues de l’analyse Cox-PLS sont comparées à celui de modèle de Cox ; les probabilités de défaut estimées constituent un bon indicateur en termes de prévision du risque de faillite de un à trois ans avant le dépôt de bilan. Méthodes de détection d’une rupture dans des échantillons de petite taille suivant des lois exponentielles Narayanaswamy Balakrishnan (McMaster University), Laurent Bordes (Université de Pau et des Pays de l’Adour), Christian Paroissin (Université de Pau et des Pays de l’Adour), JeanChristophe Turlot (Université de Pau) On s’intéresse au problème de détection d’une rupture dans le taux de défaillance observé sur une série courte d’observations. Plus précisément, il s’agit de décider si les instants séparant les défaillances successives sur une série courte de observations consécutives ont un même taux de défaillance, ou s’il existe un instant tel que ce taux, constant jusqu’à une date inconnue, prenne à partir de jusqu’à une autre valeur constante correspondant à une augmentation de la fréquence de rupture. On suppose les observations indépendantes. Les tests statistiques que nous proposons sont fondés sur le rapport des moyennes empiriques sous l’hypothèse classique de distributions exponentielles. Ils sont confrontés au test non paramétrique de Wilcoxon-Mann-Whitney qui ne nécessite aucune hypothèse paramétrique sur la loi du taux de défaillance. La loi des statistiques proposées ne dépend pas de la distribution inconnue sous l’hypothèse nulle d’homogénéité des dates de défaillance, ce qui permet de calculer les valeurs critiques des tests suggérés par la méthode de Monte Carlo pour de petits échantillons. Des études de puissance sont réalisées dans un cadre un peu plus large, en considérant la famille des lois de Weibull. Echantillonnage préférentiel et méta-modèles : méthodes bayésiennes optimale et défensive Julien Bect (L2S), Roman Sueur (EDF R&D), Alexis Gérossier (CentraleSupélec), Loic Mongellaz (CentraleSupélec), Sébastien Petit (CentraleSupélec), Emmanuel Vazquez (L2S) Cet article considère le problème du choix Rd’une loi instrumentale pour l’estimation par échantillonnage préférentiel d’une intégrale du type h(x)π(x) dx, la fonction h étant coûteuse à évaluer. Pour construire une telle loi instrumentale, nous adoptons une approche bayésienne consistant à introduire un a priori sur h, ce qui permet, étant donnés des résultats d’évaluations de h, de construire une loi instrumentale optimale au sens bayésien. Cette loi instrumentale, bien que permettant de réduire l’espérance (par rapport à la loi a priori) de la variance fréquentiste d’estimation, peut conduire dans certains cas à une variance supérieure à celle de l’estimateur de Monte Carlo. Nous proposons une correction, dite « défensive », de la loi optimale bayésienne pour remédier à ce problème. Une application à l’estimation d’une probabilité de défaillance, à partir d’un code industriel issu du domaine de la fiabilité des structures, illustre l’approche proposée. Le facteur de Bayes appliqué à la validation des codes de calcul Guillaume Damblin (EDF R&D/AgroParisTech), Merlin Keller (EDF R&D), Pierre Barbillon (AgroParisTech), Alberto Pasanisi (EDF Eifer), Eric Parent (AgroParisTech) Nous présentons dans cet article une nouvelle approche pour la validation d’un code de calcul simulant un système physique d’intérêt. La validation est appréhendée comme un problème de test statistique qui confronte l’hypothèse nulle selon laquelle le code prédit parfaitement le système physique d’intérêt, avec l’hypothèse alternative selon laquelle une erreur systématique subsiste entre le système physique et les prédictions du code. Lorsque le code dépend d’un paramètre inconnu, l’hypothèse nulle correspond à l’existence d’une valeur du paramètre permettant un ajustement parfait du code au système physique, tandis que l’hypothèse alternative correspond à la situation pour laquelle chaque valeur du paramètre définit une fonction d’erreur non nulle entre le code et la système physique. En supposant dans un premier temps que le code de calcul est 97 Jeudi 4 juin 2015 linéaire par rapport au paramètre, le facteur de Bayes est calculé à partir des mesures physiques disponibles afin de discriminer laquelle des deux hypothèses statistiques est la plus probable. Une attention particulière sera portée au choix des lois a priori pour lesquelles nous proposons plusieurs techniques de construction. 16h45-18h25 - Trucs et astuces pour Stat Math : la symétrisation Symétrisation 1 Stephane Boucheron (LPMA Universite-Paris-Diderot) Quand on s’intéresse aux sommes de variables aléatoires indépendantes, on est amené à considérer des versions symétrisées de ces variables (une variable aléatoire X est symétrique si X et −X ont même loi. Si X 0 a même loi que X et est indépendante de X, X − X 0 est symétrique). Les normes de sommes de vecteurs aléatoires symétriques vérifient en effet les inégalités de Lévy, les probabilités de déviation des normes des sommes partielles sont contrôlées par les probabilités de déviation de la norme de la somme finale. Ces inégalités donnent des critères simples de convergence pour les séries aléatoires (voir Ledoux et Talagrand (1991), Chapitre 2). En statistiques, en théorie de l’apprentissage, la symétrisation apparaît dans la démonstration des inégalités de Vapnik-Chervonenkis. Le classique de Van de Vaart et Wellner (1996) y consacre un chapître. Elle réduit l’étude de suprema de processus empiriques à des questions combinatoires. On illustre la √ simplicité de la technique sur la statistique de Kolmogorov-Smirnov : Dn = n supx |Fn (x) − F (x)| n2 en montrant facilement P {Dn ≥ } ≤ 4e− 2 perdant donc un facteur devant l’exponentielle, et un facteur dans l’exposant, par rapport à la borne délicate de Dvoretsky-Kieffer-Wolfovitz-Massart. Les inégalités de symétrisation justifient des mesures de complexité empiriques utilisées en sélection de modèles comme les moyennes de Rademacher (Koltchinskii, Annals of Statistics, 2006). Elles permettent même de développer des inégalités de type Bernstein auto-normalisées pour les suprema de processus empiriques (Panchenko, 2003). Symétrisation 2 Stephane Boucheron (LPMA Universite-Paris-Diderot) Quand on s’intéresse aux sommes de variables aléatoires indépendantes, on est amené à considérer des versions symétrisées de ces variables (une variable aléatoire X est symétrique si X et −X ont même loi. Si X 0 a même loi que X et est indépendante de X, X − X 0 est symétrique). Les normes de sommes de vecteurs aléatoires symétriques vérifient en effet les inégalités de Lévy, les probabilités de déviation des normes des sommes partielles sont contrôlées par les probabilités de déviation de la norme de la somme finale. Ces inégalités donnent des critères simples de convergence pour les séries aléatoires (voir Ledoux et Talagrand (1991), Chapitre 2). En statistiques, en théorie de l’apprentissage, la symétrisation apparaît dans la démonstration des inégalités de Vapnik-Chervonenkis. Le classique de Van de Vaart et Wellner (1996) y consacre un chapître. Elle réduit l’étude de suprema de processus empiriques à des questions combinatoires. On illustre la √ simplicité de la technique sur la statistique de Kolmogorov-Smirnov : Dn = n supx |Fn (x) − F (x)| n2 en montrant facilement P {Dn ≥ } ≤ 4e− 2 perdant donc un facteur devant l’exponentielle, et un facteur dans l’exposant, par rapport à la borne délicate de Dvoretsky-Kieffer-Wolfovitz-Massart. Les inégalités de symétrisation justifient des mesures de complexité empiriques utilisées en sélection de modèles comme les moyennes de Rademacher (Koltchinskii, Annals of Statistics, 2006). Elles permettent même de développer des inégalités de type Bernstein auto-normalisées pour les suprema de processus empiriques (Panchenko, 2003). On the restricted eigenvalues condition for Gaussian matrices Arnak Dalalyan (ENSAE ParisTech) 98 Jeudi 4 juin 2015 Dans cet expose, nous presenterons comment la condition RE (des valeurs propres restreintes) d’un matrice gaussienne centree est reliee a celle de sa matrice de covariance. Un test adaptatif fondé sur la symétrisation Cécile Durot (Université Paris Ouest), Yves Rozenholc (Inria Saclay Ile de France Equipe Select) Ayant observé un vecteur aléatoire y de dimension n, et notant f son espérance, nous bâtissons un test non-asymptotique de l’hypothèse nulle que f = 0 contre l’alternative f 6= 0, sous la seule hypothèse que les composantes yi de y sont indépendantes entre elles et de loi symétrique autour de leur espérance. Nous ne supposons pas les composantes yi − fi de même loi. Sans hypothèse supplémentaire, la loi d’une statistique de test est inconnue même sous l’hypothèse nulle. Nous proposons donc une calibration fondée sur un principe de symétrisation exploitant l’hypothèse de symétrie. Le test est non-asymptotique. Sa puissance est décrite dans le cadre du modèle de régression, où fi = F (xi ) pour une fonction F inconnue et des xi ∈ [0, 1] déterministes : le test est adaptatif sur des classes de régularité Hölderienne sous des hypothèses de moments générales. Cette présentation est effectuée pour la session spéciale du groupe statistique mathéma-tique sur les techniques de symétrisation. Symétrisation dans les problèmes à deux échantillons : le cas des processus de Poisson Magalie Fromont (IRMAR, Université Rennes 2), Béatrice Laurent (IMT, INSA Toulouse), Patricia Reynaud-Bouret (CNRS Université de Nice Sophia-Antipolis) Nous considérons ici le problème dit ’à deux échantillons’ pour des processus de Poisson, qui consiste à tester l’hypothèse nulle d’égalité des intensités de deux processus de Poisson indépendants. Plus précisément, nous nous intéressons à l’utilisation d’une astuce de symétrisation pour construire des tests non paramétriques et non asymptotiques, partant de statistiques de test dont la loi n’est pas nécessairement libre de la loi - inconnue - des processus sous l’hypothèse nulle. Cette astuce est appliquée en particulier à des statistiques de test basées sur des noyaux généraux. Les tests ainsi construits sont alors du niveau voulu et sont optimaux au sens du minimax sur certaines classes d’alternatives. 18h30-... - Rencontre Jeunes Statisticiens 99 Vendredi 5 juin 2015 08h45-09h45 - Sophie Lambert-Lacroix Modèles mixtes fonctionnels Sophie Lambert-Lacroix (UMR 5525 UPMF) Un nombre croissant de domaines scientifiques collectent de grandes quantités de données comportant beaucoup de mesures répétées pour chaque individu. Ce type de données peut être vu comme une extension des données longitudinales en grande dimension. Le cadre naturel pour modéliser ce type de données est alors celui des modèles mixtes fonctionnels. Nous nous intéressons aux questions d’estimation et de réduction de dimension au sein des modèles mixtes fonctionnels et nous présentons deux approches. La première approche se place dans un objectif d’estimation dans un contexte non-paramétrique. Dans ce cadre, l’estimateur de l’effet fixe fonctionnel basé sur les techniques de seuillage par ondelettes possède de bonnes propriétés de convergence. Une deuxième approche concerne une procédure basée sur les techniques de sélection de variables par maximum de vraisemblance pénalisée. Ces approches sont illustrées via une étude de simulation et sur données réelles. 08h45-09h45 - Grégory Nuel Prédiction individuelle du risque de cancer en fonction des antécédents familiaux Grégory Nuel (CNRS) On évoque ici la problématique (clinique) de l’évaluation du risque individuel en fonction des antécédents familiaux (pédigrés). On commence par introduire le modèle BOADICEA (actuellement utilisé à l’Institut Curie) qui mélange la génétique humaine, les réseaux bayésiens et l’analyse de survie. Nous insistons ensuite sur le défi que représente l’estimation des paramètres de ce modèle, notamment en raison de l’épineux problème du biais de sélection des familles se présentant dans les services de génétique du cancer. Nous évoquons ensuite l’interprétation de ce modèle et des différentes sorties qu’il propose avant de discuter des perspectives de ce travail. 10h00-11h40 - Médecine, épidémiologie Using a structural Bayesian approach to account for measurement error : an application to radiation epidemiology Sabine Hoffmann (IRSN), Sophie Ancelet (IRSN), Chantal Guihenneuc (EA 4064, Paris Descartes), Pierre Laroche (AREVA) The problem of measurement error affecting predictor variables arises in many research areas, such as epidemiology, biology and econometrics. Ignoring this measurement error can lead to a loss of power and biased point and interval estimates of parameters. In this epidemiological study, conducted on a prospective cohort of uranium miners, we propose a structural Bayesian approach based on conditional independence models to assess the association between occupational radon exposure and lung cancer mortality while taking into account Berkson exposure measurement error. Bayesian inference is conducted via an adaptive Metropolis-Hastings algorithm implemented in Python. A simulation study suggests that this Bayesian approach leads to a substantial reduction in the bias caused by exposure measurement error. When the proposed methodology is applied to the cohort, one observes an increase in the risk estimate for lung cancer mortality associated with cumulated radon exposure. More research is needed to compare the performance of this structural Bayesian approach with functional methods and to study the robustness of the proposed method concerning misspecifications of the distribution of true exposures. 101 Vendredi 5 juin 2015 Application de la cartographie du risque aux données contagieuses Sylvain Coly (INRA Clermont-Ferrand/Theix), Myriam Charras-Garrido (INRA ClermontFerrand/Theix), David Abrial (INRA Clermont-Ferrand/Theix), Anne-Françoise Yao-Lafourcade (Laboratoire de Mathématiques UMR 6620) La cartographie du risque appréhende la répartition du risque associé à une pathologie et le représente sous la forme de carte suivant un dégradé de couleurs. Depuis son introduction par Besag, la cartographie du risque a connu de nombreuses améliorations et variantes méthodologiques, pour couvrir un spectre de problématiques de plus en plus large. Cette approche est usuellement appliquée à des maladies non-contagieuses ; dans ce cas les dépendances spatiales (voire spatiotemporelles) sont liées à des facteurs environnementaux et populationnels. Notre objectif est d’appliquer la cartographie du risque à des maladies infectieuses, pour lesquelles un cas primaire peut engendrer des cas secondaires. La contagion peut être source de surdispersion et de renforcement des structures spatiales et temporelles. Nous avons testé 60 modèles aux lois de comptage et aux structures de risque différentes sur des données simulées (agrégats de cas) et sur des données réelles (tuberculose bovine). Le mode de sélection de modèle est le critère DIC (Deviance Information Criterion). Cette étude montre la pertinence d’utiliser la loi binomiale négative par rapport à la loi de Poisson dans le cas de données surdispersées et/ou présentant des niveaux de risque contrastés. Elle conclut à la nécessité de prendre en compte les dimensions spatiale et temporelle dans ce type d’étude épidémiologique. Elle permet par ailleurs d’appréhender la répartition du risque de la tuberculose bovine en France, ainsi que sa structure. Ces conclusions ouvrent des perspectives sur différents sujets méthodologiques tels que la recherche des modèles les plus adaptés ou la sélection de modèle. Comparing t-year absolute risk prediction strategies : the multi-split testing approach Paul Blanche (University of Copenhagen), Mark van de Wiel (Dep. of Epidemiology & Biostatistics, VU University, Amsterdam), Jonas B. Nielsen (Rigshospitalet, Copenhagen University Hospital), Thomas A. Gerds (Dep. of Biostatistics, Univ. of Copenhagen) L’intérêt croissant pour la médecine personnalisée crée une demande importante de modèle prédictifs. De nombreux modèles statistiques et stratégies ont déjà été discutés pour construire des outils pronostiques. Simultanément, les capacités pronostiques de nombreux facteurs de risques et nouveaux biomarqueurs sont aujourd’hui évalués. En pratique, ceci complique fortement le choix d’une stratégie, parmi les nombreuses possibles, pour construire un modèle prédictif. Leur comparaison objective est une tâche délicate. Pour comparer deux stratégies de prédiction, une technique couramment utilisée consiste à diviser les données en deux : un “échantillon d’apprentissage”, utilisé pour développer les deux outils de prédiction, et un “échantillon test”, utilisé pour les comparer. Malheureusement, les conclusions dépendent souvent de la façon dont les données ont été divisées. Van de Wiel et al. (2009) ont récemment proposé une approche par test basée sur de multiples scissions des données. Les avantages de l’approche incluent son implémentation aisée et son universalité, qui permettent de comparer des stratégies de prédiction très diverses. Elle est également générale en ce qui concerne le critère utilisé pour évaluer les capacités pronostiques. Des extensions aux situations incluant la présence de données censurées et de risques concurrents sont présentées. Nous discutons aussi de nouveaux résultats concernant les hypothèses de la méthode et le contrôle de son erreur de type-I. Une application à la prédiction d’événements cardiovasculaires est présentée. L’objectif est de comparer des stratégies de prédiction basées sur des électrocardiogrammes. Les données d’une cohorte Danoise de grande taille sont analysées (n = 12 877). Semi-parametric dose finding methods Matthieu Clertant (LSTA, UPMC), John O’Quigley (LSTA, UPMC) On décrit un cadre général de méthodes permettant de répondre au problème de positionnement de dose. Celui-ci revient à localiser la racine d’une fonction de régression. Ces méthodes sont très 102 Vendredi 5 juin 2015 utiles en phase I d’essai clinique car elles respectent les contraintes éthiques inhérentes à ce type d’étude. Sous des conditions paramétriques de forte dépendance, la classe de méthode envisagée est équivalente à celle de la CRM. Si, l’on assoupli la structure sous-jacente, on retrouve le mTPI, la CCD et le BOIN. Ces méthodes sont non-paramétriques par nature tandis que la CRM peut-être vue comme fortement paramétrique. Le cadre proposé repose sur un principe semi-paramétrique puisqu’il correspond à la CRM muni d’un paramètre de nuisance. Les performances obtenues sont bonnes, généralement comparables à celles de la CRM et parfois supérieures. La structure générale permet d’aborder plus facilement certaines questions théoriques et de mieux comprendre comment les différentes méthodes sus-citées sont reliées entre elles. Prix ESSAI-SFdS : Implémentation d’une solution de mesure d’aide à la décision de bioéquivalence Maroua Abcha (ESSAI Tunis), Héla Ouaili Mallek (ESSAI Tunis), Asma Hajjem (Business & Decision Tunisie) Dans la pratique clinique, il est souvent fait appel aux études de bioéquivalence afin de comparer deux médicaments. L’objectif de ce projet est d’introduire l’aspect pharmacocinétique et statistique de ce type d’étude, ainsi que de modéliser, programmer et implémenter une solution de mesure d’aide à la décision de bioéquivalence. 10h00-11h40 - Apprentissage et classification 2 Sélection de variables en classification non-supervisée sans estimation de paramètres Matthieu Marbac (INSERM), Mohammed Sedki (Université Paris-Sud et INSERM) Nous présentons le critère MICL (Maximum Integrated Complete-data Likelihood) qui est utilisé en classification non supervisée pour la sélection de variables d’un mélange gaussien. Ce critère est basé sur la forme explicite de la vraisemblance complétée intégrée et permet d’effectuer la sélection de modèle préalablement à l’estimation des paramètres. Ainsi, il évite les procédures d’optimisation complexes et chronophages inhérentes aux critères classiques tels que BIC et ICL. Toutefois, ses propriétés restent similaires à celles du critère ICL. L’apport du critère MICL est illustré sur différents jeux de données réelles. Classification non-supervisée de trajectoires Philippe Besse (UPS Toulouse, IMT), Brendan Guillouet (UPS Toulouse, IMT), Jean-Michel Loubes (Institut de mathématiques de Toulouse), François Royer (Datasio) Les trajectoires sont des suites de points du plan indexés par le temps. Pour pouvoir les comparer il faut prendre en compte non seulement le point de départ et le point d’arrivée, qui définissent l’itinéraire, mais également leur longueur et leur forme. Ainsi les méthodes de classifications usuelles ne permettent pas de bien différencier les observations. Notre objectif est ici de fournir une nouvelle méthodologie de classification non supervisée des données de trajectoires se basant sur l’utilisation d’une distance particulière adaptée à ce type de données. De nombreuses distances ont déjà été développées en vue de cet objectif, basé sur une re-paramétrisation de l’index temporel, mais cela ne suffit pas à corriger les distorsions dans le cas des trajectoires localisées. Nous avons établi une distance adaptée à la structure de nos trajectoires. Celle-ci se base sur les critères suivants : la distance physique entre deux trajectoires et la forme des trajectoires (orientation, longueur). Elle est donc entièrement indépendante de la dimension temporelle. Cette distance a été calculée sur 2802 trajectoires de taxis San-Franciscains.Nous avons appliqué l’algorithme de propagation d’affinité à ces distance pour obtenir des classes de trajectoires groupés par itinéraires. Nous exposerons les différentes résultats obtenus grâce à différentes distance et celle que 103 Vendredi 5 juin 2015 nous avons définis. Nous expliquerons également comment nous comptons exploiter ces résultats pour aider à la prédiction de trajectoires. Mélanges de lois de Student à échelles multiples pour la caractérisation de tumeurs par IRM multiparamétrique Alexis Arnaud (LJK), Florence Forbes (LJK, Inria), Benjamin Lemasson (INSERM, UJF), Emmanuel Barbier (INSERM, UJF), Nicolas Coquery (INRA) Dans cette étude nous développons une méthode statistique pour la classification de données IRM multiparamétriques permettant de réaliser un contrôle qualité des données (détection de données atypiques), et de construire un dictionnaire de signatures de tumeurs. Une précédente étude se base sur le modèle de mélange de lois gaussiennes dans lequel on cherche à rassembler des observations en groupes (classes) issus de lois gaussiennes. Ce modèle est connu pour sa sensibilité aux valeurs atypiques qui peuvent sensiblement dégrader la pertinence des groupes obtenus. Nous proposons donc d’utiliser des lois de Student généralisées qui permettent d’attribuer un poids à chaque observation dans chaque dimension, de façon à pondérer l’influence des valeurs atypiques sur la forme des groupes. Il en résulte une plus grande flexibilité dans l’ajustement des classes. Nous utilisons ainsi un algorithme d’Estimation-Maximisation, ainsi qu’un critère bayésien de sélection de modèle, que nous appliquons sur un échantillon de 37 rats présentant quatre modèles de tumeur. Nous arrivons à détecter des animaux atypiques avant de construire un dictionnaire de tumeurs discriminant fortement les quatre gliomes considéerées. Méta-algorithme de classement. Application à la sécurité routière Zaïd Ouni (Université Paris Ouest Nanterre, LAB et Modal’X) Chaque année, les données BAAC (Bulletin d’Analyse des Accidents Corporels) incluent tous les accidents de la circulation sur la voie publique française impliquant un ou plusieurs véhicules légers et blessant au moins un des occupants. Chaque véhicule léger se voit associer une “classe générationnelle” (CG), qui en donne une description sommaire. A contextes accidentels donnés, deux véhicules légers de CGs distinctes n’offrent pas nécessairement la même sécurité à leurs passagers. L’objectif de ce travail est d’évaluer dans quelle mesure les nouvelles générations de véhicules légers sont plus sûres que les anciennes à partir des données BAAC. Nous procédons par “scoring” : nous cherchons une fonction de score qui associe à tout contexte et toute CG un nombre réel ; plus ce nombre est petit, plus la CG est sûre dans le contexte accidentel donné. Une meilleure fonction de score est apprise à partir des données BAAC par validation croisée, sous la forme d’une combinaison convexe optimale de fonctions de scores produites par une librairie d’algorithmes de classement par scoring. Une inégalité oracle illustre les performances du méta-algorithme ainsi obtenu. Nous implémentons ce méta-algorithme, l’appliquons, et en montrons quelques résultats. Modélisation statistique de la toxicité de molécules et domaine de validité : application en chémoinformatique Jonathan Villain (Université de Bretagne Sud), Gilles Durrieu (Université de Bretagne Sud), Ronan Bureau (Université de Caen) Dans le domaine de la chimie et plus particulièrement en chémoinformatique, des modèles d’estimation des propriétés écotoxicologiques de molécules sont de plus en plus étudiés. Les modèles QSAR (Quantitative Structure Activity Relationship) permettent de prédire le niveau d’activité d’une nouvelle molécule. Cependant, une erreur de prédiction importante du niveau de toxicité des molécules est souvent observée pour des molécules avec un comportement atypique. Nous proposons alors des modèles statistiques robustes permettant de déterminer un domaine de validité et ainsi de déduire la capacité de prédiction d’un modèle pour une molécule. 104 Vendredi 5 juin 2015 10h00-11h40 - Statistique spatiale 2 Spatial statistics in discrete-choice models Emad-Aldeen Drwesh (Université de Lille), Sophie Dabo-Niang (Université de Lille), Jêrome Foncel (Université de Lille) Spatial binary models are useful in many areas such as in economic and epidemiology where activities are often located in space. A way that makes the analysis of such spatial activities possible is to find a kind of correlation between some random variables in one location with others at neighboring locations, see for instance Pinkse and Slade (1998), Klier and McMillen (2008) and Wang et al. (2013). We proposed here to describe and analyze the spatial (geographical) variation in disease (cancer) with respect to some risk factors using spatial binary models containing spatial latent choice variable and/or spatial autoregressive disturbances in a context of sampling data. This problem is known as Choice-Based Sampling (CBS) in discrete choice model. Unlike the random sample where all items in the population have the same probability of being chosen, the ChoiceBased Sampling (CBS) in discrete choice model is a type of sampling where the classification of the population into subsets to be sampled is based on the choices or outcomes. In this context, the use of standard Maximum likelihood estimation (MLE) procedure in CBS could lead to an inconsistent (asymptotically biased) estimation. Thus, in addition to the conditional maximum likelihood estimator (Manski and McFadden, 1981), we adapt the GMM approach (Imbens, 1992) in our context of spatial Choice-Based Sampling. We also provide a GMM estimator based on the generalized residuals (see Gourieroux et al. (1987)). We present a Monte Carlo experiment to investigate the finite sample performance of these estimation methods. An application to real cancer data in northern France is also provided. Asymptotic spectral theory for nonlinear random fields Karima Kimouche (Département de mathématiques, Université de Skikda) In this paper, we consider the asymptotic problem in spectral analysis of stationary random fields. We impose conditions which are easily verifiable for a variety of nonlinear random fields to obtain the consistency and the asymptotic normality of spectral density estimates. Asymptotic distribution of maximum deviations of the spectral density estimates is also derived. Estimation non-paramétrique de la fonction de régression par la méthode des k-plus proches voisins pour données spatiales Mohamed Salem Ahmed (Université de Lille), Mohammed Kadi Attouch (Université du Littoral Côte d’Opale), Sophie Dabo-Niang (Université de Lille), Aliou Diop (Université Gaston Berger) Nous proposons une généralisation de la méthode des k-plus porches voisins a des données spatialement dépendantes dans le but d’estimer la fonction de régression à partir de réalisations d’un processus spatial strictement stationnaire dans une région rectangulaire. L’estimateur de la fonction de régression proposé est basé sur un double noyau introduit par Dabo-Niang et al. (2014). Ces auteurs ont propose un estimateur à noyau de la fonction de régression dans le cas de données spatialement dépendantes en se basant sur deux noyaux : l’un contrôle la structure de dépendance spatiale et l’autre contrôle la distance entre les observations. Nous adaptons cette méthode dans le cadre des k-plus porches voisins en utilisant sur le noyau qui contrôle les observations une fenêtre aléatoire de lissage. Cette fenêtre aléatoire de lissage est denie par la distance entre la réalisation de la variable explicative au site spatial où on veut estimer la fonction de régression et le k-ieme plus proche réalisation aux sites voisins. Nous établissons sous des hypothèses générales, la convergence presque compléte de notre estimateur en précisant la vitesse de convergence. Sur des données simulées et réelles, nous produisons des résultats numériques tout en comparant notre estimation a celle obtenue par Dabo-Niang et al. (2014). 105 Vendredi 5 juin 2015 Critères de choix de modèle pour champs de Gibbs cachés Julien Stoehr (I3M, UMR CNRS 5149, Université de Montpellier), Jean-Michel Marin (I3M, UMR CNRS 5149, Université de Montpellier), Pierre Pudlo (I3M, UMR CNRS 5149, Université de Montpellier) La question du choix de modèle pour un champ de Gibbs caché est difficile. La structure de dépendance markovienne ne permet pas le calcul explicite de la constante de normalisation de la vraisemblance et de la somme sur tous les champs latents possibles. Les critères de choix de modèle de type BIC (Schwartz, 1978) ne sont donc pas estimables directement. Des approximations de BIC basées sur le principe des champs moyens ont été proposées pour rendre le calcul possible (Stanford et Raftery, 2002 ; Forbes et Peyrard, 2003). L’approximation consiste à remplacer la loi du modèle par une loi produit sur un ensemble de variables aléatoires réelles indépendantes. Dans le cas de la segmentation d’image, cela revient à factoriser la loi sur l’image en un produit de loi sur les pixels. Nous proposerons une extension de ces approximations lorsque la vraisemblance est remplacée par une loi produit sur des sous ensembles de variables aléatoires, i.e., des blocs de l’image. Prédire l’intensité locale d’un processus ponctuel partiellement observé Edith Gabriel (Université d’Avignon), Florent Bonneu (Université d’Avignon), Pascal Monestiez (INRA), Joël Chadoeuf (INRA) Nous considérons un semis de points observé dans une grande fenêtre. Nous supposons que le processus sous-jacent est stationnaire, isotrope et obtenu par un processus à faible dépendance dont un paramètre est dirigé par un champ aléatoire stationnaire à une échelle supérieure. Dans un objectif de prédire l’intensité locale du processus ponctuel dans des zones non-échantillonnées, notre approche consiste à définir les caractéristiques du champ aléatoire à partir de celles du processus ponctuel, puis à interpoler l’intensité locale par un krigeage ordinaire revisité. Après avoir présenté la méthode, nous étudierons ses performances à partir de simulations et l’appliquerons à l’estimation de la nidification du busard cendré. 10h00-11h40 - Estimation de densité Approche bayésienne dans l’estimation non-paramétrique de la densité des données de dénombrement par noyau associé Smail Adjabi (Laboratoire LAMOS, Université de Bejaia), Nabil Zougab (Laboratoire LAMOS, Université de Bejaia), Célestin C. Kokonendji (Université de Franche-Comté) L’approche bayesienne pour la sélection de la fenêtre de lissage dans l’estimation de la fonction de masse de probabilité discrète par la méthode du noyau associé est une bonne alternative aux méthodes populaires classiques telles que la méthode plug-in et la technique de validation croisée. Dans ce travail, nous proposons l’approche bayesienne locale pour estimer le paramètre de lissage en considérant ce paramètre comme une quantité aléatoire avec une distribution a priori. En utilisant le critère de l’erreur quadratique intégrée (ISE), l’approche bayesienne est comparée aux méthodes plug-in et validation croisée sur des simulations de données générées par des fonctions discrètes connues et sur des données réelles de comptage. Les résultats montrent la supériorité de l’approche bayesienne sur les méthodes classiques particulièrement pour les échantillons de petite et moyenne taille. Estimation rapide non-paramétrique de la densité de la distribution d’entropie maximale pour les statistiques d’ordre Richard Fischer (EDF R&D), Cristina Butucea (LAMA UPE-MLV), Jean-François Delmas (CERMICS ENPC), Anne Dutfoy (EDF R&D) 106 Vendredi 5 juin 2015 L’objectif de cette communication est de présenter une méthode pour estimer, d’une façon nonparamétrique, la densité de la distribution d’entropie maximale des statistiques d’ordre ayant des marginales fixées. Ces densités, dont le support est inclus dans l’ensemble S = {x = (x1 , . . . , xd ) ∈ Rd ; x1 ≤ x2 ≤ . . . , ≤ xd }, admettent une forme produit. On souhaite estimer, à partir d’un échantillon i.i.d., une densité qui appartient à cette famille de lois. Étant donné la forme et le support spécial, nous proposons un modèle log-additif basé sur des séries de polynômes quasi-orthogonaux spécialement conçus pour ce problème. L’intérêt de cette méthode est qu’elle nous donne une véritable fonction de densité de statistiques d’ordre qu’on pourra utiliser lors des simulations de type Monte-Carlo. Nous démontrons que, si le logarithme de la densité appartient à une classe de type Sobolev anisotropique, on peut décomposer notre problème d’estimation d’une densité ddimensionnelle à d problèmes univariés, on peut alors retrouver la vitesse de convergence univariée optimale dans le sens minimax pour une classe Sobolev de log-densités. Déconvolution adaptative de densité sur R+ Gwennaëlle Mabon (CREST - ENSAE) On considère le problème d’estimation adaptative de densité dans le modèle de convolution : Z = X + Y où X et Y sont des variables indépendantes positives. Le but est d’estimer la densité de X à partir de n observations de Z, en supposant la loi de Y est connue. Ce problème de déconvolution, classique en statistique non-paramétrique, a été traité en utilisant une approche Fourier. Cependant dans ce travail les variables aléatoires ont la particularité d’être distribuées sur R+ . Sachant cela, nous proposons un nouvel angle d’attaque en construisant un estimateur par projection sur la base de Laguerre. Nous présentons une majoration du risque quadratique intégré de cet estimateur. Enfin nous décrivons aussi une stratégie d’estimation adaptative pour sélectionner un espace de projection pertinent. Comportement asymptotique de l’estimateur à noyau de la densité, avec données discrétisées, pour des champs aléatoires dépendants et nonstationnaires Joseph Ngatchou Wandji (EHESP & Université de Lorraine), Michel Harel (ESPE Limoges & Université Paul Sabatier), Jean-François Lenain (Université de Limoges) Nous étudions le comportement asymptotique d’estimateurs à noyau de la densité pour des suites de données spatiales dépendantes discrétisées, localement non-stationnaire et convergent vers une suite stationnaire de données spatiales. Notre étude porte essentiellement sur le biais et la normalité asymptotique des estimateurs. BlockShrink probability density estimator for dependent processes Mohammed Badaoui (University Hassan 1st, ENSA, Khouribga), Noureddine Rhomari (Université Mohamed Premier, Faculté des sciences) We study the integrated L2 -risk, of a wavelet BlockShrink density estimator based on dependent observations. We prove that the BlockShrink estimator is adaptive in class of Sobolev space with unknown regularity for uniformly mixing processes with arithmetically decreasing coefficients. 10h00-11h40 - Speed meetings - Statisticiennes et lycéennes 13h30-15h30 - YSP Online 107 Liste des participants 1. Eddie Aamari [email protected] 2. Placide Abasabanye [email protected] 3. Smail Adjabi [email protected] 4. Ali Ahmad [email protected] 5. Mohamed Salem Ahmed [email protected] 6. Dedah Ahmed Babou [email protected] 7. Julien Ah-Pine [email protected] 8. Abdelhakim Aknouche [email protected] 9. Walid Al Akhras [email protected] 10. Hiba Alawieh [email protected] 11. Elmokhtar Ezzahdi Alaya [email protected] 12. Mélisande Albert [email protected] 13. Gannoun Ali [email protected] 14. Abdelkamel Alj [email protected] 15. Thibault Allart [email protected] 16. Flavien Alleaume [email protected] 17. Samuel Ambapour [email protected] 18. Aboubacar Amiri [email protected] 19. Sophie Ancelet [email protected] 20. Amélie Anota [email protected] 21. Alexis Arnaud [email protected] 22. Benjamin Auder [email protected] 23. Vincent Audigier [email protected] 24. Dario Azzimonti [email protected] 25. Genia Babykina [email protected] 26. Francois Bachoc [email protected] 27. Jean-Noel Bacro [email protected] 28. Mohammed Badaoui [email protected] 29. Pierre Barbillon [email protected] 30. Avner Bar-Hen [email protected] 31. Marie-Françoise Barme [email protected] 32. Aladji Bassene [email protected] 33. Paul Bastide [email protected] 34. François Beck [email protected] 35. Julien Bect [email protected] 36. Anne-Lise Bedenel [email protected] 37. Liliane Bel [email protected] 38. Wady Ben Mbarek [email protected] 39. Hanen Ben Salah [email protected] 40. Nahla Ben Salah Ep Eloud [email protected] 41. Fouad Ben Sudrik [email protected] 42. Clément Benoist [email protected] 109 Liste des participants 43. Nazih Benoumechiara [email protected] 44. Jérémie Bertrand [email protected] 45. Philippe Besse [email protected] 46. David Bessis [email protected] 47. Gérard Biau [email protected] 48. Abdelouahab Bibi [email protected] 49. Christophe Biernacki [email protected] 50. Guillaume Biessy [email protected] 51. Alain Bihan-Poudec [email protected] 52. Benoit Bihin [email protected] 53. Carole Binard [email protected] 54. Mickaël Binois [email protected] 55. Paul Blanche [email protected] 56. Delphine Blanke [email protected] 57. Mélanie Blazère [email protected] 58. David Blumenthal [email protected] 59. Anna Bonnet [email protected] 60. Georgi Boshnakov [email protected] 61. Yacouba Boubacar Mainassara [email protected] 62. Stephane Boucheron [email protected] 63. Mohamed Yasser Bounnite [email protected] 64. Marc Bourotte [email protected] 65. Vincent Brault [email protected] 66. Maxime Brunin [email protected] 67. Gwénaëlle Castellan [email protected] 68. Gilles Celeux [email protected] 69. Alain Celisse [email protected] 70. Benjamin Charlier [email protected] 71. Arthur Charpentier [email protected] 72. Malika Chassan [email protected] 73. Didier Chauveau [email protected] 74. Marie Chavent [email protected] 75. Rim Chérif [email protected] 76. Clément Chesseboeuf [email protected] 77. Julien Chevallier [email protected] 78. Achmad Choiruddin [email protected] 79. Matthieu Clertant [email protected] 80. Pierre Colin [email protected] 81. Sylvain Coly [email protected] 82. Daniel Commenges [email protected] 83. Marco Corneli [email protected] 84. Camille Coron [email protected] 110 Liste des participants 85. Marie Courbariaux [email protected] 86. Christophe Crambes [email protected] 87. Jairo Cugliari [email protected] 88. Sophie Dabo-Niang [email protected] 89. Nejib Dalhoumi [email protected] 90. Matthias De Lozzo [email protected] 91. Anne De Moliner [email protected] 92. Arnaud De Myttenaere [email protected] 93. Gaël De Peretti [email protected] 94. Jéreme Defives [email protected] 95. Sébastien Dejean [email protected] 96. Michel Delecroix [email protected] 97. Christian Derquenne [email protected] 98. Solène Desmée [email protected] 99. Emilie Devijver [email protected] 100. Elena Di Bernardino [email protected] 101. Charlotte Dion [email protected] 102. Sophie Donnet [email protected] 103. Jean-Jacques Droesbeke [email protected] 104. Emad-Aldeen Drwesh [email protected] 105. Véronique Dubreil-Frémont [email protected] 106. Camille Duby [email protected] 107. Alain Duhamel [email protected] 108. Thierry Dumont [email protected] 109. Ludovic Duponchel [email protected] 110. Ghislain Durif [email protected] 111. Cécile Durot [email protected] 112. Roxane Duroux [email protected] 113. Gilles Durrieu [email protected] 114. Christophe Dutang [email protected] 115. Héloïse Dutrieux [email protected] 116. Ahmed El Ghini [email protected] 117. Neska El Haouij [email protected] 118. Echarif El Harfaoui [email protected] 119. Nicole El Karoui [email protected] 120. Mathieu Emily [email protected] 121. Charly Empereur-Mot [email protected] 122. Robert Faivre [email protected] 123. Pierre Fernique [email protected] 124. Bernard Fichet [email protected] 125. Laurence Fievet [email protected] 126. Aurélie Fischer [email protected] 111 Liste des participants 127. Richard Fischer [email protected] 128. Thomas Fortin [email protected] 129. Christian Francq [email protected] 130. Guillaume Frappin [email protected] 131. Emmanuel Frénod [email protected] 132. Chloé Friguet [email protected] 133. Magalie Fromont [email protected] 134. Edith Gabriel [email protected] 135. Mélina Gallopin [email protected] 136. Nadine Galy [email protected] 137. Elise Gand [email protected] 138. Ali Gannoun [email protected] 139. Emna Gargouri-Ellouze [email protected] 140. Aurélien Garivier [email protected] 141. Jean-Michel Gautier [email protected] 142. Sara van de Geer [email protected] 143. Michaël Genin [email protected] 144. Robin Genuer [email protected] 145. Julia Geronimi [email protected] 146. Zebida Gheribi-Aoulmi [email protected] 147. Joyce Madison Giacofci [email protected] 148. Laurent Gilquin [email protected] 149. David Ginsbourger [email protected] 150. Stéphane Girard [email protected] 151. Pierre Gloaguen [email protected] 152. Alexandre Gramfort [email protected] 153. Florine Greciet [email protected] 154. Gérard Gregoire [email protected] 155. Baptiste Gregorutti [email protected] 156. Arthur Gretton [email protected] 157. Quentin Grimonprez [email protected] 158. Paul-Marie Grollemund [email protected] 159. Philippe Guarini [email protected] 160. Benjamin Guedj [email protected] 161. Yann Guédon [email protected] 162. Zohra Guessoum [email protected] 163. Chantal Guihenneuc [email protected] 164. Brendan Guillouet [email protected] 165. Christiane Guinot [email protected] 166. Corinne Hahn [email protected] 167. Lina Hamadeh [email protected] 168. Nelly Hanoune [email protected] 112 Liste des participants 169. Celine Helbert [email protected] 170. Christelle Hennequet-Antier [email protected] 171. Fred J. Hickernell [email protected] 172. Vy Thuy Lynh Hoang [email protected] 173. Van Ha Hoang [email protected] 174. Peter Hoff [email protected] 175. Sabine Hoffmann [email protected] 176. Jendoubi Houda [email protected] 177. Eva-Maria Huessler [email protected] 178. François Husson [email protected] 179. Thi Minh Thao Huynh [email protected] 180. Jendoubi Imen [email protected] 181. Serge Iovleff [email protected] 182. Safae Ismaili [email protected] 183. Jacques Jamart [email protected] 184. Corinne Jamroz [email protected] 185. Candy Jangal [email protected] 186. Marine Jeanmougin [email protected] 187. Nicolas Jegou [email protected] 188. Julie Josse [email protected] 189. Yujin Jung [email protected] 190. Othman Kadmiri [email protected] 191. Merlin Keller [email protected] 192. Jérémie Kellner [email protected] 193. Christine Keribin [email protected] 194. Salah Khardani [email protected] 195. Karima Kimouche [email protected] 196. Célestin Kokonendji [email protected] 197. Efoévi Angelo Koudou [email protected] 198. Bienvenue Kouwaye [email protected] 199. Tipaluck Krityakierne [email protected] 200. Vincent Kubicki [email protected] 201. Ahmed Labbas [email protected] 202. Amaury Labenne [email protected] 203. Tatiana Labopin-Richard [email protected] 204. Thomas Laloë [email protected] 205. Sophie Lambert-Lacroix [email protected] 206. Christian Lantuéjoul [email protected] 207. Fabien Laporte [email protected] 208. Pierre Latouche [email protected] 209. Julie Latreille [email protected] 210. Béatrice Laurent-Bonneau [email protected] 113 Liste des participants 211. Christian Lavergne [email protected] 212. Aurore Lavigne [email protected] 213. Laure Le Paih [email protected] 214. Laurent Lebrusquet [email protected] 215. Gisela Lechuga [email protected] 216. Francois Lefebvre [email protected] 217. Jose Leon [email protected] 218. Hélène Lescornel [email protected] 219. Frédérique Letué [email protected] 220. Clément Levrard [email protected] 221. Christophe Ley [email protected] 222. Yi Liu [email protected] 223. Fuchen Liu [email protected] 224. Florence Loingeville [email protected] 225. Aurore Lomet [email protected] 226. Olivier Lopez [email protected] 227. Gwennaëlle Mabon [email protected] 228. Jean Valère Mady-Goma [email protected] 229. Christine Malot [email protected] 230. Matthieu Marbac [email protected] 231. Mahendra Mariadassou [email protected] 232. Jean-Marie Marion [email protected] 233. Roland Marion-Gallois [email protected] 234. Sébastien Marmin [email protected] 235. Jean-Michel Marin [email protected] 236. Guillemette Marot [email protected] 237. Maud Marsot [email protected] 238. Gaspar Massiot [email protected] 239. Marine Masson [email protected] 240. Pierre-Alexandre Mattei [email protected] 241. Corinne Maudet [email protected] 242. Emmanuelle Mauger [email protected] 243. Véronique Maume-Deschamps [email protected] 244. Guy Mélard [email protected] 245. Coralie Merle [email protected] 246. Thomas Merly-Alpa [email protected] 247. Fatiha Messaci [email protected] 248. Sophie Mézières [email protected] 249. Nathan Minois [email protected] 250. Dominique Moccatti [email protected] 251. Elmi Mohamed [email protected] 252. Zaher Mohdeb [email protected] 114 Liste des participants 253. Valérie Monbet [email protected] 254. Jean-Marie Monnez [email protected] 255. Andrea Montanari [email protected] 256. Laure Montané [email protected] 257. Lucie Montuelle [email protected] 258. Elisabeth Morand [email protected] 259. Alain Morineau [email protected] 260. Nawel Mourah [email protected] 261. Stephane Mourareau [email protected] 262. Aurélie Muller-Gueudin [email protected] 263. Frédérique Muyl [email protected] 264. Joseph Ngatchou-Wandji [email protected] 265. Hicham Nocairi [email protected] 266. Grégory Nuel [email protected] 267. Oussa Frédéric Oke-Agbo [email protected] 268. Hayder Ouiriemmi [email protected] 269. Zaïd Ouni [email protected] 270. Davy Paindaveine [email protected] 271. Fatima Palacios Rodriguez [email protected] 272. Eric Parent [email protected] 273. Alberto Pasanisi [email protected] 274. Emeline Perthame [email protected] 275. Jean-François Petiot [email protected] 276. Jean Peyhardi [email protected] 277. Thanh Mai Pham Ngoc [email protected] 278. Anne Philippe [email protected] 279. Jean-Michel Poggi [email protected] 280. Cristian Preda [email protected] 281. Mélanie Prague [email protected] 282. Clémentine Prieur [email protected] 283. Christelle Pruvot [email protected] 284. Emmanuel Remy [email protected] 285. Patricia Reynaud-Bouret [email protected] 286. Imane Rezgui [email protected] 287. Noureddine Rhomari [email protected] 288. Christian Ritter [email protected] 289. Vincent Rivoirard [email protected] 290. Valérie Robert [email protected] 291. Stéphane Robin [email protected] 292. Angelina Roche [email protected] 293. Ghislain Rocheleau [email protected] 294. Julien Rogues [email protected] 115 Liste des participants 295. Antoine Rolland [email protected] 296. Marion Romo [email protected] 297. Etienne Roquain [email protected] 298. Marine Roux [email protected] 299. Yves Rozenholc [email protected] 300. Fabrizio Ruggeri [email protected] 301. Jesper Rydén [email protected] 302. Karin Sahmer [email protected] 303. Youssef Saidi [email protected] 304. Allou Same [email protected] 305. Adeline Samson [email protected] 306. Laure Sansonnet [email protected] 307. Gilbert Saporta [email protected] 308. Nicolas Savy [email protected] 309. Mickael Schaeffer [email protected] 310. Emeline Schmisser [email protected] 311. Loïc Schwaller [email protected] 312. Erwan Scornet [email protected] 313. Mohammed Sedki [email protected] 314. Tristan Senga Kiesse [email protected] 315. Remi Servien [email protected] 316. Sobom Matthieu Somé [email protected] 317. Perrine Soret [email protected] 318. Imen Soula [email protected] 319. Juliette Spinnato [email protected] 320. Virginie Stanislas [email protected] 321. Julien Stoehr [email protected] 322. Radu Stoica [email protected] 323. Roman Sueur [email protected] 324. Seydou Nourou Sylla [email protected] 325. Patrick Tardivel [email protected] 326. Patricia Tencaliec [email protected] 327. Camille Ternynck [email protected] 328. Clément Théry [email protected] 329. Baba Thiam [email protected] 330. Le Quyen Thieu [email protected] 331. Solenne Thivin [email protected] 332. Vincent Thouvenot [email protected] 333. Adrien Todeschini [email protected] 334. Nathan Touati [email protected] 335. Nassim Touche [email protected] 336. Jean-Marie Tricot [email protected] 116 Liste des participants 337. Catherine Trottier [email protected] 338. Gerhard Tutz [email protected] 339. Yann Vasseur [email protected] 340. Thomas Verdebout [email protected] 341. Stéphane Verdun [email protected] 342. Catherine Vermandele [email protected] 343. Elodie Vernet [email protected] 344. Thomas Verron [email protected] 345. Nicolas Verzelen [email protected] 346. Vivian Viallon [email protected] 347. Marie Vigan [email protected] 348. Sylvie Viguier-Pla [email protected] 349. Jonathan Villain [email protected] 350. Nathalie Villa-Vialaneix [email protected] 351. Xinyu Wang [email protected] 352. Nicolas Wicker [email protected] 353. Bry Xavier [email protected] 354. Anne-Françoise Yao [email protected] 355. Qiwei Yao [email protected] 356. Jean-Michel Zakoian [email protected] 357. Mouna Zitouni [email protected] 358. Rawya Zreik [email protected] 117 Index des auteurs Aamari, Eddie, 89 Abcha, Maroua, 103 Abraham, Christophe, 75 Abrial, David, 101 Adjabi, Smail, 106 Ah-Pine, Julien, 54 Ahmad, Ali, 60 Ahmed , Mohamed Salem, 105 Ait Saidi, Nadir, 88 Aknouche, Abdelhakim, 39, 61 Al akhras, Walid, 62 Al Ayoubi, Baydaa, 72 Alawieh, Hiba, 72 Alaya, ElMokhtar EzZahdi, 64 Albert, Mélisande, 90 Aleksovska, Ivana, 66 Ali Ben Alaya, Mohammed, 76 Alj, Abdelkamel, 60 Allard, Denis, 80 Ambroise, Christophe, 68 Ancelet, Sophie, 92, 101 Andrianandraina, Andy, 48 Andrieu, Sandrine, 59 Anota, Amélie, 42 Antoniadis, Anestis, 64 Archimbaud, Aurore, 87 Arnaud, Alexis, 104 Arnaud, Elise, 48 Attouch, Mohammed Kadi, 105 Auder, Benjamin, 51 Audigier, Vincent, 43 Avalos, Marta, 34 Azaïs, Jean-Marc, 40, 88 Azzimonti, Dario, 72 Baragatti, Meïli, 75 Barbier, Emmanuel, 104 Barbillon, Pierre, 85, 93, 97 Barthélémy, Célia, 85 Bassene, Aladji, 63 Bastide, Paul, 51 Beck, François, 79 Bect, Julien, 66, 97 Ben Jabeur , Sami, 96 Ben Salah, Hanen, 53 Bertrand, Jérémie, 53 Bessaïh, Thomas, 82 Besse, Philippe, 73, 103 Bessis, David, 51 Bibi, Abdelouahab, 38 Biernacki, Christophe, 67 Biessy, Guillaume, 42 Bihan-Poudec, Alain, 95 Binard, Carole, 57 Binois, Mickaël, 45 Blanche, Paul, 51, 102 Blazère, Mélanie, 56 Bonnet, Anna, 84 Bonnetain, Franck, 42 Bonneu, Florent, 106 Bordes, Laurent, 97 Boshnakov, Georgi, 60 Boucheron, Stephane, 98 Boudou, Alain, 89 Boukeloua, Mohamed, 33 Bounnite, Mohamed Yasser, 36 Bouret, Yann, 90 Bourotte, Marc, 80 Bouveyron, Charles, 64, 73 Brault, Vincent, 45 Brossat, Xavier, 64 Browne, Thomas, 49 Bry, Xavier, 57 Bureau, Ronan, 104 Burle, Boris, 86 Babykina, Génia, 33 Baccou, Jean, 66 Bachoc, François, 46 Bacro, Jean-noel, 62 Badaoui, Mohammed, 107 Balakrishnan, Narayanaswamy, 97 119 Damblin, Guillaume, 97 de Castro, Yohan, 40 De Lozzo, Matthias, 66 De Moliner, Anne, 74 de Myttenaere, Arnaud, 47 de Peretti, Christian, 53 Debbabi, Nehla, 41 Debrauwer, Laurent, 89 Del Barrio, Eustasio, 89 Delattre, Maud, 45 Delavenne, Xavier, 34 Delille, Gauthier, 66 Delmas, Jean-François, 106 Demouche, Nacer, 61 Derquenne, Christian, 45 Desmée, Solène, 35 Devijver, Emilie, 50 Di Bernardino, Elena, 44, 80 Diallo, Aldiouma, 76 Dion, Charlotte, 36 Diongue, Abdou Ka, 76 Diop, Aliou, 63, 105 Donnet, Sophie, 55 Doucet, Romain, 88 Drwesh, Emad-Aldeen, 105 Dubreil, Véronique, 95 Ducharme, Gilles, 62 Duhamel, Alain, 90 Dumont, Thierry, 46 Durand, Jean-Baptiste, 46 Durif, Ghislain, 69 Durot, Cécile, 99 Duroux, Roxane, 33 Durrieu, Gilles, 63, 104 Dutang, Christophe, 41 Dutfoy, Anne, 106 Dutrieux, Héloïse, 66 Buscarlet, Guillaume, 88 Butucea, Cristina, 106 Calenge, Clément, 52 Campillo, Fabien, 91 Canlet, Cécile, 89 Cardot, Hervé, 74 Carillo, Kevin, 96 Caron, François, 56 Carreau, Julie, 94 Cauchemez, Simon, 33 Caum Julio, Carme, 83 Causeur, David, 49 Celeux, Gilles, 58, 77 Chadoeuf, Joël, 106 Charcosset, Alain, 77 Charlier, Benjamin, 75 Charon, Nicolas, 75 Charpentier, Arthur, 44 Charras-Garrido, Myriam, 101 Chassan, Malika, 88 Chauveau, Didier, 76 Chauvel, Cécile, 33 Chavent, Marie, 54 Chebana, Fateh, 76 Chevalier, Clément, 72 Chevalier, Max, 74 Chevallier, Julien, 91 Chiquet, Julien, 57, 64 Chèze, David, 72 Chérif, Rim, 94 Claeskens, Gerda, 84 Clertant, Matthieu, 102 Clémençon, Stephan, 73 Coly, Sylvain, 101 Commenges, Daniel, 34 Concordet, Didier, 89 Coquery, Nicolas, 104 Corneli, Marco, 82 Cornu, Guillaume, 57 Coron, Camille, 52 Cottone, Francesco, 42 Courbariaux, Marie, 93 Cousin, Areski, 48 Crambes, Christophe, 42 Cuberos, Andrés, 44 Cuenod, Charles-André, 59 Cugliari, Jairo, 54 Cutting, Christine, 61 Célisse, Alain, 40, 55, 57 Efficace, Fabio, 42 El Ghini, Ahmed, 54 El Haouij, Neska, 31 El Harfaoui, Echarif, 38 El Karoui, Nicole, 39 Emily, Mathieu, 49 Empereur-Mot, Charly, 68 Etienne, Marie-Pierre, 52 Fercoq, Olivier, 40 Fernique, Pierre, 46 Fernández Ponce, José María, 44 Ferrigno, Sandie, 47 Fischer, Richard, 106 Flutre, Timothée, 91 Foncel, Jêrome, 105 Dabo-Niang, Sophie, 63, 75, 76, 105 Dalalyan, Arnak, 98 Dalhoumi, Nejib, 62 120 Fontez, Bénédicte, 91 Fonton, Noël, 40 Forbes, Florence, 104 Fort, Jean-Claude, 49 Fourcade, Sandra, 32 Francq, Christian, 38 Franke, Jörg, 63 François, Bruno, 66 Friguet, Chloé, 74 Fromont, Magalie, 90, 99 Fuchs, Mathias, 57 Guilloux, Agathe, 64 Guthrie, Cameron, 96 Guédon, Yann, 46 Gérossier, Alexis, 97 Hajjem, Asma, 103 Hamadeh, Lina, 60 Hamrani, Farida, 34 Harel, Michel, 38, 107 Helbert, Céline, 65 Henchiri, Yousri, 42 Hickernell, Fred, 39 Hoang, Van Ha, 36 Hoff, Peter, 71 Hoffmann, Sabine, 101 Husson, François, 43 Huynh, Thi Minh Thao, 83 Hébrail, Georges, 73 Gabriel, Edith, 106 Gaiffas, Stéphane, 64 Galanaud, Damien, 50 Gallopin, Mélina, 77 Galy, Nadine, 96 Gamboa, Fabrice, 56 Gannoun, Ali, 37, 53 Gargouri-Ellouze, Emna, 94 Garivier, Aurélien, 74 Gassiat, Elisabeth, 84 Geenens, Gery, 44 Genin, Michaël, 90 Genon-Catalot, Valentine, 36 Genuer, Robin, 32, 96 Gerds, Thomas A., 102 Geronimi, Julia, 43 Gheribi-Aoulmi, Zebida, 81 Ghozi, Raja, 31 Giacofci, Madison, 84 Gilquin, Laurent, 48 Ginsbourger, David, 63, 66, 72 GIrard, Stephane, 76 Giraud, Christophe, 52 Gloaguen, Pierre, 52 Goga, Camelia, 74 Goude, Yannig, 54, 64 Grama, Ion, 63 Gramfort, Alexandre, 40 Gregorutti, Baptiste, 31 Gretton, Arthur, 71 Grimonprez, Quentin, 55 Grollemund, Paul-Marie, 75 Grosjean, Martin, 63 Guarini, Philippe, 67 Guedj, Jérémie, 35 Guedj, Mickael, 68 Guessoum, Zohra, 34 Guichard, Ketsia, 32 Guihenneuc, Chantal, 101 Guillas, Serge, 75 Guillemain, Hélène, 68 Guillouet, Brendan, 103 Irène, Gijbels, 84 Jacques, Julien, 67 Jaffrézic, Florence, 77 Jaidane, Mériem, 31 Jangal, Candy, 83 Janon, Alexandre, 48 Jeanmougin, Marine, 68 Jlassi, Ines, 37 Jollois, François-Xavier, 73 Josse, Julie, 43 Julliard, Romain, 52 Keller, Merlin, 92, 97 Kellner, Jérémie, 40 Keribin, Christine, 58, 59, 77 Khardani, Salah, 37 Kim, Peter T., 61 Kimouche, Karima, 105 Klutchnikoff, Nicolas, 37 Kokonendji, Célestin C., 86, 106 Koo, Jae-Yong, 61 Kouwaye, Bienvenue, 40 Kratz, Marie, 41 Krityakierne, Tipaluck, 63 Kuentz-Simonet, Vanessa, 54 Labenne, Amaury, 54 Lacour, Claire, 61 Laloë, Thomas, 91 Lambert, Régis, 82 Lambert-Lacroix, Sophie, 69, 101 Laporte, Fabien, 77 Laroche, Pierre, 101 Latouche, Aurélien, 68 Latouche, Pierre, 64, 82 121 Laurent, Béatrice, 99 Lauwers-Cances, Valérie, 59 Lavigne, Aurore, 55 Le Brusquet, Laurent, 50, 87 Le Corff, Sylvain, 52 Le Grand, Bénédicte, 47 Le Pennec, Erwan, 87 Lebarbier, Emilie, 45 Lechuga, Gisela, 50, 87 Leclercq-Samson, Adeline, 34, 85 Leeb, Hannes, 46 Lefebvre, François, 92 Lemasson, Benjamin, 104 Lenain, Jean-François, 107 Leresche, Nathalie, 82 Lescornel, Hélène, 89 Letué, Frédérique, 65, 74 Levrard, Clément, 89 Ley, Christophe, 60 Liandrat, Jacques, 66 Liu, Fuchen, 59 Liu, Yi, 59 Liverani, Silvia, 55 Loingeville, Florence, 67 Lomet, Aurore, 72 Lopez, Olivier, 41 Loridant, Gaétan, 67 Loubes, Jean-Michel, 56, 89, 103 Louëdec, Jonathan, 74 Lévy-Leduc, Céline, 45, 84 Messaci, Fatiha, 33 Meyer, Nicolas, 92 Michel, Bertrand, 31 Mijoule, Guillaume, 59 Milhaud, Xavier, 41 Minois, Nathan, 59 Mohdeb, Zaher, 61 Molinier, Olivier, 67 Mom, Alain, 49 Monbet, Valérie, 86 Monestiez, Pascal, 106 Mongellaz, Loic, 97 Montanari, Andrea, 79 Montes, Matthieu, 68 Morineau, Alain, 83 Mortier, Frédéric, 57 Mothe, Josiane, 74 Moulinier, Luc, 72 Mourareau, Stephane, 40 Muller-Gueudin, Aurélie, 47 Mélard, Guy, 60 Narroallah, Abdelaziz, 36 Ngatchou Wandji, Joseph, 107 Niang, Ibrahima, 48 Nielsen, Jonas B., 102 Nordhausen, Klaus, 87 Nuel, Grégory, 101 O’Quigley, John, 33, 102 Ollier, Edouard, 34, 64 Ouaili Mallek, Héla, 103 Ouarda, Taha B.M.J., 76 Ouni, Zaïd, 104 Maarten, Jansen, 84 Mabon, Gwennaëlle, 107 Maby, Emmanuel, 86 Marbac, Matthieu, 103 Margaretic, Paula, 88 Mariadassou, Mahendra, 51 Marin, Jean-Michel, 105 Marion, Jean-Marie, 95 Marion-Gallois, Roland, 83 Marmin, Sébastien, 66 Marot, Guillemette, 55 Marrel, Amandine, 66 Martius, Olivia, 63 Mary-Huard, Tristan, 45, 57, 77 Masiello, Esterina, 44 Massiot, Gaspar, 37 Mattei, Pierre-Alexandre, 64 Mattout, Jeremie, 86 Maume-Deschamps, Véronique, 44, 48 Maumy-Bertrand, Myriam, 47 Mentré, France, 35 Merle, Coralie, 35 Merly-Alpa, Thomas, 83 Paindaveine, Davy, 44, 61 Palacios Rodríguez, Fátima, 44 Parent, Eric, 97 Parent, Éric, 93 Paroissin, Christian, 97 Pasanisi, Alberto, 97 Perales, Frédéric, 66 Perlbarg, Vincent, 50 Perrin, Margaux, 86 Perthame, Emeline, 49 Petit, Sébastien, 97 Peyhardi, Jean, 68 Pham Ngoc, Thanh Mai, 61 Pham, Quang-Khoai, 63 Philippe, Anne, 46 Picard, Franck, 69 Plault, Gauthier, 66 Poggi, Jean-Michel, 31, 32, 51, 54, 64, 73 Popova, Tatiana, 59 122 Sevestre Ghalila, Sylvie, 31 Sokhna, Cheikh, 76 Somé, Sobom Matthieu, 86 Soret, Perrine, 34 Spedicato, Giorgio, 41 Spinnato, Juliette, 86 Statnik, Jean-Christophe, 53 Stirnemann, Jérôme, 35 Stoehr, Julien, 105 Suard, Frédéric, 72 Suard, Norbert, 88 Sueur, Roman, 97 Sylla, Seydou Nourou, 76 Portier, Bruno, 51 Portier, François, 47 Prague, Mélanie, 71 Preda, Cristian, 67, 90 Prenat, Michel, 87 Prieur, Clémentine, 48 Pudlo, Pierre, 75, 105 Puybasset, Louis, 50 Pötscher, Benedikt M., 46 Quiquempoix, Michael, 82 Rau, Andrea, 77 Rebecq, Antoine, 83 Reynaud-Bouret, Patricia, 82, 90, 99 Rezgui, Imane, 81 Rhomari, Noureddine, 107 Ribatet, Mathieu, 53 Richet, Yann, 72 Ritter, Christian, 78 Rivoirard, Vincent, 55, 82 Robert, Valérie, 58 Robin, Stéphane, 51, 81 Roche, Angelina, 81 Rodríguez Griñolo, María del Rosario, 44 Rossi, Fabrice, 40, 47, 82 Roubaud, Marie-Christine, 86 Roumet, Pierre, 91 Rousseau, Judith, 55 Roustant, Olivier, 45 Roux, Marine, 91 Royer, François, 103 Rozenholc, Yves, 59, 99 Ruggeri, Fabrizio, 79 Ruiz-Gazen, Anne, 73, 87 Rullière, Didier, 45, 80 Rydén, Jesper, 80 Tardivel, Patrick, 89 Tarel, Jean-Philippe, 88 Tenenhaus, Arthur, 50, 87 Ternynck, Camille, 75, 76 Thiebaut, Rodoplhe, 34 Thieu, Le Quyen, 38 Thivin, Solenne, 87 Thomas-Agnan, Christine, 88 Thouvenot, Vincent, 64 Thérond, Pierre, 41 Théry, Clément, 67 Todeschini, Adrien, 56, 96 Torrésani, Bruno, 86 Touche, Nassim, 61 Toulemonde, Gwladys, 62 Tremblay-Franco, Marie, 89 Tricot, Jean-Marie, 63 Trilles, Sébastien, 88 Trottier, Catherine, 57 Trouvé, Alain, 75 Tuleau-Malot, Christine, 32, 82 Turlot, Jean-Christophe, 97 Tutz, Gerhard, 85 Saidi, Youssef, 53, 54 Saint Pierre, Philippe, 31 Salmon, Joseph, 40 Samé, Allou, 88 Saporta, Gilbert, 43 Saracco, Jérôme, 54 Sauleau, Erik, 92 Savy, Nicolas, 59 Savy, Stéphanie, 59 Schaeffer, Mickaël, 92 Schwaller, Loïc, 81 Scornet, Erwan, 32 Sedki, Mohammed, 103 Senga Kiessé, Tristan, 48 Serdyukova, Nora, 37 Servien, Rémi, 89 V.T.Hoang, Lynh, 76 van de Geer, Sara, 31 van de Wiel, Mark, 102 Vandewalle, Vincent, 74 Vanhems, Anne, 96 Vazquez, Emmanuel, 66, 97 Verdebout, Thomas, 61 Vernet, Elodie, 56 Verron, Thomas, 57 Verzelen, Nicolas, 58 Veyrat-Follet, Christine, 35 Viallon, Vivian, 34, 64, 68 Vichery, Marion, 32 Vigan, Marie, 35 Viguier-Pla, Sylvie, 89 Villa-Vialaneix, Nathalie, 32, 73 123 Villain, Jonathan, 104 Villanova-Oliver, Marlène, 65 Villotta, Quentin, 88 Wang, Xinyu, 54 Welker, Christoph, 63 Wicker, Nicolas, 72, 81 Wittkop, Linda, 34 Yao, Qiwei, 58 Yao-Lafourcade, Anne-Françoise, 101 Zagury, Jean-François, 68 Zakoian, Jean-Michel, 38 Zendrera, Noëlle, 95 Zougab, Nabil, 106 124