Structures linguistiques pour la recherche d`images
Transcription
Structures linguistiques pour la recherche d`images
Structures linguistiques pour la recherche d’images sur Internet Adrian Popescu Thèse soutenue pour obtenir le grade de docteur de l’École Nationale Supérieure des Télécommunications de Bretagne Spécialité Informatique. Directeur de thèse : Encadrants CEA : Examinateur : Rapporteurs : Ioannis Kanellos Gregory Grefenstette Pierre-Alain Moëllic Pierre-François Marteau Florence Sèdes Bruno Bachimont 2 Résumé Les recherches d’images représente une part importante du nombre total des requêtes sur Internet. Malgré leur utilité et leur popularité, les systèmes de recherche actuels souffrent de certaines limitations, comme le manque de sémantique dans le traitement des requêtes, l’imprécision des résultats, une faible interactivité, ou encore un manque d’intégration de techniques de traitement d’images. Dans cette thèse, nous démontrons que l’exploitation de structures linguistiques à large échelle représente une réponse viable aux problèmes des systèmes actuels de recherche d’images. Cette thèse est constituée de trois parties : La première partie s’intéresse au cadre de notre étude. Pour commencer, nous essayons de répondre à la question « quelles images cherchons-nous ? » en étudiant un fichier de log qui met en évidence quelques domaines conceptuels importants en recherche d’images, comme les noms communs, les noms géographiques ou les personnalités. Ensuite, nous analysons la relation entre les concepts et leur représentation imagée, puis nous introduisons et définissons les structures linguistiques qui sont le cœur de notre approche. Nous concluons cette première partie par la proposition d’une architecture générique d’un système de recherche d’images intégrant des ressources sémantiques et des fonctionnalités de traitement d’images. La deuxième partie étudie la possibilité d’adapter et/ou de construire automatiquement des structures linguistiques à large échelle pour la recherche d’images sur Internet. Cette tâche est particulièrement ardue car il est nécessaire d’acquérir des connaissances de bonne qualité et d’assurer également une bonne couverture des domaines conceptuels analysés. Notre approche combine la réutilisation de ressources existantes, dans une forme adaptée à la recherche d’images et la structuration de nouvelles connaissances. Nous proposons en particulier un algorithme permettant une extraction totalement automatique d’un thésaurus géographique à partir de sources hétérogènes du Web. Nous proposons plusieurs évaluations permettant de valider notre approche. La troisième partie correspond à la dimension applicative de ce travail avec le développement de trois systèmes permettant le traitement de requêtes portant sur des noms communs, des noms géographiques et des personnalités. Les architectures de ces applications sont des déclinaisons de notre architecture générique présentée dans la première partie. Elles intègrent les nouvelles ressources sémantiques que nous avons produites et proposent une recherche par le contenu dirigée par la sémantique. Ces applications sont décrites, illustrées, puis évaluées par rapport à des systèmes existants. 3 4 Abstract Image requests represent a hefty chunk of the total number of Internet information queries. Despite their utility and wide usage, current image search engines suffer from certain limitations, such as the lack of semantics in query processing, the imprecision of the results returned, poor interactivity and the limited use of image processing techniques. In this PhD, we prove that the use of large-scale linguistic structures represents a solution to the limitations of existing Web image retrieval systems. This thesis has three main parts : The first part analyses the main purposes of our work. To begin, we set up a log file analysis that attempts to answer the question ”what images are we looking for ?”. The study shows that a lot of queries belong to conceptual domains like common nouns, celebrity names and geographic names. Second, we analyse the relationship between the concepts and their pictorial representation and introduce some definitions that are necessary when building linguistic structures. We conclude this chapter by proposing an image search architecture that integrates conceptual structures with image processing techniques. The second part of the thesis deals with the automatic adaptation and construction of large-scale linguistic structures for use in Web image retrieval. This task is particularly difficult because it implies a good balance between the quality of the extracted knowledge and the coverage of wide conceptual domains. Our approach combines the reuse of existing resources, in an adapted form, and the building of new linguistic structures. For instance, we present a new algorithm for the automatic extraction of a geographic thesaurus using heterogeneous sources of information on the Web. We propose several evaluations that validate our approach. 5 6 Table des matières 1 Avant propos 11 1.1 Problématique de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.2 Ambition et défis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3 Structure de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2 Etat de l’art 2.1 Modèles de description d’une image . . . . . . . . . . . . . . . . . . . . . 2.1.1 Le fossé sémantique . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Modèles formels de description . . . . . . . . . . . . . . . . . . . 2.1.3 Utilisation des modèles de description pour la recherche d’images sur Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Corpus d’images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Classification des bases de données images . . . . . . . . . . . . . 2.2.2 Les différents types d’annotation . . . . . . . . . . . . . . . . . . 2.3 Recherche dans les bases de données type Internet . . . . . . . . . . . . 2.3.1 Recherche par mots-clef . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Recherche par le contenu visuel . . . . . . . . . . . . . . . . . . . 2.4 Études utilisateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Etudes de l’interaction entre les utilisateurs et les systèmes de recherche d’information . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Exploitation des fichiers de log . . . . . . . . . . . . . . . . . . . 2.4.3 Études utilisateurs pour la recherche d’information sur Internet . 2.4.4 Considérations relatives aux études utilisateurs . . . . . . . . . . 2.5 Structures sémantiques pour la recherche d’images . . . . . . . . . . . . 2.5.1 Construction de ressources sémantiques . . . . . . . . . . . . . . 2.5.2 Constitution de ressources sémantiques spécifiques à un domaine 2.5.3 Constitution de ressources sémantiques généralistes . . . . . . . . 2.5.4 Travaux utilisant Wikipédia . . . . . . . . . . . . . . . . . . . . . 2.5.5 Rôles des structures sémantiques en recherche d’images . . . . . 2.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 19 . 19 . 20 . 20 . . . . . . . . 29 30 30 32 34 34 39 43 . . . . . . . . . . . 44 45 46 47 48 48 50 55 61 64 68 8 TABLE DES MATIÈRES 3 Démarche de la thèse 3.1 Analyse d’un fichier de log . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Analyse générique de fichiers de log . . . . . . . . . . . . 3.1.2 Analyse utilisant WordNet . . . . . . . . . . . . . . . . . 3.1.3 Analyse des requêtes pour des noms de personnes . . . . . 3.1.4 Analyse des requêtes pour les noms géographiques . . . . 3.1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Concepts et images . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Similarité entre les images . . . . . . . . . . . . . . . . . . 3.3 Système de recherche d’images basé sur la sémantique . . . . . . 3.3.1 Définition de structures sémantiques . . . . . . . . . . . . 3.3.2 Les fonctionnalités offertes par les structures sémantiques 3.3.3 Architecture de recherche sémantique d’images . . . . . . 3.4 Les défis soulevés par notre approche . . . . . . . . . . . . . . . . 3.4.1 Défis d’ordre théorique . . . . . . . . . . . . . . . . . . . . 3.4.2 Défis d’ordre pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Construction de structures linguistiques 4.1 Adaptation de WordNet et Geonames . . . . . . . . . . . . . . . . . . . 4.1.1 Adaptation de WordNet . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Adaptation de Geonames . . . . . . . . . . . . . . . . . . . . . . 4.2 Construction automatique d’un thésaurus géographique . . . . . . . . . 4.2.1 Modélisation du domaine . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Sources d’information géographique sur Internet . . . . . . . . . 4.2.3 Extraction des noms géographiques . . . . . . . . . . . . . . . . . 4.2.4 Catégorisation des noms géographiques . . . . . . . . . . . . . . 4.2.5 Localisation des noms géographiques . . . . . . . . . . . . . . . . 4.2.6 Mesure de pertinence associée aux noms géographiques . . . . . 4.2.7 Vue globale de l’algorithme . . . . . . . . . . . . . . . . . . . . . 4.2.8 Gazetiki — résultats et évaluation . . . . . . . . . . . . . . . . . 4.2.9 Relation entre Gazetiki et TagMaps et Geonames . . . . . . . . . 4.3 Structure linguistique pour les personnalités . . . . . . . . . . . . . . . . 4.3.1 Modélisation du domaine . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Extraction de connaissances pour les personnalités à partir de Wikipédia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Catégorie des chanteurs et musiciens . . . . . . . . . . . . . . . . 4.3.4 Catégorie des acteurs . . . . . . . . . . . . . . . . . . . . . . . . 4.3.5 Les footballeurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.6 Valeur de pertinence associée aux noms de personnes et aux relations entre ces noms . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.7 Évaluation de CelebWiki . . . . . . . . . . . . . . . . . . . . . . 4.3.8 Discussion et conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 72 73 78 83 87 89 91 92 94 94 100 104 105 105 107 109 . 109 . 109 . 114 . 116 . 116 . 117 . 118 . 120 . 122 . 123 . 124 . 124 . 132 . 134 . 134 . . . . 135 136 136 139 . 139 . 142 . 143 TABLE DES MATIÈRES 9 5 Applications de recherche d’images 5.1 Olive — recherche de noms communs . . . . . . . . . . . . . . . . . . . . 5.1.1 Modélisation des données . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Architecture d’Olive . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.3 Exemple d’utilisation . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.4 Évaluation d’Olive . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.5 Discussion et conclusions . . . . . . . . . . . . . . . . . . . . . . 5.2 ThemExplorer — recherche d’entités géographiques . . . . . . . . . . . . 5.2.1 Modélisation des données . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Architecture de ThemExplorer . . . . . . . . . . . . . . . . . . . 5.2.3 Comparaison de ThemExplorer et World Explorer . . . . . . . . 5.2.4 Exemple d’utilisation . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.5 Évaluation de ThemExplorer . . . . . . . . . . . . . . . . . . . . 5.3 Safir — recherche de noms de personnalités . . . . . . . . . . . . . . . . 5.3.1 Modélisation des données . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Architecture de Safir . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.3 Évaluation de Safir . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Participation à la campagne d’évaluation ImageCLEF . . . . . . . . . . 5.5 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1 Filtrage et classification de la nature des images par apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.2 Classification non-supervisée d’images (clustering) . . . . . . . . 6 Conclusions et perspectives 6.1 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Structuration automatique de connaissances . . . . . . . 6.1.2 Recherche d’images conceptuelle . . . . . . . . . . . . . 6.1.3 Recherche d’images par le contenu visuel . . . . . . . . 6.2 Limites et perspectives . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Incomplétude des structures conceptuelles . . . . . . . . 6.2.2 Traitement des requêtes complexes . . . . . . . . . . . . 6.2.3 Qualité des résultats . . . . . . . . . . . . . . . . . . . . 6.2.4 Structuration automatique d’une ressource géographique 6.2.5 Annotation automatique d’images géo-référencées . . . . 6.2.6 Plateforme de tourisme virtuel interactive . . . . . . . . 7 Liste des publications 7.1 Chapitres d’ouvrages . . . . . . . . 7.2 Conférences . . . . . . . . . . . . . 7.2.1 Conférences internationales 7.2.2 Conférences nationales . . . Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 . 145 . 146 . 147 . 152 . 156 . 162 . 163 . 163 . 165 . 170 . 172 . 172 . 180 . 180 . 182 . 187 . 188 . 191 . 191 . 192 193 193 193 194 195 196 196 197 197 198 198 199 . . . . . . . . . . . . . . . . . . . . . . . . . . 201 . 201 . 201 . 201 . 202 203 10 TABLE DES MATIÈRES Chapitre 1 Avant propos Les applications de recherche d’information sont parmi les plus utiles et les plus populaires sur Internet. Elles répondent à un besoin fondamental dans un environnement très riche, dynamique et faiblement structuré : disposer d’un moyen d’accès aux informations pertinentes, rapide et simple, par rapport à une requête donnée. Bien que très largement adoptés par le grand public, les systèmes actuels à grande échelle sur Internet sont construits pour traiter de l’information brute, sans aucune prise en compte de la signification qu’elle véhicule. C’est de ce principe que découlent leurs principaux avantages (la robustesse, la couverture et la rapidité) ainsi que leurs principales limitations (l’adaptation souvent partielle par rapport aux requêtes des utilisateurs, le traitement non-différencié selon les média et le manque d’interactivité avec l’utilisateur). L’introduction d’une couche sémantique dans les applications de recherche d’information est très vite apparue comme une condition nécessaire pour permettre un traitement non plus au niveau des chaı̂nes de caractères, mais à un niveau symbolique. Cet ajout au sein de l’architecture de recherche vise à surmonter les limitations des systèmes actuels tout en préservant leurs principaux avantages. L’utilisation des ressources sémantiques est loin d’être triviale et aucun système à large échelle n’utilise massivement de telles ressources malgré des efforts de recherche soutenus qui témoignent d’un très fort intérêt scientifique et pratique vis-à-vis de cette approche. A l’exception du moteur Ask1 qui propose une interface contenant, de manière structurée, des propositions de recherche liées à la requête, les autres moteurs de recherche fournissent simplement en réponse une liste d’images dont la représentativité par rapport à la requête formulée par l’utilisateur n’est pas toujours correcte [140]. Notre intention n’est pas de dresser un panorama exhaustif des recherches traitant de l’utilité de la sémantique pour la recherche d’information en général. Nous nous intéressons et bornons notre travail à un seul type de données : les images fixes. La croissance quantitative du nombre de documents sur le Web, ainsi que la faible structuration de cette immense masse de données, appelle au développement de techniques de recherche efficaces, robustes et adaptées aux besoins et attentes des utilisateurs. Ces impératifs de la recherche documentaire renvoient à l’un des principaux défis des 1 http ://ask.com 11 12 CHAPITRE 1. AVANT PROPOS technologies de l’information : traiter des données numériques selon plusieurs niveaux symboliques. Ceci passe par l’introduction, dans l’architecture de recherche, d’une couche fonctionnelle qui serait sensible à la sémantique. Cette sensibilité à la signification du contenu des requêtes implique l’utilisation des réseaux sémantiques (au sens large du terme). 1.1 Problématique de recherche Les réseaux sémantiques sont des ressources difficiles à constituer quand on ne se borne pas à des domaines spécialisés ; aussi est-il souhaitable de pouvoir réutiliser des ressources existantes dès que cela s’avère possible. Les réseaux exploitables sont issus de domaines comme la lexicographie (WordNet [33]), la géographie (Geonames2 , Alexandria [50]), la folksonomie (ConceptNet [80], Wikipédia3 ). Néanmoins, une adaptation, voire une structuration des données, sont nécessaires si l’on souhaite les appliquer à un domaine d’application particulier. Ainsi, dans un premier volet de cette thèse, nous employons des techniques empruntées à la fouille de données sur le Web [43] pour enrichir WordNet et Geonames (un thesaurus géographique) pour les rendre pleinement utilisables pour une application de recherche d’images. Le cas de Wikipédia est naturellement plus complexe puisque l’information contenue dans la populaire encyclopédie en ligne doit d’abord être organisée sous forme de structures sémantiques avant d’être exploitée pour la recherche d’images. Un second volet important de cette thèse est l’étude des usages et des pratiques liées aux moteurs de recherche d’images. Cette étude permet une description des pratiques de recherche et, par conséquent, offre la possibilité d’accorder des moyens d’interaction adéquats entre l’utilisateur et le système. Deux types d’études sont généralement mis en œuvre : l’étude des fichiers de log produits par des moteurs de recherche [60], [41] et les études utilisateur [48], [116]. Il y a une évidente complémentarité entre ces deux méthodologies de recherche. Les études de fichiers de log donnent un bon aperçu statistique des principaux types de requêtes mais ne permettent qu’un accès limité à l’information liée au processus de recherche. Les études utilisateurs, bien qu’effectuées généralement à petite échelle (et sans garantie sur la représentativité du panel), facilitent grandement la compréhension des pratiques de la recherche d’information. Un troisième axe de recherche s’intéresse au type des documents numériques traités, les images fixes en tant qu’objets singuliers et en tant qu’éléments dans des vastes collections. Une image est souvent associée à diverses informations textuelles mais possède aussi un contenu visuel qui lui est propre. Aussi, dans notre approche, l’introduction d’une couche sémantique dans l’architecture d’un système de recherche d’images s’accompagne de l’utilisation de techniques de traitement d’images. Ces techniques ont deux rôles principaux : – proposer une modalité de recherche basée sur le contenu visuel dans des parties de la base de données qui ont des caractéristiques sémantiques communes ; 2 3 https ://geonames.org http ://en.wikipedia.org 1.1. PROBLÉMATIQUE DE RECHERCHE 13 – filtrer les résultats indésirables. La prise en compte de ces trois axes va nous permettre de proposer une solution de recherche d’images qui aura pour objectif d’améliorer les points suivants : – L’interactivité, par l’utilisation de structures de données construites selon la façon dont nous organisons les entités dans le monde. – La précision des résultats grâce à une meilleure exploitation des informations décrivant les images. – La prise en compte du type de document recherché, par l’introduction de techniques de traitement d’images permettant une recherche par similarité visuelle. La réalité empirique est décrite par des catégories que nous organisons au sein de structures dédiées selon divers types de relations et de contextes. Étant donné la richesse conceptuelle du monde, il nous est souvent difficile d’actualiser nos connaissances et, dans ces cas, les structures conceptuelles peuvent nous rendre service. Il existe des structures linguistiques à large échelle exploitables dans des applications informatiques et ce de manière transparente pour l’utilisateur, permettant une actualisation aisée de nos connaissances. La recherche d’images sur Internet est un champ d’application pouvant bénéficier de manière significative de l’utilisation de telles données structurées. Dans cette thèse, nous proposons conjointement une réflexion théorique centrée sur les structures linguistiques à large échelle et une réflexion sur les problématiques spécifiques à notre champ d’application (la recherche d’images sur Internet). Nous citons ici quelques problématiques de recherche que nous nous proposons d’aborder : – Comment adapter ou créer des ressources conceptuelles à large échelle ? Quels sont les principaux défis associés ? De la très riche et ancienne histoire du problème de « la structuration des concepts » [30] nous savons qu’il n’existe pas d’agrégation unique des catégories et que l’on peut les combiner de différentes façons. Néanmoins, certaines relations entre les concepts sont communément acceptées et il est possible de les agréger dans des structures linguistiques afin de les intégrer dans des applications informatiques. L’utilisation pertinente et efficace des structures sémantiques dans les applications informatiques étant fortement conditionnée par la cohérence logique de ces structures, leur construction à large échelle est un processus complexe [88]. – Quels sont les bénéfices et les limites de l’introduction d’une couche sémantique associée aux annotations des images ? Dans le cas d’un système de recherche d’images généraliste, étant donné la variété de l’espace des requêtes images [41], il est nécessaire d’avoir à disposition des structures linguistiques de grande taille assurant une bonne couverture conceptuelle. – Quels sont les usages associés aux moteurs de recherche ? Ce sujet est partiellement couvert par les travaux actuels comme les contributions de Broder et al [15] ou Rose et Levinson [113] qui présentent, de manière générale, les types de recherche dans les applications de recherche d’information : informationnel, de navigation et obtention de ressources. Les travaux dans le domaine de l’analyse de l’utilisation des systèmes de recherche d’information déplorent souvent l’inexistence d’études qui souligneraient les motivations des utilisateurs [45], [61], [98] et qui pourraient 14 CHAPITRE 1. AVANT PROPOS guider l’adaptation des systèmes en fonction de leurs besoins réels. – Comment associer de manière fiable des annotations textuelles aux images ? Les algorithmes automatiques qui sont utilisés actuellement corrèlent souvent des images avec du texte qui n’est pas nécessairement représentatif du contenu de l’image [19], [140]. La difficulté de cette tâche vient notamment du fait que le Web est un environnement très faiblement structuré et qu’il est difficile de définir une architecture d’annotation automatique qui limiterait les associations texte - images erronées. Ici encore, il est difficile de contourner la question des usages. – Dans le cas des systèmes de recherche d’images à grande échelle, quelles sont les contributions des techniques de traitement d’images susceptibles d’améliorer la qualité des réponses ? Malgré d’importants efforts de recherche [82], ces techniques ne sont actuellement pas introduites dans les applications réelles. Une exception notable est la détection de visages proposée par Exalead4 puis par Google et Microsoft Live Search pour filtrer les images. – Comment présenter les résultats de façon à ce que l’utilisateur puisse naviguer rapidement dans un grand nombre de réponses ? Par exemple, il y a plus de 48 millions de réponses (sur Google Images) pour la requête dog et il est difficilement envisageable d’explorer de manière séquentielle une telle quantité de données. La plupart de ces questions tourne autour de l’accès à l’information dans les applications de recherche d’images. Aujourd’hui, les deux principales méthodes d’accès aux collections d’images sont l’utilisation du texte associé aux images et la recherche par similarité visuelle. La première méthode est utilisée par tous les acteurs majeurs de la recherche d’information sur Internet. Elle est basée sur l’indexation des informations textuelles (titre du fichier ou de la page, description HTML <ALT>, texte dans la page) qui entourent l’image [19], [79]. Les algorithmes employés pour retrouver et ordonner les images sont divers, ce qui explique le faible recouvrement des réponses obtenues pour une requête identique en utilisant plusieurs moteurs [130]. Néanmoins, il existe un point commun : le texte est regardé comme une chaı̂ne de caractères, sans prise en compte du contenu des requêtes. Cette approche explique les principaux avantages et problèmes des systèmes existants. Parmi les avantages nous citons : – la rapidité ; – l’annotation textuelle automatique des ressources sur le Web ; – la simplicité de l’architecture de recherche ; – la facilité de l’évolution dans un environnement fortement dynamique. Les problèmes les plus commentés [140], [111], [79], sont : – des réponses souvent non pertinentes par rapport à la requête ; – une présentation non-structurée des résultats ; – de faibles possibilités d’interaction avec les systèmes. Dans cette thèse, nous proposons une architecture de recherche par mots clé dans laquelle les résultats sont présentés après un filtrage de la requête en se basant sur des ressources sémantiques. Ce filtrage permet l’obtention de résultats plus pertinents et 4 http ://exalead.com 1.2. AMBITION ET DÉFIS 15 facilite une recherche par le contenu visuel adaptée du point de vue de l’utilisateur. La deuxième méthode de recherche d’images est la recherche par contenu visuel (CBIR — Content Based Image Retrieval) [126]. Généralement, la requête est une image ou un groupe d’images (query by example ; on trouve aussi des systèmes offrant la possibilité à l’utilisateur de dessiner sa requête — query by sketches). Les images réponses sont fournies en utilisant une mesure de similarité appliquée à un ou plusieurs descripteurs de bas niveau associés à des caractéristiques comme la couleur, la texture ou la forme. Malgré le caractère automatique de cette approche, la recherche de type CBIR présente deux handicaps majeurs : – Le fossé (appelé fossé sémantique) qui existe entre la notion de similarité propre aux utilisateurs et celle calculée par les systèmes CBIR [25], [82]. – La complexité des algorithmes utilisés qui rend le passage à l’échelle difficile. Ces inconvénients ont freiné l’utilisation des méthodes de type CBIR dans les applications de recherche d’images généralistes. Comme en témoigne le nombre important de travaux cités dans un récent état de l’art (2007) [82], l’association de la similarité visuelle de bas niveau et des techniques sémantiques suscite un très fort intérêt de la part de la communauté scientifique. Si l’introduction de la sémantique réduit le fossé entre la similarité calculée par la machine et celle perçue par l’utilisateur, elle induit habituellement une plus grande complexité dans l’architecture de recherche rendant moins aisés les passages à l’échelle. Dans cette thèse, nous proposons une méthode simple de recherche par similarité visuelle reposant sur une limitation de l’espace de recherche par le contenu aux images partageant une même description textuelle. Les recherches par mots-clef et par contenu visuel sont complémentaires et peuvent être fusionnées dans un même système parallèlement ou séquentiellement (on parle de fusion précoce et de fusion tardive) [95]. Dans le premier cas, les deux types de recherche sont utilisés simultanément, les résultats étant le plus souvent une fusion des résultats de chaque système (fusion dite tardive). Nous nous intéresserons au deuxième cas : l’interaction entre l’utilisateur et le système commence habituellement par une phase d’interrogation de la base de données par une requête textuelle, puis une phase de raffinement des résultats en utilisant la similarité visuelle. 1.2 Ambition et défis Cette thèse se situe dans le domaine de la recherche d’images destinée à un large public et réalisée dans des vastes bases de données faiblement structurées. Notre approche combine une dimension théorique et une dimension pratique grâce à l’implémentation d’applications opérationnelles qui ont servi de base à nos évaluations et à la proposition d’améliorations futures. La recherche d’images sur le Web couvre une grande diversité de domaines [60] ; aussi est-il impératif de disposer de structures sémantiques qui couvrent le plus possible la variété des requêtes exprimées par les utilisateurs. Par conséquent, les structures linguistiques créées doivent inclure le plus de concepts possibles et leur organisation doit refléter la structuration catégorielle des entités dans notre monde. La construction des ressources sémantiques est une tâche réputée difficile [21] et nous 16 CHAPITRE 1. AVANT PROPOS essayons de réutiliser des ressources existantes, en les adaptant à la recherche d’images. Si cela s’avère impossible, nous construisons de nouvelles structures en regroupant des informations accessibles sur le Web. Dans le cadre de cette thèse, nous abordons trois grands types de requêtes fréquentes : les noms communs, les toponymes et les noms de célébrités. Afin de répondre à des requêtes avec des noms communs, nous avons décidé d’utiliser une ressource existante : WordNet. WordNet est une structure sémantique constituée par des lexicographes afin de décrire l’organisation de catégories dans le monde selon les connaissances du sens commun. Son inclusion dans une architecture de recherche d’images sur Internet comporte, comme étape préalable, son adaptation à une application de recherche d’images. Il est montré dans [101] que les relations sémantiques dans WordNet sont critiquables si on se place dans l’optique des ontologies formelles mais, dans la plupart des cas, la qualité des relations entre les éléments de WordNet est suffisante pour la recherche d’images. Dans le domaine géographique, il existe des bases de données comme Alexandria [50] ou Geonames5 qui ont été construites manuellement. Ces ressources offrent une couverture inégale des régions du monde. Nous adaptons donc ces ressources pour la recherche d’images et nous décrivons une méthode d’enrichissement automatique utilisant des sources d’information complémentaires comme Wikipédia ou Panoramio6 . Wikipédia est également utilisée pour extraire des informations relatives aux célébrités à partir des nombreux articles dédiés aux personnalités. Les principaux défis relevés lors de la construction de structures linguistiques pour la recherche d’images sont les suivants : – L’obtention de ressources à grande échelle, assurant une bonne couverture des domaines ciblés mais également une bonne qualité des connaissances incluses. – L’adaptation des méthodes d’extraction de connaissances aux différents domaines conceptuels afin d’extraire des relations pertinentes. – L’ajout d’une mesure de pertinence aux concepts afin de pouvoir résumer efficacement des espaces conceptuels vastes en présentant prioritairement les concepts les plus pertinents. – L’intégration des structures linguistiques dans des architectures de recherche d’images adaptées au traitement de vastes masses de données. Sur le plan pratique, nous nous donnons comme ambition de présenter des prototypes fonctionnels de moteurs de recherche d’images qui exploitent également des fonctionnalités de traitement d’images. La validation de l’approche est réalisée à travers une série de tests évaluant la qualité des réponses aussi bien de manière quantitative que qualitative. L’évaluation quantitative des résultats passe par l’utilisation de mesures comme la précision sur un large ensemble de concepts tandis que les tests qualitatifs évaluent l’interaction d’un panel d’utilisateurs avec notre système. 5 6 http ://www.geonames.org/ http ://panoramio.com 1.3. STRUCTURE DE LA THÈSE 1.3 17 Structure de la thèse La figure 1.1 résume la structure de cette thèse. Après avoir introduit brièvement les principales directions de recherche, nous présentons un état de l’art des différents domaines abordés dans cette thèse. Nous commençons par les modèles formels de description d’images, puis nous discutons les différents types et caractéristiques des collections d’images. Dans un troisième temps, nous analysons les principales modalités de recherche dans ces collections. Un autre volet important de la recherche d’images concerne les études utilisateurs. Nous accordons un intérêt particulier à l’analyse des requêtes, à la présentation des résultats et à l’interaction de l’utilisateur avec le système. Enfin, nous proposons une synthèse des principaux travaux s’intéressant à la construction des ressources sémantiques et à leur utilisation pour améliorer la recherche d’images. Le troisième chapitre de la thèse introduit notre approche inspirée par des domaines comme les études des usages, l’analyse et l’interprétation des images, l’extraction de connaissances et la recherche d’information. Nous commençons par une étude de fichier de log à large échelle qui analyse les usages associés aux moteurs de recherche d’images, pour continuer avec la discussion de quelques notions relatives à la représentation imagée des concepts. Nous présentons ensuite les principes de construction d’une ressource sémantique à large échelle, exploitable pour une application de recherche d’images sur Internet. Pour clôturer le chapitre, nous introduisons une architecture de recherche d’images générique basée sur l’utilisation conjointe de ressources conceptuelles et de techniques de traitement d’images. Dans le quatrième chapitre, nous présentons en détail la méthodologie mise en place pour adapter ou construire des structures linguistiques pour la recherche d’images sur Internet. Il s’agit notamment de la description d’une adaptation de WordNet, l’enrichissement automatique d’un thésaurus géographique et l’extraction de connaissances à partir de Wikipédia. Nous présentons, dans chaque cas des évaluations en comparant — quand cela s’avère possible — nos ressources avec des ressources existantes. Le cinquième chapitre correspond à la dimension applicative de la thèse. Il présente une plateforme opérationnelle de recherche d’images qui reprend l’architecture générique du troisième chapitre en l’adaptant à trois applications : recherche de noms communs, de toponymes et de personnalités. Les trois parties de cette plateforme intègrent une version adaptée de WordNet, un thésaurus géographique enrichi et une ressource dédiée aux personnalités. Nous présentons dans chaque cas des scénarios typiques d’utilisation ainsi que des évaluations qualitatives et quantitatives validant notre démarche. Un dernier chapitre résume les principales contributions de cette thèse et propose plusieurs perspectives pour continuer notre effort de recherche. Compte tenu de la visée applicative de cette thèse, nous présentons une série de services tirant profit de l’introduction de structures linguistiques à large échelle dans la recherche d’images sur Internet. Ainsi, nous discutons brièvement l’utilité de telles structures dans d’autres applications, comme l’annotation automatique des images ou l’e-tourisme, les deux principaux sujets de notre recherche actuelle. 18 CHAPITRE 1. AVANT PROPOS Fig. 1.1 – Schéma présentant l’approche proposée dans cette thèse. Chapitre 2 Etat de l’art Dans ce chapitre, nous présentons un état de l’art des différents domaines de recherche en liens avec cette thèse et essayons d’extraire quelques propositions d’amélioration des applications actuelles de recherche d’images. Cette partie est structurée de la façon suivante : – Description des images : nous détaillons les différents niveaux d’analyse des images, des caractéristiques dites bas niveaux jusqu’à une description sémantique. – Introduction des grands types de bases de données d’images et de leurs principales caractéristiques (taille, modalité d’annotation, évolution. . .). – Les modalités de recherche dans les bases d’images sur Internet : par mots-clef ou par contenu visuel et la relation entre ces deux types d’accès. – Les études utilisateurs à partir de l’analyse statistique des requêtes ou par l’étude de l’interaction entre les utilisateurs et les systèmes. – La construction et l’utilisation de structures sémantiques pour la recherche d’images et ses limites actuelles. 2.1 Modèles de description d’une image Les représentations picturales sont l’objet de nombreuses études dans plusieurs domaines, comme l’histoire de l’art [40], [105], la sémiologie [29], la représentation conceptuelle [112], [3] mais aussi le traitement d’images [57]. Dans cette section, nous présentons quelques modèles de descriptions d’images qui ont été proposés pour être utilisés dans des applications informatiques. Premièrement, nous mettons en évidence les différents niveaux auxquels une image peut être caractérisée et les problèmes induits par ces descriptions. Deuxièmement, trois types de modèles sont discutés : modélisation par des attributs de « haut niveau », de « bas niveau » et modélisation hybride. Pour finir, nous analysons la pertinence des modèles formels pour des bases d’images à large échelle. 19 20 CHAPITRE 2. ETAT DE L’ART 2.1.1 Le fossé sémantique Une même image peut être « vue » à plusieurs niveaux : la vision par ordinateur est non-interprétative, en opposition à la forte subjectivité de celle d’un utilisateur. Ces deux extrêmes caractérisent ce que l’on appelle communément « le fossé sémantique ». Smeulders et al. définissent ce dernier comme « le manque de coı̈ncidence entre l’information extraite à partir des caractéristiques visuelles et l’interprétation de ces caractéristiques par un utilisateur dans une situation donnée » [126]. Le fossé sémantique est l’un des problèmes les plus souvent cités dans les travaux en recherche d’images [16], [27], [31], [38], [58], [85], [149]. Deux constats découlent de la définition proposée dans [126] et des discussions proposées dans les autres articles cités : – Les machines sont capables d’analyser plus ou moins finement les caractéristiques perceptuelles d’une image numérique mais échouent dans l’interprétation de son contenu. – L’interprétation d’une image est étroitement liée à une situation donnée. On peut se focaliser plutôt sur les objets représentés, sur les événements ou sur la localisation de la scène. L’interprétation des images est un processus potentiellement infini mais, dans un système de calcul formel, les informations qu’on peut en extraire sont intrinsèquement limitées. Nous sommes capables de sélectionner facilement l’information pertinente dans un contexte particulier alors que, pour la machine, un des problèmes majeurs est de sélectionner l’information pertinente pour une image à un certain moment [58]. Dans les applications de recherche d’images qui prennent en compte le contenu visuel, il est important de concilier la vue « machine » et celle de l’utilisateur. Si une application se base sur les caractéristiques d’une image dites de « haut niveau », on parle d’un paradigme de recherche sémantique. Au contraire, si des paramètres dits de « bas niveau » sont considérés, le paradigme est dit de recherche par le contenu. Dans le premier cas, l’information textuelle autour des images est privilégiée pour modéliser le contenu de l’image ; dans le second, des caractéristiques visuelles de l’image comme la couleur, la texture, la forme sont extraites pour en décrire le contenu. La recherche sémantique est caractéristique des très populaires systèmes de recherche d’images sur Internet, comme Google Images, alors que la recherche par le contenu est utilisée dans des applications à plus petite échelle et moins populaires, comme Qbic [5] ou VisualSeek [127]. Un nombre très important de travaux s’attache à combiner ces deux approches [82]. 2.1.2 Modèles formels de description Pour décrire le contenu d’une image, il faut choisir quels attributs vont la représenter, une description exhaustive de l’image étant naturellement irréalisable [124]. Dans cette section, nous nous intéressons à trois types de modèles de description basés sur les paramètres de haut niveau, de bas niveau d’une image et une combinaison des deux. 2.1. MODÈLES DE DESCRIPTION D’UNE IMAGE 2.1.2.1 21 Modélisation des paramètres de haut niveau d’une image Cette approche est illustrée par les travaux complémentaires de Shatford [124] et du Consortium du Web (W3C) [46]. Le modèle de Shatford est censé fournir un cadre théorique pour l’annotation manuelle des images. Le travail du W3C est plus ciblé sur les possibilités d’implémentations des techniques d’annotation d’images. Shatford et al. [124] soulignent les objectifs d’une telle annotation : – proposer un accès à des images individuelles compte tenu de leurs attributs ; – proposer un accès à des groupes d’images qui partagent certains attributs. Plusieurs types d’attributs sont utilisés pour annoter les images : – Attributs biographiques : ils incluent des données relatives à la production de l’image, à son auteur, aux droits associés. Ces informations n’ont pas de relation directe avec le contenu représenté mais peuvent être utiles dans certaines situations, comme trouver toutes les images prises par un même auteur ou à un moment donné. – Attributs liés au sujet : ils décrivent l’image à la fois en termes du contenu représenté ainsi que sa signification. Le sujet peut être décrit selon deux niveaux de représentation : générique ou spécifique. On peut remarquer la parenté avec la théorie de Rosch [112] ; il s’agit ici d’une version appauvrie de cette théorie qui propose trois niveaux de représentation pour les concepts : super-ordonné, de base, subordonné. Dans [124], quatre caractéristiques sont identifiées pour le sujet d’une image : caractéristiques spatiales, caractéristiques temporelles, caractéristiques d’activités et d’événements et caractéristiques des objets. Toutes ces caractéristiques peuvent être décrites aussi bien de manière générique que de manière spécifique. Pour une photographie, les dimensions temporelles et spatiales sont habituellement des données biographiques. – Type de représentation : les images peuvent être de différents types comme des gravures, peintures, photographies. . . – Attributs relationnels : ces attributs relient une image à d’autres objets qui peuvent être eux-mêmes des images ou des textes par exemple. Ces attributs sont utiles pour intégrer les images dans des formes d’expression plus complexes ou pour proposer une recherche dans un espace pictural défini par une image source. Les attributs exposés ci-dessus sont généralement représentatifs pour des photographies mais leur importance varie en fonction de plusieurs critères dont : le contenu de l’image, le niveau de représentation, l’utilisation ou le mode de production. Bien que, dans la perspective d’une application informatique, il soit nécessaire de spécifier le cadre théorique et, en même temps, la ou les modalités d’implémentation technique, l’approche exposée dans [124] est entièrement centré sur les aspects théoriques de l’annotation et ne se soucie pas des aspects techniques du processus de génération de ces attributs. Par exemple, il n’est pas spécifié si le texte associé aux images doit être exprimé en langage contrôlé ou libre. Dans un travail en cours [46], le Consortium du Web essaie de définir un standard pour l’annotation d’images qui doit être en accord avec les fondements technologiques du Web sémantique [10]. Plusieurs problèmes relatifs à l’annotation des images sont 22 CHAPITRE 2. ETAT DE L’ART rapportés : – l’automatisation du processus ; – la dépendance du type d’annotation par rapport aux utilisations prévues pour les images ; – le manque de sémantique et de structuration dans la majorité des applications d’annotation existantes ; – l’impossibilité de réutiliser les annotations réalisées dans différents systèmes. Une possible réponse à ces problèmes serait l’utilisation d’ontologies formelles pour associer du texte aux images, le formalisme OWL1 fournissant un langage de description pour l’annotation permettant une réutilisation des annotations dans plusieurs applications. Dans le cas où des ontologies formelles sont utilisées, il est envisageable d’associer du texte aux images selon deux façons : (1) en utilisant des données textuelles en langage naturel ou (2) du texte contrôlé qui caractériserait plusieurs propriétés de l’image. Le premier cas permet une plus grande souplesse d’annotation mais leur exploitation dans des systèmes de recherche devient plus laborieuse. Dans le second cas, la situation est inverse : la structure des ontologies permet de hiérarchiser des annotations textuelles (attributs de haut niveau) et des paramètres de l’image comme la couleur, la texture, la forme (caractéristiques de bas niveau) dans ce qui serait une tentative de combler le fossé sémantique. Nous avons mentionné que, dans [46], une attention particulière est accordée à l’implémentation des systèmes d’annotation en tenant compte de plusieurs critères : – Le type du document contenant les annotations. – Le type de métadonnées retenues : elles peuvent être descriptives, structurales ou administratives et sont à relier aux différents types d’attributs décrits dans [124]. – Le format des métadonnées : RDF (Ressource Description Framework) ou OWL (Web Ontology Language). – L’annotation du contenu doit pouvoir se réaliser selon différents niveaux de détail et il doit être possible de passer facilement entre les niveaux. – Prise en compte des besoins utilisateurs pour modéliser les différents usages possibles. – Le type de licence logiciel. – La granularité : traitement au niveau des fichiers photographiques ou de leurs segments. – L’interactivité : les possibilités données aux utilisateurs d’interagir avec des annotations déjà existantes (ajouts, suppressions, modifications) La perspective d’annoter les images de manière structurée suivant les standards technologiques du Web sémantique est très intéressante pour les applications de recherche d’images à grande échelle. Cependant, comme il est souligné dans [46], l’adoption de ces standards par les utilisateurs est problématique puisqu’il est aujourd’hui difficilement imaginable d’imposer un standard unique d’annotation aux fournisseurs de contenu. 1 http ://www.w3.org/TR/owl-features/ 2.1. MODÈLES DE DESCRIPTION D’UNE IMAGE 2.1.2.2 23 Modélisation des paramètres de bas niveau d’une image Cette approche est illustrée à travers des descripteurs inclus dans le standard MPEG7 [57]. Les images numérisées peuvent être analysées automatiquement en utilisant des paramètres comme la couleur, la texture, la forme. Ces paramètres sont locaux s’ils s’appliquent à des régions dans l’image ou globaux s’ils caractérisent toute sa surface. Nous traitons ici uniquement des images fixes et nous présentons une partie des paramètres qui leurs sont associés dans MPEG-7. La couleur est l’un des paramètres fondamentaux qui peut être modélisé automatiquement. Elle est caractérisée par sept descripteurs dans MPEG-7 (six pour les images fixes et un pour les vidéos) : – L’espace des couleurs : six encodages sont supportés dans MPEG-7, dont RVB (rouge, vert, bleu) et TSV (teinte, saturation, valeur). Le premier modélise de manière approximative les trois couleurs qui sont perçues par les cellules coniques de l’œil. Le modèle RVB est un modèle additif où chaque couleur est une combinaison linéaire des trois composantes chromatiques. Le codage TSV est une transformation non-linéaire du modèle RVB et rend compte de la teinte, la saturation (l’intensité de la couleur) et la valeur (la brillance de la couleur). – La quantification de l’espace couleur (par exemple 2563 = 16777216 couleurs dans RVB). – La (les) couleur(s) dominante(s) : paramètre habituellement local, utile pour des régions de l’image caractérisées par un petit nombre de couleurs. – Scalable color : histogramme de couleurs dans l’espace TSV, le nombre de classes et de bits par couleur sont paramétrables. – Color layout : représentation de la distribution spatiale des couleurs d’une image dans une forme compacte. – Descripteur couleur — structure : ce descripteur considère l’image comme un ensemble de blocs de taille 8x8 pixels. Un histogramme couleur est construit en comptant le nombre de blocs contenant chaque couleur. La texture peut être représentée par trois paramètres dans MPEG-7 : – Descripteur de texture homogène basé sur des filtres de Gabor. – Texture browsing : ce descripteur utilise l’analyse faite par le précédent descripteur mais propose des statistiques différentes basées sur la régularité, la « rugosité » et l’orientation de la texture. – Descripteur de texture non homogène : ce descripteur est composé de plusieurs histogrammes de répartition de l’orientation des contours (l’image est découpée en 16 blocs). La forme peut être modélisée par trois descripteurs dans MPEG-7, dont deux pour les images en deux dimensions et un pour celles en trois dimensions : – Descripteur basé région : ce descripteur caractérise la distribution des pixels à l’intérieur d’une région grâce à une transformation dite ART (Angular-Radial Transformation) qui est robuste aux légères déformations des contours. – Descripteur basé contour : ce descripteur est basé sur la caractérisation de la courbure du contour (évolution de la longueur d’un rayon parcourant la forme). 24 CHAPITRE 2. ETAT DE L’ART – Des informations de localisation sont accessibles via deux descripteurs (un pour les images fixes et un pour les vidéos). Ils permettent notamment de localiser des régions d’intérêt en l’entourant par un polygone. Les paramètres visuels de MPEG-7 permettent la construction automatique de signatures d’images qui rendent compte d’une ou plusieurs caractéristiques fondamentales de l’image. Le choix de l’un ou l’autre des paramètres est généralement déterminé par le type d’images traitées. Contrairement au modèle décrit dans [124], MPEG-7 est créé en vue de l’implémentation d’applications reposant sur les paramètres du standard MPEG7. Smeulders et al. [126] en 2000 proposent un état de l’art des principaux descripteurs utilisés pour les systèmes CBIR. Ces descripteurs sont regroupés selon qu’ils s’intéressent plus particulièrement à la couleur, la texture ou la forme. Fournier [35] ajoute une quatrième catégorie en séparant les descripteurs utilisant des approches locales par points d’intérêts comme les très populaires descripteurs SIFT [83]. Nous présentons ci-dessous plus en détails les descripteurs utilisés dans le système de recherche par le contenu développé par le CEA LIST, nommé PIRIA (Programme d’Indexation et de Recherche d’Images par Affintiés) [65]. Descripteurs couleur Parmi les nombreux descripteurs basés sur la couleur, l’un des plus utilisé est un histogramme à 64 classes dans l’espace RVB ( Rouge, Vert, Bleu) où chaque composante est quantifiée en quatre valeurs. Une approche identique est possible dans l’espace TSV, généralement la quantification de la composante Teinte étant plus riche que celles des deux autres composantes. Dans PIRIA il est possible d’ajouter des informations spatiales en découpant une image en neuf régions identiques et en calculant un descripteur couleur pour chaque bloc. Dans le cas du descripteur RVB, nous obtenons une signature globale de 576 composantes. Un autre descripteur utilisé dans PIRIA est basé sur le Border Interior Classification (BIC) proposé par Stehling et al. [131]. Ce descripteur (nommé CIME dans PIRIA) utilise une quantification de la couleur comme par exemple l’espace RVB en 64 classes. Chaque pixel est classé comme « Interior » si le pixel est de la même couleur que ses quatre voisins en 4-connexité et que ses huit voisins en 8-connexité. Dans le cas contraire (au moins un voisin n’a pas la même couleur), le pixel est considéré comme « Border » (voir figure 2.1). Finalement, deux histogrammes couleur sont construits pour chacune de ces deux classes. Nous obtenons donc une signature globale de 128 composantes pour une quantification de RVB en 64 classes. Descripteurs texture PIRIA utilise le descripteur LEP (Local Edge Pattern) proposé par Cheng et al. [20]. Le descripteur LEP est un des nombreux dérivés du très populaire descripteur Local Binary Pattern (LBP) [100] qui a montré de très bons résultats pour plusieurs problèmes2 comme la caractérisation de texture ou la détection de visage [36]. Une 2 On peut trouver une liste très complète d’applications sur le site de l’université d’Oulu : 2.1. MODÈLES DE DESCRIPTION D’UNE IMAGE 25 Fig. 2.1 – Descripteur BIC. En haut, image originale (base Corel). En bas, à droite, l’ensemble des pixels « intérieurs », à droite les pixels « border ». image des gradients avec des valeurs entre 0 et 255 est d’abord calculée en appliquant un filtrage de Sobel. Cette image est binarisée par seuillage (généralement : 100, figure 2.2). Fig. 2.2 – Image binarisée après filtrage de Sobel. Pour chaque pixel de cette image, LEP décrit le type de la micro-texture du voisinage de ce pixel. Cette caractérisation est faite en considérant la répartition des pixels dans une fenêtre 3×3 autour de ce pixel. Traitant des valeurs binaires, nous avons 29 = 512 configurations possibles. Ces configurations sont numérotées en utilisant le masque http ://www.ee.oulu.fi/research/imag/texture/lbp/lbp.php. 26 CHAPITRE 2. ETAT DE L’ART Tab. 2.1 – Masque binomial pour le descripteur Local Edge Pattern. 1 8 32 2 256 64 4 16 128 binomial 3×3 du tableau 2.1. En associant au pixel central le numéro de la configuration, il est alors possible de construire un histogramme de 512 composantes caractérisant la distribution de ces 512 micro-textures dans l’image. Pour des applications de recherche par similarité, ces descripteurs sont comparés entre eux par une mesure de similarité comme la distance euclidienne, cosinus ou de Mahalanobis. Plusieurs travaux [126], [51] discutent des avantages et inconvénients des très nombreuses métriques utilisées dans l’état de l’art. Sacs de mots visuels Fig. 2.3 – Description des images par des sacs de mots visuels. Cette approche, illustrée dans la figure 2.3, repose sur un vocabulaire visuel représentatif de l’ensemble des images à indexer, construit à partir d’un ensemble de descripteurs 2.1. MODÈLES DE DESCRIPTION D’UNE IMAGE 27 locaux, le plus souvent des SIFTs [83] ou ses dérivés. Ce vocabulaire est le résultat d’une quantification non supervisée d’un ensemble de patches (correspondant aux voisinages des points d’intérêts) qui sont extraits selon plusieurs approches (de manière dense avec une grille, aléatoirement ou à partir d’un détecteur de points d’intérêt, comme les points de Harris ou la « Difference of Gaussian »). Généralement le nombre de patches est assez important et l’étape de clustering est problématique. Des techniques classiques comme les K-Means sont habituellement utilisées pour trouver une partition optimale des patches. Une fois le vocabulaire construit, chaque image peut être décrite par un histogramme de la taille du vocabulaire, dont chaque composante peut être considérée comme la fréquence d’un des mots visuels du vocabulaire dans l’image. La similarité entre deux images est calculée en utilisant la distance cosinus décrite dans l’équation (2.1) vi × vj d(Ii , Ij ) = (2.1) ||vi || × ||vj || Avec vi et vj les deux histogrammes (de la taille du vocabulaire) de l’image Ii et Ij . 2.1.2.3 Modélisations hybrides Cette approche est illustrée par les travaux de [58] et de [86]. [58] insiste sur une première séparation entre l’information visuelle et l’information non visuelle d’une image qui n’est pas sans rappeler la différentiation entre les informations biographiques et celles liées au sujet proposée par Shatford [124]. La modélisation de l’information visuelle repose sur une description des images sur dix niveaux : 1. Définition du type de l’image (ex. : photographie, peinture, dessin) et de la technique utilisée (ex. : couleurs, noir et blanc). 2. Distribution globale des paramètres comme la couleur et la texture. 3. Détermination de structures locales dans l’image : points, lignes, couleur et texture pour des régions de l’image. 4. Composition globale : distribution spatiale des éléments de l’image. 5. Objets génériques : connaissance générale des objets représentés dans les images. Ce niveau est à rapprocher du niveau de représentation de base défini par Rosch [112]. 6. Scènes génériques : à partir d’un nombre assez réduit de types généraux de scènes comme image urbaine/scène naturelle ou image d’intérieur/image d’extérieur. 7. Objets spécifiques : connaissance plus détaillée des objets. [58] lie ce niveau spécifique à la description du sujet présenté dans [124]. 8. Scènes spécifiques : comme pour les objets, ce niveau implique une connaissance précise des scènes. 9. Objets abstraits : ce niveau correspond à une interprétation (subjective) des objets représentés dans l’image. 28 CHAPITRE 2. ETAT DE L’ART 10. Scènes abstraites : ce niveau requiert une interprétation subjective de la scène représentée dans la photographie. Par exemple, on peut associer une description comme groupe de personnes mécontentes à une image représentant une grève. Les quatre premiers niveaux, dits « syntaxiques », correspondent à des paramètres de l’image similaires à ceux dans MPEG-7, tandis que les six derniers niveaux mélangent l’analyse des descripteurs de bas niveau et l’utilisation de connaissances sur le monde extérieur. Une analyse automatique des images est aisément réalisable pour les quatre premiers niveaux, mais elle devient de plus en plus difficile pour les autres niveaux. Il est souligné dans [58] que, même s’il y a des relations entre les niveaux, ils peuvent être regardés indépendamment. Leur utilisation dépend de la base de données et de l’usage envisagés. Les auteurs discutent de l’implémentation de leur modèle et précisent qu’il est possible d’automatiser les quatre premiers niveaux et partiellement les niveaux de cinq à huit. Une annotation manuelle parait indispensable pour les deux derniers niveaux. Fig. 2.4 – Ontologie décrivant les objets dans une images (cf. [86]). Le travail décrit dans [86] repose sur la définition d’ontologies spécifiques aux objets représentés dans les images. L’ontologie décrivant le contenu de l’image est illustrée dans la figure 2.4. Entre la racine de l’ontologie, correspondant au nom de l’objet, et les valeurs numériques, caractérisant la région de l’image contenant l’objet, les auteurs ajoutent un niveau intermédiaire réalisant le passage entre une description symbolique et une analyse de bas niveau de l’image. Les caractéristiques modélisées sont : – La luminosité (exprimée par cinq paramètres) et la distribution des couleurs dans la gamme vert-rouge et bleu-jaune (sept paramètres). – La position de la région dans l’image — horizontale et verticale (trois paramètres par orientation). – La taille de l’objet (trois paramètres). – La forme de l’objet (trois paramètres). Les régions de l’image supposées contenir l’objet sont ainsi définies par une série de caractéristiques de bas niveau dans une forme compacte. Ce modèle d’analyse est plus simple que celui dans [58] et est mis en place pour rechercher des images dans des bases hétérogènes de grand volume. Notons qu’il s’agit d’une description locale des 2.1. MODÈLES DE DESCRIPTION D’UNE IMAGE 29 composantes de l’image et qu’il est impossible d’avoir ici des descriptions des scènes ou d’objets abstraits. La principale limitation du modèle vient du fait que le passage entre les paramètres de bas niveau et ceux de haut niveau est quasiment immédiat. Dans des espaces conceptuels de grande taille, plusieurs objets peuvent ainsi avoir la même représentation de bas niveau. La méthodologie proposée dans [86] est conçue pour le développement d’un système réel qui est par la suite évalué sur un corpus contenant 5000 images de la base Corel illustrant des dizaines de concepts. Les résultats de l’annotation sont satisfaisants pour la base d’évaluation mais aucune hypothèse n’est faite quant aux performances du système après passage à l’échelle. 2.1.3 Utilisation des modèles de description pour la recherche d’images sur Internet Shatford [124] et Jaimes [58] soulignent que le choix des annotations associées à une image est lié à l’utilisation de cette image et que l’annotation manuelle est un processus extrêmement coûteux. Reposant majoritairement sur des techniques d’apprentissages supervisés, les méthodes d’analyse automatique [86] sont une alternative efficace dans l’hypothèse des mondes fermés, c’est-à-dire avec des bases d’images contenant un nombre restreint d’objets. Néanmoins, l’application des différents modèles formels de description d’images au corpus du Web est rendue difficile (voire impossible) par deux facteurs principaux : – La très grande diversité du contenu des images présentes sur le Web ainsi que la diversité d’usages potentiels. Les objectifs et les pratiques de recherche des utilisateurs dans des applications destinées au grand public sont difficiles à étudier, seules les informations contenues dans des fichiers de log de moteurs de recherche permettant d’extraire des tendances générales [61]. Ce point est détaillé dans la section 2.4. L’identification des usages potentiels [46], [102], comme la recherche de personnes ou la recherche encyclopédique, n’est généralement pas suivie par la proposition de modélisations formelles qui pourrait constituer la base de nouveaux moteurs de recherche plus adaptés à ces usages. – Le contenu pictural disponible sur Internet provient d’une très grande diversité de sources et il n’est pas possible d’imposer des règles d’annotation aux fournisseurs d’images [46]. À cela s’ajoute l’impossibilité d’annoter manuellement le volume considérable d’images existantes (plus de deux milliards d’images pour Google). Il faut noter une approche devenue très populaire et symbolisée par Flickr3 . Flickr est un service en ligne permettant de partager des images. L’indexation est basée sur une annotation des utilisateurs avec du texte libre et des mots-clef. Il est également possible de proposer une annotation des photographies par l’ensemble de la communauté Flickr, si l’auteur le désire. Dans les deux cas, un problème crucial est l’association de mots-clef qui ne sont pas représentatifs ou pertinents par rapport au contenu de l’image [140]. Une approche naı̈ve d’annotation automatique extrait des mots-clés du texte avoisinant l’image. Cette approche conduit souvent à une faible précision puisque le texte 3 http ://flickr.com 30 CHAPITRE 2. ETAT DE L’ART entourant l’image n’est pas forcement lié à son contenu. Dans le cas de Flickr, s’agissant de photographies personnelles les « tags » associés sont souvent fortement subjectifs et pas nécessairement partagés par d’autres utilisateurs du service. Nous proposons une description plus précise des problématiques de l’annotation des images du Web dans la section 2.3. 2.2 2.2.1 Corpus d’images Classification des bases de données images Dans la littérature de spécialité, nous trouvons un nombre important de critères de classification des corpus d’images. Nous en illustrons ici quelques-uns : – Selon la (les) source(s) des données il peut y avoir : – Des ensembles constitués d’images prises par une seule personne, comme par exemple les nombreux portfolios présents sur des pages personnelles ou des blogs. – Des corpus photographiques constitués à partir des données fournies par plusieurs personnes. L’exemple le plus populaire est la base Flickr (deux milliards de photographies en novembre 20074 ). – Selon la diversité du contenu : – Bases d’images spécialisées : les images d’automobiles de Yahoo ! Auto5 ou les images de chiens sur http ://www.puppypoopy.com/. – Bases d’images généralistes : les corpus Flickr et Google, la base Corel ou Getty Images. – Selon les droits associés aux images : – Bases d’images libres de droit. – Bases d’images propriétaires. Les bases professionnelles de Getty6 ou Corbis7 contiennent majoritairement des photographies sous copyright. Une quantité croissante des images sous Flickr est aussi protégée par la licence Creative Commons. – Selon le degré d’évolution de la base de données : – Les bases statiques, comme la base Corel par exemple. – Les bases dynamiques qui voient leur volume croitre (le plus souvent) avec le temps, comme le corpus de Flickr ou de Google Images. Par souci de clarté, nous présentons ces critères de façon binaire (généraliste/spécialisé, libre de droit/propriétaire, . . .). Néanmoins, il est évident qu’il serait possible de définir des niveaux intermédiaires reflétant plus précisément l’extrême diversité des bases d’images sur Internet. Ainsi, on peut facilement décrire plusieurs nuances concernant les droits associés aux images : – Les images complètement libres de droits. 4 http http 6 http 7 http 5 ://www.techcrunch.com/2007/11/13/2-billion-photos-on-flickr/ ://fr.cars.yahoo.com/ ://www.gettyimages.com/Home.aspx ://pro.corbis.com/ 2.2. CORPUS D’IMAGES 31 – Les images réutilisables librement, sauf à des fins commerciales (licence Creative Commons8 par exemple). – Les images qu’il faut acheter quelque soit la réutilisation (la majorité des images de Corbis ou Getty). L’évolution des contenus est un paramètre important pour les utilisateurs qui veulent pouvoir accéder et naviguer dans les bases quelque soit leur évolution. Beaucoup d’articles sur la recherche d’images commencent en faisant référence au dynamisme du corpus d’images d’Internet [58], [79], [86] mais il n’y a, à notre connaissance, aucune étude analysant l’évolution des principales bases de données. Enfin, notons que la distinction entre les bases spécialisées et les bases généralistes doit être relativisée en fonction du point de vue adopté. Par exemple, une base contenant des photographies de chiens appartenant à une grande variété de races va paraı̂tre « généraliste » à une personne spécialiste du bulldog français. En reprenant les critères énoncés auparavant, les principaux corpus d’images sur Internet sont : – Des bases de données formées d’images prises par une multitude de contributeurs. – Des corpus généralistes où on peut retrouver des photographies portant sur une grande variété de sujets. – Des bases contenant seulement des vignettes des images et des liens vers les images originales. – Des corpus fortement dynamiques. – Des bases de données à très large échelle — de l’ordre de centaines de millions à des milliards d’images. Les plus importants corpus d’images du Web sont relatifs aux principaux moteurs de recherche d’information : – Google à travers Google Images pour les images du Web, Picasa pour le partage d’images, Panoramio pour les photographies géo-référencées. – Yahoo ! avec Yahoo ! Images pour les images du Web et Flickr pour le partage de photographies ; Microsoft avec Live Image pour les images du Web. – Ask (Ask Image) pour les images du Web. – Exalead (Exalead Images) pour les images du Web À ces corpus s’ajoutent aussi ceux accesibles par des moteurs spécialisés dans la recherche d’images comme Picsearch ou Idée Inc. Le volume de données actuellement indexées dépasse deux milliards de photographies dans le cas de Google ou Yahoo !. [132] propose la liste de moteurs qui utilisent les bases indexées par d’autres applications. Par exemple, A9 et AOL appuient leur recherche sur Google. Nous parlons de plusieurs corpus d’images car l’intersection entre les corpus indexés par différents moteurs est assez réduite. Spink et al. [130] ont comparé quatre moteurs de recherche textuelle et les réponses sur la première page apparaissent dans un seul moteur dans 84,9% des cas. Les réponses sont communes à deux moteurs dans 11,4% des cas, à trois moteurs dans 2,6% des cas et à tous dans 1,1% des cas. Même si l’étude de [130] est focalisée sur la recherche textuelle, ses conclusions s’appliquent aussi 8 http ://fr.creativecommons.org/ 32 CHAPITRE 2. ETAT DE L’ART à la recherche d’images. Le début des années 2000 a vu le volume des images stockées dans les bases de données varier très fortement. D’un extrême à l’autre, on peut trouver quelques images dans des répertoires personnels ou plus de deux milliards d’images pour les images annotées par Google. Devant de telles différences, la taille d’un corpus d’images influence nécessairement les stratégies d’interaction avec le contenu. Pour les répertoires d’images de petite taille (comme ceux stockés sur les ordinateurs personnels), il est possible d’avoir assez rapidement un aperçu de toute la base. Pour les gros corpus photographiques, l’exploration exhaustive est irréalisable et il est nécessaire de proposer des solutions de recherche efficaces. Deux solutions principales sont proposées pour retrouver des images, l’accès par texte et l’accès par le contenu. Ces solutions sont décrites en détail dans la section 2.3. 2.2.2 Les différents types d’annotation L’annotation d’images est connue [46] comme étant l’une des principales problématiques liées à la recherche d’images sur Internet. Malgré l’existence de plusieurs ressources comme Dublin Core9 ou Visual Ressources Association10 , il n’existe pas de réel standard pour l’annotation sémantique. De plus, ces ressources existantes sont très généralement de petite taille et portent principalement sur des renseignements biographiques. Nous analysons ici l’annotation des images en fonction des différences suivantes : – Annotation manuelle ou automatique. – Annotation structurée ou libre. Pour illustrer l’annotation manuelle (et libre), nous présentons une photographie tirée de la base Flickr qui a été annotée par son auteur (figure 2.5). Fig. 2.5 – Image de chien dans Flickr. 9 10 http ://dublincore.org/ http ://www.vraweb.org/ 2.2. CORPUS D’IMAGES 33 Cette photographie est annotée avec les mots (tags) suivants : dogs, mike nl, golden retriever, beaches, sea, reflections, water, shores, Friday, Kijkduin, Sphinx, wet, The Netherlands, nature, Holland, The Hague, Den Haag, NL, furry, Magic, Donkey, interestingness4, SuperHearts, SuperShot, APlusPhoto, SuperAPlus, 2007, march, ilovenature, Nederland, dreams, chien, Explore, interesting, interestingness, fun, Hakuna Matata, delight, Flickr, environment. En filtrant cette liste de mots par le modèle proposé dans [124], on trouve : – des informations biographiques : mike nl, SuperAPlus, APlusPhoto ; – des informations sur le sujet : – informations temporelles : 2007, march ; – informations spatiales : The Netherlands, Den Haag, shores, sea ; – informations sur le contenu : golden retriever, dog, chien, Donkey, water ; Ces annotations appartiennent aussi bien au niveau générique (dog, chien, water ) qu’au niveau spécifique (Den Haag, golden retriever, Donkey). Notons également des termes qui correspondent aux niveaux abstraits de [58] comme delight ou fun. D’autres mots ne sont visiblement pas liés au contenu de la photographie (dreams, Flickr, Explore) et peuvent constituer des sources d’erreurs pour un processus de recherche d’images. L’annotation automatique peut être structurée, en suivant un modèle formel de description de l’image, comme c’est le cas dans [86] ou pour certains niveaux dans [58], ou elle peut être libre, comme pour les moteurs de recherche d’images sur Internet. L’annotation automatique libre est plus simple à mettre en place et plus repandue qu’une approche structurée. Un panorama de l’annotation automatique ou semi-automatique du contenu de l’image est proposé dans [89]. Une des conclusions de ce travail est que l’automatisation de l’annotation à partir de techniques d’apprentissage supervisé est possible avec des résultats satisfaisants seulement pour des bases de données de petite taille et couvrant un vocabulaire restreint (typiquement des dizaines de mots). Ce dernier point est important puisqu’il impose une restriction assez forte sur le nombre d’objets possibles à détecter automatiquement et rend la technique difficilement applicable à des bases à large échelle. La sélection automatique de mots-clef dans le texte qui entoure les images est un processus plus facile à mettre en œuvre pour des grands volumes de données et, comme nous l’avons mentionné, il est très largement utilisé pour l’indexation des corpus du Web. Selon les algorithmes utilisés par les différents moteurs de recherche, les mots-clef correspondant à une image sont extraits d’une ou plusieurs des sources d’information suivantes [19] : – le nom du fichier ; – une fenêtre de texte de la page Web qui se trouve autour de l’image ; – le texte se trouvant entre les balises <ALT> associées aux images ; – le titre de la page Web ; – l’URL de la ressource ; Une limitation importante de ce type d’approche est la détection de termes qui ne sont pas liés au contenu des images et qui vont être utilisés dans la phase de recherche. Même pour des requêtes simples, comme fox (renard), beaucoup d’images ne représentent 34 CHAPITRE 2. ETAT DE L’ART pas un renard, figure 2.6. Fig. 2.6 – Images non pertinentes pour fox sur la première page dans Google Images (Avril 2008). Les erreurs de la figure 2.6 sont dues au fait que le mot fox a été trouvé dans le texte autour des images. Pour les deux premières images, fox fait partie de termes composés de races de chiens (Toy fox terrier et Wirehaired fox terrier ) mais pour la dernière image, il s’agit d’une carte de distribution du programme de télévision de la chaı̂ne Fox Sports. Des évaluations quantitatives sur des panels de concepts pour analyser ce types d’erreurs sont présentées dans [140] ainsi que dans le chapitre 5. Les annotations associées aux images par les moteurs de recherche d’images sont conservées dans des fichiers d’index, ceci facilitant un accès rapide aux photographies dans le corpus. À part les mots-clef, l’index contient des informations permettant de retrouver la position de l’image parmi les réponses présentées aux utilisateurs. Dans Google Images, ces informations sont actualisées à chaque fois qu’une image est sélectionnée afin d’améliorer son « ranking ». 2.3 Recherche dans les bases de données type Internet Les images indexées par les moteurs de recherche sont accessibles selon deux modalités principales : la recherche par mots-clef et celle par contenu visuel (CBIR). Le premier type d’accès est beaucoup plus répandu que le deuxième en dépit d’importants efforts de recherche [126], [82]. 2.3.1 Recherche par mots-clef Cette modalité est utilisée par les principaux moteurs de recherche sur le Web. Il s’agit d’utiliser un ou plusieurs termes pour retrouver les documents (textes, images, vidéos, sons) qui sont les plus pertinents vis-à-vis de cette requête. Les mots peuvent être généralement combinés à l’aide d’opérateurs logiques comme la conjonction, la disjonction et la négation11 . Il est également possible de limiter la recherche à certains domaines du Web. Pour les images, l’approche repose sur un ensemble d’annotations qui sont obtenues de deux façons (voir aussi 2.2.2) : 11 http ://images.google.fr/advanced image search 2.3. RECHERCHE DANS LES BASES DE DONNÉES TYPE INTERNET 35 – L’analyse de l’information textuelle associée aux images : c’est la stratégie employée par les moteurs de recherche classiques (Google, Yahoo !, Picsearch). – L’association de mots-clef par les utilisateurs comme pour les répertoires d’images du Web2.0 (dont Flickr est l’application phare). Nous allons discuter séparément ces deux types d’applications par le biais de quelques exemples. 2.3.1.1 Moteurs de recherche d’images classiques Il existe des fonctionnalités de recherche d’images dans tous les principaux moteurs de recherche actuels. Comme mentionné dans 2.2.2, la recherche repose sur les mots-clef qui sont associés automatiquement aux images en utilisant les informations textuelles avoisinantes. Dans la figure 2.7, nous présentons le diagramme fonctionnel d’un moteur de recherche d’images : – Barre de recherche : la région présentée à l’utilisateur pour taper sa requête textuelle. – Recherche avancée : page dans laquelle l’utilisateur peut choisir de contraindre sa recherche selon plusieurs critères supplémentaires (ex. mots-clef et leurs combinaisons logiques, taille, type du fichier image, attributs couleur. . .). – Préférences : page dans laquelle il est possible de préciser quelques contraintes générales liées à la recherche (ex. langage de l’interface, langue des sites inclus dans la recherche ou filtrage du contenu). – Réponse : page présentant à l’utilisateur les images trouvées par le système en réponse à sa requête. Les résultats sont présentés sous forme de vignettes pointant généralement vers les pages d’origine. – Page source de l’image : page sur laquelle l’image est présentée dans son contexte original. L’interaction typique avec un moteur de recherche d’images est la suivante : l’utilisateur saisit une requête textuelle, le moteur répond en lui présentant les images associées. Le volume de réponses dépend de la complexité de la requête mais il est rare, pour des requêtes de moins de cinq termes, de n’obtenir aucune réponse. En fonction du nombre de réponses, les images sont réparties sur une ou plusieurs pages de résultats. L’utilisateur peut naviguer parmi les pages et choisir de voir une image dans son contexte original. À tout moment, une nouvelle requête peut être formulée via la barre de recherche. Certains moteurs (ex. : Ask, Picsearch, Yahoo !) proposent une reformulation automatique de la requête initiale sur la page de réponses pour guider et accélérer la recherche. En général, il s’agit de requêtes portant sur une seule entité formée d’un ou plusieurs termes. Nous allons illustrer cette reformulation avec la requête « coco » (figure 2.8). Ask organise les reformulations en trois catégories : – Requêtes plus spécifiques : Coco’s World, Coco Beach Florida, Cocoa Beach. – Requêtes plus génériques : Coca Cola, Buffie the Body. – Requêtes sur des noms associés : Coco Chanel, Nicole Austin. Si on interroge Picsearch avec la même requête, le moteur propose également Coco Chanel et Coco Lee comme noms de personnes associés. Ici, la reformulation de la requête 36 CHAPITRE 2. ETAT DE L’ART Fig. 2.7 – Diagramme fonctionnel d’un moteur de recherche d’images sur Internet. est plus simple que celle proposée par Ask, elle repose simplement sur l’ajout d’un terme au mot coco. Les propositions de recherches associées au terme initial illustrent bien le fait que la requête est ambiguë. La relation entre les nouveaux termes et celui de base n’est pas toujours facile à comprendre, il est en effet difficile de saisir la relation entre Buffie the Body (le surnom d’un modèle) ou Coca Cola et coco. De plus, pour Ask, l’appartenance des termes associés aux catégories des requêtes proches n’est que partiellement correcte. Buffie the Body et Coca Cola sont considérés comme des requêtes plus générales. Se basant uniquement sur les informations textuelles avoisinantes, les principaux moteurs de recherche ont d’évidents problèmes de précision. Dans [140] la part d’images non-représentatives pour un ensemble de 4000 images (en prenant 20 races de chien et 200 images par classe) dépasse 30%. La présentation des résultats se fait sous la forme d’une liste dans laquelle sont favorisées les images que le système a jugé comme les plus pertinentes. Le nombre de fois que les ont été sélectionnées (cliquées) est également pris en compte [103]. Mises à part les requêtes proches présentées par Ask, il n’y a aucune structuration des résultats et l’utilisateur ne peut pas affiner sa recherche en utilisant les réponses images. 2.3.1.2 Moteurs de recherche d’images basés sur des annotations manuelles Avec le développement de ce que l’on a appelé le Web 2.0, dans lequel les utilisateurs sont devenus aussi des fournisseurs de contenu, un certain nombre d’applications de partage de photographies est apparu et ces applications ont connu un rapide succès. Nous avons choisi de présenter le site le plus représentatif : Flickr. Le schéma de fonctionnement de Flickr est assez similaire à celui des moteurs de recherche d’images classiques à ceci près que Flickr offre une plus grande variété d’options d’interaction à l’utilisateur. Ceci 2.3. RECHERCHE DANS LES BASES DE DONNÉES TYPE INTERNET 37 Fig. 2.8 – Page de réponses pour une requête avec coco dans Ask (Mai 2008). est une conséquence immédiate de l’existence d’un plus grand nombre de métadonnées associées aux images comme : – – – – l’identité de la personne qui a mis la photographie en ligne ; des descriptions sous forme de texte libre ou de mots-clef ; type d’appareil photographique utilisé ; l’appartenance à un ensemble d’images (sous forme d’« albums » et de « classeurs ») ; – informations géographiques (géo tags) ; – le groupe d’appartenance des photographies. Ces métadonnées sont exploitées lors de la phase de recherche d’images. L’exploration au sein de la base peut se faire à partir des mots-clef, de tout le texte, des groupes d’images auxquelles une image est attachée mais aussi de l’auteur de l’image. Nous illustrons les différentes options de navigation de Flickr dans la figure 2.9. 38 CHAPITRE 2. ETAT DE L’ART Fig. 2.9 – Page de réponses de Flickr pour une requête avec Golden Gate Bridge. Les différentes options de navigation sont encadrées en rouge. 2.3. RECHERCHE DANS LES BASES DE DONNÉES TYPE INTERNET 2.3.2 39 Recherche par le contenu visuel La recherche d’images basée sur le contenu (CBIR) est fondée sur des descripteurs visuels (caractérisant principalement la couleur, la texture et la forme). Une image ou une région de l’image est décrite à l’aide de certaines caractéristiques (globales ou locales). L’objectif est de rechercher toutes les images qui possèdent des éléments similaires au sens d’une métrique donnée (par exemple la distance euclidienne). Habituellement, pour d’évidentes questions de temps de traitement, l’indexation de la base d’images est un processus off-line. Dans la section 2.1.1, nous avons abordé la différence entre la description d’une image faite par une machine et celle réalisée par un utilisateur. La machine rend compte d’une description perceptuelle de l’image tandis que l’humain favorise une représentation conceptuelle du contenu visuel. Cette différence fondamentale est la principale raison de l’inadaptation des systèmes CBIR classiques pour la recherche d’images dans des bases à large échelle et hétérogènes [25], [126]. Ainsi, la limite principale des systèmes CBIR classiques vient du fait qu’un utilisateur considère deux images comme proches si ces deux images partagent une cohérence conceptuelle et une cohérence perceptuelle [25]. Aussi, beaucoup de solutions hybrides combinant le CBIR et la recherche textuelle ont été proposées pour réduire cette limitation [82]. 2.3.2.1 Les systèmes CBIR classiques Du point de vue de l’utilisateur, le fonctionnement d’un système CBIR est relativement simple : une image question est choisie et le système propose des éléments qui sont visuellement proches de cette requête. La modélisation des images à l’aide de descripteurs de bas niveaux couvre un spectre assez large de techniques. Nous en proposons quelques unes ci-dessous : – Smith et al. [127] décrivent les images à l’aide d’un simple histogramme de couleurs. – Cox et al. [25] proposent un modèle qui inclut 18 caractéristiques basées sur la couleur et la texture. – Quack et al. [109] introduisent un modèle basé sur quatre descripteurs : un pour la texture, un pour les contours et deux pour la couleur. – Hoerster et al. [51] adoptent une description plus complexe des images basée sur des sacs de mots visuels qui sont extraits d’un dictionnaire (codebook) constitué au préalable (voir 2.1.2.2). Nous illustrons le principe de fonctionnement d’un moteur CBIR dans la figure 2.10. Le système dans la figure 2.10 est assez complexe car il inclut des parties comme la segmentation des images ou le retour de pertinence qui ne sont pas présents dans tous les moteurs CBIR. Le haut de la figure illustre l’indexation des images à partir des caractéristiques de bas niveau. La partie basse présente le processus de recherche par le contenu, avec comme point de départ une image exemple qui est segmentée, indexée et comparée aux images de la base d’images. De nombreuses expériences montrent qu’une recherche d’images basée uniquement sur une proximité perceptuelle produit des résultats peu pertinents dès lors qu’on s’intéresse à des bases diversifiées et de grandes tailles, comme le corpus d’Internet. L’obser- 40 CHAPITRE 2. ETAT DE L’ART Fig. 2.10 – Schéma de fonctionnement d’un système de recherche d’images par le contenu (cf. [38]). vation qui conclut l’article de Cox et al. [25] concernant la primauté de la cohérence conceptuelle sur la cohérence perceptuelle est judicieuse et doit servir de base à la construction de systèmes de recherche d’images qui proposent une modalité de recherche par le contenu. 2.3.2.2 Les systèmes CBIR hybrides Le succès limité de la recherche d’images par le contenu a fortement poussé la communauté scientifique à se tourner vers des méthodes hybrides combinant des descriptions bas-niveau, comme celles citées dans 2.3.2.1 et des modèles plus conceptuels. Un bon état de l’art est proposé dans [82] qui regroupe les différentes approches dans cinq catégories : 1. Utilisation d’une ontologie visuelle pour définir des concepts de haut niveau. Le travail déjà cité de [86] illustre bien cette approche. Chaque objet est décrit par une ontologie à deux niveaux facilitant le passage de descripteurs de bas niveau vers la racine de l’ontologie composée du nom de l’objet. 2. Introduction de techniques d’apprentissage pour relier les descripteurs de bas niveau au contenu sémantique des images. 3. Architectures basées sur l’active learning. Cette technique [42], [34], [77], [146] implique une intervention humaine pour affiner les résultats de la recherche. Habituellement, considérant une image question, l’utilisateur sélectionne des réponses 2.3. RECHERCHE DANS LES BASES DE DONNÉES TYPE INTERNET 41 qu’il juge pertinentes. À partir de ce choix, le système propose de nouvelles images réponses. Ce processus peut se répéter plusieurs fois, une amélioration sensible des résultats étant constatée après quelques itérations [77]. 4. Génération de patrons sémantiques pour guider la recherche d’images. L’approche utilise WordNet pour étendre des requêtes textuelles et retourner des résultats enrichis [150]. 5. Utilisation du texte associé aux images et de leur contenu visuel. Une version de cette technique est implémentée dans notre travail et nous la présentons plus en détail. Il y a deux types de bases photographiques utilisées : – celles ayant une description textuelle préalable [19], [34], [67], [146], [151]. – celles où la description est produite par annotation automatique des régions de l’image [77] Une autre séparation importante est considérée selon le degré de structuration des données textuelles : – Le texte, sous forme de mots-clef, appartient à des ressources sémantiques préexistantes. Par exemple, WordNet est utilisé dans des applications de recherche d’images par le contenu pour calculer des distances entre différents concepts dans la hiérarchie [34], [146] ou pour proposer une navigation conceptuelle [66], [95], [78], [146]. – Des structures sémantiques ad-hoc sont constituées. Les auteurs de [19], [151] proposent la création d’un réseau de liaisons sémantiques entre les images. Des algorithmes de fouille de données sont mis en place pour extraire, à partir de pages Web, l’information pertinente pour les images contenues et pour structurer un graphe de parenté entre les images. Beaucoup de travaux se situent dans plus d’une catégorie. Par exemple [146], [95], [34] tirent partie de l’active learning et d’une utilisation conjointe du contenu des images et du texte associé. Dans [77], à part l’active learning, des techniques d’apprentissage sont introduites dans l’architecture afin d’annoter les images. 2.3.2.3 Classification non supervisée d’images Récemment des évaluations de systèmes de recherche d’information [2] ont montré que les utilisateurs préfèrent une bonne couverture du champ conceptuel de la requête à une très bonne précision des résultats focalisés sur un seul aspect de la requête. Le clustering d’images tente de séparer différentes classes visuelles associées à une requête et ainsi de proposer à l’utilisateur une vision synthétique et représentative de l’ensemble des réponses. Il existe un nombre très important de travaux s’intéressant au clustering d’images, nous pouvons néanmoins extraire trois grandes catégories en fonction du type d’information utilisé : – approches exploitant uniquement le texte associé aux images ; – approches utilisant uniquement le contenu des images ; – approches hybrides. 42 CHAPITRE 2. ETAT DE L’ART iGroup [142] est un bon exemple de la première approche. Le système exploite le moteur de recherche Microsoft Live. Les clusters sont créés à partir du nombre de termes partagés par les images. La technique est assez intuitive et permet de séparer plusieurs représentations d’une requête, ce qui est très utile pour les termes polysémiques. Le problème principal vient du temps de calcul puisque le processus nécessite plusieurs minutes. Le clustering basé uniquement sur le contenu est proposé dans [152] ou, plus récemment, dans [64] et [63]. Théoriquement, cette approche n’est pas conditionnée par l’existence d’un texte associé aux images. Toutefois, dans le cadre de la recherche dans des grands corpus, la technique est appliquée à la suite d’une requête textuelle permettant de restreindre efficacement l’espace de recherche [63]. Cette approche nécessite d’abord une phase d’extraction des caractéristiques de bas niveau suivie par la classification proprement dite. Les temps de calcul sont ici aussi relativement importants et une extraction off-line des caractéristiques est souvent privilégiée pour accélérer le processus. Une autre solution revient à pré-classifier l’ensemble du corpus mais cette solution apparaı̂t irréaliste pour un corpus comme Internet [63]. De plus, il faudrait reproduire régulièrement le processus pour suivre au mieux l’évolution du corpus d’images. Enfin, notons que les travaux cités utilisent le plus souvent des descripteurs globaux, ceux-ci étant moins complexes à calculer que les approches locales, comme les sacs de mots visuels basés sur des points d’intérêts. Fig. 2.11 – Clustering multimodal d’images géo-référencées (cf. [73]). Dernièrement, des travaux comme [92] et [73] explorent un clustering multimodal des images d’Internet, dans le cas des bases comme Flickr pour [92], respectivement des images géo-référencées pour [73]. [92] propose d’utiliser conjointement des clusters issus des informations textuelles (mots clés) et issus d’un clustering par le contenu (à partir d’une approche par sacs de mots visuels). [73] analyse le cas des images géo-localisées et utilise le contenu des images, les mots-clef, la position spatiale des images et l’information temporelle. Le processus de clustering décrit par les auteurs de [73] est illustré par la figure 2.11. Le clustering d’images permet d’extraire des images canoniques décrivant différentes représentations de la requête et permettant à l’utilisateur de choisir ensuite les ensembles d’images qui l’intéressent le plus. [152] observe que, dans le cas d’images du Web, le clustering visuel s’applique aussi bien aux images représentatives qu’au bruit, aussi estil nécessaire d’ordonner les clusters par pertinence. [63] utilise certaines caractéristiques 2.4. ÉTUDES UTILISATEURS 43 des clusters (leur densité ou leur connectivité) pour les trier et [73] propose d’ordonner les clusters en fonction de leurs informations spatiales et temporelles. 2.3.2.4 Considérations sur les systèmes de recherche par le contenu Une séparation importante peut être faite entre les techniques analysant globalement les images (approches holistiques) et celles se focalisant sur des parties de l’image. Dans le premier cas, comme dans [25], [127], [109], les descripteurs de bas niveau sont majoritairement des histogrammes calculés sur toute l’image. [109] montre que ces descripteurs supportent mieux le passage à l’échelle (le plus grand volume d’images traité par un système CBIR étant — à notre connaissance — de onze millions d’images avec le système Cortina12 ) mais n’offrent pas de performances suffisamment intéressantes pour des grandes bases d’images. Les approches locales [95], [77] donnent généralement des résultats plus pertinents mais restent problématiques pour un passage à l’échelle nécessitant une plus grande complexité de calcul. Beaucoup de travaux s’intéressent à l’active learning [42] comme une approche alternative pour améliorer la précision. Si cette approche a un intérêt certain pour des bases et des utilisateurs spécialisés (par exemple le corpus d’un musée comme Le Louvre) l’intervention de l’utilisateur au cœur d’un processus itératif est difficilement envisageable pour un système grand public. L’obstacle le plus important quant à l’utilisation d’une modalité de recherche par le contenu reste l’incohérence conceptuelle entre la requête et les résultats. Comme nous l’avons mentionné, une solution possible est de restreinte conceptuellement l’espace de recherche avant d’appliquer une recherche par le contenu. Les images réponses seront ainsi visuellement proches et déjà conceptuellement similaires. 2.4 Études utilisateurs pour les applications de recherche d’images Ici, nous présentons les interactions entre les utilisateurs et les systèmes en s’intéressant plus particulièrement : – aux pratiques des utilisateurs et leurs interactions avec les systèmes de recherche d’information ; – l’exploitation des fichiers de log produits par les moteurs de recherche. L’analyse des pratiques des utilisateurs permet de comprendre leurs motivations et de souligner leur comportement face à un système de recherche. Cette analyse nécessite la création d’un protocole expérimentale généralement difficile à mettre en place, en particulier parce qu’il implique la constitution d’un panel d’utilisateurs représentatifs [45]. De plus, les résultats sont difficilement généralisables, aussi bien en termes de population évaluée et de la représentativité des requêtes proposées. [56] souligne que les fichiers de log sont difficiles à obtenir puisqu’ils ne sont pas rendus publiques par les moteurs de recherche comme Google ou Yahoo !. L’avantage 12 http ://vision.ece.ucsb.edu/multimedia/cortina.shtml 44 CHAPITRE 2. ETAT DE L’ART des fichiers de log est qu’ils contiennent un grand volume de données venant d’une population représentative. Leur principale limitation vient du fait qu’il n’est pas possible de connaı̂tre quels étaient les objectifs des utilisateurs ni même leurs jugements par rapport aux réponses proposées [45]. Aussi, une étude directe avec un panel d’utilisateurs et l’analyse d’un fichier de log sont deux approches considérées comme fortement complémentaires. 2.4.1 Etudes de l’interaction entre les utilisateurs et les systèmes de recherche d’information La forme générale de ces études est la suivante [79], [111], [81] : l’utilisateur est mis en situation d’interagir avec le système et il lui est demandé d’évaluer différents paramètres. Le protocole expérimental est important pour la pertinence des résultats puisque l’utilisateur doit avoir l’impression de réaliser ce test comme s’il était dans une situation normale de recherche. Les résultats sont obtenus en analysant directement l’interaction entre l’utilisateur et le système et par l’intermédiaire de questionnaires. L’analyse directe [45] évalue le comportement de l’utilisateur pendant la tâche. Les questionnaires, qui peuvent aussi comporter des zones d’expression libre, s’intéressent le plus souvent à : – La structure des résultats : dans [111], une présentation des résultats d’une requête suivant des critères de similarité visuelle est comparée à une organisation conceptuelle et à une présentation non-structurée. La structure conceptuelle et l’organisation visuelle des résultats sont comparées par dix-huit utilisateurs auxquels on demande de choisir des images pour trois requêtes. L’organisation conceptuelle est préférée par huit testeurs, sept trouvent que les deux méthodes sont équivalentes et trois que la cohérence visuelle est préférable. La structuration des résultats sur des critères visuels et la présentation sous forme de listes simples sont comparées avec un panel de dix utilisateurs. Six d’entre eux favorisent l’organisation visuelle, trois trouvent les deux équivalentes et un seul utilisateur préfère la présentation non-structurée. [79] compare une organisation issue d’un raffinement des requêtes utilisant des fichiers de log à une présentation non-structurée. Sur un panel de 23 utilisateurs, la majorité trouve la présentation structurée préférable. [81] compare trois méthodes de présentation des résultats : liste simple, organisation utilisant un regroupement sur des critères visuels et leur méthode basée sur une modélisation de l’attention visuelle. Sur dix utilisateurs, sept préfèrent cette méthode, deux la présentation utilisant un regroupement visuel et un seul pour la liste simple. – L’interactivité est étudiée dans [120] où des menus basés sur une organisation hiérarchique des concepts sont proposés à l’utilisateur pour guider sa recherche. Les menus conceptuels sont comparés avec une présentation des images sous forme de liste. Les résultats indiquent une préférence des utilisateurs pour l’interface utilisant les menus par rapport à une présentation classique des images sous forme de liste. Le comportement des utilisateurs indique également que la recherche dans une hiérarchie conceptuelle est plus facile que la reformulation libre des requêtes. – Des questions relatives aux usages associés aux moteurs de recherche d’images sont 2.4. ÉTUDES UTILISATEURS 45 incluses dans [79] et [81]. Les utilisateurs citent le divertissement comme thème général et la création de pages Web ou la rédaction de rapports comme usages liés à une population particulière (panel d’étudiants en informatique). On retrouve une analyse plus détaillée dans [102] qui, en plus des deux usages précédemment cités, ajoute la recherche encyclopédique, destinée à augmenter la connaissance de l’utilisateur en illustrant, par des images, un sujet donné. 2.4.2 Exploitation des fichiers de log L’utilisation des fichiers de log produits par les moteurs de recherche est une approche fortement complémentaire des études utilisateurs [60]. Les requêtes pour des documents textuels, des images, des vidéos ou fichiers audio sont analysées dans [61] ou [106]. Des études dédiées à la recherche d’images sont décrites dans [41] ou [62]. Les études concernant la recherche d’images suivent, au moins en partie, la même méthodologie. Nous avons insisté dans la section 2.2 sur le dynamisme d’Internet, il est ainsi devenu particulièrement intéressant de voir comment les requêtes évoluent dans le temps. Les principales informations qui sont extraites à partir des fichiers de log sont : – la longueur moyenne des requêtes ; – la longueur moyenne des sessions utilisateur ; – le nombre de requêtes analysées ; – le nombre d’utilisateurs uniques ; – le pourcentage des requêtes images ; – les domaines d’appartenance des termes fréquents. La longueur moyenne des requêtes images est de 3,74 mots dans [41] et de 3,46 mots dans [60]. Il est à noter que, dans ces études menées en 2000 les moteurs ne proposaient pas encore une fonctionnalité dédiée à la recherche d’images. La séparation entre les requêtes textuelles et les requêtes images est faite en utilisant une liste de mots-clef spécifiques pour les requêtes images (ex. : photo, jpg, image etc.). La longueur des requêtes images est plus grande en moyenne que celle des recherches de documents textuels (3,74 contre 2,35 dans [41]). Les résultats de [41] montrent que les utilisateurs formulent, en moyenne, quatre à cinq requêtes pendant une session de recherche. Cependant, la longueur moyenne d’une session est plus difficile à interpréter car une session longue peut aussi bien signifier que l’utilisateur a posé plusieurs requêtes différentes (indépendantes) ou qu’il a utilisé plusieurs tentatives pour arriver à un résultat pertinent. La part de la recherche d’images dans le nombre total des requêtes ne dépasse pas 5% dans [41] ou [60]. Avec la proposition d’applications séparées dédiées à la recherche d’images, la part de ce type de recherche atteint environ 10% du nombre total de requêtes [132]. [41] et [60] décrivent les principaux domaines d’appartenance des requêtes : les identifiants d’images, les termes relatifs à du contenu pornographique, le divertissement, les noms de personnes et termes associés à l’art. Il faut toutefois noter que les domaines sont extraits uniquement à partir des requêtes les plus fréquentes, défavorisant ainsi les domaines incluant une grande diversité de termes. 46 CHAPITRE 2. ETAT DE L’ART Le « divertissement » représente une part importante des usages, mais il faut néanmoins citer des usages plus professionnels. [41] identifie un panel d’usages potentiels pour les moteurs de recherche d’images en listant des catégories professionnelles qui ont un usage important des moteurs images : les journalistes, les historiens, les professeurs, les artistes, les agences publicitaires. Ces résultats sont à corroborer avec les constats de [79], [81] et [102] qui indiquent les mêmes types d’usage dans des études impliquant directement les utilisateurs. Plus récemment, [59] utilise les fichiers de log pour entraı̂ner un classifieur automatiques de requêtes. Jansen et al. reprennent les catégories générales des requêtes Web définies dans [15] : informationnelle, transactionnelle et de navigation. L’intérêt de ce travail tient à une meilleure adaptation des réponses compte tenu de l’intention de l’utilisateur mais les résultats présentés (75% de classifications correctes) sont pour l’instant encore insuffisantes pour espérer une utilisation dans une application grand public à large échelle. En réalité, il serait certainement plus intéressant de classifier automatiquement les requêtes dans des catégories plus spécifiques que dans les classes générales présentées dans [59]. Notons enfin que les auteurs de l’étude montrent que la plupart des erreurs de classification correspond aux requêtes courtes qui sont souvent ambiguës. 2.4.3 Études utilisateurs pour la recherche d’information sur Internet [15] propose une classification des requêtes selon trois catégories : – De navigation : la requête vise à atteindre un site web (comme par exemple taper « l’équipe » sur Google pour accéder au site du quotidien sportif). – Informationnelles : la requête vise à obtenir diverses informations relatives à cette requête. – Transactionnelle : la requête vise à effectuer une activité à l’aide du Web, par exemple acheter une voiture. La très grande majorité des requêtes images s’inscrit dans la deuxième catégorie : les requêtes informationnelles. Une différenciation peut aussi se faire entre les requêtes spécifiques (recherche d’un document spécifique) et les requêtes catégorielles (la cible est une collection de documents) qui représentent environ 15% du total des requêtes [15]. Les buts des utilisateurs dans la recherche d’information sur Internet sont analysés dans [113] qui présente une classification similaire à celle de [15] ainsi que des statistiques montrant que les requêtes informationnelles sont majoritaires. Les recherches informationnelles sont de deux types : celles censées répondre à une question précise (directionnelles) et les requêtes non-directionnelles. Les premières peuvent être soit spécifiques soit catégorielles tandis que les secondes sont toutes catégorielles. En recherche d’images les requêtes spécifiques et catégorielles sont traduites par la recherche d’une image spécifiques et l’illustration d’un concept. Une tentative intéressante de regrouper les requêtes est décrite dans [98]. Les auteurs proposent une caractérisation des requêtes en utilisant quatre propriétés : – l’ambiguı̈té ; – l’auteur de la requête ; – le moment du lancement ; 2.4. ÉTUDES UTILISATEURS 47 – la localisation de la requête. La détection de ces caractéristiques devrait permettre une compréhension automatique des motivations des utilisateurs et une adaptation des réponses. Le problème principal soulevé par cette approche est justement la détection automatique de ces caractéristiques. La majorité des systèmes de recherche d’information est évaluée par des mesures quantitatives (précision, rappel. . .) mais, comme le montre [136] pour les systèmes de recherche textuelle, l’amélioration des résultats selon ces mesures n’est pas toujours accompagnée d’une amélioration sensible du point de vue des utilisateurs. La conclusion de [136] peut être appliquée aux systèmes de recherche d’images et souligne l’importance d’une évaluation qui comprend aussi bien des mesures quantitatives que qualitatives. L’évaluation de notre travail (chapitre 5) essaie de tenir compte de cette observation. 2.4.4 Considérations relatives aux études utilisateurs Nous avons souligné la complémentarité entre les études basées sur une évaluation directe d’un panel d’utilisateurs et celles basées sur l’analyse de fichiers de log. Il est possible de proposer des méthodologies exploitant conjointement les avantages de ces deux approches. Les principales critiques apportées aux études utilisateurs concernent naturellement le coût humain, le nombre souvent réduit d’évaluateurs dans le panel et la faible représentativité de cet échantillon. Malgré ces difficultés ou critiques justifiées, leur mise en place est essentielle pour une évaluation fiable des systèmes et pour les faire évoluer de façon à mieux tenir compte des préférences (et des attentes) des utilisateurs. Les fichiers de log sont des sources d’informations riches mais aujourd’hui leur exploitation reste majoritairement statistique. Une étude selon une approche plus conceptuelle paraı̂t indispensable si l’on souhaite faire une liaison entre les requêtes brutes et les usages des utilisateurs. Aujourd’hui, l’analyse de ces fichiers est faite au niveau des chaı̂nes de caractères, séparant chaque terme, sans chercher à considérer une expression composée par plusieurs termes comme une seule et unique entité (requête). Par exemple, la requête berger allemand sera séparée en berger et allemand, de même pour les entités nommées composés de plusieurs termes (ex : Port au Prince, Tour Eiffel, François Mitterand ). Dans ces cas (nombreux), les résultats sont bruités car, au lieu de traiter les requêtes de façon unitaire, on analyse chaque composante séparément. Une solution pour mieux traiter ces requêtes serait d’introduire dans l’architecture d’analyse des dictionnaires et des listes d’entités nommées. L’objectif principal des études utilisateurs en recherche d’images est la détermination des usages. Dans les approches actuelles, l’identification des usages reste très partielle et les résultats ne sont pas pleinement exploitables [98]. [68] souligne que la création de services Web adaptés aux utilisateurs passe par l’identification de communautés de pratiques dont les membres ont des besoins similaires quand ils interagissent avec les applications de recherche d’images. 48 2.5 CHAPITRE 2. ETAT DE L’ART Construction et utilisation de structures sémantiques pour la recherche d’images Dans cette thèse, nous employons alternativement ressources sémantiques, structures sémantiques et structures linguistiques, ces termes englobant aussi bien les thésauri, ontologies formelles, dictionnaires ou réseaux sémantiques. Comme le montre des projets tels que Cyc [47], ConceptNet [80] ou WordNet [88] la construction de structures sémantiques à large échelle est une tâche demandant un effort conséquent mais le nombre important de travaux basés sur ces ressources témoigne de leur grande utilité. Cyc et WordNet sont développés manuellement par des spécialistes des ontologies formelles et de la lexicographie. Le projet WordNet a rencontré plusieurs critiques mais la connaissance contenue dans cette ressource est globalement de bonne qualité. ConceptNet a été créé par une communauté d’utilisateurs qui instancie des relations conceptuelles du sens commun proposées par un système. Une approche alternative à la construction de ressources sémantiques est l’utilisation de corpus de documents pour en extraire (semi)automatiquement des connaissances [43], [115], [21], [91], [118]. L’effort impliqué par le processus de création est plus faible mais les ressources sont de moins bonne qualité. La plupart des ressources est limitée à un domaine donné [91], [118] mais Grefenstette [44] propose une approche plus généraliste reposant sur l’utilisation d’une très grande quantité de textes disponibles sur Internet pour obtenir une carte sémantique qui relie les différents termes d’une langue. Un cas particulier de constitution automatique de ressources sémantiques est l’utilisation de connaissances semi-structurées, comme celles de Wikipédia, qui sont ensuite organisées pour enrichir des structures existantes [114]. La principale critique à ce type d’approche est que la qualité des résultats obtenus est fortement conditionnée par les connaissances de départ. Une partie des ressources sémantiques existantes se prêtent à être utilisées dans des applications de recherche d’images. Il a été souligné dans la section 2.3 qu’il existe deux modalités principales d’accès aux images : par mots-clef et par contenu visuel. Dans les deux cas, l’utilisation de ressources sémantiques peut améliorer le processus de recherche. Si on utilise des mots-clef, une structure linguistique peut améliorer l’interactivité (par la proposition de requêtes proches) [66], [120], permettre la reformulation et la désambiguı̈sation automatique des requêtes ([79]) ou structurer les résultats en fonction de l’organisation des concepts dans la structure sémantique [54], [79], [120]. 2.5.1 Construction de ressources sémantiques Les structures sémantiques peuvent être classées en fonction de leur couverture (spécifiques à des domaines données ou généralistes). Nous présentons ici plusieurs exemples et accordons une description plus importante aux ressources généralistes qui sont plus pertinentes pour la recherche d’images sur Internet. Buitelaar et al. [17] affirment que la construction des ontologies n’est pas intégralement automatisable car la spécification des concepts et des relations dans un domaine relève de l’accord entre les 2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES 49 membres d’une communauté de pratiques et demande des connaissances implicites qu’il serait impossible d’extraire automatiquement à partir d’un corpus. Ils identifient ensuite quelques grands problèmes associés aux méthodologies de construction d’ontologies : – Quelles sont les informations présentes dans un texte qui doivent être prise en compte lors de la modélisation d’une ontologie ? – Comment assister le processus de création d’un consensus sur la description d’un domaine à l’aide d’informations extraites de textes ? – Quel doit être le rôle de la construction d’ontologies dirigée par les données dans le processus plus général d’ingénierie ontologique ? – Quelles sont les méthodologies d’intégration de la construction d’ontologies dans des plateformes plus génériques dédiées aux ontologies ? – Comment assister au mieux les créateurs d’ontologies du point de vue des interfaces de visualisation des connaissances ? Dans la préface de l’ouvrage [17], les auteurs identifient les quatre communautés scientifiques qui peuvent apporter une contribution importante à la construction des ontologies et analysent leurs relations : – La communauté du traitement automatique de la langue (TAL). Le TAL permet d’extraire des termes et leurs relations sémantiques. [135] et [115] proposent des méthodes d’extraction automatique de synonymes ; [49] repère des relations d’hypéronymie entre les termes d’un texte tandis que [9] extrait des relations de méronymie. Des différences importantes existent entre la vision de la construction des ontologies type « TAL » et celle de la communauté « représentation de connaissances », comme le mapping entre les termes extraits en utilisant le TAL et les concepts, car ce passage n’est pas immédiat. De plus, dans une vision « représentation de connaissances » [143], une différence est faite entre les rôles et les types : les premiers représentent des attributs temporaires d’un terme (Nicolas Sarkozy est le président de la France), alors que les derniers sont des propriétés permanentes (Nicolas Sarkozy est un homme). – La communauté de l’apprentissage (machine learning) intervient dans la plupart des méthodes de construction automatique d’ontologies. Les modèles supervisés sont prédictifs (ils servent par exemple à classer de nouveaux exemples) tandis que les modèles d’apprentissage non-supervisé sont exploités afin de découvrir des régularités dans les données traitées (découvrir des règles d’association dans les textes par exemple). Cimiano et al. [22] exploitent des techniques de classification pour la construction automatique de hiérarchies de termes. Dans [84], les auteurs appliquent des règles d’association pour découvrir des relations inter-conceptuelles. – La communauté de la représentation des connaissances s’est focalisée sur le développement de méthodes de raisonnement et d’inférences efficaces. Haarslev et Möller [139] décrivent RACER, un moteur d’inférence exploitant des ontologies décrites en langage OWL. À quelques exceptions près, cette communauté a négligé des aspects importants associés aux ontologies : l’intégration des méthodes du TAL dans la construction des ontologies ; la concordance entre la représentation des concepts et leurs relations dans les ontologies formelles et la manière d’exprimer 50 CHAPITRE 2. ETAT DE L’ART les connaissances propre au langage naturel. De plus, les techniques d’apprentissage sont insuffisamment prises en compte dans des travaux de la communauté acquisition de connaissances. – La communauté des interfaces H/M. Des interfaces utilisateurs plus performantes sont nécessaires afin de visualiser les connaissances incluses dans les ontologies. Ces interfaces sont d’autant plus utiles que le processus de construction d’ontologies est généralement interactif. SemIntel [28] est un système dédié à la vérification interactive du contenu de structures linguistiques, permettant l’identification rapide des concepts problématiques. Des logiciels comme Protégé13 sont très utiles pour l’édition des ontologies mais un nombre important d’améliorations sont à apporter à ces systèmes. Pour citer un exemple, il serait intéressant de disposer d’outils de création d’ontologies collaboratifs permettant une évolution aisée des connaissances dans une ontologie. Ces thèmes de recherche sont notamment abordés dans le cadre du projet européen NeOn [97]. 2.5.2 Constitution de ressources sémantiques spécifiques à un domaine Les structures sémantiques spécifiques à un domaine sont souvent constituées manuellement bien que de nombreuses techniques de constructions automatiques à partir de corpus spécifiques aient été proposées dans la littérature. Le recours à un processus manuel s’explique par l’imprécision des techniques automatiques. Toutefois, beaucoup de travaux intéressants sont régulièrement proposés et s’intéressent à l’exploitation des sources de données semi-structurées, comme Wikipédia, qui permettent l’obtention des descriptions de domaines assez détaillées. 2.5.2.1 Le domaine géographique Le domaine géographique est un domaine pour lequel il existe une grande quantité d’informations structurées sous forme de thésauri (en anglais : gazetteers). La structure minimale d’un thésaurus géographique est définie dans [50] et est composée de trois éléments : – le nom de l’entité ; – ses coordonnées géographiques ; – sa classe parent. Nous présentons deux initiatives de recherche visant la constitution de bases de données géographiques : Alexandria Gazetteer et Geonames. Alexandria Gazetteer [50] contient environ six millions d’entrées provenant de deux services gouvernementaux américains : Geographic Names Information System (GNIS) et Geographic Names Processing System (GNPS). La base de données est structurée hiérarchiquement, les catégories les plus générales incluant : régions administratives, hydrographie, relief terrestre, artefacts. Ces catégories se divisent en des catégories plus spécifiques comme pays, lac, ı̂le ou église. Le niveau le plus spécifique de la hiérarchie 13 http ://protege.stanford.edu/ 2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES 51 Fig. 2.12 – Illustration du contenu d’Alexandria (cf. [50]). d’Alexandria contient des noms de lieux comme : France,Lake Louise, Barbuda ou Saint Patrick’s Church. Nous illustrons le contenu d’Alexandria dans la figure 2.12. Pour Barbuda (figure 2.12), Alexandria contient le nom de l’entité (Barbuda), une version du nom (Variant Name), le type (islands), des informations d’inclusion (isPartOf ) et de localisation spatiale (Longitude, Latitude). Geonames14 est une autre base de données géographiques, construite de manière assez similaire à Alexandria mais plus riche car elle inclut, à part des sources comme GNIS ou GNPS, des éléments géo-référencés extraits à partir de Wikipédia. Il faut toutefois noter que pour les entrées provenant de Wikipédia, il n’existe pas d’information concernant la catégorie parent (type) des entités. Aussi, dans ces cas, la définition minimale [50] d’un « gazetteer » n’est pas respectée. Dans Hill et al. [50] (1999) nous retrouvons aussi quelques problèmes toujours d’actualités concernant la modélisation du domaine géographique. Parmi les plus intéressants, nous citons : – La mise en place d’une hiérarchie des catégories géographiques détaillée et extensible afin de mieux rendre compte de la structure et des particularités du domaine. – L’inclusion d’une dimension temporelle dans les bases de données géographiques. Cette information s’avère intéressante puisque — par exemple — le nom ou la surface d’une entité peuvent changer dans le temps. – La description de l’étendue des régions bien délimitées. Les gazetteers existants ne contiennent pas ou peu d’informations sur la surface et sont limitées à un rectangle englobant toute la région. L’utilisation de formes rectangulaires est imprécise puis14 http ://geonames.org 52 CHAPITRE 2. ETAT DE L’ART qu’elles incluent souvent des parties significatives d’autres régions. – La description de l’étendue de régions aux frontières non délimitées. Nous pouvons donner l’exemple du Sud de la France : quelles sont les limites spatiales de cette région ? Ce problème est particulièrement complexe car il n’existe pas de règles, comme dans le cas des régions bien délimitées, pour établir les limites les plus adéquates à ce type de région. Wang et Ge [141] soulignent le besoin d’extraire (semi)automatiquement des données géographiques afin d’enrichir les thésauri existants. Une tentative intéressante de construire une base de données géographiques est décrite dans [110]. Les auteurs retiennent un ensemble d’images géo-référencées de Flickr et les tags associés à ces images. À partir d’approches statistiques, ils extraient des noms de lieux, des coordonnées et une valeur de pertinence. La structure résultante ne contient pas d’informations sur le type pour chaque entité mais inclut une valeur de pertinence qui permet d’ordonner efficacement les entités. Cet ordonnancement s’avère très important lors de l’utilisation des bases de données géographiques en recherche d’information car il permet de proposer en priorité les entités les plus « saillantes ». Les auteurs rapportent une précision avoisinant 80% quand ils retiennent la moitié des noms géographiques candidats. La majorité des travaux montre que la construction automatique des bases de données géographiques donne des résultats très prometteurs et mérite d’être explorée plus en détail. 2.5.2.2 Autres domaines conceptuels Le domaine médical a bénéficié d’un important effort de recherche visant la structuration et l’intégration de connaissances. UMLS (Unified Medical Language System) [13] est une compilation de vocabulaires médicaux qui inclut trois parties principales : – Metathesaurus : une collection de concepts et de relations inter-conceptuelles extraites à partir d’une variété de vocabulaires contrôlés. Le métathésaurus comprend plus d’un million de concepts biomédicaux et plus de cinq millions de noms de concepts, ainsi que des relations entre ces concepts. – Semantic Network : une liste des catégories et des relations utilisées afin de classifier les entrées du Metathesaurus. Il existe 135 types sémantiques (comme organisme, structure anatomique ou fonction biologique) et 54 relations (hypéronymie, « spatialement lié à » ou « temporellement lié à »). – SPECIALIST Lexicon : une base de données lexicographiques exploitable en traitement du langage naturel. Cette partie de la ressource contient des informations syntaxiques, morphologiques et orthographiques relatives aux concepts décrits en UMLS. Outre le domaine médical, il existe un nombre important d’ontologies dédiées à des domaines spécifiques. Nous citons ici quelques exemples pour illustrer cette diversité : – PlantOntology [137] comprend une description contrôlée des termes botaniques représentant les organes, les tissus, les cellules et leurs relations respectives. – Schlenoff et Messina [123] décrivent une ontologie pour le domaine de la robotique et plus spécifiquement pour les robots utilisés dans des opérations de sauvetage urbain. La ressource contient, entre autres, des informations relatives aux capacités 2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES 53 des robots à naviguer, planifier et interagir avec des opérateurs humains. – Karoui et al. [69] proposent une méthodologie de création d’ontologies reposant principalement sur l’exploitation de balises HTML dans les pages Web et sur des techniques de clustering de texte afin d’extraire une ontologie pour le tourisme. La constitution de cette ontologie est semi-automatique car elle implique un retour de pertinence des utilisateurs pour valider les connaissances extraites. – Wu et al. [144] définissent une ontologie des événements associés à un domaine et appliquent leur approche pour indexer des dépêches de presse. Chaque concept de l’ontologie est décrit par ses attributs, par les événements lui étant associés et par des synonymes. – LSCOM (Large Scale Concept Ontology for Multimedia) [96] est une ontologie dédiée à la description de vidéos. Cette ressource, de plus en plus populaire notamment via son utilisation dans la campagne TrecVid, propose des concepts comme des noms de personnes, d’objets, d’événements, de lieux qui sont associés à des séquences vidéo. Dans sa version initiale l’ontologie comprend environ 2000 concepts dont plus de 400 ont été renseignés avec des séquences vidéo. Le contenu de LSCOM est particulièrement utile dans des applications relatives à la recherche et annotation de vidéos informatives [145]. 2.5.2.3 Utilisation de ressources sémantiques spécifiques en recherche d’images Dans la suite, nous présentons quelques exemples d’utilisation d’ontologies dans la recherche d’images. Le projet CLiMB (Computational Linguistics for Metadata Building) [74] se propose d’améliorer l’accès aux images par l’utilisation de techniques de traitement automatique de la langue. Ces techniques sont employées pour extraire des informations à partir de textes structurés et pour les transformer en métadonnées exploitables en recherche d’images. Les cas d’utilisation incluent les images d’art et d’architecture, des domaines pour lesquels il existe souvent des informations structurées sous forme de catalogues ou autres. Parmi les objectifs actuels de CLiMB, nous citons la tentative d’analyse de textes non-structurés qui s’avère bien plus difficile que l’exploitation de documents structurés. Hyvonnen et al. [54] présentent une application de recherche d’images artistiques basée sur l’utilisation d’une hiérarchie de concepts. Sept ontologies sont agrégées dans le système et contiennent 10000 relations RDFS (RDF Schema). Les mêmes auteurs soulignent que la principale difficulté de leur approche est la création des ontologies qui supportent le processus de recherche. Cette construction est réalisée manuellement et demeure, par conséquent, très laborieuse et implique la participation d’experts du domaine. Kong et al. [75] proposent la création d’ontologies personnalisées pour la recherche d’images liées au football. L’utilisateur est censé alimenter le système avec des images et des annotations, générant ainsi une ontologie qui décrit les relations entre les concepts. Les auteurs pensent que l’implication de l’utilisateur dans la création de l’ontologie permettra d’obtenir une structure « personnalisée idéale ». L’évaluation est réalisée sur une base d’images contenant 1000 images de joueurs de football. Leur système est comparé 54 CHAPITRE 2. ETAT DE L’ART à Google Images et à une expansion des requêtes utilisant WordNet sur uniquement cinq requêtes qui reproduisent bien la structure de l’ontologie présentée dans l’article. Kong et al. avouent néanmoins, en fin d’article, que leur approche risque de s’avérer problématique pour un passage à une plus large échelle. La réutilisation de ressources existantes est parfaitement illustrée par [140], où une ontologie existante, la « BBC Science and Nature Animal Category »15 , est enrichie et utilisée en recherche d’images. Cette ressource contient à la base des informations textuelles sur 620 concepts, les propriétés ontologiques ayant été décrites manuellement. L’enrichissement consiste en l’addition de relations visuelles, comme la couleur ou la texture, spécifiques aux catégories ontologiques. Les auteurs désignent la structure obtenue comme une « ontologie multimédia » (figure 2.13). Soulignons que la définition des caractéristiques visuelles pour les concepts feuille de la hiérarchie a du sens car il s’agit de catégories visuellement cohérentes (par exemple une espèce canine précise), mais il ne serait pas possible d’instancier précisément de telles propriétés pour des concepts plus généraux (comme mammifère). Fig. 2.13 – Illustration de l’ontologie des animaux (cf. [140]). Clough et al. [23] extraient des annotations manuelles associées à une collection d’images de l’université St. Andrews et les organisent sous la forme de hiérarchies conceptuelles. Il examine cinq types de relation inter-conceptuelles : « sous-type de », « aspect de » (« instance de » ou « partie de »), synonymie, antonymie et autres. Les auteurs discutent plusieurs types de proximités entre les catégories dans la hiérarchie : visuelle (par exemple entre brique et mur) ; conceptuelle (par exemple entre chien et berger) ou descriptives (par exemple entre bâtiment et bâtiment haut). Ces relations 15 http ://www.bbc.co.uk/nature/animals/ 2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES 55 inter-conceptuelles sont extraites automatiquement et servent à enrichir l’interactivité du système de recherche d’images. Plus précisément, les termes proches sont utilisés pour regrouper des images annotées avec ces termes. L’application propose aussi bien des images pour la requête courante que des liens vers des clusters d’images considérés comme proches. Les approches décrites dans [54] et [75] s’intéressent à la création d’ontologies sans utiliser des ressources existantes. Ce processus suppose un effort important de la part des créateurs du système [54] ou de la part des utilisateurs dans [75]. Si l’ontologie est créée automatiquement à partir de textes libres, comme dans [23], la richesse et la qualité des relations conceptuelles peuvent s’avérer problématiques et peuvent réduire les capacités des systèmes. Le travail dans [140] est limité par la couverture de l’ontologie initiale et par l’impossibilité de décrire des relations visuelles pour des catégories appartenant à d’autres domaines conceptuels. Un bon exemple est celui des artefacts qui, contrairement aux animaux, n’ont généralement pas des caractéristiques chromatiques et de texture stables. 2.5.3 Constitution de ressources sémantiques généralistes Les structures sémantiques généralistes incluent un grand nombre de catégories et couvrent des domaines conceptuels différents. Pour la plupart, il s’agit de structures créées manuellement bien qu’il soit possible d’extraire des connaissances à large échelle de façon automatique à partir de grands corpus de documents. Parmi les ressources constituées manuellement nous citons WordNet [33] ou Cyc [47]. [44] et [107] sont des travaux représentatifs de l’exploitations de corpus documentaires à grande échelle. Semantic Map [44] est un exemple de construction d’une structure linguistique à grande échelle à partir d’un corpus non-structuré de très grande taille. [107] nettoie la structure catégorielle de Wikipédia afin d’en extraire une taxonomie à large échelle. Cette méthode s’appuie sur la contribution implicite des éditeurs de Wikipédia pour récupérer les données brutes nécessaires. Une participation explicite à la constitution d’une ressources sémantique est requise dans OMCS (Open Mind Common Sense) [125] où les utilisateurs sont invités à compléter des phrases afin d’extraire des connaissances relatives aux concepts dans la phrase. 2.5.3.1 Cyc Cyc [47] se donne comme but de recueillir la connaissance humaine du sens commun dans une structure formelle et d’exploiter le contenu de la ressource à l’aide d’un langage de représentation de connaissances dédié : Cycl. Les unités de base dans cette ressource sont les catégories, qui peuvent correspondre à un ou plusieurs termes. Cyc est organisée sous la forme d’une hiérarchie, qui permet l’héritage multiple, constituée de deux niveaux de représentation : – Niveau épistémologique : utilisé principalement pour communiquer le contenu de l’ontologie. – Niveau heuristique : pour faire du raisonnement sur les catégories. 56 CHAPITRE 2. ETAT DE L’ART Fig. 2.14 – Illustration du contenu de Cyc avec une requête pour dog (Source : http ://www.cycfoundation.org/concepts). Différents types de relations inter-conceptuelles sont définies et sont adaptées aux types de catégories. Au niveau général, des distinctions sont faites entre les classes et les instances, entre les « substances » (ex. air ) et les « individus » (ex. George W. Bush) ou encore entre les « processus » (ex. marcher ) et les « objets » (ex. voiture). Pour les catégories spécifiques, Cyc définit des relations décrivant des contextes prototypiques, qui permettent un raisonnement concernant ces situations. Ce type de description est apparenté aux « frames » de Schank [90]. Pour illustrer le contenu de la base de connaissances, nous présentons dans la figure 2.14 les concepts de Cyc qui sont retournés en réponse à une requête avec dog. Le premier résultat renvoie vers le sens de dog comme animal (voir la figure 2.15). Les autres pointent vers des concepts contenant la chaı̂ne dog dans leur nom mais qui ne sont pas associés à ce terme d’un point de vue lexical. Par exemple, pour Dog-IR-0004 il n’y a pas d’informations supplémentaires concernant le sens du concept. Parmi les résultats pour dog, le seul facilement utilisable en recherche d’information est le sens de dog comme animal. Les relations d’héritage conceptuel de la figure 2.15, comme dog isA canine ou afghan hound isA dog peuvent être utiles pour reformuler des requêtes ou pour enrichir l’interactivité entre le système et l’utilisateur. Le même rôle peut être joué par la hiérarchie de noms de WordNet, qui contient en plus une séparation des différents sens d’un mot (voir la figure 2.16). Dans sa version actuelle, la hiérarchie de Cyc inclut plus de 300000 noeuds, ainsi que des assertions relatives à ces concepts. Le projet a une version « open source » disponible à l’adresse http ://opencyc.org. Parmi d’autres applications, Cyc a été exploité dans des applications de « recherche d’information intelligente », une des applications décrites brièvement sur le site de la ressource concerne la recherche d’images16 . Par ailleurs, l’utilisation de Cyc dans des systèmes de recherche multimédia est préconisée dans [96], à travers l’inclusion de parties de la base de connaissances au sein des architectures de recherche. 16 http ://www.cyc.com/cyc/technology/cycrandd 2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES 57 Fig. 2.15 – Illustration du contenu de Cyc pour le premier résultat associé à dog (Source : http ://www.cycfoundation.org/concepts). 2.5.3.2 WordNet WordNet [33] est une base de données lexicale créée par des lexicographes (initialement pour l’anglais) et censée être utilisée dans des applications informatiques. Différentes catégories grammaticales (noms, verbes, adjectifs) sont décrites. Cette initiative a généré un nombre très impressionnant de travaux associés17 dans des domaines très variés dont la recherche d’images. Les noms communs — une des parties de WordNet les plus intéressantes pour la recherche d’images — sont organisés sous la forme d’une hiérarchie structurée [88] selon deux relations fondamentales : – La synonymie : les différents concepts qui pointent vers la même entité sont regroupés dans un synset, l’unité fondamentale de la hiérarchie. – L’hyponymie : l’héritage catégoriel permet l’organisation en profondeur des noms dans WordNet. D’autres relations existent mais sont instanciées de façon moins systématique : 17 http ://lit.csci.unt.edu/ wordnet/ 58 CHAPITRE 2. ETAT DE L’ART – La méronymie : un concept est une partie d’un autre concept. – L’holonymie : relation inverse de la méronymie. Nous illustrons le contenu de la hiérarchie de noms de WordNet dans les figures 2.16 et 2.17. La première figure présente les différents sens du terme dog inclus dans la hiérarchie, ainsi que les relations inter-conceptuelles décrites ci-dessus. Fig. 2.16 – Illustration des différents sens de dog dans WordNet (Source : http ://wordnet.princeton.edu/perl/webwn). Fig. 2.17 – Illustration des hypernymes du premier sens de dog. (Source : http ://wordnet.princeton.edu/perl/webwn). Dans la figure 2.17, nous présentons une partie des hypernymes du premier sens de dog. La structuration hiérarchique de WordNet permet une représentation des concepts généraux par l’intermédiaire de leurs sous-concepts. Ainsi, pour une requête avec mammal, il est possible de reformuler cette requête en utilisant placental, carnivore, canine, dog et d’aller ensuite vers des concepts encore plus spécialisés, comme hunting dog, terrier, Norwich terrier. L’intérêt de cette opération est de remplacer des concepts généraux, 2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES 59 ayant une représentation visuelle très diverse par des sous-concepts spécifiques, correspondant à des classes d’images plus homogènes. La version courante de la hiérarchie est WordNet 3.0 qui contient 117798 chaı̂nes nominales uniques regroupées dans 82115 synsets. Une même chaı̂ne textuelle peut pointer vers une ou plusieurs entités et, dans ce cas, on parle d’un terme polysémique (qui appartient à plusieurs synsets). La polysémie moyenne dans la hiérarchie des noms de WordNet est de 1,24. [76] montre que les concepts polysémiques sont utilisés plus fréquemment que les concepts monosémiques. La plupart des chaı̂nes nominales est monosémique mais un nombre important de termes possède plusieurs sens comme point qui a 26 sens dans WordNet (le maximum). Dans Wordnet, certains domaines sont mieux décrits que d’autres. On retrouve des descriptions bien détaillées pour les animaux, les plantes ou les villes (plusieurs milliers de sous-types) mais moins détaillées pour l’automobile (seulement quelques dizaines de sous-types). Pour les domaines les mieux décrits, une préférence est accordée aux entités du sens commun. Ainsi, il y a plus de 100 sous-types de chiens mais seulement 31 pour les papillons ou 12 pour les dauphins. Par comparaison, Wikipédia recense plus de 500 races de chiens, plus de 200 types de papillons et quelques 50 sous-concepts de dauphins. Ceci montre le caractère incomplet de WordNet et souligne l’importance de son enrichissement en utilisant d’autres ressources. Une caractéristique importante de WordNet est le fait que l’héritage multiple est autorisé. Par exemple, le premier sens de chien hérite de canidé mais aussi de animal domestique. Cette propriété modélise une situation réelle mais rend l’organisation de WordNet incompatible avec des langages de description d’ontologies notamment OWL. Une des critiques apportées par la communauté des ontologies formelles [101] aux premières versions de WordNet est qu’aucune séparation n’existait entre les catégories et les instances. Dans la version actuelle, les instances représentent environ un quart du nombre total des synsets et décrivent notamment des noms de lieux, de personnes et d’organisations. Ces volumes sont nettement inférieurs à ceux des ressources décrivant des entités nommées. Pour comparaison, Geonames contient plus de six millions d’entrées pour le domaine géographique et Wikipédia plus de 80000 noms de personnes [8]. Une direction importante de recherche concernant WordNet est son internationalisation. Il existe désormais des réseaux lexicaux inspirés directement par la base de données en une trentaine de langues18 , avec différents degrés de développement. Les versions espagnole et italienne de WordNet sont strictement alignées à la hiérarchie en anglais et contiennent respectivement 105494 et 32700 synsets. La version française — hélas — n’est pas alignée à la version anglaise et inclut moins de 20000 synsets. L’intérêt de l’alignement entre les versions est qu’une utilisation conjointe et multilingue de la ressource est rendue possible. Le principal désavantage découle le plus souvent du non-respect des particularités de chaque langue. En dépit des nombreuses critiques apportées à WordNet, cette hiérarchie lexicale reste une ressource riche et exploitable dans de nombreux domaines, dont la recherche d’images. [6] est l’un des premiers travaux à utiliser WordNet pour la recherche d’images. [146] décrit une architecture de recherche d’images basée sur l’utilisation de la hiérarchie 18 http ://www.globalwordnet.org/ 60 CHAPITRE 2. ETAT DE L’ART lexicale dans laquelle les concepts de WordNet sont utilisés pour améliorer l’interactivité avec l’utilisateur en proposant des concepts proches, mais aussi pour proposer une mesure de similarité incorporant une partie conceptuelle et une partie visuelle. Cette mesure de similarité est un cas de fusion précoce de données multimédia, similaire à celui présenté dans [34] qui exploite la hiérarchie de noms de WordNet pour relier les termes associés à une image à une série de « termes clef » de la hiérarchie et pour construire un vecteur de similarité sémantique entre les images. Dans [146] et [34], le retour de pertinence est une composante importante des architectures de recherche ce qui soulève de nombreux problèmes de passage à l’échelle et d’utilisation par le grand public. [67] introduit une méthode de construction d’un catalogue visuel basé sur l’utilisation de WordNet et sur la récupération d’images à partir d’Internet. Un problème commun à [67] et [146] est que les auteurs ne prennent pas en compte la séparation des sens pour les termes polysémiques de WordNet. 2.5.3.3 ConceptNet ConceptNet [80] est un réseau sémantique constitué par une communauté d’utilisateurs, censé recenser les connaissances du sens commun sur le monde. La ressource a été créée par la contribution de plus de 10000 volontaires à qui on a demandé de remplir des phrases incomplètes décrivant différentes propriétés conceptuelles. Le projet, appelé à l’origine Open Mind Common Sense [125] est clairement inspiré par WordNet [80] mais plusieurs différences existent entre les deux structures sémantiques. Ainsi, dans ConceptNet : – Il existe une plus grande variété de relations que dans WordNet. Les plus importantes sont : l’héritage conceptuel, la causalité et l’inclusion spatiale. – La relation d’hyponymie a un statut identique aux autres relations et la structuration hiérarchique des noms perd son statut privilégié de WordNet. – Les relations entre les concepts sont pondérées. Deux concepts sont d’autant plus proches qu’ils sont mentionnés plus souvent ensemble au regard d’une relation donnée. – Le nombre de termes inclus dans la hiérarchie est plus petit que celui de WordNet. Cela se traduit notamment par une présence très réduite des concepts spécialisés et par la non-inclusion des instances. – La séparation entre les différents sens d’un terme polysémique est perdue. En recherche d’images, la séparation des sens est importante puisqu’elle permet de proposer à l’utilisateur des ensembles d’images séparés pour chaque sens du mot. Un problème important de ConceptNet est constitué par le déséquilibre qui existe entre la description des concepts communément connus et les concepts spécialisés. Les premiers ont un grand nombre de relations associées tandis que les derniers ne sont souvent décrits que par une relation d’héritage conceptuel héritée de WordNet. [52] utilise ConceptNet afin de reformuler des requêtes en recherche d’images. Étant donné une requête, le système isole les noms et les remplace avec des concepts proches dans ConceptNet. Les résultats présentés montrent que l’expansion des requêtes améliore légèrement les résultats (une amélioration d’environ 3% pour une précision avoisinant 2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES 61 40%). Dans un autre travail [53], le même groupe montre la complémentarité de WordNet et de ConceptNet en comparant l’expansion des requêtes à partir des deux ressources. Leurs résultats montrent que les requêtes reformulées avec WordNet sont plus discriminantes alors que celles reformulées avec ConceptNet sont plus diversifiées. 2.5.3.4 Semantic Map Semantic Map [44] est une structure linguistique à très grande échelle extraite automatiquement à partir du Web. Les termes sont séparés selon leur relation grammaticale avec le concept initial (ex. objet de, complément de). Nous illustrons cette ressource avec le terme pain 2.18(a). Pour chaque terme d’un dictionnaire, Semantic Map considère l’ensemble des mots dont le terme est le complément (2.18(a)). Il est également possible de séparer les verbes dont il est le sujet (figure 2.18(b)) ou objet (figure 2.18(c)), les adjectifs proches (figure 2.18(d)) et les noms en apposition (figure 2.18(e)). Les relations entre les termes de la carte sémantique ne sont pas conceptuellement typées et il n’est pas possible, par exemple, de savoir si un nom est un sous-concept d’un autre. La version actuelle de Semantic Map ne propose pas de séparation des sens pour les termes polysémiques. Cette séparation est importante en recherche d’images car les différents sens d’un terme ont des représentations visuelles différentes. La ressource décrite dans [44] pourrait être utile pour proposer des requêtes proches mais structurées grammaticalement plutôt que conceptuellement. Le rôle de Semantic Map serait similaire à celui de la structure linguistique exploitée par Ask, qui propose trois types de requêtes proches : plus générales, plus spécifiques et noms de personnes associés. 2.5.4 Travaux utilisant Wikipédia Le succès de Wikipédia a généré de nombreux travaux de recherche dont une bonne partie sur l’utilisation de l’encyclopédie en ligne pour la constitution de ressources sémantiques. L’enrichissement automatique de WordNet à partir de Wikipédia est abordé dans [115] et [114]. Une relation entre les synsets de WordNet et les pages de l’encyclopédie est établie automatiquement pour ensuite extraire des relations d’hyponymie, hyperonymie, holonymie et méronymie. Des patterns lexicaux définissant les quatre types de relations sont appris à partir de corpus textuels. Le taux de réussite dépasse 50% dans les quatre cas mais il reste un nombre important de relations qui ne sont pas correctement définies. La détection d’entités nommées utilisant Wikipédia est une autre application fréquente [133], [55]. Parmi les premiers à proposer ce type d’applications, [133] analyse le texte des articles Wikipédia et de WordNet pour créer des dictionnaires de noms propres. Les noms de personnes sont correctement classifiés dans 61% des cas. Dans [70], les auteurs mettent en place un traitement syntaxique de la première phrase des articles avec des techniques d’apprentissage et obtiennent un taux de précision approchant 90%. Une application de désambiguı̈sation de noms de personnes à l’aide du contenu de l’encyclopédie collaborative est décrite dans [18]. 62 CHAPITRE 2. ETAT DE L’ART (a) Mots dont pain est le complément. (b) Verbes dont pain est le sujet. (c) Verbes dont pain est l’objet. (d) Adjectifs associés à pain. (e) Termes en apposition avec pain. Fig. 2.18 – Termes le plus souvent associés à pain dans Semantic Map. 2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES 63 Auer et al. ont introduit DBPedia [8], une présentation de Wikipédia sous la forme d’une base de données. L’approche est basée sur un parsing des éléments réguliers de la page, comme les fiches informatives associées à certains articles, les catégories ou les tableaux. Ces parties des articles permettent une caractérisation assez complète des concepts et pourraient être utilisés en recherche d’information afin de reformuler des requêtes ou de structurer les résultats. DBPedia est une ressource très intéressante car elle permet la formulation de requêtes complexes. L’analyse du texte libre des articles permettrait la découverte d’autres relations conceptuelles intéressantes mais cette analyse est difficilement automatisable et n’est pas abordé dans le cadre de DBPedia. [148] et [7] proposent une analyse des textes de Wikipédia afin d’associer des catégories plus générales (des super-senses de WordNet). Cette méthode est prometteuse mais ses résultats ne sont pas suffisamment précis pour une utilisation à court terme en recherche d’information. De plus, le modèle proposé est assez restrictif car il associe nécessairement tout nom à un des 41 super-senses et la hiérarchie conceptuelle résultante ne contient que trois niveaux hiérarchiques. Ponzetto et Strube ont dérivé une taxonomie des catégories de Wikipédia à partir de la méthode suivante [107] : – Nettoyage du graphe des catégories de l’encyclopédie pour éliminer les catégories relatives à l’administration du portail. Le filtrage est réalisé en utilisant des motsclef comme Wikipédia, wikiprojects ou mediawiki. – Identification des liens de raffinement (Miles Davis Albums est un raffinement de Albums by artist) et assignation d’une relation is-refined-by à ces liens. Analyse syntaxique pour déterminer des relations isA entre des catégories comme par exemple British Computer Scientists et Computer Scientists. – Utilisation de la connectivité entre les catégories. On caractérise des instances et on les propage ensuite à des concepts. – Les liens non traités dans les étapes antérieures sont analysés en appliquant une analyse lexico syntaxique basée sur l’utilisation de motifs. – Une dernière analyse vise la découverte de relations isA par inférences comme fruits isA crops et crops isA edible plant donc fruit isA edible plant. [107] comparent la hiérarchie obtenue avec celle décrite dans Cyc. La précision de la méthode atteint 86,6%, avec un rappel de 89,1%. Dans un travail ultérieur [153], le même groupe propose une séparation automatique entre les classes et les instances de Wikipédia, modélisant ainsi mieux l’espace conceptuel décrit par l’encyclopédie. 2.5.4.1 Considérations sur la constitution de ressources généralistes La première critique que l’on peut formuler sur ces ressources tient à leur caractère nécessairement incomplet ce qui, comme le montre Eco [30], est intrinsèque à toute tentative de modélisation conceptuelle. Une deuxième critique concerne l’adéquation de certaines structures à des modèles formels. [101] et [134] démontrent la non-conformité entre WordNet et les principes des ontologies formelles. Par exemple, dans la hiérarchie lexicale, il n’existe pas de séparation entre rôle (relation temporaire entre deux termes : X est étudiant) et héritage conceptuel 64 CHAPITRE 2. ETAT DE L’ART (relation permanente entre deux termes : X est un homme). WordNet ne peut donc pas être utilisée immédiatement dans des tâches de raisonnement automatique. Néanmoins, le ralliement ultérieur d’un des auteurs de [101] au projet de transformation du contenu de WordNet dans des triplets RDFS est une preuve supplémentaire de l’utilité de cette ressource pour des applications du Web sémantique. Une critique plus générale [121] vise les fondements même du Web Sémantique, montrant une série d’incohérences concernant la définition des ontologies ainsi que leur prétention d’encapsuler de la sémantique. Dans le processus de construction d’ontologies formelles, il est supposé, à tort, que les relations conceptuelles sont figées et qu’elles seront valables dans tous les contextes d’utilisation. [121] considère que les ontologies sont uniquement des structures syntaxiques et qu’on attache une valeur sémantique à leur contenu uniquement lors d’un usage impliquant des utilisateurs. Notre vision s’accorde avec [122] notamment sur le fait que la sémantique émerge de l’interaction entre l’utilisateur et le système et que les services dits « sémantiques » doivent être anthropocentrés. Nous considérons que les structures linguistiques sont utiles pour améliorer l’interaction utilisateur/système surtout quand il s’agit d’explorer des espaces conceptuels vastes. La difficulté de construire manuellement des ressources sémantiques à grande échelle rend indispensable la création de techniques automatiques. Mais, comme nous l’avons déjà mentionné, la qualité de la connaissance obtenue n’est souvent pas suffisante pour les applications envisagées. Pour faciliter l’extraction et atteindre un niveau de qualité suffisant, une voie à explorer est l’utilisation de corpus de documents semi-structurés. 2.5.5 Rôles des structures sémantiques en recherche d’images La plupart des structures conceptuelles décrites dans les sections précédentes n’est pas construite en vue d’une application particulière et sont exploitées dans plusieurs domaines, parmi lesquelles la recherche d’images. Nous détaillons les rôles de ces structures en recherche par mots-clef et par le contenu. 2.5.5.1 Structures sémantiques en recherche par mots-clef La recherche d’images par mots-clef est le paradigme de recherche d’images le plus répandu. Bien que l’usage de mots clés offre une grande liberté à l’utilisateur, une solution alternative est de proposer une hiérarchie conceptuelle dans laquelle il est possible de naviguer [127], Picsearch Directory19 , Yahoo ! Directory20 . Cette modalité limite néanmoins l’espace de recherche aux périmètres de la hiérarchie. Le nombre de concepts contenus dans les hiérarchies est limité à quelques centaines, principalement pour une raison pratique, voire ergonomique. En effet, la navigation à l’intérieur des structures composées d’un grand nombre de niveaux hiérarchiques devient vite fastidieuse. Dans tous les cas, l’utilisation d’une ressource structurée pour améliorer une recherche par mots clés nécessite d’atteindre la couverture la plus optimale possible. WordNet inclut une partie importante des noms communs de l’anglais (environ 100000 entités), ainsi 19 20 http ://www.picsearch.com/image-dir.html http ://dir.yahoo.com/ 2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES 65 qu’une série de noms propres, entités géographiques ou organisations (totalisant environ 20000 instances). Cyc inclut plus de 300000 catégories. Autant de catégories permettent d’obtenir une bonne couverture pour les requêtes mono terme mais pas pour les requêtes composées. De plus, la structure conceptuelle doit rester « cachée » à l’utilisateur dans le sens où celui-ci ne doit pas faire d’efforts supplémentaires — en manipulant directement la structure — pour avoir des résultats. En tenant compte du degré de formalisme, les bases de connaissances textuelles se séparent en : – des dictionnaires qui incluent des concepts et leurs définitions ou leurs traductions en d’autres langues ; – des thésauri contenant des termes et des concepts apparentés, sans forcement spécifier les types de relation ontologique entre ces termes ; – des ontologies formelles qui incluent des catégories, ainsi que des propriétés reliant ces catégories. Les ressources faiblement structurées sont plus faciles à constituer que les ontologies formelles, mais un raisonnement automatique sur leur contenu s’avère beaucoup plus problématique que celui sur le contenu des ontologies. Néanmoins un problème existe aussi pour les ontologies formelles, mais pour une raison différente puisque le raisonnement automatique est rendu délicat (pour des applications en temps réel) par les temps de traitement induits [104]. Nous détaillons par la suite les quatre principaux avantages à l’utilisation d’une structure linguistique dans le cas d’une recherche d’images par mots-clef. Reformulation automatique des requêtes La reformulation automatique des requêtes consiste à affiner une requête initiale à l’aide des connaissances incluses dans le système. Dans [Liao], Liao et al. citent deux types de reformulation fonctionnant pour des requêtes simples : – Ajouter des termes à la requête initiale. Les auteurs implémentent cette approche à l’aide des fichiers de log d’un moteur de recherche en partant de l’idée que les utilisateurs regroupent des termes proches dans leurs demandes. Ce type de reformulation est facile à mettre en œuvre et, comme nous l’avons mentionné dans la section 2.3.1, est couramment proposé par les moteurs de recherche. – Reformuler la requête initiale en utilisant des termes proches dans une structure conceptuelle. Cette méthode est implémentée par Ask qui propose des versions plus spécifiques et plus générales, ainsi que des noms de personnes proches de la requête initiale. Nous avons souligné dans 2.3.1 l’imprécision de ces propositions. [66] et [146] proposent une alternative qui consiste à utiliser une structure conceptuelle (WordNet) pour obtenir les requêtes proches et qui garantit la proximité entre le concept de départ et les autres concepts. Dans [146] et [66], la séparation des sens pour les termes polysémiques n’est pas respectée, ce qui peut donner lieu à des propositions de requêtes non pertinentes pour l’utilisateur. Un intérêt particulier est porté sur la reformulation des requêtes permettant de désambiguı̈ser des résultats [67]. Dans la sous-section 2.5.3.2, nous avons souligné qu’il 66 CHAPITRE 2. ETAT DE L’ART existe un grand nombre de termes polysémiques et que les applications actuelles ne proposent pas de séparation des sens dans l’espace des résultats. Un exemple : angora représente en même temps un type de lapin, de chèvre ou de chat et le nom (l’ancien nom pour être exact) de la capitale de la Turquie. Sans séparation des sens, tous ces résultats sont présentés ensemble, alors que l’introduction d’une ressource textuelle comme WordNet rend possible la séparation des sens. Un deuxième type d’ambiguı̈té, moins fréquent, apparaı̂t pour les mots qui ont la même forme mais des sens différents dans deux ou plusieurs langues. L’utilisation de ressources multilingues peut résoudre ce type d’ambiguı̈té. Ainsi, il existe des applications comme PanImages [32] qui exploite ce type de ressources multilingues pour améliorer la recherche d’images. Les auteurs de [32] proposent un alignement de plus de 100 dictionnaires de traduction, permettant un passage entre différentes langues afin d’obtenir un nombre plus élevé de réponses images. L’application est particulièrement utile pour formuler des requêtes dans une langue peu représentée sur Internet et obtenir des réponses en d’autres langues, mieux représentées. Les études de fichiers de log montrent que les utilisateurs introduisent un nombre important de requêtes courtes, souvent ambiguës. [129] propose une réflexion théorique sur ce sujet, en montrant les principales difficultés associées au traitement des ambiguı̈tés. Par exemple, dans différents contextes, une même requête exprime des besoins différents. Pour reprendre un exemple des auteurs de [129], prix des maisons peut faire référence aux prix mêmes des maisons ou au contexte économique du moment. [117] analyse des requêtes ambiguës, montrant que les ressources existantes, comme WordNet, ne comprennent qu’une partie des sens possibles d’un terme. De même, la même étude montre que les requêtes ambiguës ne sont malheureusement pas bien prises en compte dans les collections de test actuelles ne permettant pas une évaluation complète et réaliste des systèmes. [2] fait l’hypothèse qu’un bon moteur de recherche proposera une bonne couverture des différents sens d’un concept, même au détriment de la précision évaluée sur un seul sens. Structuration des résultats Les applications de recherche d’images proposent les résultats sous la forme d’une simple liste. La préférence des utilisateurs pour une présentation structurée des résultats est mise en évidence par des études comme [111] ou [81]. Les ressources textuelles facilitent une organisation des résultats en se basant sur leur propre structure. La structuration des résultats est en étroite liaison avec la reformulation des requêtes. En effet, si un utilisateur demande des images pour chien avec l’utilisation d’une hiérarchie conceptuelle, le système peut lui proposer des réponses correspondant aux sous-types de ce concept, notamment les différentes races de chiens. Navigation dans l’espace des résultats Une critique touchant la majorité des applications de recherche d’images à large échelle concerne leur manque d’options de navigation adaptées aux besoins des utilisateurs. Nous avons décrit le mode de fonctionnement des moteurs de recherche d’images dans la section 2.3.1.1 et nous avons souligné qu’à l’exception d’Ask et de Flickr, très 2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES 67 peu de place est accordé à l’interaction entre les utilisateurs et les systèmes. Pourtant, la proposition de termes proches, en aidant directement l’utilisateur à affiner sa recherche, est particulièrement utile pour des domaines qui ne sont pas bien connus par l’utilisateur [54]. [146] introduit les hiérarchies sémantiques dynamiques qui, étant donné une requête, extraient de WordNet les concepts proches les plus saillants, réduisant ainsi l’espace de recherche aux termes les plus pertinents. Une stratégie proche est adoptée dans [66] et [78]. [120] propose une navigation guidée par des menus construits en fonction d’une structure sémantique liée au système et [54] propose une navigation par menus extraits d’une série d’ontologies. Diversifier les possibilités de navigation n’est évidemment pas sans risques, surtout si un effort supplémentaire de la part de l’utilisateur est demandé par rapport à la simplicité des moteurs de recherche classiques. Cette critique s’applique notamment aux travaux de [54] ou [147], où il est demandé à l’utilisateur de choisir dans une trop grande diversité de menus. Les expériences présentées dans [147] montrent que les participants au test d’évaluation jugent l’interface proposée comme étant trop difficile à utiliser et qu’ils préfèrent des modes d’interaction plus simples, tels que ceux dans les moteurs de recherche d’information actuels. Enrichissement de l’espace des résultats Un problème fréquent dans les applications de recherche d’images est le nombre insuffisant de résultats pour une requête donnée. L’utilisation de ressources conceptuelles offre une solution puisqu’il est possible de réaliser une expansion automatique de la requête (et donc accéder à un plus grand volume d’images résultats) en utilisant : – des sous-types [67] ou des synonymes pour des ressources mono-langues, – une traduction dans d’autres langues si on dispose d’une structure multilingue [24], [32]. Cet enrichissement doit s’accompagner de moyens adéquats pour naviguer rapidement dans l’espace de recherche. Dans le cas des images, une navigation enrichie peut être basée sur l’utilisation de la similarité visuelle (recherche par le contenu). 2.5.5.2 Structures linguistiques et recherche par le contenu La fusion de l’information textuelle et des descripteurs bas niveau peut se réaliser selon une fusion précoce ou tardive [11]. Dans le cas de la fusion précoce ([34], [146]) on cherche à fusionner les différents canaux informationnels en un seul descripteur ou dans un seul espace de représentation. Pour la fusion tardive, on considère chaque information indépendamment. Généralement, l’information textuelle est utilisée pour restreindre la recherche par le contenu (fusion hiérarchique) à une région de la base photographique qui a en commun un ou plusieurs termes [77]. L’agrégation séquentielle donne le plus souvent un rôle prépondérant à l’information textuelle (voir les conclusions de [25] sur la prépondérance de l’information textuelle). La fusion précoce implique généralement une considération similaire du texte associé aux images et des descripteurs visuels, même s’il est possible de pondérer les contributions de chaque information. 68 CHAPITRE 2. ETAT DE L’ART Les structures linguistiques sont utilisées dans les deux types de fusion. Parmi leurs rôles au sein de l’architecture de recherche, un est de structurer la base de données images en suivant l’organisation de la ressource textuelle. WordNet est utilisé à cette fin dans [67] et [146] où des classes d’images sont associées aux synsets de la hiérarchie lexicale. Suite à cette structuration, il est possible de restreindre la recherche d’images par le contenu à des régions de la hiérarchie qui sont conceptuellement et visuellement cohérentes. Une implémentation de cette approche est décrite dans [127], mais la limitation de la recherche ne va pas au-delà de concepts assez généraux, comme chien, car la hiérarchie conceptuelle est assez réduite. Avec l’utilisation de structures linguistiques à large échelle, la recherche par le contenu peut être restreinte à des espaces plus précis (comme par exemple des races de chien). 2.6 Conclusions Dans ce chapitre nous nous sommes intéressés à plusieurs aspects de la recherche d’images en portant un intérêt particulier au corpus photographiques du Web. L’interrogation par mots-clef et par images exemples ont été discutées tout en soulignant leur complémentarité. La recherche par mots-clef est bien plus répandue que la recherche par contenu visuel, ce qui s’explique par plusieurs facteurs : – La similarité de l’accès aux images et aux documents textuels quand les motsclef sont utilisés : ce type de recherche s’apparente à une pratique connue et (généralement) maı̂trisée par les utilisateurs. – L’inadéquation entre le modèle de similarité perceptuelle proposé par les systèmes CBIR et le modèle de similarité conceptuelle propre aux utilisateurs (le fameux fossé sémantique). – Une complexité algorithmique plus grande pour la recherche par le contenu rendant difficile leur utilisation pour des gros volumes de données. Actuellement, les moteurs de recherche d’images sont basés sur la comparaison des chaı̂nes de caractères de la requête et de celles associés aux images dans la base de données. Un traitement plus conceptuel de l’information textuelle avoisinant les images, qui passe par l’introduction de ressources conceptuelles dans les architectures de recherche, peut améliorer plusieurs aspects du processus d’interrogation, notamment : – Une navigation enrichie. Des solutions à large échelle commencent à être déployées, l’interface d’Ask en est un parfait exemple. – Une présentation des résultats suivant la structure de la base de connaissances est possible. – Une amélioration de la précision des résultats rendus par le système. À cela s’ajoute la possibilité d’utiliser conjointement les deux modalités de recherche des images, permettant une exploration des parties de la base photographiques en utilisant aussi des caractéristiques visuelles (couleur, texture. . .) des images. Ces améliorations sont conditionnées par l’existence de bases de connaissances à large échelle, contenant des connaissances de bonne qualité et adaptées à la recherche d’images qui assurent une couverture suffisante de l’espace de requêtes introduites par les 2.6. CONCLUSIONS 69 internautes. Pour un emploi efficace sur le corpus d’Internet, une intégration des bases de connaissances dans des architectures de recherche en temps réel est indispensable, ainsi qu’une présentation des résultats qui sachent tirer profit des avantages de l’utilisation des structures sémantiques tout en restant intuitive pour les utilisateurs. 70 CHAPITRE 2. ETAT DE L’ART Chapitre 3 Démarche de la thèse Les systèmes de recherche d’images actuels, tels que Google Images, permettent de retrouver des images au sein d’un volume considérable de données (plusieurs milliards d’images) mais cet accès aux images du web est loin d’être optimale et ces systèmes souffrent de nombreuses limites : – la recherche d’images est uniquement basée sur l’utilisation de mots-clef ; – une grande partie des réponses n’est pas pertinente ; – les résultats de la recherche ne sont pas structurés ; – les moyens d’interaction entre les utilisateurs et les systèmes sont réduits. Pour répondre à ces limitations et améliorer les capacités des moteurs de recherche d’images sur Internet, nous proposons d’introduire des structures linguistiques à large échelle au sein des architectures de recherche et de proposer une modalité de recherche par le contenu. Nous avons vu qu’il existe des ressources sémantiques qui décrivent un grand nombre de concepts et de relations et que la communauté scientifique propose des techniques appropriées pour enrichir ces ressources ou en créer des nouvelles. Néanmoins, l’adaptation et la construction des structures linguistiques à grande échelle pour une utilisation en recherche d’images restent des processus délicats. L’adaptation des ressources consiste notamment à ordonner des concepts afin de favoriser les concepts les plus représentatifs pour une requête donnée. Si les ressources existantes ne sont pas suffisantes, il devient alors nécessaire de construire — si possible automatiquement — des nouvelles ressources qui doivent assurer une bonne couverture et une bonne précision des connaissances extraites. Ce double impératif est particulièrement délicat pour des espaces conceptuels vastes comme ceux mis en jeux pour la recherche d’images sur Internet. Dans ce chapitre, nous présentons et expliquons la démarche mise en place au cours de cette thèse en nous intéressant dans un premier temps à l’étude d’un fichier de log d’un moteur de recherche. Cette étude nous permet d’analyser les usages associés aux moteurs de recherche et de répondre à la question « Quelles images cherchons-nous sur Internet ? ». Cette question sera aussi abordée, dans un deuxième temps, d’une façon plus théorique en analysant la relation entre les concepts et leur représentation imagée (que nous nommons « figurabilité » d’un concept), ainsi que la notion de simi71 72 CHAPITRE 3. DÉMARCHE DE LA THÈSE larité entre les images. Ensuite, nous montrons comment sont construites les structures sémantiques, en insistant sur les concepts et leur agrégation. Finalement, nous décrivons une méthodologie de création de systèmes de recherche d’images basés sur l’utilisation conjointe de structures sémantiques et de techniques de traitement d’images. Dans cette dernière partie, nous introduisons également les trois domaines d’application qui servent à valider notre démarche : les noms communs, les toponymes et les noms de célébrités. Le choix de ces trois domaines est déterminé par l’analyse statistique du fichier de log et par le fait que les concepts associés à ces domaines sont facilement représentables par des images. 3.1 Analyse d’un fichier de log Nous avons eu la chance de travailler sur un fichier de log mis à disposition par Exalead dans le cadre d’un accord avec le CEA LIST. L’échantillon de requêtes images étudié inclut 3055778 éléments. Les résultats sont exposés ici après présentation et accord d’Exalead. L’étude des fichiers de log permet d’avoir une représentation de l’espace de requêtes exprimées par les utilisateurs des moteurs de recherche. Nous reprenons la méthodologie classique d’analyse de ces fichiers [60] qui permet de caractériser certaines dimensions des usages associés aux moteurs de recherche d’images, comme la complexité des requêtes ou la distribution des pages de réponses consultées. Ces statistiques sont riches en enseignements et permettent notamment de confirmer la pertinence de l’introduction de structure sémantique ou de l’ajout d’une modalité de recherche par le contenu. Par exemple, si l’hypothèse que de nombreuses requêtes sont formées d’un seul concept est confirmée, l’utilisation des ressources conceptuelles est (partiellement) justifiée puisqu’elles permettent un traitement adapté à ce type de requêtes. L’étude de la distribution des pages de réponses consultées décrit la manière de naviguer parmi les résultats. Plus particulièrement, il est possible de voir si les utilisateurs regardent souvent au-delà de la première page de réponses, pour proposer une recherche par le contenu qui permettrait d’accéder plus rapidement et plus profondément à des images pertinentes pour l’utilisateur. Cependant, l’analyse décrite ci-dessus reste assez limitée et nous proposons de considérer l’espace des requêtes selon une approche conceptuelle. Cette approche met en évidence des domaines conceptuels importants en recherche d’images pour lesquels il est possible d’adapter ou de construire des ressources linguistiques à grande échelle. Ce type d’analyse nous permet d’obtenir une représentation plus complète des domaines conceptuels ciblés par les utilisateurs que celle obtenue en ne considérant que les requêtes les plus fréquentes. Le choix des trois domaines traités dans le cadre de cette étude est déterminé par trois facteurs : une analyse initiale des requêtes fréquentes, une mise en corrélation avec les résultats d’autres études comme [41] et par la disponibilité des ressources linguistiques à large échelle : – les noms communs, représentés dans des ressources comme WordNet, – les noms géographiques, décrits dans des thésauri comme Geonames, 3.1. ANALYSE D’UN FICHIER DE LOG 73 – les noms de célébrités, bien représentés dans des ressources en ligne comme Wikipédia. Notons qu’après une rapide étude du fichier, nous avons décidé de normaliser les requêtes en enlevant tous les guillemets, les espaces doublés, les accents et en transformant les majuscules en minuscules. 3.1.1 Analyse générique de fichiers de log Dans un premier temps, nous reprenons une partie de la méthodologie proposée dans [60] pour analyser statistiquement du fichier de log. Notre analyse est toutefois différente puisque nous ne nous intéressons pas aux termes fréquents, mais aux requêtes (qui peuvent contenir plusieurs termes) les plus fréquentes. L’étude porte sur les caractéristiques suivantes : la longueur des requêtes, la longueur des sessions, la répartition des pages de résultats regardées, le domaine d’appartenance des requêtes les plus fréquentes et une comparaison entre l’analyse de termes et une analyse basée sur des concepts. Bien que très importante si l’on souhaite analyser l’espace des requêtes, cette séparation entre terme et concept n’est pas, à notre connaissance, évaluée dans d’autres études antérieures et constitue donc une particularité importante de ce travail. 3.1.1.1 Longueur des requêtes Manipulant des structures linguistiques construites à partir de ressources comme WordNet ou Geonames, nous allons plus aisément traiter des requêtes mono-conceptuelles. Analyser la longueur des requêtes à partir du fichier de log nous permet de mesurer le poids de ce type de requête. La figure 3.1 montre la distribution des requêtes en fonction de leur longueur (nombre de termes). Fig. 3.1 – Distribution des requêtes en fonction du nombre de termes contenus. Les requêtes composées de un ou deux termes représentent presque 80% du total. 74 CHAPITRE 3. DÉMARCHE DE LA THÈSE Le fichier de log contient un nombre quasiment égal de requêtes formées de un ou deux termes. Ces deux types de requêtes couvrent environ 80% du nombre total de requêtes. Des pourcentages relativement significatifs sont aussi à signaler pour les demandes contenant 3 ou 4 termes (respectivement 13,7% et 4,8%). Au total, les requêtes de moins de cinq termes couvrent 96,6% du volume total de requêtes. Ces résultats sont en accord avec ceux rapportés dans des études antérieures [41], [62], montrant que la plupart des requêtes Web est peu complexe. Cette faible compléxité confirme la pertinence d’un traitement des requêtes images par des structures conceptuelles. De plus, ces requêtes étant souvent ambiguës, puisque exprimées de manière concise, les structures linguistiques permettent de séparer les différents sens d’un concept. Ainsi, si un utilisateur cherche des images de Cambridge, une structure linguistique adéquate proposera une séparation entre Cambridge en Angleterre et Cambridge, Massachusetts. 3.1.1.2 Analyse des sessions La figure 3.2 illustre une répartition des sessions en fonction de leur longueur exprimée en nombre de requêtes. Fig. 3.2 – Répartition des sessions compte tenu du nombre de requêtes. Les sessions composées d’au maximum cinq requêtes représentent plus de la moitié du volume total. Les sessions très longues (>20) représentent un volume non-négligéable (9%). Le plus grand nombre de sessions est atteint pour celles composées d’une seule requête (18,9%). Les sessions contenant au maximum cinq requêtes représentent 55,2% du volume total. Le pourcentage de sessions très longues (20 ou plus de requêtes) est non négligeable (9,2%). Il est difficile d’interpréter le comportement de l’utilisateur en fonction du nombre de requêtes dans une session, car une recherche, courte ou longue, peut aussi bien être satisfaisante ou infructueuse. Bien que cette analyse ne nous permette pas de savoir combien de tentatives sont nécessaires à un utilisateur pour accéder à des résultats qu’il juge pertinents, l’importance des sessions longues (figure 3.2) permet néanmoins d’émettre l’hypothèse que l’utilisateur, pour accéder à des « bons » résultats, a besoin de plusieurs tentatives. Ce problème est relativement connu des moteurs de recherche actuels qui ne guident d’aucune manière l’utilisateur à formuler plus effica- 3.1. ANALYSE D’UN FICHIER DE LOG 75 cement ses requêtes. Exploiter des ressources conceptuelles au sein de l’architecture de recherche permet d’enrichir l’interaction entre le système et utilisateur, en proposant à tout moment un ensemble de requêtes conceptuellement proches. 3.1.1.3 Répartition des pages de résultats regardées La plupart des moteurs de recherche étudie la répartition des pages consultées pendant les sessions de recherche pour cibler la ou les pages où il est souhaitable d’optimiser la qualité des réponses (c’est notamment l’objectif du récent Visual Rank proposé par Google en améliorant la précision des toutes premières pages à partir du contenu des images [63]). Fig. 3.3 – Répartition des pages de résultats regardées par les utilisateurs. Plus de la moitié des résultats consultés sont ceux de la première page, mais les pages suivantes ne sont pas négligées puisque les dix premières pages représentent 87% des consultations. Les résultats de la figure 3.3 montrent que la majorité des résultats consultés (55,8%) apparaı̂t la première page. Les quatre premières pages de réponses représentent environ 75% du volume des résultats consultés par les utilisateurs, volume qui monte à 87% en considérant les dix premières pages. On retrouve, très naturellement, l’importance de la première page de résultats, mais ces chiffres montrent surtout que, dans le cas d’une recherche d’images, il ne faut pas négliger les pages suivantes. Il est ainsi remarquable que les utilisateurs vont au-delà de la quinzième page de résultats dans 7,6% des cas. Ces valeurs sont plus importantes que celles signalées pour les requêtes textuelles [61], où les recherches se concentrent quasi exclusivement sur les deux ou trois premières pages de réponses. Dans le cas de la recherche d’images, la distribution des pages consultées, plus vaste que celle d’une recherche d’information textuelle, est un argument en faveur de l’introduction d’une recherche d’images par le contenu, permettant une exploration en 76 CHAPITRE 3. DÉMARCHE DE LA THÈSE profondeur de l’espace des réponses. Cette modalité répondrait à un scénario d’utilisation dans lequel un utilisateur trouvant une image intéressante accède directement à d’autres images similaires sans avoir à regarder toutes les pages de réponses proposées par le système. 3.1.1.4 Analyse des requêtes fréquentes Goodrum et al. [41] proposent une analyse manuelle des requêtes images les plus fréquentes et de les associer à des domaines conceptuels. Ils rapportent que le top 100 des demandes couvrent plus de la moitié du nombre total de requêtes. Nous avons utilisé une méthodologie similaire et nous présentons les résultats classés selon différents domaines. Après filtrage des requêtes relatives à la pornographie, le domaine le mieux représenté est celui des personnalités (12 requêtes, avec un seul homme — Brad Pitt — en 56ième position). Parmi les autres domaines, nous citons : les animaux et plantes (7 requêtes), l’informatique (5), l’automobile (4), les termes généraux désignant des personnes (4), la géographie (3). Nous avons observé une prédominance des concepts assez généraux, comme animal, chien, wallpaper ou fleur. Le poids des 100 requêtes les plus fréquentes dans l’ensemble du fichier de log est de 4,33%, contre plus de 50% dans [41]. Cette forte différence s’explique par la taille du fichier analysé : environ trois millions de requêtes ici et seulement 30000 dans [41]. Le poids de 4,33% relativise sensiblement la représentativité d’une analyse des domaines de recherche basée uniquement sur les termes les plus fréquents et représente un argument supplémentaire pour une étude plus détaillée des requêtes. 3.1.1.5 Termes vs. concepts Une différence importante par rapport à la méthodologie classique d’analyse vient du fait que nous ne considérons pas les requêtes comme une suite de termes séparés par des espaces mais plutôt comme des concepts (simples ou composés). Ainsi, une recherche d’images pour labrador retriever ou François Mitterand sont toutes les deux considérées comme des requêtes mono-conceptuelles. Nous avons examiné manuellement 1000 requêtes afin de mettre en évidence la différence entre un comptage classique et une analyse prenant en compte les concepts. Pour obtenir ces 1000 requêtes, nous avons échantillonné aléatoirement le fichier de log et nous avons retenu chaque requête une seule fois. Sur ces 1000 échantillons, 837 ont été retenus (les requêtes inconnues où en d’autres langues que le français ou l’anglais n’ayant pas été prises en compte). Exalead étant un moteur de recherche essentiellement connu par un public francophone, les requêtes françaises sont naturellement plus nombreuses que celles en anglais. Les requêtes identiques en français et en anglais incluent notamment des noms de personnes, d’artéfacts et de lieux : – les requêtes en français : 296 ; – les requêtes en anglais : 215 ; – les requêtes identiques aux deux langues : 326. 3.1. ANALYSE D’UN FICHIER DE LOG 77 Fig. 3.4 – Comparaison entre une analyse classique basée sur les termes et une analyse basée sur le nombre de concepts dans une requête. Nous observons une différence notable entre les requêtes mono-termes et les requêtes mono-conceptuelles. La distribution des requêtes en tant que suite de termes dans l’échantillon analysé manuellement suit approximativement la distribution globale du nombre de requêtes de la figure 3.1. La comparaison avec une approche par concepts, présentée dans la figure 3.4, montre des différences significatives entre ces deux types d’analyse. Le volume des requêtes mono-conceptuelles représente 64,2% du total, alors que les requêtes contenant un seul terme représentent uniquement 34,9% de l’échantillon. Si on additionne les requêtes contenant deux concepts, le volume total dépasse 94% de l’échantillon. Les différences de complexité entre les deux types d’analyse s’expliquent principalement par le fait que l’on considère les noms de personnes (Tom Waits), d’artéfacts (Xsara Picasso) et de lieux (Charente Maritime) comme des requêtes mono-conceptuelles. Ces résultats confirment le fait que les requêtes mono-conceptuelles constituent la majorité des requêtes images sur Internet et confirment la cohérence de l’utilisation de structures linguistique adaptées aux différents domaines conceptuels. Après avoir caractérisé globalement les requêtes des utilisateurs, nous nous focalisons sur nos trois domaines d’étude : les noms communs, les noms de personnes et les entités géographiques. Nous tentons plus particulièrement de répondre aux questions suivantes : – Quelle est la distribution des requêtes dans chacun de ces domaines conceptuels ? – Comment les utilisateurs forment leurs requêtes dans ces domaines et quel est le niveau de généralité de ces requêtes ? 78 CHAPITRE 3. DÉMARCHE DE LA THÈSE 3.1.2 Analyse utilisant WordNet Nous avons utilisé les termes inclus dans la hiérarchie conceptuelle de la version anglaise de WordNet, contenant plus de 100000 chaı̂nes nominales uniques. Cette ressource est aussi développée qu’un dictionnaire et présente l’avantage de contenir des relations d’héritage conceptuel, facilitant le regroupement des concepts dans différentes sous-hiérarchies. 3.1.2.1 Mesures statistiques Nous avons extrait la liste de chaı̂nes nominales uniques du WordNet anglais et nous avons considéré son intersection avec l’ensemble de l’échantillon du fichier de log. Nous présentons tout d’abord quelques statistiques globales sur la distribution des requêtes en nous basant sur les éléments de WordNet (tableau 3.1). Tab. 3.1 – Statistiques génériques concernant la distribution des requêtes images identiques à des termes de WordNet. Monosémiques Polysémiques Instances Concepts Feuilles Non-feuilles Feuilles et non-feuilles Total Nombre de concepts uniques 15236 7446 4827 17855 14721 3315 4646 22782 Volume de requêtes 189421 168657 75060 283018 194353 51131 112594 358078 L’intersection entre le fichier de log et la hiérarchie de noms du WordNet anglais représentent 358078 requêtes (dont 22782 requêtes distinctes) soit environ 12% du nombre total de requêtes exprimées par les utilisateurs. Sur les 358078 requêtes de WordNet, 283018 concernent des concepts et 75060 des instances (tel que Paris ou Madonna). Nous n’avons pas eu à disposition une hiérarchie des noms en français pour réaliser une étude similaire, une perspective intéressante serait néanmoins de refaire cette analyse pour les requêtes en français. Un volume de 168657 requêtes (7446 concepts différents) de WordNet correspond à des termes polysémiques, tandis que 189421 requêtes (15236 termes uniques) sont associées à des concepts monosémiques. Le nombre moyen de requêtes associées à chaque concept polysémique est de 22,65 soit environ deux fois plus grand que pour les concepts monosémiques. La distribution des requêtes en fonction de leur caractère polysémique montre que le poids des requêtes ambiguës est important. Un volume de 75060 requêtes (4827 termes différents) est associé à des instances de WordNet et 283018 requêtes (17855 concepts uniques) correspondent à des concepts de WordNet. La hiérarchie de noms de 3.1. ANALYSE D’UN FICHIER DE LOG 79 WordNet n’est pas très riche en instances, le pourcentage d’instances étant d’environ 25% du nombre total de nœuds de la hiérarchie lexicale. Le rapport entre le nombre de requêtes correspondant à des instances et à des concepts dans le fichier de log est plus équilibré que celui résultant de l’utilisation de WordNet (voir les sections 3.1.3 et 3.1.4). WordNet permet de différencier les concepts qui ont aucun, un ou plusieurs héritiers. Il faut préciser que les deux catégories ne sont pas mutuellement exclusives car il existe des termes apparaissant dans les deux cas, comme dog, dont le premier sens (l’animal) est inclus dans un synset ayant des héritiers contrairement au quatrième sens, la contraction de hot dog. Le volume de requêtes pour des termes feuille atteint 194353 (14721 uniques) tandis que le volume de requêtes pour des concepts ayant des héritiers est de 51131 (3315 uniques) et l’intersection contient 112594 requêtes (4646 uniques). Les feuilles constituent approximativement 75% du nombre total de nœuds de la hiérarchie lexicale et elles sont mieux représentées dans le fichier de log. Les résultats obtenus indiquent que les requêtes des utilisateurs portent majoritairement sur des termes assez spécifiques. Tab. 3.2 – Distribution des concepts de WordNet en fonction du nombre de mots qui les composent. Mots/Concept 1 2 3 4 5 Plus Nombre de concepts 57506 51522 7107 1265 271 54 Le tableau 3.2 représente la distribution des concepts de WordNet en fonction du nombre de termes les composant. Cette distribution montre que plus de la moitié des concepts sont formés de plus d’un mot. Dans les études de fichiers de log classiques, toutes les requêtes portant sur ces termes seraient considérées comme composées de plus d’un terme. Dans le tableau 3.3, nous présentons une distribution des requêtes mono-conceptuelles appartenant à WordNet en fonction du nombre de mots formant un concept. Confirmant les résultats de l’analyse manuelle de la section 3.1.1, les résultats du tableau 3.3 montrent qu’il y a une différence significative entre notre étude et une analyse classique par termes. On observe ainsi que 7,8% des requêtes mono-conceptuelles contiennent deux mots ou plus. L’écart par rapport à l’analyse manuelle s’explique par la plus faible quantité de noms composés d’artéfacts et de personnes dans WordNet par rapport à l’échantillon traité dans la section 3.1.1. 80 CHAPITRE 3. DÉMARCHE DE LA THÈSE Tab. 3.3 – Distribution des requêtes WordNet en fonction du nombre de mots dans un concept. Mots/Concept 1 2 3 4 5 Plus 3.1.2.2 Nombre de concepts uniques 17751 4462 404 56 7 0 Volume de requêtes 330238 25795 1822 209 12 0 Répartition thématique L’utilisation de WordNet permet de classer les requêtes en fonction de leur domaine conceptuel, cette classification étant plus adaptée qu’une classification manuelle des requêtes les plus fréquentes. Dans un premier temps, WordNet nous a permis de définir un ensemble de domaines conceptuels potentiellement importants pour la recherche d’images. Nous avons ensuite calculé la distribution des requêtes par rapport à ces domaines. Pour chaque classe, nous avons étudié le volume de requêtes monosémiques et polysémiques, le nombre de requêtes communes à deux des domaines étudiés et le nombre de requêtes associées uniquement au premier sens des termes. Les catégories sont les suivantes : – entités abstraites / concrètes – entités vivantes / concepts naturels / artéfacts – animaux / plantes – instruments / structures – groupes / relations / caractéristiques psychologiques Tab. 3.4 – Distribution des requêtes WordNet dans les classes abstrait, concret et leur intersection. Type de concept monosémiques Entités polysémiques abstraites monosémiques Entités polysémiques concrètes Communs Tous les sens Nombre de Volume de concepts requêtes 4442 57619 1741 18772 10509 120860 2595 48568 4232 112257 Premier sens uniquement Nombre de Volume de concepts requêtes 7626 118057 14925 238678 — — 3.1. ANALYSE D’UN FICHIER DE LOG 81 Les résultats du tableau 3.4 montrent que les requêtes relatives à des concepts concrets sont plus nombreuses que pour des concepts abstraits (169428 contre 75399). Ce résultat est naturellement peu surprenant et renvoie à la plus grande « figurabilité » des concepts concrets. Les requêtes correspondant à des termes abstraits constituent environ 1/3 du total et le nombre de requêtes communes aux deux domaines (comme match, dont le premier sens est celui d’allumette et le deuxième de compétition) est de 112257. Le rapport entre les deux types d’entités comparées est conservé quand on prend en compte uniquement le premier sens des mots (qui est, dans la grande majorité des cas, le sens de base). Tab. 3.5 – Distribution du nombre de requêtes dans les classes entités vivantes, concepts naturels, artéfacts et leur intersection. Type de concept monosémiques polysémiques monosémiques polysémiques monosémiques Artéfacts polysémiques Communs Entités vivantes Concepts naturels Tous les sens Nombre de Volume de concepts requêtes 5060 57414 1923 47767 276 1156 159 5643 2265 25780 1562 29365 829 24103 Premier sens uniquement Nombre de Volume de concepts requêtes 6833 94488 248 3967 3126 45028 — — La séparation par domaines proposée dans le tableau 3.5 est inspirée par [71]. Nous observons que les entités vivantes sont les plus nombreuses, suivies par les artéfacts et par les concepts naturels. Notons que le premier domaine inclut les noms de personnes, cette classe étant représentée par 72848 requêtes, pour 4833 concepts uniques. Dans le cas des artéfacts, le rapport entre le volume de requêtes monosémiques et polysémiques est en faveur des requêtes polysémiques, ce qui est en opposition avec la tendance générale observée au niveau de la hiérarchie lexicale. Nous différencions également les requêtes pour des noms d’animaux et de plantes (tableau 3.6). La classe des animaux est mieux représentée que celle des plantes (31443 requêtes contre 10637). Parmi les animaux, les sous-classes les mieux représentées sont les mammifères (16365), les oiseaux (5216) et les reptiles (2216). Pour les plantes, les deux principaux sous-domaines sont les arbres et les fleurs. Pour les artéfacts (tableau 3.7), nous avons séparé les instruments (comme knife ou computer ) qui totalisent 33701 requêtes pour 2223 concepts uniques et les structures (dans le sens de construction, comme bridge ou airport) qui totalisent 8147 requêtes pour 674 concepts uniques. La forte polysémie des requêtes concernant des artéfacts est encore plus importante pour les instruments, puisque environ 2/3 des requêtes sont 82 CHAPITRE 3. DÉMARCHE DE LA THÈSE Tab. 3.6 – Distribution des requêtes dans les classes animaux et plantes. Type de concept monosémiques polysémiques monosémiques Plantes polysémiques Communs Animaux Tous les sens Nombre de Volume de concepts requêtes 1014 8686 636 22757 623 2983 385 7654 25 633 Premier sens uniquement Nombre de Volume de concepts requêtes 1194 15336 835 7770 — — Tab. 3.7 – Distribution des requêtes dans les classes instruments et structures. Type de concept monosémiques polysémiques monosémiques Structures polysémiques Communs Instruments Tous les sens Nombre de Volume de concepts requêtes 1188 11795 1339 21906 370 3374 303 4773 166 3896 Premier sens uniquement Nombre de Volume de concepts requêtes 1517 18883 522 5688 — — ambiguës. Le tableau 3.8 présente la distribution des requêtes pour les groupes, les relations (comme unemployment rate ou pace) et les caractéristiques psychologiques (comme intelligence ou event). Le domaine le mieux représenté est celui des caractéristiques psychologiques (avec 72476 requêtes) dont les deux principales sous-classes sont les événements (45667) et les concepts liés à la cognition (32341). Puis, on trouve les sous-concepts de groupe (23954 requêtes) puis des relations (5602 concepts). L’analyse du fichier de log en utilisant une comparaison avec WordNet permet d’analyser plus finement la distribution des requêtes au sein de grands domaines conceptuels. Un nombre très important de requêtes portant sur des noms de personnes, nous allons procéder à une analyse plus approfondie de ce domaine dans la section suivante. D’autres domaines regroupent une quantité significative de requêtes comme les événements, les instruments ou les animaux1 . 1 Il serait intéressant d’étendre l’analyse présentée ici en utilisant des listes de termes plus riches pour des domaines comme les artéfacts (incluant plus particulièrement pour l’automobile, les marques, types et caractéristiques des voitures). 3.1. ANALYSE D’UN FICHIER DE LOG 83 Tab. 3.8 – Distribution du nombre de requêtes dans les classes groupes, relations, caractéristiques psychologiques et leur intersection. Type de concept monosémiques polysémiques monosémiques Relations polysémiques Caract. monosémiques psycho. polysémiques Communs Groupes 3.1.3 Tous les sens Nombre de Volume de concepts requêtes 999 6403 434 17551 149 2283 147 3319 1883 27876 2281 44600 580 15630 Premier sens uniquement Nombre de Volume de concepts requêtes 1251 10718 290 4349 3035 48044 — — Analyse des requêtes pour des noms de personnes Les requêtes composées de noms de personnes correspondent majoritairement à des personnalités célèbres. Nous avons constitué une liste d’environ 70000 noms en exploitant Wikipédia et NNBD2 . Cinq sous-domaines sont bien représentés dans cette liste : les acteurs, les sportifs, les chanteurs/musiciens, les modèles/mannequins et les politiciens. La liste inclut également des noms d’artistes, de scientifiques, d’écrivains, d’hommes d’affaires et d’autres catégories. Le tableau 3.9 présente la distribution des requêtes. Le fichier de log contient un volume total de 108062 requêtes (9625 noms différents) correspondant à des noms de personnalités. La catégorie la mieux représentée est celle des acteurs, avec 44727 requêtes, 59334 si on compte également les personnalités exerçant plusieurs activités, dont acteur. Les chanteurs et les modèles / mannequins sont également bien représentés, avec respectivement 14091 et 12879 requêtes (21028 et 25095 requêtes si on compte également les noms appartenant à plus d’une catégorie). Nous avons représenté dans le tableau 3.9 les catégories de personnalités représentées par plus de 1000 requêtes. Cette liste inclut, à part celles déjà mentionnées : les sportifs, les politiciens, les artistes (autres que ceux déjà mentionnés), les écrivains, les hommes d’affaires et les scientifiques. Nous avons également calculé des intersections entre domaines. On observe des valeurs importantes pour les acteurs et modèles, acteurs et chanteurs ou chanteurs et modèles. Nous présentons dans le tableau 3.10, les dix requêtes les plus fréquentes pour chaque catégorie. On note une forte proportion de personnalités anglo-saxonnes pour les acteurs, chanteurs et modèles et une bonne proportion de personnalités françaises pour les écrivains et hommes politiques. Les femmes sont particulièrement représentées pour les catégories acteurs, modèles, chanteurs et les hommes pour les sportifs, artistes, politi2 http ://nndb.com 84 CHAPITRE 3. DÉMARCHE DE LA THÈSE Tab. 3.9 – Distribution des requêtes avec des noms de personnes par domaines. Domaine d’appartenance Acteurs Chanteurs / Musiciens Modèles / Mannequins Sportifs Politiciens / Personnages historiques Artistes Hommes d’affaires Ecrivains Acteurs et chanteurs Acteurs et mannequins Acteurs et politiciens Acteurs et sportifs Chanteurs et mannequins Chanteurs et sportifs Chanteurs et politiciens Sportifs et mannequins Sportifs et politiciens Autres Total Nombre de concepts 3746 1586 693 1211 Volume de requêtes 44727 14091 12879 6794 7 12 239 130 371 168 230 8 24 9 11 1 1 9 594 9625 2387 1190 1518 4488 9847 118 154 2366 64 19 3 35 2408 108062 ciens et écrivains. À l’exception des écrivains et ponctuellement des politiciens (Abraham Lincoln) et des artistes (Leonardo Da Vinci ), la majorité des requêtes porte sur des personnes ayant vécu au XXième siècle. Les résultats du tableau 3.10 sont à mettre en relation avec ceux obtenus pour les requêtes les plus fréquentes (section 3.1.1). Un nombre important de requêtes visent des sex-symbols ou des actrices pornographiques (Pamela Anderson, Carmen Electra, Jenna Jameson, Paris Hilton, Aria Giovanni ou Tera Patrick ). En analysant plus finement les résultats, les actrices pornographiques représentent 1/3 du total des requêtes relatives aux acteurs et actrices. Après avoir analysé les requêtes sur des noms complets, nous avons constitué une liste de prénoms et de noms et comparé ces deux nouvelles listes au fichier de log. Les résultats du tableau 3.11 sont présentés sans filtrage et contiennent des termes pouvant correspondre à des prénoms ou des noms de célébrités tels qu’obtenus en utilisant la liste initiale de célébrités. Par exemple, un chanteur s’appelant Bébé Manga, Manga apparaı̂t parmi les patronymes. De même, on retrouve Ferrari, qui désigne à la fois une marque de voiture et un nom de famille. Le volume de requêtes du tableau 3.11 est assez surprenant 3.1. ANALYSE D’UN FICHIER DE LOG 85 Tab. 3.10 – Top 10 des requêtes pour chaque type de célébrité. Domaine d’appartenance Acteurs Chanteurs / Musiciens Modèles / Mannequins Sportifs Politiciens Personnages historiques / Artistes Hommes d’affaires Ecrivains Nombre de concepts Pamela Anderson ; Brad Pitt ; Angelina Jolie ; Carmen Electra ; Jessica Alba ; Emma Watson ; Jenna Jameson ; Monica Bellucci ; Keira Knightley ; Scarlett Johansson Madonna ; Britney Spears ; Shakira ; Christina Aguilera ; Avril Lavigne ; Nelly Furtado ; 50 cent ; Bob Marley ; Marilyn Manson ; Mariah Carey ; Justin Timberlake Paris Hilton ; Aria Giovanni ; Adriana Lima ; Tera Patrick ; Carla Bruni ; Keeley Hazell ; Kyla Cole ; Victoria Silvstedt ; Vida Guerra ; Laetitia Casta Cristiano Ronaldo ; Rafael Nadal ; David Beckham ; Michael Jordan ; Serena Williams ; Ana Ivanovic ; Thierry Henry ; Valentino Rossi ; Fernando Torres ; Tony Parker Ségolène Royal ; Nicolas Sarkozy ; Che Guevara ; Rachida Dati ; Abraham Lincoln ; Rama Yade ; George Bush ; Jacques Chirac ; Angela Merkel ; Adolf Hitler Spencer Tunick ; Andy Warhol ; Jock Sturges ; Salvador Dali ; Edward Hopper ; Helmut Newton ; Pablo Picasso ; Paul Klee ; Leonardo Da Vinci ; Roy Lichtenstein Steve Jobs ; Bill Gates ; Louis Vuitton ; Walt Disney ; Enzo Ferrari ; Ray Kroc ; Nigel Godrich ; Henry Ford ; Thierry Breton ; Muhammad Yunus Victor Hugo ; Jean de La Fontaine ; Jules Verne ; Khalil Gibran ; Albert Camus ; Oscar Wilde ; Guy de Maupassant ; William Shakespeare ; Charles Dickens ; Arthur Rimbaud puisqu’on pouvait s’attendre à ce que les utilisateurs formulent plus précisément leurs requêtes. Le tableau 3.12 présente les 20 requêtes les plus fréquentes pour des termes dont le sens premier est celui d’un prénom ou d’un nom. Les prénoms les plus fréquents sont des prénoms féminins, alors qu’on trouve une répartition équilibrée pour les noms de famille. Deux exemples illustratifs et célèbres sont celui de Ségolène Royal, dont le 86 CHAPITRE 3. DÉMARCHE DE LA THÈSE Tab. 3.11 – Distribution des requêtes pour les prénoms et les noms. Prénoms Noms Nombre de concepts 2643 6141 Volume de requêtes 50698 47322 prénom apparaı̂t fréquemment mais pas le nom et de Nicolas Sarkozy dont on voit apparaı̂tre le nom mais peu le prénom. Les prénoms les plus fréquents sont ceux relatifs à des acteurs et des chanteurs tandis que les noms de famille se retrouvent pour une plus grande diversité de domaines, incluant aussi les politiciens et les footballeurs. Tab. 3.12 – Top 20 des requêtes pour les prénoms et les noms. Prénoms Noms Requêtes les plus fréquentes Rihanna ; Britney ; Lorie ; Clara ; Segolène ; Pamela ; Jenna ; Mika ; Jennifer ; Eva ; Sophie ; Sandra ; Dora ; Alice ; Sabrina ; Laura ; Pauline ; Jessica ; Monica ; Lisa Sarkozy ; Chirac ; Zidane ; Sharapova ; Hilton ; Casta ; Spears ; Bellucci ; Manara ; Alba ; Merkel ; Aguilera ; Bayrou ; Beckham ; Silvstedt ; Jameson ; Nasri ; Messi ; Batista ; Nadal Même en se restreignant au domaine des célébrités, les prénoms et les noms de famille, utilisés seuls, pointent habituellement vers plusieurs personnes. Il serait donc pertinent de proposer à un utilisateur ayant proposé un prénom, une liste de noms de célébrités permettant de désambiguı̈ser sa requête puis d’étendre cette requête à d’autres personnalités ayant une relation particulière avec la requête. Cette fonctionnalité est déjà implémentée dans Ask, mais elle repose sur une détection automatique de noms de personnes et les résultats sont bruités. Par exemple, pour une requête avec Royal, les deux premiers résultats proposés sont Prince et Queen. L’analyse des requêtes correspondant à des noms de personnes montre que ce domaine a un poids important mais inférieur à celui calculé en utilisant uniquement les requêtes les plus fréquentes [60] ou dans notre propre analyse (Section 3.1.1). Cette différence s’explique par le fait que les requêtes relatives à des noms de célébrités sont surreprésentées parmi les demandes les plus fréquentes. Cette surreprésentation est causée par le nombre réduit de noms de personnes célèbres comparé au dictionnaire général de la langue et par la relative invariance des noms par rapport à la langue utilisée pour formuler les requêtes. Cette étude souligne les principales catégories de personnalités recherchées par les 3.1. ANALYSE D’UN FICHIER DE LOG 87 utilisateurs d’un moteur de recherche. Le domaine le mieux représenté est celui des acteurs, suivi par les mannequins et modèles puis les chanteurs et musiciens. Ce résultat est en accord avec les classements des requêtes les plus fréquentes publiés régulièrement par les moteurs de recherche3 . D’autres domaines regroupent des quantités significatives de requêtes : les sportifs et les politiciens, personnages historiques. Nous avons été surpris par la grande quantité de requêtes composées uniquement des prénoms ou des noms de famille, alors même que ces requêtes sont fortement ambiguës. 3.1.4 Analyse des requêtes pour les noms géographiques Nous avons étudié le domaine des requêtes géographiques en analysant l’intersection entre le fichier de log et Geonames. Geonames est une base de données géographiques contenant plus de six millions d’entrées pour des noms de lieux, classés dans 645 catégories comme : ı̂le, pays, ville, parc ou gratte-ciel. Le volume de requêtes correspondant exactement à des toponymes est de 392868, reparties sur 43930 concepts différents (tableau 3.13). Tab. 3.13 – Distribution des requêtes pour des toponymes. Uniquement Geonames Geonames et WordNet Geonames et mots français Total Nombre de concepts 33455 5285 5190 43930 Volume de requêtes 162684 79156 151028 392868 Étant donné l’importance de l’intersection entre l’ensemble de toponymes et le vocabulaire général, nous avons aussi croisé les résultats avec WordNet (en excluant les noms de lieux trouvés dans cette hiérarchie) et avec une liste des noms communs (en français). Nous observons une intersection significative dans les deux cas. Le nombre de requêtes communes entre Geonames et WordNet est de 79156 entités, tandis que l’intersection avec le vocabulaire français contient 151028 requêtes. Il reste 162684 requêtes apparaissant uniquement dans Geonames. Nous avons par la suite essayé de classer les requêtes en utilisant les catégories de Geonames mais cette approche n’a pas conduit à des résultats concluants, car l’intersection entre Geonames et le vocabulaire général est non négligeable : il existe dans Geonames des lieux nommés Sexy (localité au Pérou), Œil (rivière en Auvergne) ou Earth (ville au Texas). La forte polysémie des éléments de la base de données géographiques constitue une deuxième difficulté quand on tente de catégoriser automatiquement des requêtes géographiques. Par exemple, Parthénon est à la fois le nom du célèbre temple d’Athènes, celui d’une ville et d’un bâtiment aux Etats-Unis et d’une ferme en Zambie. 3 http ://actu.abondance.com/2007/12/top-mots-cls-2007-google-fr.html 88 CHAPITRE 3. DÉMARCHE DE LA THÈSE New York est, entre autres, le nom d’un état et de plusieurs villes américains, d’une colline en Afrique du Sud, de deux villes en Jamaı̈que. On aurait pu suivre une démarche similaire à celle décrite dans la section 3.1.2, c’est à dire une analyse restreinte aux sens premiers de chaque terme, mais le classement automatique des différents sens des termes polysémiques est loin d’être trivial. À défaut de pouvoir catégoriser automatiquement les requêtes géographiques, nous avons procédé à une classification manuelle en gardant tous les termes apparaissant au moins 20 fois dans le fichier de log et en filtrant ceux dont le sens premier n’appartient pas au domaine géographique. En nous basant sur la répartition des requêtes les plus fréquentes du domaine géographique, nous avons choisi de présenter les résultats de cette classification manuelle dans cinq grandes catégories, comprenant des divisions administratives (pays, région, ville), des monuments connus et des entités naturelles. Nous avons inclus dans d’autres catégories les requêtes plus rares, comme les noms de continents et de quartiers. Dans la catégorie Région, nous avons inclus des parties de pays comme les états aux Etats-Unis ou les régions et les départements de France. La classe nature contient des noms correspondant — entre autres — à des ı̂les, des parcs naturels ou des montagnes. La catégorie monuments inclut des noms de monuments connus, de musées ou encore de gratte-ciels. Tab. 3.14 – Distribution des requêtes pour des toponymes. Pays Région Ville Monument Nature Autre Total Nombre de concepts 85 36 199 38 57 7 422 Volume de requêtes 5985 511 16768 2019 2520 613 29733 Le tableau 3.14 montre que les 422 requêtes de notre échantillon ont été proposées 29733 fois par les utilisateurs. Si l’on compare les résultats des tableaux 3.14 et 3.15, on observe que 1% des requêtes les plus fréquentes du domaine géographique couvrent 10% du nombre total de requêtes. Parmi les requêtes les plus fréquentes, la classe la mieux représentée est celle des villes avec 16768 requêtes sur un total de 29733, suivie par les pays (5985), les objets naturels (2520) et les monuments connus (2019). La plupart des requêtes concerne des divisions administratives. Les résultats présentés incluent un grand nombre de termes familiers aux utilisateurs français, confirmant la tendance générale observée dans le fichier de log. Une grande partie des concepts du tableau 3.15 représente des entités fortement touristiques confirmant un usage fréquent associé aux moteurs de recherche d’images : la visualisation des lieux « intéressants » du monde. Sur les dix monuments les plus fréquents, huit sont situés 3.1. ANALYSE D’UN FICHIER DE LOG 89 Tab. 3.15 – Requêtes les plus fréquentes dans le domaine géographique. Pays Région Ville Monument Nature Requêtes les plus fréquentes France ; Maroc ; Japon ; Portugal ; Canada ; Egypte ; Chine ; Inde ; USA ; Australie Bretagne ; Corse ; Quebec ; California ; Texas ; Normandie ; Pays Basque ; Yorkshire ; Alsace Paris ; New York ; Marseille ; Lyon ; Venise ; Londres ; Versailles ; Berlin ; Rome ; Las Vegas Tour Eiffel ; Big Ben ; Elysee ; Taj Mahal ; World Trade Center ; Buckingham Palace Louvre ; Moulin Rouge ; London Eye ; Trafalgar Square Tahiti ; Martinique ; Hawaii ; Sahara ; Seychelles ; Ile Maurice ; Mont Blanc ; Grand Canyon ; Atlantique ; Mayotte dans deux grandes villes Paris et Londres, deux destinations touristiques majeures. Pour les entités naturelles, on observe une prédominance des noms d’ı̂les, elles-mêmes des destinations touristiques importantes (Martinique, Seychelles ...). Les résultats des tableaux 3.14 et 3.15 montrent que la majorité des requêtes fréquentes d’images géographiques correspond à des objets géographiques assez généraux (comme les pays ou les villes). Ces résultats s’accordent avec les conclusions de [119] où les auteurs étudient le poids des requêtes géographiques parmi les requêtes textuelles. Toutefois, la prédominance des requêtes géographiques calculée à partir des requêtes les plus fréquentes dans [119] est à relativiser. L’analyse présentée dans cette section nous a permis de découvrir quels sont les sousdomaines les mieux représentés parmi les requêtes géographiques, les noms de villes, de pays, les monuments et les entités naturelles. Il existe aussi une corrélation entre les requêtes les plus fréquentes et les grandes destinations touristiques. Cela pointe vers un usage important des moteurs de recherche d’images : la recherche d’informations touristiques qui se traduit notamment par une très forte croissance du e-tourisme et une prise en compte de plus en plus importante de ce secteur par les géants du web (Google, Yahoo !). 3.1.5 Conclusion L’étude présentée est — à notre connaissance — la première analyse du contenu d’un fichier de log à grande échelle selon une approche conceptuelle. Nous avons exploité des ressources structurées associées à trois domaines qui sont apparus comme importants pour la recherche d’images sur Internet : les noms communs, les noms de personnes et les noms de lieux. Nous avons trouvé des différences importantes du poids relatif des 90 CHAPITRE 3. DÉMARCHE DE LA THÈSE domaines par rapport aux autres études basées sur une analyse des requêtes les plus fréquentes [41], [119], notamment pour les noms de personnes et les toponymes. Les principales nouveautés apportées par notre approche sont : – Une mise en évidence de la différence entre une étude des requêtes basée sur des termes et une étude focalisée sur les concepts. – Une évaluation du poids des différents sous-domaines pour les trois types de requêtes traitées : les noms communs, les noms de personnes et les requêtes géographiques. – Une classification automatique des requêtes par rapport à leurs domaines d’appartenance. Cette classification est particulièrement difficile dans le cas des requêtes ambiguës. – Une catégorisation des requêtes en fonction de leur niveau de généralité. – Une détection automatique des requêtes ambiguës, qui constituent une partie importante du nombre total des requêtes mono-conceptuelles. Nos résultats confirment ceux dans [117] avec une fréquence encore plus grande de termes ambigus. Les principales difficultés rencontrées correspondent à : – La couverture imparfaite offerte par les ressources décrivant les domaines analysés. – Le classement automatique des sens d’un concept ambigu, particulièrement pour les requêtes géographiques. – Les éléments communs à plusieurs langues induisent des imprécisions de classification, surtout pour un fichier de log multilingue comme celui sur lequel nous avons travaillé. Cette étude permet de proposer quelques pistes pour améliorer les architectures de recherche d’images sur Internet. La majorité des requêtes étant mono-conceptuelles4 , elles peuvent plus aisement être traitées en utilisant des structures linguistiques à large échelle. L’analyse met en évidence des domaines conceptuels importants en recherche d’images, donnant ainsi un ordre de priorités pour la mise en place de structures linguistiques. Il serait intéressant d’étendre l’étude à plusieurs langues, notamment par la constitution de ressources similaires à celles en anglais pour le français, langue qui semble dominante dans ce fichier de log. Ici aussi, ce problème n’est pas trivial car la version française de WordNet n’est pas aussi complète que celle pour l’anglais. Une autre direction de travail concerne la constitution de ressources pour d’autres domaines bien représentés dans le fichier de log. Afin de réduire le périmètre de cette thèse, nous n’avons considéré que trois domaines parmi les plus importants, mais l’analyse manuelle d’un échantillon de requêtes (3.1.1) indique par exemple que les noms d’artéfacts ou les noms associés à des jeux vidéo possèdent aussi un poids important dans le fichier de log. 4 Dans le futur, nous envisageons aussi d’analyser les requêtes plus complexes afin d’obtenir plus d’informations sur le contenu de requêtes. Cette tâche n’est pas facile puisque la classification des requêtes complexes par rapport à des domaines spécifiques est encore plus difficile que celle de requêtes contenant un seul concept. 3.2. CONCEPTS ET IMAGES 91 Enfin, il serait intéressant d’appliquer une analyse similaire aux requêtes textuelles, qui, d’après Goodrum et al. [41], sont moins complexes que les requêtes images et pourraient, tout autant que pour les requêtes images, tirer partie de l’utilisation de structures linguistiques. 3.2 Concepts et images L’étude du fichier de log montre qu’il y a plus de requêtes pour les entités physiques que pour les concepts abstraits (qui forment les deux grandes sous-hiérarchies de noms dans WordNet), ces premiers étant moins aisément « figurables » que les entités physiques. Néanmoins, il existe pour certaines catégories abstraites des représentations imagées stables qui sont bien représentées dans le fichier de log. Il s’agit notamment des événements, rangées dans la sous-hiérarchie des abstractions dans WordNet, comme manifestation ou match de basketball pour lesquels il est aisé de s’en faire une représentation. Pour d’autres catégories abstraites, il existe parfois une (ou plusieurs) représentations symboliques comme la balance pour le concept justice. Dans ce travail, nous nous concentrons sur les concepts concrets qui, directement ou par l’intermédiaire de leurs sous-types, forment des classes d’images conceptuellement et visuellement cohérentes. Fig. 3.5 – En haut : diverses représentations de « Notre Dame de Paris » (Source : Flickr). En bas : premiers résultats de Google Images. La représentation d’un concept est généralement sujette à une forte variabilité spatiale et temporelle (figures 3.5, 3.6). Cette variabilité n’est pas prise en compte par les 92 CHAPITRE 3. DÉMARCHE DE LA THÈSE Fig. 3.6 – Différentes images de Michael Jackson (Source : Google Images). moteurs de recherche actuels qui vont chercher à améliorer leur performance en précision plutôt qu’à assurer une bonne couverture. Néanmoins, des tendances actuelles en recherche d’information [2] donnent justement plus d’importance à une bonne couverture des différentes représentations d’une requête plutôt qu’à l’amélioration de la précision d’une seule représentation. Dans [117], Sanderson focalise son travail notamment sur les termes ambigus ne se trouvant pas dans des dictionnaires ou des thésauri et montre expérimentalement que, pour ce type de requête plus particulièrement, les moteurs de recherche textuelle actuels ne fournissent pas des résultats diversifiés. L’introduction de ressources linguistiques dans les architectures de recherche d’images assure une meilleure couverture puisqu’elle apporte des informations qui vont spécifier et décrire la richesse du voisinage conceptuel de la requête. Par exemple, en reprenant l’exemple de la figure 3.6, une structure linguistique se rapportant aux personnalités inclura des détails biographiques de la carrière de Michael Jackson permettant de proposer des images représentatives de la carrière du chanteur américain (notamment en fonction des périodes de sorties de ces principaux disques). D’une façon identique, pour des entités géographiques, comme Notre Dame de Paris (figure 3.5), une structure linguistique adéquate tiendra compte d’informations de localisation (géo-référencement) et de catégorisation des entités. De plus, notons que l’intervention des techniques de traitement d’images permet aussi de diversifier les réponses, par exemple avec des approches de classification non-supervisée d’images que nous décrivons dans 2.3.2.3. 3.2.1 Similarité entre les images Bien que la perception de la similarité soit influencée par de multiples facteurs, nous nous concentrons uniquement dans le cadre de cette thèse sur deux types de similarité entre les images : basée sur des descripteurs de bas niveau et conceptuelle. Ici, nous nous intéressons au paradigme classique d’une recherche par le contenu par l’exemple (query by example). La similarité visuelle n’est actuellement pas utilisée par les systèmes de recherche d’images destinés à un large public car une recherche « brute » par le contenu n’est pas adaptée à l’exploration d’espaces conceptuels larges. La proximité entre deux objets peut être évaluée selon différents niveaux. Prenons un exemple : l’image d’un doberman est en même temps celle d’un chien de garde, d’un chien, d’un mammifère, d’un animal... Si un système de recherche d’images retourne une 3.2. CONCEPTS ET IMAGES 93 réponse figurant un objet d’une de ces classes, nous pouvons fixer le seuil de similarité à tous les niveaux de représentation cités et dire qu’une image de setter irlandais est similaire à celle d’un doberman puisque les deux représentent un chien ou un animal. Mais la probabilité de juger deux images comme étant similaires décroı̂t avec l’élargissement de l’espace conceptuel. Pour illustrer notre propos, nous présentons les résultats d’une recherche par le contenu à partir de la même image de doberman mais dans deux espaces conceptuels différents. Dans la figure 3.7, l’image requête (en haut, à gauche) est comparée à d’autres images de chiens de la même classe et dans la figure 3.8, la requête est comparée à des représentations d’autres mammifères. Fig. 3.7 – Résultat d’un système CBIR pour une image de doberman à l’intérieur de cette classe. Dans cette thèse, nous proposons un modèle hybride de similarité entre les images, associant une description textuelle et une caractérisation de bas niveau. Il s’agit plus précisément d’un modèle de fusion hiérarchique car le processus CBIR est restreint à des images partageant des descriptions textuelles communes. Notre approche consiste à limiter l’espace de recherche à des concepts très spécifiques, rendue possible par l’intégration de structures linguistiques à grande échelle dans les architectures de recherche d’images. Il est possible de proposer des modèles de similarité plus complexes incluant explicitement, par exemple, la scène représentée dans l’image. Dans ce cas, il faudrait considérer, en plus de l’objet représenté, son contexte (même si les descripteurs de bas niveau globaux que nous utilisons modélisent implicitement le contexte). Il est aussi important de prendre en compte l’intention de l’utilisateur dans la modélisation de la similarité. Le but de l’utilisateur n’est toujours pas bien défini au début du processus de recherche. 94 CHAPITRE 3. DÉMARCHE DE LA THÈSE Fig. 3.8 – Résultats quand on restreint la recherche à l’intérieur de la classe mammifères. Cela se reflète généralement par une forte ambiguı̈té de la requête (en première intention, une requête est souvent assez courte) fournissant peu d’informations sur le contenu des images à retrouver. Le but de la recherche peut se préciser au fur et à mesure de l’interaction entre l’utilisateur et le système. L’utilisateur évolue vers des espaces conceptuels plus restreints ou utilise une recherche par le contenu souvent plus adaptée qu’au début de la recherche. La similarité de la scène et celle déterminée par l’intention de l’utilisateur sont plus difficiles à formaliser et mériteraient une étude séparée, aussi nous ne les incluons pas dans notre modèle de similarité entre les images. 3.3 3.3.1 Système de recherche d’images basé sur la sémantique Définition de structures sémantiques En nous basant sur plusieurs travaux [4], [128], [12], [33], nous présentons et illustrons un vocabulaire minimal décrivant l’agrégation des concepts dans des ressources sémantiques. Definition 1 : L’unité de base dans les structures sémantiques est le concept, défini par son nom. Nous avons illustré quelques concepts dans la figure 3.9. Notons qu’il n’y a aucune liaison entre les concepts dans la figure. Définition 2 : Dans une structure sémantique, une différence est faite entre les concepts et les instances [101]. Les concepts (ou catégories) pointent vers des classes 3.3. SYSTÈME DE RECHERCHE D’IMAGES BASÉ SUR LA SÉMANTIQUE 95 Fig. 3.9 – Structure sémantique : représentation d’une série de concepts. d’entités du monde, les instances représentent des entités bien déterminées, uniques et indivisibles en sous-concepts. Dans la figure 3.10, pays, chien ou chien de garde sont des catégories tandis que Ville Lumière, Paris et France sont des instances. Définition 3 : La liaison entre deux concepts d’une ressource sémantique se fait par l’intermédiaire d’une relation (figure 3.11). Deux concepts peuvent être reliés par une ou plusieurs relations. Les définitions 1 et 3 représentent le cadre minimal sur lequel repose une structure sémantique et s’appliquent (avec des variations de vocabulaire) à la construction de toute ressource conceptuelle. Jusqu’ici, cette dernière notion se définit mathématiquement comme un graphe non directionnel (3.11), contenant en plus des nœuds de la figure 3.10, des arrêtes reliant ces nœuds. Les définitions suivantes vont apporter plus de précisions sur la nature de ce graphe. Définition 4 : L’héritage conceptuel est une relation fondamentale pour les concepts et est caractérisée par les propriétés suivantes : – La relation d’héritage n’est pas symétrique. Si A hérite de B, B ne peut pas hériter de A. – La relation d’héritage est transitive [4]. Si A hérite de B et B hérite de C, alors A hérite de C. Un graphe doté de la relation d’héritage conceptuel (3.12) devient directionnel (et hiérarchique), il est possible de déduire certaines propriétés d’un concept compte tenu du groupe de ses parents. Ainsi un doberman est un type de chien de garde qui est un héritier de chien etc. Dans la figure 3.12, Paris est à la fois un sous-type de département et de ville et représente un cas d’héritage multiple. La présence de l’héritage multiple dans une hiérarchie conceptuelle enrichit la structure de celle-ci, mais est en contradiction avec certains formalismes, comme les logiques de description, utilisées pour modéliser les 96 CHAPITRE 3. DÉMARCHE DE LA THÈSE Fig. 3.10 – Structure sémantique : séparation entre concepts (fond bleu) et instances (fond jaune) dans les structures sémantiques. Fig. 3.11 – Structure sémantique : représentation des relations entre les nœuds. 3.3. SYSTÈME DE RECHERCHE D’IMAGES BASÉ SUR LA SÉMANTIQUE 97 Fig. 3.12 – Structure sémantique : représentation des relations d’héritage conceptuel. Fig. 3.13 – Structure sémantique : la relation de synonymie est représentée en bleu. 98 CHAPITRE 3. DÉMARCHE DE LA THÈSE ontologies formelles [37]. Nous avons fait le choix de permettre l’héritage multiple dans les structures utilisées dans notre travail car ce choix rend mieux compte de l’organisation des concepts dans le monde. La réunion des sous-concepts d’une catégorie forme son domaine conceptuel. Définition 5 : La synonymie est la relation reliant différents termes qui expriment un même concept (figure 3.13). La synonymie permet de réduire le nombre de nœuds dans un graphe en regroupant les termes synonymes. Le regroupement des synonymes est par exemple effectué dans WordNet [33] et structure les unités minimales de la hiérarchie lexicale. Dans la figure 3.13, les termes Ville Lumière et Paris sont regroupés car ils pointent vers la même entité du monde. Les deux termes auront les mêmes propriétés dans la hiérarchie conceptuelle. Définition 6 : L’homonymie est une relation mettant en correspondance des termes s’écrivant de la même façon mais qui pointent vers des entités différentes. Fig. 3.14 – Structure sémantique : la relation d’homonymie est représentée avec Paris. L’homonymie (figure 3.14) permet de séparer les différents sens d’un terme présents dans une ressource sémantique. Cette différenciation est importante dans le contexte de la recherche d’images car, pour les termes polysémiques, on attache des classes d’images séparées à chaque sens d’un terme. Par exemple, Paris peut être aussi bien une ville en France qu’une ville aux Etats-Unis. Définition 7 : La méronymie est la relation reliant une partie de son ensemble et est caractérisée par les propriétés suivantes : – La relation de méronymie n’est pas symétrique. Si A est une partie de B, B ne peut pas être une partie de A. – La relation de méronymie est transitive : si B est une partie de A et C est une partie de B, alors C est une partie de A. Dans la figure 3.15, nous avons illustré quelques relations de méronymie. On voit qu’une ville est une partie d’un département qui, à sont tour, est une partie d’un pays. 3.3. SYSTÈME DE RECHERCHE D’IMAGES BASÉ SUR LA SÉMANTIQUE 99 Fig. 3.15 – Structure sémantique : la relation de méronymie est représentée en vert. Fig. 3.16 – Structure sémantique : les relations ACouleur and ACapitale sont représentées en magenta. 100 CHAPITRE 3. DÉMARCHE DE LA THÈSE Notons que, à la différence de l’héritage conceptuel, une instance peut se diviser en parties. Dans la figure 3.15, la France (une instance de pays) contient Paris (une instance de ville). La réunion des parties d’un concepts forme son domaine partonymique. En plus des relations déjà mentionnées dans déf. 3 à déf. 7, les structures sémantiques peuvent être caractérisées par des relations ayant un sens seulement pour une partie de la structure ou pour certains domaines d’applications utilisant la ressource. Les relations spécifiques à des domaines conceptuels particuliers instancient des propriétés décrivant la structure de ce domaine plus en détail que les relations s’appliquant à toutes les catégories incluses dans la structure. La structure du graphe décrivant la ressource sémantique s’enrichit localement et permet une meilleure description des domaines conceptuels. Dans la figure 3.16, nous illustrons deux relations spécifiques à des domaines conceptuels : ACouleur relie Doberman et noir et marron ; ACapitale relie la France à Paris. Les relation ACouleur et ACapitale n’ont de sens que dans des espaces conceptuels bien déterminés. Les définitions 1 à 7 nous permettent de construire des structures sémantiques comprenant des concepts et des relations entre ces derniers. Le choix des relations à définir dépend du domaine conceptuel modélisé, ainsi que de l’application envisagée. Nous allons présenter des exemples concrets de modélisation de domaines dans le chapitre 4. Notre usage des ressources sémantiques est différent de celui adopté par la communauté « Web Sémantique » car nous restons dans une perspective anthroponcentrée. Le but du Web Sémantique est de faire communiquer des machines de manière « intelligente » utilisant une modélisation conceptuelle du contenu des pages Web [10]. Cela implique une description des connaissances sous forme d’ontologies formelles qui permettent un raisonnement automatique sur leur contenu. Nous introduisons les structures conceptuelles dans l’architecture de recherche uniquement pour aider l’utilisateur et les connaissances inclues dans ces structures ne sont pas aussi formalisées que celles contenues dans les ontologies formelles. Dans notre approche, le raisonnement automatique se résume à l’exploitation des relations de base, comme l’héritage conceptuel ou l’inclusion spatiale et est réalisable à l’intérieur des formalismes comme les bases de données relationnelles. 3.3.2 Les fonctionnalités offertes par les structures sémantiques Nous décrivons, dans les sous-sections suivantes, les principaux rôles des structures linguistiques dans les systèmes de recherche d’images basés sur la sémantique. 3.3.2.1 Reformulation automatique des requêtes L’introduction de ressources sémantiques dans la recherche d’images permet une reformulation automatique des requêtes qui contribue à l’amélioration de la pertinence des réponses. La reformulation automatique est un processus de substitution d’une demande d’information initiale par des versions modifiées, mieux définies. Rappelons que, dans le cadre de ce travail, nous nous intéressons aux requêtes mono-conceptuelles. La reformulation des requêtes plus complexes est un sujet suffisamment vaste et complexe pour faire l’objet d’une étude séparée. Prenons un exemple de reformulation pour un nom 3.3. SYSTÈME DE RECHERCHE D’IMAGES BASÉ SUR LA SÉMANTIQUE 101 commun en utilisant WordNet : un utilisateur demande des images pour butterfly. Une première observation est que le terme désigne deux concepts différents : un insecte et un style de nage. Avec l’utilisation du réseau lexical, le système va séparer ces deux sens. Si on considère le sens de base du terme (l’insecte) on utilisera les nœuds terminaux dans le domaine conceptuel du premier sens de butterfly pour former des nouvelles requêtes, composées du concept initial et des termes feuilles : butterfly + monarch, butterfly + tortoiseshell ou butterfly + admiral (figure 3.17). La reformulation permet de structurer les résultats, de mieux borner la requête et ainsi de proposer des réponses plus précises puisque la probabilité de trouver une image non pertinente avec une nouvelle requête enrichie (butterfly + monarch par exemple) est plus faible que pour une requête composée du seul concept (butterfly). Fig. 3.17 – Images de différents types de papillons : monarch, tortoiseshell et admiral. 3.3.2.2 Structuration des résultats Les moteurs actuels de recherche sur Internet ne proposent pas une organisation conceptuelle des réponses. L’introduction de ressources linguistiques modélise conceptuellement l’espace de recherche guide le processus de recherche en fonction des relations entre les concepts de la hiérarchie. La relation type — sous-type est utilisée dans notre approche pour décrire un concept par l’intermédiaire de ses héritiers. Dans la figure 3.18, nous présentons les résultats renvoyés par Google à la requête skyscraper (trois des images représentent une maquette ou une image de synthèse). Si on réalise d’abord une reformulation automatique avec des instances de gratte-ciel, comme Eiffel Tower, Empire State Building, Petronas Towers ou Sears Tower, les réponses obtenues seront celles de la figure 3.19, on notera la cohérence et la diversité des résultats. 3.3.2.3 Navigation enrichie L’exploitation de ressources linguistiques à large échelle permet aux systèmes de recherche d’images d’aider l’utilisateur à mieux définir sa recherche mais aussi d’actualiser les connaissances de l’utilisateur ou de le faire en découvrir de nouvelles. La structure des hiérarchies permet la présentation de trois types de concepts associés à la requête courante : 102 CHAPITRE 3. DÉMARCHE DE LA THÈSE Fig. 3.18 – Images de skyscraper de Google Images. Fig. 3.19 – Images structurées de skyscraper. 3.3. SYSTÈME DE RECHERCHE D’IMAGES BASÉ SUR LA SÉMANTIQUE 103 – Concepts spécialisés : si la requête building est proposée, le moteur de recherche peut proposer des raffinements comme house, skyscraper ou theater qui elles-mêmes peuvent conduire à d’autres concepts spécialisés comme Eiffel Tower, Empire State Building ou Petronas Towers dans le cas de skyscraper. – Termes généraux : si l’on reprend la requête building, les hypéronymes incluent des concepts comme structure, artifact ou object. Si la requête initiale porte sur les Petronas Towers, des termes comme skyscraper ou building apparaı̂tront parmi les propositions plus génériques. Dans ce cas, l’utilisateur est invité à explorer des espaces conceptuels plus larges que celui de départ. – Termes du même niveau de généralité : pour une requête avec Empire State Building, les termes proches incluent Sears Tower ou Petronas Towers. L’amélioration de l’interactivité obtenue en utilisant l’héritage conceptuel ne s’accompagne pas d’une complexification de l’interaction entre l’utilisateur et le système puisque l’utilisateur se voit proposer des résultats pour chacune de ses propres requêtes, contrairement aux expériences comme Yahoo ! Directory ou Picsearch Directory, où l’utilisateur doit choisir sa requête en naviguant dans plusieurs niveau d’une hiérarchie de concepts. Ce dernier type de navigation devient vite fastidieux et inadapté à une utilisation grand public et à une modélisation de larges domaines. 3.3.2.4 Adaptation des résultats par rapport aux concepts représentés En fonction du domaine conceptuel et en utilisant des structures sémantiques adaptées, il devient possible d’adapter les réponses du système en fonction de différentes propriétés comme des propriétés temporelles ou spatiales. Pour les objets géographiques, il est ainsi très utile d’adapter et structurer les réponses du système en fonction de caractéristiques sur la localisation et les dimensions des entités géographiques. Par exemple, pour la requête Notre Dame de Paris on privilégiera naturellement des images ayant des coordonnées spatiales (si accessibles) proches des coordonnées exactes du monument parisien. De même, en utilisant des techniques de classification supervisée [89], il est possible de séparer les vues intérieures ou extérieures de la cathédrale. Cette séparation est rendue possible en sachant a priori que Notre Dame de Paris est une cathédrale (donc un bâtiment) et que ce type de classification (intérieur/extérieur) a un sens pour ce type d’objet (contrairement au Pont Alexandre III par exemple). Quant à la modélisation des caractéristiques temporelles, reprenons un exemple de célébrité, comme Jack Nicholson. Si on extrait la filmographie de l’acteur, il est possible de présenter les réponses en reformulant la requête à partir des titres de ses films les plus connus (ou des rôles correspondants). La prise en compte des propriétés spécifiques à des domaines conceptuels peut améliorer la présentation des résultats et enrichir l’interaction de l’utilisateur avec le système. Cette modélisation n’est pas faite actuellement par les moteurs de recherche standard. Cependant, on retrouve des contributions importantes dans des travaux comme [1], pour les concepts géographiques, ou dans [93] pour la dimension temporelle (détection d’événements), mais l’utilisation des relations entre les concepts est moins riche que dans notre approche. 104 3.3.3 CHAPITRE 3. DÉMARCHE DE LA THÈSE Architecture de recherche sémantique d’images Dans cette section, nous présentons notre approche de la recherche d’images sur Internet qui repose sur l’exploitation de structures linguistiques. Comme souligné dans la section 3.3.2, nous offrons une meilleure place à l’utilisateur, en lui proposant une interaction enrichie, tout en gardant la simplicité d’utilisation des applications. Dans la figure 3.20, nous présentons une architecture de recherche d’images intégrant une ressource linguistique et des techniques de traitement d’images. Fig. 3.20 – Architecture d’un système de recherche d’images basé sur la sémantique. Les bases de données sont figurées sous forme de rectangles, les composants actifs comme des rectangles arrondis et les requêtes sous forme d’ellipses. Le système dont l’architecture est présentée dans la figure 3.20 permet à l’utilisateur de poser deux types de requêtes : textuelles et images. Nous rappelons que les requêtes images ne viennent qu’en complément des requêtes textuelles. La structure linguistique contient un ensemble de concepts et de relations entre ces concepts utilisables pour la recherche d’images. Ses rôles, incluant la reformulation automatique des requêtes, la structuration des résultats ou l’amélioration de la navigation, ont été décrits plus en détail dans la section précédente. La base d’images locale représente la copie d’une partie du corpus d’images d’Internet, ce cache permettant d’améliorer le temps de réponse du système. La base locale est enrichie à chaque fois qu’une nouvelle requête est lancée par un utilisateur. Le sélecteur de concepts reçoit en entrée la requête brute de l’utilisateur, la compare au contenu de la structure linguistique et en retient l’information utile pour traiter la requête initiale. Le collecteur d’images teste si la requête a été déjà formulée. Dans le cas contraire, il va chercher les images correspondantes en utilisant le corpus d’Internet. Le moteur de recherche par le contenu réalise une indexation des images dans 3.4. LES DÉFIS SOULEVÉS PAR NOTRE APPROCHE 105 la base locale et une recherche visuelle à chaque fois qu’une image est posée en question. Un fonctionnement typique de l’application comprend : – La formulation d’une requête textuelle par l’utilisateur, qui est ensuite envoyée au sélecteur de concepts. – Le sélecteur de concept extrait l’information utile pour la requête donnée et l’envoie soit vers le collecteur d’images, soit vers l’utilisateur. Dans le premier cas, il s’agit de la requête reformulée à l’aide de la structure linguistique pour laquelle il est demandé de trouver des images. Si les images existent dans la base locale, elles sont directement affichées, sinon elles sont téléchargées à partir d’Internet. L’information extraite de la structure linguistique envoyée directement à l’utilisateur inclut une série de requêtes proches par rapport à la requête initiale. – Chacune des requêtes affichées peut amorcer une nouvelle recherche. Sur toutes les pages de réponses, une fois les images affichées, elles peuvent initialiser une recherche par contenu visuel. L’architecture de recherche décrite dans cette section est générale, la structure linguistique pouvant modéliser des domaines différents. Nous appliquons notre démarche à nos trois domaines conceptuels : – Les noms communs : notre application, nommée Olive, est décrite dans la section 5.1 et exploite une version adaptée de WordNet (voir la section 4.1.1). – Les entités géographiques : notre application, nommée ThemExplorer est décrite dans la section 5.2. Elle utilise Geonames (voir la section 4.1.2), enrichi d’un thésaurus géographique structuré automatiquement (voir la section 4.2). – Les célébrités : notre application, nommée Safir, est décrite dans la section 5.3 et exploite une structure linguistique extraite à partir de Wikipédia (voir la section 4.3). 3.4 Les défis soulevés par notre approche Nous proposons une nouvelle méthodologie de recherche d’images basée principalement sur l’utilisation de structures linguistiques à grande échelle. Cette s’approche s’efforce de conserver les principaux avantages des moteurs de recherche actuels : la simplicité d’utilisation et la couverture de l’espace de recherche. Cette démarche soulève plusieurs défis à la fois théoriques et pratiques que nous relevons dans les deux chapitres sections suivantes. 3.4.1 Défis d’ordre théorique – Les ressources linguistiques doivent contenir des concepts et des relations de manière à modéliser une structure du domaine qui soit communément acceptée (dans notre cas, non pas acceptée par une communauté de spécialistes mais par le grand public). Les utilisateurs doivent reconnaı̂tre, dans les possibilités d’interaction proposées par le système, une modélisation cohérente avec leurs pratiques liées au domaine donné. 106 CHAPITRE 3. DÉMARCHE DE LA THÈSE – Malgré l’automatisation de certaines étapes constituant le processus de recherche d’images dans nos systèmes, il nous paraı̂t important de laisser à l’utilisateur une impression de contrôle et de liberté. – La présentation de requêtes proches doit préciser, pour chaque proposition, quel est son rapport avec la requête initiale (s’il s’agit d’une spécialisation, d’une généralisation ou d’une requête du même niveau de généralité. . .). Nous avons présenté, dans le chapitre 2, quelques exemples de propositions de requêtes proches faites par Ask et nous avons souligné que ces propositions sont souvent inadéquates. – La modélisation de la notion de similarité entre les images, dont nous avons évoqué différents aspects dans la sous-section 3.2.1 reste un défi important. Tout en étant conscients qu’une modélisation formelle de la similarité entre deux images reste partielle, nous nous donnons comme but de prendre en compte plus de dimensions que dans les systèmes actuels en accord avec les théories de la similarité développées en sciences cognitives. Les moteurs actuels proposent uniquement des recherches catégorielles, censées retourner un ensemble d’images illustrant une requête et modélisent ainsi uniquement la similarité des concepts représentés. Nous proposons, en complément de la recherche par similarité conceptuelle, une restriction de la recherche d’images basée sur leur contenu visuel. Cette utilisation de deux types différents de similarité entre les images donne une place privilégiée à la proximité conceptuelle et est motivée par les faibles performances des systèmes de recherche d’images basés sur le contenu. – La recherche par images exemple est un cas de recherche directionnelle [113], illustrant une situation où l’utilisateur est intéressé par un document particulier et veut explorer son voisinage. Elle est particulièrement utile dans le cas de requêtes pour lesquelles le système renvoie un grand nombre de réponses. Dans les systèmes actuels, si un utilisateur a trouvé une image qu’il considère comme intéressante parmi les premières pages de résultats , il lui faudra parcourir les pages de réponses suivantes une par une pour trouver des images similaires (et sans doute encore plus adaptées à son besoin). Une recherche par le contenu renverra immédiatement un ensemble de photographies similaires. Comme le montrent les études de fichiers de log [61], [130], l’exploration linéaire est très limitée, les utilisateurs regardant rarement au-delà de la troisième page de réponses textuelles, mais la situation est différente pour la recherche d’images ce qui souligne l’importance des méthodes complémentaires d’exploration de l’espace des réponses. – Dans la section 2.1, nous avons passé en revue le standard MPEG et nous avons vu qu’il était possible de décrire le contenu des images en utilisant plusieurs caractéristiques visuelles (couleur, texture, forme, contours etc.). Ces caractéristiques sont extraites selon des approches globales ou locales, généralement à partir de points d’intérêts [87]. Intuitivement, les deux types de descriptions sont complémentaires et de plus en plus de travaux utilisent ou étudient leur combinaison. Néanmoins peu de travaux se sont intéressés à mettre en relation le contenu visuel et le contenu conceptuel. Nous pouvons raisonnablement supposer que l’importance d’un type de descripteur varie en fonction du contenu de la photographie : une image de 3.4. LES DÉFIS SOULEVÉS PAR NOTRE APPROCHE 107 coucher de soleil serait mieux décrite par un descripteur global couleur que par un ensemble de descripteurs locaux comme les SIFTs, ce qui ne serait sans doute pas le cas pour une photographie de la Tour Eiffel. 3.4.2 Défis d’ordre pratique Nous avons déjà mentionné le besoin d’assurer une bonne couverture des ressources linguistiques employées. Le processus de construction pose d’importants problèmes liés à la disponibilité des données brutes. Ces dernières sont récupérables à partir d’Internet, mais le processus de récupération des données est long car il est nécessaire de ne pas encombrer les serveurs sources (et accessoirement de ne pas se faire « black-lister »). Par exemple, pour collecter les fréquences associées à un million de concepts dans un moteur de recherche, en lançant une requête toutes les dix secondes, plus de 100 jours sont nécessaires. La charge de calcul devient encore plus importante quand on s’attache à évaluer les relations entre les concepts (nombre de requêtes en n2 , avec n le nombre de concepts). Le processus d’indexation d’images par le contenu est également long. Les volumes indexées actuellement dépassent rarement les dizaines de millions d’images [109]. Encore plus important, la phase de recherche d’images par le contenu doit se faire en temps réel pour représenter un réel intérêt pour les utilisateurs. 108 CHAPITRE 3. DÉMARCHE DE LA THÈSE Chapitre 4 Adaptation et construction de structures linguistiques pour la recherche d’images sur Internet Dans le chapitre précédent, nous avons présenté quelques aspects théoriques sur la structure des ressources linguistiques. Partant du constat que les structures existantes sont utiles mais insuffisantes pour la recherche d’images sur Internet, nous présentons ici l’adaptation de ces ressources et la construction de nouvelles structures sémantiques. 4.1 Adaptation de WordNet et Geonames L’exploitation de WordNet et Geonames dans un système de recherche d’images nécessite une adaptation de leur contenu. La modification du contenu de ces deux ressources est réalisée selon les mêmes règles, à savoir : – la sélection de l’information utile à notre application ; – l’ajout d’une mesure de pertinence à chaque concept ; – la mise en place d’un accès rapide aux connaissances dans les deux structures ; Nous détaillons ce processus d’adaptation des ressources dans les deux sections suivantes. 4.1.1 Adaptation de WordNet Nous modélisons en priorité le domaine des noms communs, gardant toutefois les instances présentes dans la hiérarchie lexicale. Si nous nous rapportons aux définitions d’une structure conceptuelle (section 3.3.1), nous remarquons que la ressource adaptée comprend plusieurs définitions données dans ce chapitre : – le(s) nom(s) du concept (déf. 1) ; – la séparation entre les classes et les instances (déf. 2) ; – une structure basée sur l’héritage conceptuel (déf. 4) ; – une valeur de pertinence associée aux concepts (autres relations). 109 110 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES Ces définitions permettent l’identification unique de tous les sens des noms inclus dans WordNet, une structuration de leur voisinage conceptuel et un ordonnancement des concepts et relations en fonction de leur pertinence. La base de données lexicales contient des informations concernant plusieurs types grammaticaux, comme les noms, les verbes, les adjectifs. Étant donné le domaine d’application envisagé, nous ne gardons que la hiérarchie des noms. Comme déjà mentionné, WordNet offre une bonne couverture des noms communs et est structuré pour refléter les relations d’héritage conceptuel entre ces noms. Dasn sa version 3.1, la hiérarchie des noms contient : – 81246 synsets ; – 117798 chaı̂nes nominales uniques, correspondant à un total de 145104 sens ; – le nombre de synsets feuille est d’approximativement 65000 ; – la polysémie moyenne de la hiérarchie des noms est de 1,23. 4.1.1.1 Ajout d’une valeur de pertinence Ordonner les différents concepts est un moyen efficace de rendre la navigation, dans la volumineuse hiérarchie de WordNet, moins fastidieuss. Étant donné la grande variété conceptuelle des noms à considérer, nous avons exploité Internet pour obtenir une valeur de pertinence pour chaque terme de WordNet. Notre objet d’étude étant les images, il nous a semblé approprié d’interroger le corpus photographique de Google Images plutôt que le moteur de recherche textuelle. Des requêtes ont été lancées pour chaque synset de la hiérarchie, contenant le premier terme du synset et le premier terme du synset parent. Le terme parent est employé pour désambiguı̈ser les requêtes et d’obtenir des valeurs de pertinence attachées à chaque sens d’un nom. Ce choix s’explique par le fait que nous attachons des ensembles d’images aux synsets et donc aux différents sens d’un mot. Une première valeur de pertinence serait donc la fréquence jointe (fréquence de cooccurrence) de chaque terme et de son parent immédiat, que l’on notera f reqW eb. Dans un premier temps, nous avions utilisé cette mesure pour ordonner les concepts mais elle s’est avérée moins adaptée qu’une mesure prenant également en compte la structure de la hiérarchie conceptuelle de WordNet : Soit c1 et c2 deux concepts de WordNet (c2 étant dans notre cas le concept parent de c1 ), la nouvelle mesure de pertinence, notée P ertin est : P ertin(c1 , c2 ) = f reqW eb(c1 , c2 ) ∗ distance(c1 , c2 ) sens(c1 ) (4.1) Où : – f reqW eb : la fréquence de cooccurrence des deux termes sur le Web ; – distance : le nombre de nœuds dans la hiérarchie séparant c1 et c2 ; – sens : le nombre de sens différents de c1 . Cette mesure pondère la fréquence de cooccurrence sur le Web de deux concepts avec un terme représentant la structure de la hiérarchie qui favorise les parties les plus riches de la sous-hiérachie déterminée par c2 et pénalise les concepts polysémiques qui sont plus susceptibles d’introduire du bruit dans les résultats. Si on prend l’exemple de dog (comme 4.1. ADAPTATION DE WORDNET ET GEONAMES 111 animal), les concepts feuilles jugés les plus représentatifs avec l’utilisation exclusive de statistiques du Web sont pooch, pug, Newfoundland et basset. Pour les premiers deux termes, il s’agit respectivement de deux héritiers directs de dog tandis que le troisième est un mot polysémique. Après l’introduction du terme prenant en compte la structure de la hiérarchie dans le calcul de la pertinence, les concepts feuilles considérés comme les plus pertinents pour dog sont : collie, basset, german shepherd et doberman. Il s’agit dans ces cas de races de chien bien connues et la représentativité du concept initial en est améliorée 4.1.1.2 Modification du format Le format natif de WordNet n’est pas adapté à notre utilisation et il est nécessaire de réaliser des pré-calculs afin d’optimiser l’accès aux données. En fonction de son statut dans la hiérarchie, l’entrée dédiée à chaque synset contiendra un certain nombre d’informations relatives à son voisinage conceptuel. Nous présentons un exemple de format de sortie pour un terme avec des héritiers 4.1. Le format pour les termes feuilles est similaire, à l’exception naturellement des lignes concernant les héritiers. Tab. 4.1 – Entrée pour dog dans le format adapté de WordNet. Synset Membres Ambigu Feuille Héritiers feuille Héritiers Termes du même niveau Hypéronymes dog 1 dog, domestic dog, canis familiaris oui non collie, basset, german shepherd, doberman poodle, corgi, spitz, cur, hunting dog, working dog, toy dog, dalmatian, griffon wolf, fox, hyena, wild dog, domestic cat, bitch, jackal domestic animal, canine, organism, living thing, physical entity, object Les éléments du tableau 4.1 offrent plusieurs types d’information sur le premier sens du terme dog : – le synset contient plusieurs termes ; – dog est ambigu ; – il s’agit d’un terme ayant des héritiers dans WordNet. Quant au voisinage conceptuel, le tableau contient une liste des termes feuilles les plus fréquents qui seront utilisés pour structurer les images. Il y a deux lignes différentes pour les héritiers : la première contient exclusivement des termes feuilles et la seconde favorise la présentation des termes ayant eux-mêmes des héritiers dans WordNet. La relation d’héritage permet d’associer des classes d’images uniquement aux synsets feuilles de la hiérarchie et de proposer, par propagation, ces images également pour les 112 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES concepts non-feuille. La description des termes contient un pointeur vers leur statut hiérarchique, donnant ainsi une information concernant l’existence d’une classe d’images attachée directement au synset respectif. 4.1.1.3 Évaluation Nous évaluons l’adaptation de WordNet en comparant la structure obtenue avec une structure linguistique dédiée à la description des relations inter-conceptuelles, accessible via l’interface du moteur de recherche Ask. Nous effectuons deux types de tests : – un premier test pour évaluer la qualité du voisinage conceptuel des termes dans les deux structures ; – un second test pour comparer la couverture des deux structures. Nous avons sélectionné 20 concepts de WordNet (tableau 4.2) correspondant approximativement au niveau de représentation de base de Rosch [112] et appartenant à des domaines conceptuels différents. Le choix des termes a été guidé par les considérations suivantes : avoir un panel représentatif pour les entités physiques de WordNet, proposer des termes généralement connus et ne pas surcharger l’utilisateur. Pour chaque terme, nous avons extrait un nombre maximal de dix requêtes proches à partir de la version adaptée de WordNet et de la base de connaissances proposée par Ask. Les requêtes proches incluent à la fois des requêtes plus générales et plus spécifiques que le concept initial. Tab. 4.2 – Concepts de WordNet pour l’évaluation du voisinage conceptuel. Classe générale Animaux Plantes Concepts naturels Artéfacts Concepts dog ; bear ; duck ; shark ; frog apple ; maple ; poplar ; cactus ; rose cloud ; mountain ; windstorm ; forest bomb ; table ; ship ; sword ; car L’évaluation a été réalisée par sept utilisateurs auxquels on a demandé d’évaluer chaque proposition de nom proche sur une échelle de 1 (concepts non reliés) à 3 (forte relation entre les deux termes). Les concepts de test et leurs termes proches ont été présentés dans une même interface afin d’assurer la neutralité des évaluateurs. Le test était conçu pour durer environ 30 minutes mais les utilisateurs avaient le choix de s’arrêter à tout moment. Sur les sept évaluations, quatre étaient complètes et trois incomplètes. Comme le test incluant des termes (en anglais) dans des domaines conceptuels variés, certains termes pouvaient ne pas être connus par les évaluateurs. Dans ces cas, ces derniers avaient la possibilité de le signaler (indice 0 sur notre échelle). Néanmoins, afin de limiter le nombre de termes inconnus, nous avons permis aux testeurs d’afficher des images illustratives pour les termes inconnus (mais par défaut les images n’étaient pas affichées). 4.1. ADAPTATION DE WORDNET ET GEONAMES 113 Tab. 4.3 – Evaluation du voisinage conceptuel proposé utilisant WordNet et Ask. Testeur 1 Testeur 2 Testeur 3 Testeur 4 Testeur 5 Testeur 6 Testeur 7 Moyenne Proximité WordNet 2,53 2,62 2,64 2,72 2,77 1,96 2,76 2,57 (max. 3) Ask 2,16 2,71 2,35 2,65 2,31 1,75 2,14 2,29 Termes inconnus WordNet Ask 7% 3,4% 25% 14,2% 8,5% 5,7% 3% 0,6% 19,5% 10,8% 8% 1,7% 0% 0% 10,1% 5,2% Les résultats du tableau 4.3 montrent que la qualité moyenne du voisinage conceptuel d’un terme proposé exploitant WordNet est supérieure à celle d’Ask (2,57 contre 2,29 sur 3). À l’exception d’un utilisateur, les résultats pour chaque utilisateur suivent cette tendance. Il est intéressant de remarquer que le résultat favorable à Ask est obtenu pour l’utilisateur ayant reconnu le plus de termes inconnus. À l’exception du sixième testeur, les résultats pour WordNet sont assez cohérents, se situant entre 2,53 et 2,77, ceux pour Ask se situant entre 2,14 et 2,71. Nous avons observé une tendance des évaluateurs à considérer positivement les requêtes plus spécifiques que le concept initial, montrant ainsi l’utilité d’une reformulation automatique dans un processus d’assistance à la précision des requêtes. De même, sont sélectionnées les requêtes proches contenant explicitement le terme initial (ex. red maple ou vine maple pour maple). Le nombre de requêtes inconnues est plus important pour WordNet que pour Ask (10,1% contre 5,2%). Cela s’explique principalement par le fait que, pour WordNet, nous proposons souvent des termes spécialisés ne faisant pas forcément partie du vocabulaire commun (ex. garganey ou lesser scaup pour duck ) et que l’anglais n’est pas la langue maternelle de la majorité des testeurs. Pour Ask, les requêtes proches proposées par le moteur sont souvent des termes du même niveau de généralité que le concept initial (ex. horse ou monkey pour dog). Le voisinage conceptuel est plus riche quand on utilise WordNet qu’avec une reformulation d’Ask. Pour 13 des 20 termes testés, Ask propose au moins dix requêtes proches. Par exemple, pour cactus le moteur de recherche ne propose que cinq termes proches. Grâce à la richesse de la hiérarchie conceptuelle de WordNet, le voisinage contient au minimum dix termes pour tous les concepts testés. Pour ne pas surcharger l’utilisateur, il est souhaitable de ne pas représenter un trop grand nombre de requêtes proches, d’où l’importance de classer les termes proches par rapport à leur relation avec la requête initiale comme nous l’avons précédemment détaillé avec l’équation 4.1. 114 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES Dans le chapitre 2, nous avons mentionné l’imprécision des relations présentées dans l’interface d’Ask. Par exemple, la catégorie « requêtes plus générales » de dog inclut chihuahua et golden retriever, des requêtes plus précises ou horse et monkey, des animaux qui ne sont pas des hypéronymes de dog. Quant aux requêtes plus spécifiques, Ask propose souvent des expansions contenant explicitement la requête initiale comme search free dog ou choosing a dog qui ont une utilité très limitée en recherche d’images. 4.1.2 Adaptation de Geonames 4.1.2.1 Sélection de l’information utile La structure de Geonames offre une bonne modélisation du domaine géographique mais, tout comme WordNet, Geonames doit être adaptée à notre domaine d’application. Contrairement à WordNet, le contenu de Geonames est majoritairement composé d’instances (environ six millions) et simplement de deux niveaux hiérarchiques supérieurs (huit catégories au niveau le plus général et 645 au second niveau). La version adaptée de Geonames utilise la structure sémantique suivante : – – – – – nom du terme (déf. 1) ; séparation classe/instance (déf. 2) ; subsumption conceptuelle (déf. 4) ; inclusion spatiale (déf. 7) : relation spécifique au domaine géographique ; valeur de pertinence (autres relations) : relation spécifique au domaine d’application. Geonames contient des informations utiles à notre cas d’application comme le nom de l’objet géographique, sa position ou son hypéronyme. Il contient aussi des informations dont on peut se dispenser et qu’on retire de la structure finale de la base de données afin d’améliorer la vitesse d’accès aux informations : une liaison vers la catégorie la plus générale, les renseignements spécifiques à certains types d’entités (altitude maximale pour les montagnes, population pour les villes). Pour une utilisation en recherche d’information, il est nécessaire d’ajouter une valeur de pertinence aux entités incluses dans la version adaptée de Geonames. Similairement à la recherche de noms communs, nous essayons d’associer des images à des entités bien définies et on peut élaguer Geonames afin d’éliminer les termes trop généraux. Les noms d’entités administratives (villes, départements, régions, pays) sont éliminés car ils n’ont pas une représentation visuelle bien définie. Ces régions de la carte seront représentées par des objets spécifiques (églises, musées, monuments. . .), plus cohérents du point de vue visuel. Après cet élagage, il reste environ trois millions d’éléments dans la version adaptée du thésaurus mais avec une répartition géographique non uniforme. Nous décrivons dans la section suivante, une approche pour la construction automatique d’une base de données géographiques permettant d’étendre Geonames et d’assurer une meilleure couverture. 4.1. ADAPTATION DE WORDNET ET GEONAMES 4.1.2.2 115 Valeur de pertinence associée aux noms géographiques Dans [94], Naaman et al. considèrent que la difficulté principale liée à l’exploitation des ressources existantes en recherche d’information géographique est l’absence d’une valeur de pertinence attribuée aux éléments d’un thésaurus. Nous proposons une mesure de pertinence basée sur la fréquence d’apparition d’une entité dans deux corpus de référence : Panoramio et Alltheweb. Panoramio est bien adapté puisqu’il est entièrement dédié aux images d’objets géographiques. Néanmoins, malgré la qualité des renseignements, il n’assure pas — à l’heure actuelle — une couverture suffisante pour différencier tous les éléments découverts. Alltheweb, plus généraliste, est moins spécialisé mais assure une bonne couverture. Nous proposons donc le calcul d’une valeur de pertinence qui tient compte en premier lieu des informations de Panoramio puis d’Alltheweb. Afin de gérer la polysémie des noms géographiques (ex. Notre Dame Church va apparaı̂tre plusieurs fois), nous proposons une limitation de l’espace de recherche autour des coordonnées du monument et calculons la pertinence uniquement pour les images se trouvant dans un rayon de moins de 10 km autour des coordonnées de l’entité dans Geonames. Pour Panoramio, la valeur de pertinence est obtenue en utilisant l’équation 4.2. pertinP ano(candidat) = f req(candidat) ∗ utilDif f (candidat) (4.2) Où : – f req est le nombre d’images contenant le nom géographique candidat dans leur titre, – utilDif f est le nombre d’utilisateurs différents qui ont mis en ligne des images contenant candidat dans leur titre. Le premier terme de l’équation prend en compte le nombre total d’apparitions d’une image dans Panoramio. Le deuxième terme introduit une notion de popularité de l’entité géographique. L’équation 4.2 permet d’éviter que des entités beaucoup photographiées par peu de personne soient mieux classés que des objets photographiés par beaucoup de personnes différentes. Nous considérons comme plus représentatif un objet apparaissant 100 fois dans Panoramio mais photographié par 50 personnes qu’un autre ayant 150 images mais photographié par seulement trois personnes. Fréquemment, des valeurs de pertinence calculées à partir de Panoramio s’avèrent égales notamment pour les entités géographiques plus rares. Si deux entités géographiques ont une même valeur de pertinence alors on considère comme plus importante celle ayant le plus de pages de réponses proposées par Alltheweb. 4.1.2.3 Modification du format Geonames est fourni sous forme d’un fichier texte contenant 18 champs pour chaque objet de la base de données. Comme nous l’avons vu, nous ne conservons qu’une partie de ces informations. Nous présentons un exemple de format de sortie dans le tableau 4.4 Les différentes caractéristiques des entités géographiques permettent de les associer à une classe parent, de les localiser et de les classer par rapport à d’autres objets du thésaurus. Ces informations permettent d’interroger la base de données en limitant à 116 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES Tab. 4.4 – Format de la version modifiée de Geonames. Nom de l’objet Classe parent Latitude Longitude Pertinence Panoramio Pertinence AlltheWeb Golden Gate Bridge bridge 37,819 -122,479 253300 85000 la fois spatialement et conceptuellement la recherche. De plus, l’ajout d’une valeur de pertinence permet de présenter les éléments les plus saillants en priorité. Le thésaurus obtenu est sauvegardé en format SQL. L’évaluation du classement des entités par ordre de pertinence est réalisée dans la section 4.2.8. 4.2 Construction automatique d’un thésaurus géographique Geonames offre une couverture des noms de lieux de qualité variable selon les régions du monde. Les Etats-Unis sont représentés par plus de 1800000 entités, la France environ 115000 et la Roumanie approximativement 25000. L’enrichissement manuel d’une ressource à large échelle, comme Geonames, serait particulièrement coûteux. Nous proposons ici une méthode automatique d’enrichissement, créant un thésaurus nommé Gazetiki qui inclut Geonames et des connaissances supplémentaires extraites à partir du Web. Rattenbury et al. [110] furent parmi les premiers à proposer une méthode automatique d’extraction d’informations géographiques avec une analyse statistique multi échelles des données textuelles associées aux images géo-localisées de Flickr. La base de données obtenue contient les noms des entités, une mesure de pertinence attachée à chaque élément et des informations de localisation mais ne contient aucune information de catégorisation des instances dans des classes géographiques plus générales. Aussi, la structure minimale d’un thésaurus géographique, telle que définie par Hill et al. dans [50] n’est pas respectée dans [110]. 4.2.1 Modélisation du domaine Nous partons de la structure de Geonames pour proposer un modèle de description du domaine géographique. Le choix de modéliser la structure construite automatiquement en se basant sur Geonames comporte deux avantages majeurs : – Le travail de modélisation repose sur celui des spécialistes du domaine géographique. – L’intégration des deux bases de données est quasi immédiate. Comme mentionné dans [94], si on analyse le modèle de Geonames (et d’autres thésauri géographiques) du point de vue d’une exploitation en recherche d’information, 4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE117 on constate que le manque d’une information de pertinence de chaque élément rend les thésauri difficilement utilisables. La structure construite automatiquement contient une partie des relations qui définissent une structure sémantique (voir 3.3.1) : – Nom géographique : identifie le terme et correspond à la (déf. 1). Si l’on regarde la différence entre concepts et instances (déf. 2), les noms géographiques sont des instances. – Classe parent : définition d’une relation d’héritage conceptuel (déf. 4). – Coordonnées géographiques : association du nom géographique à une position spatiale. Les coordonnées renseignent une relation spécifique au domaine conceptuel modélisé (déf. 8). – Valeur de pertinence : les valeurs de pertinence correspondent à une relation spécifique au domaine d’application envisagé (déf. 8). Ces quatre éléments permettent une identification unique de tout objet géographique et forment la structure de base de Gazetiki. Le vecteur (Nom géographique, Classe parent, Coordonnées géographiques, Valeur de pertinence) respecte la définition minimale d’un thésaurus donnée par [50] et inclut, en plus, une valeur de pertinence associée à chaque élément. Tout comme dans Geonames, nous allons extraire d’autres informations pour certains objets. 4.2.2 Sources d’information géographique sur Internet Nous avons identifié plusieurs ressources exploitables pour la création automatique de notre thésaurus géographique mais aucune ne contient l’ensemble des informations nécessaires. Nous combinons donc des données provenant de sources hétérogènes : Wikipédia, Panoramio et Alltheweb. Wikipédia La très populaire encyclopédie collaborative inclut un nombre important d’articles géo-référencés. On peut en extraire des informations géographiques ou atteindre d’autres articles intéressants mais non géo-référencés. L’analyse du contenu de chaque article permet l’obtention du triplet (Nom géographique, Classe, Coordonnées) ou seulement la paire (Nom géographique, Classe). Dans les deux cas, il n’est pas possible d’associer une valeur de pertinence aux noms de lieux à partir du contenu de Wikipédia. Le mode de création des articles Wikipédia (contribution communautaire) peut légitimement soulever des doutes quant à la qualité des connaissances introduites. [39] a mené une étude comparant la qualité de l’information présente dans les articles Wikipédia à celle de la prestigieuse encyclopédie Britannica sur une série d’articles d’informations scientifiques. Les résultats de l’étude montrent que les deux ressources encyclopédiques contiennent des informations de qualité comparable pour l’échantillon comparé. Des informations fausses peuvent apparaı̂tre notamment pour les sujets dits « controversés » mais cela est rarement le cas pour les entités géographiques. 118 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES Panoramio Panoramio est une plateforme dédiée à la mise en ligne d’images géographiques, utilisée dans Google Earth et Google Maps afin d’illustrer différents endroits du monde. Dans Panoramio, toute photographie doit être validée comme pertinente par un autre utilisateur pour être incluse dans le corpus d’images. Cette procédure de validation assure un faible taux de bruit contrairement à d’autres outils de partage photographique, mais freine naturellement la croissance du corpus. Une API permet la récupération des informations relatives aux images de Panoramio notamment : le titre de l’image, ses coordonnées et une information sur l’utilisateur l’ayant mise en ligne. À partir de ces données, on peut extraire le triplet (Nom géographique, Coordonnées, Pertinence). Pour définir la classe d’appartenance, une approche naı̈ve consiste à prendre comme classe géographique celle apparaissant explicitement dans le nom. Cette approche ne fonctionne pas dans la majorité des cas et n’est pas exempte d’erreurs. Par conséquent, il faut extraire la classe d’appartenance de chaque élément avec des méthodes plus robustes. Alltheweb Alltheweb est un moteur de recherche d’information sur Internet que nous avons utilisé pour récupérer au maximum 50 réponses associés à chaque nom géographique candidat obtenu à partir de Wikipédia ou Panoramio. Le traitement de l’information de Alltheweb permet : l’amélioration de la classification des noms de lieux extraits à partir de Panoramio, l’élimination des noms candidats non-représentatifs et un raffinement de la mesure de pertinence obtenue en utilisant Panoramio. 4.2.3 Extraction des noms géographiques Les objets géographiques contiennent souvent une référence explicite à leur type, par exemple Eiffel Tower, Cathedral of Learning, Golden Gate Bridge, Versailles Castle. Cela facilite l’extraction en comparant simplement un vocabulaire de termes géographiques à des ressources textuelles liées au domaine, comme les titres de photographies de Panoramio. Pour les noms géographiques qui n’incluent aucune référence à leur classe, comme London Eye ou Parthenon, nous exploitons les articles de Wikipédia correspondants. Nous constituons un vocabulaire géographique à partir des classes intermédiaires de Geonames (645 classes). Des adaptations sont nécessaires pour les noms de divisions administratives de Geonames et pour ajouter des classes n’existant pas dans le vocabulaire initial. Étant donné les différences dans les structures administratives des différents pays, certaines divisions administratives ne sont pas explicites. Il faut par exemple remplacer des dénominations comme ADM1, ADM2 par des termes plus explicites comme state, region, departement ou city. Il existe des termes ayant une forte connotation géographique mais qui ne sont pas inclus parmi les classes intermédiaires de Geonames. Par exemple, bien que le vocabulaire initial contienne un certain nombre de noms d’organisations comme university ou academy, un certains nombres d’entre eux sont manquants comme laboratory, institute, faculty ou club. Après cette adaptation et enrichissement, la version finale du vocabulaire inclut 675 classes géographiques. 4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE119 Pour Wikipédia, nous extrayons d’abord la totalité des articles contenant des coordonnées géographiques. Les titres de ces articles vont constituer une première liste de noms géographiques candidats à l’inclusion dans Gazetiki. Un traitement est parfois nécessaire pour filtrer l’information de désambiguı̈sation également présente dans le titre (ex. Queensland dans Hampton, Queensland ) et pour ne garder que le nom. Les articles géo-localisés contiennent souvent des références à d’autres articles qui sont aussi pertinents pour notre application. Par exemple, sur les pages des villes, on trouve souvent des liens internes « See also », « List of... » ou des sections comme « Mains sights », « Touristic attractions » dans lesquels on suit tous les liens pointant vers d’autres articles de Wikipédia. Ces nouveaux articles extraits peuvent être eux-mêmes géo-localisés mais dans ce cas leur traitement serait redondant. Dans d’autres cas, les nouveaux articles ne contiennent pas de coordonnées géographiques et sont considérés comme de nouveaux éléments. Dans la liste des liens suivis, il faut faire la différence entre les articles pertinents pour le domaine géographique et les autres. Pour ce faire nous procédons à un double filtrage : – Un premier filtre est constitué par le traitement des liens commençant par une majuscule : nous ne traitons pas par exemple un lien Wikipédia renvoyant vers « chemistry ». – Un deuxième filtre est constitué par la présence dans la première phrase de chaque nouvel article d’une référence à une classe géographique (voir l’exemple dans la figure 4.1). Par exemple, nous éliminons ainsi de la liste de candidats les noms des personnes. Pour les liens n’ayant pas de coordonnées géographiques, nous retenons comme coordonnées — provisoirement — celles de l’article d’origine. Fig. 4.1 – Première phrase de l’article décrivant la cathédrale St. George de Timişoara. Dans Panoramio, les titres des photographies constituent les seules données textuelles exploitables. Nous utilisons notre vocabulaire géographique pour isoler des noms d’entités géographiques dans les titres. Prenons, par exemple, le titre View of the Carnegie Museum of Natural History from the top of the Cathedral of Learning. Nous trouvons des éléments du vocabulaire géographique commençant par une majuscule : Museum et Cathedral. Les noms complets sont obtenus par une recherche, à gauche et à droite de tous les mots écrits en majuscule en excluant les mots de liaison (of, for, and ) en s’arrêtant quand un article (the, a, an) ou un signe de ponctuation (’.’, ’ ;’, ’,’) est rencontré. Si l’on rencontre des mots de liaison, on continue la recherche pour voir si le terme suivant 120 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES commence par une majuscule. À la fin du processus, nous obtenons, à partir du titre initial, deux noms géographiques : Carnegie Museum of Natural History et Cathedral of Learning. Cette méthode d’extraction génère des erreurs mais, comme démontré par les tests dans la section 4.2.8, leur proportion est assez faible. Notons que, si l’algorithme d’extraction isole seulement un nom de classe géographique (ex. Museum), celui-ci n’est pas retenu car il ne s’agit pas d’une instance mais d’une catégorie. Nous avons observé que les titres des images de Panoramio peuvent contenir des erreurs orthographiques (Eiffle Tower ou Eifel Tower ). Comme la plupart des moteurs, Alltheweb propose une correction orthographique des requêtes qui produit de bonnes performances pour les requêtes portant sur des entités connues (comme Eiffel Tower ) permettant de corriger un certain nombre d’erreurs. De plus, nous proposons un filtrage des noms géographiques candidats basé sur leur fréquence d’apparition sur le Web : si le candidat a moins de 15 pages de réponses (seuil défini empiriquement) dans Alltheweb, alors il est éliminé. 4.2.4 Catégorisation des noms géographiques L’association d’une classe parent est réalisée différemment selon que les candidats proviennent de Wikipédia ou de Panoramio. Dans le premier cas, nous avons adapté la méthode de catégorisation proposée dans [70], qui repose sur l’analyse du contenu de la première phrase de l’article Wikipédia décrivant l’objet géographique. Cette phrase est habituellement une définition contenant une référence explicite à la classe parent de l’objet décrit. Prenons par exemple Notre Dame de Paris. La première phrase est Notre Dame de Paris (...) is a Gothic cathedral on the eastern half of the Île de la Cité. L’attribution de la classe parent est faite en deux étapes : Nous cherchons la première apparition du verbe to be et retenons la partie de la phrase à droite du verbe : a Gothic cathedral on the eastern half of the Île de la Cité. Toutes les classes du vocabulaire sont comparées au contenu de la partie de phrase après le verbe to be. Nous retenons comme classe parent celle qui apparaı̂t la première. Si aucune classe géographique n’est trouvée, l’élément est éliminé de la liste de candidats. Les noms géographiques candidats extraits de Panoramio contiennent une référence explicite à une classe géographique. On pourrait donc se contenter de désigner cette classe comme hyperonyme du candidat mais cette catégorisation produit des erreurs pour des termes comme Cathedral of Learning (qui n’est pas une cathédrale mais un gratte-ciel ), Palace of Fine Arts (un musée et non pas un palais) ou Squirrel Hill ou Notting Hill (des quartiers et non pas des collines). Ces erreurs peuvent être corrigées en mettant en place une méthode de catégorisation basée sur les fragments de texte présents dans les pages de résultats d’Alltheweb. La méthode, illustrée dans le pseudo-code 4.2, s’inspire des travaux de [49] et est similaire à celle proposée par [108] pour construire automatiquement des taxonomies. Notons aussi que l’usage des résumés de documents présentés dans les pages de résultats des moteurs de recherche s’apparente à celui réalisé dans [14] pour une application de questions-réponses. 4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE121 Fig. 4.2 – Pseudo-code pour la catégorisation à partir d’Alltheweb. Notations du pseudo-code de l’algorithme de catégorisation des noms géographiques (nommé CATEGORISATION dans la suite) utilisant les « snippets » : – candidat : nom géographique à catégoriser ; – concept : catégorie géographique ; – GeoVocabulaire : liste des catégories géographiques ; – CategExplicite : le concept dans le vocabulaire géographique présent dans le nom candidat ; – categTemp : variable temporaire pour stocker CategExplicite ; – FreqSnip : fréquence d’apparition des concepts du vocabulaire géographique dans les « snippets » ; – freqMax : valeur maximale de la fréquence d’apparition ; – CompteurPages : nombre de réponses dans AlltheWeb pour des définitions comme X is a (an) Y ; – def1, def2 : variables temporaires pour stocker les valeurs de CompteurPages. À partir d’Alltheweb, nous récupérons les 50 premières réponses associées à chaque nom candidat, nous éliminons le nom même de ces textes afin de ne pas biaiser les résultats et calculons les fréquences d’apparition de chaque classe dans le vocabulaire géographique. Si la classe associée le plus souvent au nom candidat n’est pas celle apparaissant dans le nom, deux requêtes supplémentaires sont lancées dans Alltheweb afin de retrouver la classe parent. Supposons que la classe associée le plus fréquemment à Squirrel Hill soit neighborhood. Nous formons une requête Squirrel Hill is a neighborhood et récupérons le nombre de pages avec Alltheweb (trois réponses). Ensuite, nous lançons une requête avec Squirrel Hill is a hill qui ne renvoie aucune page et attribuons donc Squirrel Hill à la classe neighborhood. 122 4.2.5 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES Localisation des noms géographiques La localisation des noms géographiques est immédiate pour les candidats ayant des articles géo-localisés dans Wikipédia puisqu’il suffit d’enregistrer simplement les coordonnées. Nous proposons une recherche du nom dans un rayon de 10 km autour des coordonnées de l’image la plus populaire parmi les photographies de Panoramio. Fig. 4.3 – Pseudo-code pour la localisation des entités. Notations du pseudo-code de l’algorithme de localisation (nommé LOCALISATION dans la suite) des noms candidats : – image : élément de Panoramio contenant le nom candidat dans son titre ; – (lat init, long init) : coordonnées de la première image Panoramio associée à candidat ; – dist limite : rayon maximal autour des coordonnées initiales à l’intérieur duquel nous sélectionnons des images représentatives pour candidat ; – latitude(image) : latitude associée à image ; – longitude(image) : longitude associée à image ; – ListeLat : liste contenant toutes les valeurs de latitude(image) ; – ListeLong : liste contenant toutes les valeurs de longitude(image) ; – lat : valeur finale de la latitude pour le nom candidat ; – long : valeur finale de la longitude pour le nom candidat. Si aucune image n’est associée au candidat, il est éliminé. Dans le cas contraire, illustré par le pseudo-code de la figure 4.3, nous calculons la moyenne des coordonnées. Une procédure similaire est mise en place pour les candidats extraits de Panoramio. Pour les noms géographiques polysémiques, nous mettons en place une procédure de séparation spatiale. La limitation de l’espace de recherche à une région autour du candidat permet d’éviter les erreurs dues à l’homonymie. Supposons qu’un nom candidat ait déjà été traité. Toute image distante d’au moins 20 km des coordonnées déjà calculées sera considérée comme différente. Si un tel élément est trouvé, une recherche dans un rayon de 10 km autour de ses coordonnées est lancée. Cette méthode de localisation fonc- 4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE123 tionne pour les objets ayant une surface négligeable par rapport à un rayon de 10 km mais peut naturellement engendrer des doublons pour d’autres entités plus vastes, comme les parcs naturels. Dans l’application envisagée, l’apparition de doublons peut s’avérer utile pour les objets ayant une grande surface puisqu’elle permet leur présentation à différents endroits. Pour d’autres applications, nous pouvons envisager une adaptation du rayon de recherche par rapport au type d’entité cible. 4.2.6 Mesure de pertinence associée aux noms géographiques La valeur de pertinence associée à chaque élément de Gazetiki est similaire à celle calculée pour l’adaptation de Geonames, détaillée dans la sous-section 4.1.2. La mesure de pertinence est basée sur une combinaison de la popularité du terme candidat dans le corpus de Panoramio et dans celui d’Alltheweb, avec une priorité pour la valeur obtenue à partir de Panoramio. L’utilisation de Panoramio plutôt que d’un autre corpus comme Flickr, s’explique par le fait que ce corpus est dédié aux images géo-référencées et permet d’obtenir une bonne estimation de la pertinence. On ajoute la fréquence à partir du Web car le corpus de Panoramio ne contient pas nécessairement suffisamment d’images pour ordonner toutes les entités géographiques (il y a environ six millions d’images dans Panoramio et approximativement quatre millions d’entités à ordonner). Une limitation de l’espace de recherche à 10 km autour des coordonnées moyennes permet d’éliminer le problème des termes polysémiques. L’algorithme de calcul de la pertinence est illustré par le pseudo-code de la figure 4.4, il exploite les coordonnées calculées en utilisant l’algorithme de localisation. Fig. 4.4 – Pseudo-code pour le calcul de la pertinence. Notations du pseudo-code de l’algorithme de calcul de la pertinence (nommé PERTINENCE dans la suite) : – freqPano : nombre d’images contenant candidat dans leur titre ; – utilDiff : nombre d’utilisateurs différents ayant mis en ligne des photographies de candidat ; – pertinPano : mesure de pertinence calculée à partir de Panoramio ; – pertinWeb : mesure de pertinence calculée sur le Web ; – pertinFinale : combinaison de pertinPano et pertinWeb. 124 4.2.7 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES Vue globale de l’algorithme Nous présentons dans le pseudo-code de la figure 4.5 une vue globale de l’algorithme de création de Gazetiki. L’algorithme parcourt les listes de candidats extraits à partir de Wikipédia et de Panoramio. Les méthodes de catégorisation, localisation et calcul de la pertinence renvoient aux descriptions des paragraphes précédents. Fig. 4.5 – Vue globale de l’algorithme de construction de Gazetiki. En haut, extraction d’entités géographiques à partir de Wikipédia. En bas, extraction d’entités géographiques à partir de Panoramio. Notons que l’algorithme traite séparément les noms candidats provenant des deux sources de données brutes. Ceci est une conséquence de la structure différente de Wikipédia et de Panoramio. Pour chaque candidat, si les coordonnées et le concept parent sont déterminés, la valeur de pertinence associée au nom est également calculée. Nous avons imposé un seuil de 15 réponses sur le Web afin d’éliminer les candidats rares parce ces derniers représentent souvent des erreurs orthographiques. 4.2.8 Gazetiki — résultats et évaluation Nous comparons les résultats de notre approche avec ceux obtenus pour l’autre base de données géographiques constituée automatiquement, décrits dans [110] et [1] et avec 4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE125 Geonames. Des régions d’environ 900 km2 autour de 15 villes de pays différents et de dimensions variables (voir Table 4.5) ont été choisies manuellement. Nous leur avons appliqué la méthodologie d’extraction automatique de noms géographiques décrite dans cette section. Nous avons sélectionné des villes de pays ayant une représentation de qualité variable dans Geonames. L’algorithme d’extraction a généré environ 6000 candidats et nous avons éliminé ceux dont le nom ne se retrouve pas assez souvent sur le Web (un seuil de 15 apparitions dans les réponses fournies par Alltheweb a été fixé empiriquement) filtrant ainsi environ 20% des candidats. Nous avons ensuite testé les caractéristiques suivantes de Gazetiki : – le pourcentage d’extractions correctes (évalué manuellement) ; – la couverture de Gazetiki et celle de la ressource décrite dans [110] ; – le taux de bonnes catégorisations des éléments extraits dans des classes parents. L’expérience est basée sur une comparaison des éléments communs entre Gazetiki et Geonames ; – la précision de l’algorithme de positionnement des entités ; – les performances de la procédure d’ordonnancement. L’expérience consiste en une comparaison des entités les plus représentatives de Gazetiki et de la structure dans [110] contre la liste des lieux les plus représentatifs de chaque ville selon TripAdvisor1 ; 4.2.8.1 Extraction de candidats Nous avons évalué le taux d’extractions correctes pour un total de 424 éléments générés automatiquement. Pour chacune des 15 villes sélectionnées, nous avons retenu, de manière aléatoire, un maximum de 30 entités existant aussi sur Panoramio. Notons que certaines villes, comme Toulouse ou Tunis, ont moins de 30 noms candidats associés. Nous avons considéré comme extractions correctes les noms exacts des candidats (ex. University of Pittsburgh ou Eiffel Tower ) ainsi que les noms incomplets mais communément employés pour décrire certaines entités (comme Le Louvre à la place de Louvre Museum). Les résultats du test sont présentés dans le tableau 4.5. Les résultats du tableau 4.5 montrent que notre algorithme extrait correctement les noms géographiques dans plus de 90% des cas. Des très bons résultats sont obtenus pour Sydney et Londres et — de manière générale — pour les villes situées dans des pays anglophones. Des résultats moins satisfaisants sont à rapporter pour des villes comme Toulouse ou Paris, mais il peuvent s’expliquer en partie par le fait que beaucoup d’annotations d’images localisées dans ces villes ne sont pas faites en anglais. Les erreurs observées sont dues à des imperfections de la méthode d’extraction. Un premier type inclut des termes communs écrits en majuscules, comme Big House, qui ont été retrouvés en utilisant nos règles d’extraction. Une solution simple permettant d’éliminer ce type d’erreurs serait de ne pas retenir les candidats formés d’un adjectif et d’un élément du vocabulaire géographique. Nous n’avons pas appliqué cette méthode 1 http ://www.tripadivsor.com (leader mondial du e-tourisme) est un site proposant une description des destinations touristiques, avec leurs attractions, par les utilisateurs. 126 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES Tab. 4.5 – Évaluation du processus d’extraction de candidates de Gazetiki. Le tableau présente le taux de bonnes extractions sur le nombre total d’éléments testés. Nom de la ville Athens (Greece) Beijing (China) Bucharest (Romania) Kiev (Ukraine) London (UK) Moscow (Russia) Paris (France) Pittsburgh (US) San Francisco (US) Singapore Sydney (Australia) Timisoara (Romania) Tokyo (Japan) Toulouse (France) Tunis (Tunisia) Total Extractions correctes/Total 28/30 26/30 28/30 27/30 29/30 27/30 26/30 28/30 28/30 29/30 30/30 29/30 28/30 7/10 22/24 394/424 car elle filtrerait aussi des noms géographiques correctes comme White Pagoda (Beijing) ou Red Square (Moscow ). Nous avons également jugé comme des erreurs des termes vagues, par exemple Athens Theater, considérant qu’ils correspondaient à plusieurs objets géographiques distincts. Pour Wikipédia, la précision de l’extraction atteint pratiquement 100% parce qu’il s’agit de noms géographiques introduits manuellement par des utilisateurs et représentant le titre de l’article. Comme approximativement un tiers du nombre total d’entités extraites provient de Wikipédia, le taux de bonnes extractions avoisine 95%. Le dernier résultat est à comparer à la précision de 82% rapportée dans [110], correspondant à l’autre base de données géographiques à large échelle constituée automatiquement dont nous avons connaissance. Nous rappelons au lecteur que notre comparaison ne porte pas sur la méthode d’extraction ou les corpus de données brutes, mais plutôt sur les résultats obtenus. La méthode utilisée dans [110] est basée sur une analyse statistique, alors que notre approche pour Gazetiki repose principalement sur l’utilisation de patrons linguistiques. Si l’on compare les corpus utilisés, celui de base dans [110] contenait environ 30 millions d’annotations d’images géo-référencées à l’époque de l’écriture de l’article [110] tandis que le corpus de Panoramio contient seulement cinq millions d’images et d’annotations. La précision de 82% rapportée dans [110] est obtenue en éliminant 50% des candidats (ceux apparaissant le moins fréquemment), notre seuillage de Gazetiki ne filtre que 20% des noms candidats, aussi on peut conclure qu’on améliore 4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE127 la précision des résultats tout en retenant un plus grand nombre d’entités. 4.2.8.2 Couverture de Gazetiki Nous avons réalisé les expériences en sélectionnant une région rectangulaire d’environ 900 km2 autour des 15 villes cibles. Dans [1] et [110], les auteurs n’offrent aucune information concernant la couverture offerte par leur base de données géographiques créée automatiquement à partir de Flickr. Néanmoins, il est par contre possible d’interroger TagMaps via un service Web afin d’obtenir le nombre total de tags correspondant à une région. Nous comparons la couverture de Gazetiki à celle de TagMaps dans le Tableau 4.6. Tab. 4.6 – Comparaison de la couverture entre TagMaps et Gazetiki. Nom de la ville Athens (Greece) Beijing (China) Bucharest (Romania) Kiev (Ukraine) London (UK) Moscow (Russia) Paris (France) Pittsburgh (US) San Francisco (US) Singapore Sydney (Australia) Timişoara (Romania) Tokyo (Japan) Toulouse (France) Tunis (Tunisia) TagMaps 20 64 27 8 580 24 176 113 472 46 186 1 173 18 7 Gazetiki 214 489 129 145 1313 83 321 413 1006 827 534 31 548 10 24 Les résultats du tableau 4.6 montrent que la couverture globale de Gazetiki est supérieure à celle de TagMaps pour les régions analysées, à une exception près : Toulouse. Un grand nombre de noms géographiques est extrait pour des villes qui ont une description détaillée dans Wikipédia et qui sont également bien représentées dans Panoramio, notamment pour des villes anglophones comme London (1313 tags), San Francisco (1006) ou encore Singapore (827). Tokyo (548 tags) et Beijing (489) sont également bien représentées dans Gazetiki principalement à cause du grand nombre de photographies de Panoramio annotées en anglais pour ces régions. Les articles Wikipédia pour Tokyo et Beijing sont moins détaillés que ceux pour London et San Francisco et ceci explique partiellement les meilleurs résultats obtenus pour ces deux dernières villes. Même si c’est une destination touristique majeure, le nombre de tags extraits pour 128 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES Paris (321) est inférieur à des villes moins visitées comme Beijing (489) ou Pittsburgh (413) alors que Paris est naturellement plus représentée dans TagMaps. L’utilisation d’un vocabulaire anglais explique, au moins partiellement, cette situation et il est probable que ce rapport soit inversé en utilisant des versions multilingues du vocabulaire géographique. Cette internationalisation du vocabulaire permettrait une amélioration significative du nombre d’entités extraites, surtout pour les régions non anglophones, mais soulève des problèmes d’alignement des termes synonymes qui auront des noms différents dans les différentes langues utilisées. Des différences significatives en faveur de Gazetiki sont à noter pour des villes comme Kiev (145 tags contre 8), Timişoara (31 contre 1) ou Athens (214 contre 20). Ces villes sont placées dans des pays qui sont trop faiblement représentés dans TagMaps et Geonames. La plus-value apportée par notre méthode est particulièrement importante pour ces régions. Si l’on compare Gazetiki à Geonames, la couverture du thesaurus constitué manuellement est supérieure mais, comme le montrent les résultats du tableau 4.7, les deux ressources sont plutôt complémentaires. Sur environ 4800 instances de Gazetiki, uniquement 543 existent aussi dans Geonames. Les différences sont de deux types et concernent la distribution des contenus et la couverture de l’espace. Dans le premier cas, il est à noter que Geonames assure une très bonne couverture des régions administratives (ex. noms de villes, de régions, de quartiers) alors que notre méthode d’extraction favorise des entités contenant une référence explicite à une catégorie géographique. Quant à la couverture, l’intersection serait probablement plus importante si nous utilisions uniquement des villes situées dans des pays bien représentés dans Geonames. La couverture est quasi nulle dans des pays mal représentés dans ce thésaurus comme la Roumanie ou Singapour. 4.2.8.3 Catégorisation des noms géographiques L’héritage conceptuel est une relation de base dans la structure des thésauri géographiques. L’attribution des noms géographiques à des catégories plus générales, que nous décrivons dans cette section, est l’une des principales composantes de la méthode d’acquisition automatique de connaissances. La qualité de la catégorisation peut être évaluée semi-automatiquement en utilisant les éléments communs à Gazetiki et Geonames, parce que tous les noms géographiques inclus dans cette ressource sont rattachés à des classes parents. Nous rappelons brièvement la procédure de catégorisation utilisée : – Pour Wikipédia : nous appliquons la méthode initialement décrite dans [70] qui consiste à analyser la première phrase des articles. Wikipédia étant de plus en plus normalisée, cette phrase est, dans la très grande majorité des cas, de type définitoire. Nous retenons comme classe parent du candidat le premier élément du vocabulaire géographique apparaissant après le verbe « to be ». – Pour Panoramio : nous utilisons la procédure de catégorisation basée sur l’exploitation des corrélations statistiques entre les noms candidats et les éléments du vocabulaire géographique afin de vérifier si la catégorie apparaissant explicitement dans le nom est la vraie catégorie parente du candidat. Tout comme pour la 4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE129 procédure d’extraction, si un élément est commun à Wikipédia et Panoramio, nous retenons la catégorie issue de la première phrase de l’article de Wikipédia. Sur un nombre total d’environ 4800 noms candidats retenus, 543 sont communs à Gazetiki et à Geonames, avec 217 termes provenant de Wikipédia et 326 de Panoramio. Nous considérons qu’un élément a été correctement catégorisé s’il est rattaché au même concept géographique dans Gazetiki et Geonames ou, s’il s’agit d’un concept héritant de plusieurs classes parent, si une de ces classes a été trouvée dans Gazetiki. Ce dernier choix s’explique par le fait que Geonames ne gère pas l’héritage multiple tandis qu’il existe un nombre significatif de termes héritant de plusieurs catégories (par exemple, Eiffel Tower est à la fois une tour et un monument). Tab. 4.7 – Evaluation du processus de catégorisation de Gazetiki. Nombre d’éléments Erreurs Précision Wikipédia 217 13 94% Panoramio 326 32 90% Gazetiki ∩ Geonames 543 45 92% Les résultats, très encourageants, présentés dans le tableau 4.7 montrent que la catégorisation est correcte dans 92% des cas, ce qui représente un taux de succès satisfaisant pour une méthode complètement automatique. Les résultats obtenus pour Wikipédia confirment ceux de [70], l’article qui a inspiré notre démarche. Les erreurs sont causées principalement par des définitions compliquées. Par exemple, le verbe « to be » est parfois suivi par une référence à la position géographique de l’objet et non par sa classe parent : X est situé à l’est de Y et est un Z. Dans ce cas, au lieu d’extraire Z, il est possible de trouver un élément du vocabulaire géographique dans Y qui sera extrait par notre algorithme. En perspective, nous ajouterons une analyse syntaxique destinée à éviter ce type d’erreurs. Quant à Panoramio, les erreurs interviennent quand la catégorie apparaissant explicitement dans le nom n’est pas la vraie classe parent de l’objet et que la procédure par un moteur de recherche sur le Web échoue à détecter cette situation. Nous étudions actuellement des variantes d’amélioration de la procédure de classification utilisée pour Panoramio, par exemple par l’utilisation de « snippets » en plusieurs langues pour obtenir la classe parent correcte. La préférence donnée à la catégorisation basée sur Wikipédia est justifiée par les taux de réussite : 94% pour Wikipédia et 90% pour Panoramio. 4.2.8.4 Positionnement spatial des candidats Similairement à la catégorisation, nous employons l’intersection entre Geonames et Gazetiki pour évaluer la distance entre la position des éléments de notre structure contre celle présente dans Geonames. L’évaluation ne peut se faire selon une catégorisation binaire (résultat pertinent/non pertinent) et nous présentons les résultats (figure 4.6) en fonction de la répartition des erreurs de distance selon un pas de 200m (les références sont 130 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES les coordonnées données par Geonames). Les différences de plus de 3 km sont regroupées en une seule classe. Fig. 4.6 – Distribution des distances entre les coordonnées des éléments de Gazetiki et ceux de Geonames. 80% des éléments ont une erreur de localisation de moins de 600 m. Les résultats de la figure 4.6 montrent qu’une large majorité (92%) des coordonnées calculées avec notre algorithme se trouvent à moins d’un kilomètre de la position des éléments dans Geonames, 81% pour les moins de 600 mètres. Le premier secteur examiné (moins de 200 mètres) contient la majorité des résultats (60%). Les imprécisions de la procédure de localisation sont en relation directe avec le nombre d’images utilisées pour le calcul et le type d’entité photographiée. Il y a souvent une différence significative entre l’endroit d’où est prise l’image et la position réelle de l’objet, cela étant accentué pour des objets « dégagés » (comme la Tour Eiffel ). Pour Panoramio, la procédure étant basée sur la moyenne des coordonnées des images, plus un objet est photographié, plus cette estimation s’approchera des vraies coordonnées. Néanmoins, certaines entités ont une position de prise de vue favorisée (ex. le Sacré Cœur du bas de la colline Montmartre ou Notre Dame de Paris via le parvis), dans ces cas, la moyenne conservera ce biais de localisation. Notons que les coordonnées de Wikipédia sont, en moyenne, plus proches de celles de Geonames que les coordonnées calculées à partir de Panoramio. Une analyse de la corrélation entre le type de l’objet et l’imprécision de la localisation montre qu’on retrouve souvent parmi les positions correctement localisées des noms d’objets appartenant à des catégories comme : church, tower ou monument, c’est-à-dire 4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE131 des objets bien localisés, avec une surface relativement restreinte et habituellement photographiés selon différents points de vue. Nous avons également regardé les entités dont la distance par rapport aux coordonnées de Geonames est supérieure à 1 km. On retrouve généralement des concepts ayant une surface significative, comme gulf, river, borough, island, bay ou park. Mais, pour ces objets, une imprécision de l’ordre d’un kilomètre est homogène avec leurs propres dimensions et n’affecte donc pas significativement la qualité de leur représentation dans l’espace. La ressource décrite ici sera exploitée dans une application permettant de visualiser des tags géographiques sur une carte interactive (voir le chapitre 5). Pour ce type d’application, les imprécisions de positionnement sont partiellement masquées par le fait que le texte du tag couvre une certaine surface de la carte. La largeur du texte étant significativement supérieure à sa hauteur, les différences de longitude seront mieux masquées que celles de latitude. Naturellement, l’échelle de visualisation rentre aussi en compte, l’erreur de localisation étant plus sensible à l’échelle d’un quartier que d’une ville ou d’une région. 4.2.8.5 Évaluation du classement des éléments de Gazetiki Cette évaluation vise à comparer les résultats de l’ordonnancement des éléments dans Gazetiki à ceux de TagMaps. Dans les deux ressources, la pertinence associée aux lieux est basée sur une mesure statistique, plus précisément sur le nombre total d’images associées à un tag dans TagMaps, ce nombre étant pondéré, dans Gazetiki, par le nombre d’utilisateurs. Nous utilisons la vue « standard » des villes testées dans les deux applications et nous extrayons les dix éléments les plus saillants selon cette mesure pour les comparer à ceux proposés par TripAdvisor. La représentativité des éléments de cette ressource est calculée en utilisant les opinions des utilisateurs sur les endroits à visiter dans chaque ville (« Meilleures Attractions ») et restitue un regard communautaire sur l’importance des objets. Afin de normaliser notre test, nous ne retenons que les dix attractions de TripAdvisor après avoir éliminé celles pointant vers des entités en dehors du domaine géographique, comme « Bike guided tours ». TagMaps et Gazetiki utilisent des mesures purement statistiques sur deux autres sites communautaires : Flickr et Panoramio (respectivement). Notre évaluation s’intéresse à l’intersection de ces listes avec celle de TripAdvisor. Notons que, pour des villes comme Kiev, Timisoara ou Tunis, TripAdvisor recense un nombre d’objets saillant inférieur à dix, dans ces cas, le calcul est fait en utilisant ce nombre comme nouvelle référence. Les résultats du tableau 4.8 montrent que le nombre d’éléments communs à TripAdvisor et TagMaps est inférieur à l’intersection avec Gazetiki (20 contre 36 sur 139). Si on regarde plus en détail, l’intersection TripAdvisor-Tagmaps est inférieure à celle avec Gazetiki dans 10 cas sur 15. Dans les quatre cas où l’intersection avec TagMaps est supérieure à celle avec Gazetiki, la différence est minimale (un seul objet d’écart). Néanmoins, le classement de TripAdvisor n’est pas toujours représentatif et l’expérience pourrait être répétée en utilisant un panel « d’experts » des différentes villes pour fournir d’autres listes de vérités terrain. 132 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES Tab. 4.8 – Comparaison du classement des objets géographiques dans TagMaps et Gazetiki contre TripAdvisor. Nom de la ville Athens (Greece) Beijing (China) Bucharest (Romania) Kiev (Ukraine) London (UK) Moscow (Russia) Paris (France) Pittsburgh (US) San Francisco (US) Singapore Sydney (Australia) Timisoara (Romania) Tokyo (Japan) Toulouse (France) Tunis (Tunisia) Total 4.2.9 TagMaps ∩ TripAdvisor 2/10 3/10 1/10 0/7 0/10 2/10 3/10 1/10 1/10 1/10 2/10 0/5 1/10 2/10 1/7 20/139 Gazetiki ∩ TripAdvisor 4/10 5/10 2/10 1/7 3/10 3/10 5/10 1/10 3/10 0/10 5/10 3/5 0/10 1/10 0/7 36/139 Relation entre Gazetiki et TagMaps et Geonames Nous comparons Gazetiki avec deux autres bases de données géographiques, TagMaps, constituée automatiquement comme notre thésaurus, et Geonames, dont le contenu est obtenu manuellement. Les deux bases de données géographiques créées automatiquement dont nous avons connaissance, TagMaps et Gazetiki, utilisent des données brutes du Web. Les méthodologies de constitution sont assez différentes : principalement statistiques pour TagMaps et basée sur une analyse structurale et linguistique pour Gazetiki. Néanmoins, l’objectif affiché par ces deux bases est clairement le même (améliorer la recherche d’images de notre monde), une comparaison entre ces deux ressources s’avère donc naturelle : – La structure de Gazetiki est plus complète que celle de TagMaps car elle contient, en plus du triplet (nom, position, pertinence), une catégorisation des éléments extraits automatiquement. Cela permet de proposer à l’utilisateur une recherche thématique en lui donnant la possibilité de visualiser uniquement des catégories qui l’intéressent à un moment donné. La présence d’une information de catégorisation rend également possible l’affichage les résultats d’une requête suivant les différents types d’images retournées. – Précision : comme montré par nos expériences, la précision de la méthode d’extraction de noms géographiques est supérieure à celle de TagMaps. L’amélioration est 4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE133 significative car elle permet d’avoir un taux de bruit inférieur à 5% dans Gazetiki contre 18% dans TagMaps. – Couverture : bien que nous ignorons le volume total des noms géographiques dans TagMaps, la comparaison du nombre d’éléments dans des zones centrées autour de grandes villes indique que le nombre d’éléments dans Gazetiki est supérieur à celui proposé par TagMaps. – Le positionnement des éléments : les éléments découverts automatiquement en utilisant Panoramio sont majoritairement positionnés à moins de 200 m des coordonnées dans Geonames. Des différences de plus de 1 km sont obtenues pour des objets géographiques ayant une surface significative. – L’ordonnancement des éléments : le classement proposé dans Gazetiki s’accorde mieux avec celui proposé par une référence du Web (TripAdvisor) que pour TagMaps. La comparaison de Gazetiki avec Geonames montre que : – La catégorisation des éléments dans Gazetiki est satisfaisante pour une procédure complètement automatique (le taux de fausses classifications étant de 7%). – L’utilisation d’un modèle du domaine inspiré par celui de Geonames permet une intégration aisée des deux ressources. Notons aussi que le thésaurus constitué automatiquement contient des catégories avec une forte composante spatiale qui ne se trouvent pas dans Geonames, enrichissant le modèle de ce dernier. – L’extraction automatique de noms géographiques est particulièrement utile pour des régions du monde qui sont mal représentées dans Geonames (des pays comme la Chine, la Roumanie, la Russie). Toutefois, il faut souligner qu’un nombre tout aussi important d’éléments supplémentaires est découvert pour des pays bien représentés dans Geonames, comme les Etats-Unis ou la France. – Le nombre d’entités découvertes dans Gazetiki reste naturellement plus petit que le volume de données dans Geonames mais l’intersection entre les deux jeux de données montre leur grande complémentarité. Les constats dressés ci-dessus nous permettent d’affirmer que nous avons construit automatiquement un thésaurus géographique à large échelle, d’une qualité supérieure à celui décrit dans [110]. À ce jour et à notre connaissance, Gazetiki est une ressource unique en son genre et a rencontré un intérêt certain de la part de communauté scientifique s’intéressant à ce domaine (notamment lors de présentations à ACM JCDL’08 ou IEEE CBMI’08). Gazetiki est parfaitement complémentaire à Geonames et l’intégration de ces deux ressources est relativement facile : nous retenons tous les éléments qui apparaissent exclusivement dans une des deux ressources et, pour l’intersection, nous privilégions les éléments de Geonames. La structure résultante sera intégrée dans une application de recherche d’images géo-localisées décrit dans le chapitre suivant, nommée ThemExplorer. Nous avons concentré des efforts importants sur cette application notamment à cause de son intérêt pour des systèmes et des applications futurs en lien avec le domaine, en pleine croissance, du e-tourisme. 134 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES 4.3 Construction automatique d’une structure linguistique pour les personnalités Nous avons mentionné dans le chapitre 2 que les entités nommées sont faiblement couvertes par WordNet. Comme pour les noms de lieux, Wikipédia inclut un nombre considérable d’articles dédiés aux personnalités sous la forme d’informations semi-structurées. Certes, il existe d’autres sources d’information plus riches que Wikipédia pour les célébrités, mais elles ne sont pas en libre accès comme IMDB2 , la base de données de référence sur le cinéma et la télévision (séries télévisées). Un travail relativement proche est proposé dans [8] avec DBPedia, mais cette base contient seulement un passage des articles Wikipédia au format SQL ce qui n’est pas suffisant pour exploiter cette structure en recherche d’information. Dans DBPedia, les concepts et leurs relations ne sont pas ordonnés et il est donc impossible de proposer en priorité les concepts plus pertinents. De plus, Auer [8] n’utilise que les tableaux des articles Wikipédia pour en extraire des informations. Dans l’approche que nous décrivons dans cette partie, nous exploitons les tableaux de données et le texte des articles. La stucture linguistique résultante est nommée CelebWiki. 4.3.1 Modélisation du domaine Pour les célébrités, il est possible de formaliser des connaissances relatives à leur biographie et leurs activités. Le premier type d’informations, comprenant par exemple la date et le lieu de naissance, est commun à toutes les catégories. L’activité est une information plus spécifique et nécessite de définir des relations liant la personne à son (ses) domaine(s) d’activité. Nous appliquons une méthode d’extraction automatique de connaissances pour trois types de célébrités : – les chanteurs et musiciens ; – les acteurs ; – les footballeurs. Nous privilégions à la fois des données d’ordre biographique et des connaissances spécifiques à leur type d’activité : – le(s) nom(s) du concept (déf. 1) ; – la séparation entre les classes et les instances (déf. 2) ; – une structure basée sur l’héritage conceptuel (déf. 4) ; – une valeur de pertinence associée aux concepts (autres relations) ; – des relations spécifiques à chaque type de célébrité (autres relations). Ces données permettent une identification unique de tous les noms de célébrités inclus dans la ressource, une structuration de leur voisinage conceptuel et un classement des concepts et relations en fonction de leur pertinence. 2 http ://imdb.com 4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITÉS 4.3.2 135 Extraction de connaissances pour les personnalités à partir de Wikipédia La liste d’articles à analyser est obtenue en utilisant les pages recensant les célébrités par nationalité3 . On extrait un volume total de 5963 articles pour les chanteurs et musiciens, 13753 pour les acteurs et 25758 pour les footballeurs4 . La structure linguistique résultante contient 44474 entrées, ce qui est comparable avec le volume total de 70000 pages de personnes extrait à partir de Wikipédia dans DBPedia [8]. La méthode d’extraction décrite par la suite peut être assez facilement adaptée à d’autres types de personnes afin d’enrichir la base de connaissances. Pour une brève discussion concernant la qualité des connaissances extraites, nous renvoyons le lecteur à la discussion de la section 4.2.2. Quant à la complétude des informations, il serait naı̈f d’espérer retrouver une structure complète, la caractérisation des concepts et de leurs relations étant sujette à une modification continue. Tout au plus, nous pouvons espérer caractériser les concepts de manière plus utile (à un processus de recherche d’information) afin de proposer à l’utilisateur une représentation plus adéquate des informations que celle obtenue par une simple recherche proposée par les moteurs de recherche classiques. Nous avons analysé la structure des pages Wikipédia dédiées aux célébrités et isolé les parties contenant les informations les plus intéressantes à notre application. Une première information commune à toutes les catégories, la nationalité, est obtenue facilement puisque les articles sont collectés à partir d’une liste par nationalité. La très grande majorité des articles analysés contient un tableau biographique (dans Wikipédia, ceci constitue une norme pour les personnalités) dans lequel on trouve des informations sur le lieu, la date de naissance et — selon le cas — de décès. L’extraction de ces connaissances est facilitée par le fait qu’elles sont intégrées dans l’encyclopédie en ligne en suivant un nombre réduit de formats ou de patrons. Par exemple, la date de naissance est introduite, dans la majorité des cas par « Birthdate » ou « Date of birth ». Nous constituons une liste contenant tous les noms cités et comparons chaque élément de cette liste au contenu des pages Wikipédia afin d’obtenir un ensemble de noms proches. Enfin, nous attribuons une valeur de pertinence à chaque association. Pour les trois catégories de célébrités, on extrait : – – – – 3 date de naissance ; lieu de naissance ; la date de décès (si pertinent) ; une liste de célébrités associées. http ://en.wikipedia.org/wiki/Category :American film actors pour la liste des acteurs américains Les statistiques présentées correspondent au traitement de la version de Wikipédia en anglais d’octobre 2007. 4 136 4.3.3 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES Catégorie des chanteurs et musiciens En plus des données biographiques générales, les tableaux biographiques des chanteurs peuvent contenir les informations suivantes (voir la figure 4.7) : – l’année du début de carrière, souvent introduite par « Years active » ; – les genres musicaux, introduits par « Genres » ; – les instruments maı̂trisés, introduits par « Instruments » ; – les groupes musicaux dans lesquels les chanteurs ont évolué, introduits par « Associated acts ». L’analyse des ces parties du tableau permet l’extraction des connaissances correspondantes et l’enrichissement de la structure dédiée aux chanteurs avec des informations spécifiques au domaine. Il serait également possible de traiter la partie du corps du texte détaillant les noms des albums mais nous considérons que cette information n’est pas indispensable dans le cas d’une recherche d’images. Fig. 4.7 – Extrait du tableau biographique de la page Wikipédia anglaise d’Eric Clapton. 4.3.4 Catégorie des acteurs En plus des données biographiques générales, les tableaux biographiques des acteurs peuvent contenir les informations suivantes (voir la figure 4.8 et 4.9) : – le(s) noms(s) des époux ou épouses de l’actrice ou l’acteur, introduit par « Spouse(s) » ; – la liste de prix accordés, introduite par « Awards » ; – la filmographie de l’acteur (avec, au maximum le titre du film, l’année de réalisation et le rôle). Le corps du texte de l’article contient habituellement une filmographie des acteurs avec les noms des films, l’année de réalisation et, pour les acteurs les plus connus, le rôle joué dans chaque film. Dans certains cas, la filmographie constitue un article Wikipédia 4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITÉS 137 Fig. 4.8 – Extrait du tableau biographique de la page Wikipédia anglaise de Robert De Niro. Fig. 4.9 – Extrait de la filmographie de Robert De Niro dans l’article Wikipédia de l’acteur. 138 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES dédié qu’il faut récupérer. Nous avons identifié cinq configurations différentes d’apparition des données relatives à la filmographie (nous en illustrons 3 dans les figures 4.9, 4.10 et 4.11). Il faut adapter notre méthode d’extraction des connaissances à chaque type de présentation de la filmographie. Fig. 4.10 – Extrait de la filmographie de Brigitte Bardot dans l’article Wikipédia de l’actrice. Fig. 4.11 – Extrait de la filmographie de Jim Carrey dans l’article Wikipédia de l’acteur. Les informations trouvées dans les sections des articles sont plus difficiles à analyser et à extraire que celles se trouvant dans les tableaux biographiques, mais demeurent néanmoins particulièrement utiles. Les informations sur la filmographie permettent également d’inférer la période correspondant à la carrière de l’acteur. L’analyse décrite dans cette sous-section permet l’enrichissement de la structure dédiée avec des informations spécifiques au domaine, utilisables pour améliorer l’interactivité en recherche d’images et pour adapter la présentation des résultats. 4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITÉS 4.3.5 139 Les footballeurs En plus des données biographiques générales, les tableaux biographiques des footballeurs contiennent les informations suivantes (voir la figure 4.12) : – les positions de jeu, introduites par « Positions » ou « Playing position » ; – les club(s) dans lesquels le joueur a évolué, introduit(s) par « Club(s) » ou « Senior clubs » ; – le nombre de sélections internationales, introduit par « National team » ; – le nombre de buts inscrits, introduit par « Gls ». Fig. 4.12 – Extrait du tableau biographique de la page Wikipédia anglaise de Zinedine Zidane. À partir des informations sur les clubs, il est possible d’inférer la période correspondant à la carrière du footballeur. Comme pour les chanteurs et les acteurs, l’analyse décrite dans cette sous-section permet l’enrichissement de la structure dédiée, améliorant l’interactivité et la présentation des résultats. 4.3.6 Valeur de pertinence associée aux noms de personnes et aux relations entre ces noms Nous ordonnons les informations relatives aux célébrités en exploitant leur fréquence d’apparitions dans le corpus du Web. Le classement des noms de chanteurs, acteurs et footballeurs est réalisé en utilisant 140 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES l’équation 4.3 : pertin(candidat) = f reqW eb(candidat, classe)2 f reqW eb(candidat) (4.3) Où : – pertin est la valeur de pertinence associée au nom candidat ; – classe est la classe d’appartenance du candidat (chanteur, acteur ou footballeur) ; – f reqW eb est la fréquence dans le corpus du Web du couple candidat ; La combinaison de la fréquence d’apparition conjointe du candidat et de la classe parente et de la fréquence individuelle est réalisée afin de minimiser les biais liés à l’utilisation des fréquences seules. La fréquence brute des termes risque de favoriser ceux apparaissant plus fréquemment dans d’autres domaines conceptuels : par exemple, Madonna est plus souvent associée à actor que Robert De Niro. Le classement des relations entre chaque célébrité et les autres noms associés est réalisé avec une mesure de similarité prenant en compte à la fois des relations spécifiques au type de concept et des statistiques de cooccurrence sur le Web. Nous présentons les formules utilisées pour les trois types de personnalités dans les équations 4.4 (acteurs), 4.5 (chanteurs) et 4.6 (footballeurs). Dans les trois cas, les valeurs de sortie sont normalisées entre 0 et 1. relation(A1 , A2 ) = f (f ilms(A1 , A2 ), prix(A1 , A2 ), f requence(A1 , A2 ), nationalite(A1 , A2 )) (4.4) Où : – A1 , A2 sont les noms des acteurs à mettre en relation ; – f ilms : désigne le ou les films dans lesquels les deux acteurs ont joué ensemble. Pour chaque film commun, on ajoute 0,1 au score : la contribution maximale de cette dimension étant 0,3 ; – prix : est le ou les prix communs obtenus par les deux acteurs. Pour chaque prix en commun, on ajoute 0,1 au score final avec une contribution maximale de 0,3 ; – f requence : si A2 est l’un des trois premiers noms le plus fréquemment associés à A1 sur le Web, on ajoute 0,2 au score final. S’il s’agit de l’un des trois noms suivants, on ajoute 0,1 ; – nationalite : si les deux acteurs ont la même nationalité, on ajoute 0,1 au score. relation(C1 , C2 ) = f (genres(C1 , C2 ), instruments(C1 , C2 ), f requence(C1 , C2 ), nationalite(C1 , C2 ), age(C1 , C2 )) (4.5) Où : – C1 , C2 sont les noms des chanteurs à mettre en relation ; – genres : le ou les genres musicaux communs aux deux chanteurs ou musiciens. Pour chaque élément commun, on ajoute 0,2 au score final (avec une contribution maximale de 0,4) ; 4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITÉS 141 – instruments : le ou les instruments joués par C1 et C2 . Pour chaque instrument commun, on ajoute 0,1 au score final et la contribution maximale est de 0,2 ; – f requence : idem à 4.4 ; – nationalite : idem à 4.4 ; – age : si la différence d’âge entre C1 et C2 est plus petite que cinq ans, on ajoute 0,1 au score final. relation(F1 , F2 ) = f (clubs(F1 , F2 ), positions(F1 , F2 ), f requence(F1 , F2 ), nationalite(F1 , F2 ), age(F1 , F2 )) (4.6) Où : – F1 , F2 sont les footballeurs à mettre en relation ; – clubs : le ou les clubs auxquels les deux footballeurs ont évolué. Pour chaque club en commun, on ajoute 0,1 au score final, la contribution ne dépassant pas 0,3 ; – positions est la ou les positions de jeu communes aux deux joueurs. Pour chaque élément commun, on ajoute 0,1 au score final, avec une contribution plafonnée à 0,3 ; – nationalite : idem à 4.4 ; – age : idem à 4.5. Les poids donnés aux termes des équations 4.4, 4.5 et 4.6 sont établis empiriquement après l’analyse de plusieurs résultats obtenus dans différentes configurations. Si on reprend l’exemple de Robert De Niro, les cinq premiers noms associés sont : Al Pacino, Jack Nicholson, Tom Hanks, Joe Pesci, Angelina Jolie. Dans un premier temps, nous avions essayé d’utiliser une méthode basée strictement sur des statistiques obtenues à partir du Web mais les résultats obtenus n’étaient pas convaincants car les noms de célébrités se retrouvent souvent ensemble sur le Web sans qu’il y ait de vraie relation entre eux. L’inclusion de termes décrivant de façon plus fine le concept améliore sensiblement les résultats mais nécessite un travail d’analyse des résultats pour établir le poids de chaque terme. Le classement d’autres informations associées à chaque nom analysé est réalisé en appliquant la formule 4.3, dans laquelle le nom de la classe est remplacé par chaque information découverte. Par exemple, s’il s’agit d’un acteur, nous ordonnons les films dans lesquels il a joué. Il y a d’autres informations, comme la date ou le lieu de naissance, pour lesquelles le classement n’a pas de sens. Nous avons mentionné que certaines informations peuvent être utilisées pour former des requêtes plus générales à partir de chaque nom de célébrité. Si un utilisateur veut voir des images de Robert De Niro, on peut lui proposer de voir des images d’autres acteurs américains ou d’autres acteurs ayant également gagné l’Oscar du meilleur acteur. La structure obtenue permettant la proposition d’un grand nombre de telles requêtes, il est indispensable de les ordonner et d’en présenter les plus pertinentes à l’utilisateur. 142 4.3.7 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES Évaluation de CelebWiki Nous évaluons notre approche en la comparant avec une autre structure linguistique dédiée aux personnalités accessible via l’interface du moteur de recherche Ask. Nous effectuons deux types de tests : le premier vise à évaluer la qualité du voisinage conceptuel d’une célébrité dans les deux structures, le second compare la couverture des deux structures. 4.3.7.1 Voisinage conceptuel Nous avons sélectionné un total de 20 concepts représentatifs pour les trois types de personnalités et, pour chaque concept, nous avons extraits un nombre maximal de cinq noms les plus proches dans CelebWiki et dans Ask. Les concepts et les noms proches ont été présentés dans une même interface. Le test a été effectué par six utilisateurs auxquels nous avons demandé d’évaluer chaque proposition de nom proche sur une échelle de 1 (concepts non reliés) à 3 (forte relation entre les deux noms). Certains noms pouvant être inconnus pour des évaluateurs, nous avons offert la possibilité de marquer ces noms comme « inconnu ». Tab. 4.9 – Comparaison entre le module de présentation de requêtes dans Ask et dans CelebWiki. Précision moyenne (max. = 3) Noms connus Ask 2,21 58% CelebWiki 2,26 76,4% Le tableau 4.9 montre que la performance des deux systèmes est quasiment équivalente (avec une différence de 0,05 sur 3 en faveur de Wikipédia). Nous avons observé que les utilisateurs sont sensibles aux relations de parenté (ex. Nancy Sinatra — Frank Sinatra) que nous n’avons pas considérées — à tort — dans notre structure. L’extraction de ce type de relations à partir de Wikipédia est relativement aisée et permettrait d’améliorer les performances par rapport à Ask présentés dans le tableau 4.9. La proportion de noms connus parmi les requêtes proches est significativement plus élevée dans notre ressource (76% contre 58%). Ce résultat montre que la structure obtenue à partir de Wikipédia retourne un plus grand nombre de résultats connus et améliore les chances que ces liens soient suivis par les utilisateurs pour élargir ou focaliser leurs requêtes. Il y a des écarts significatifs entre les réponses des participants au test dans les deux évaluations. Toutefois, les moyennes présentées dans le tableau 4.9 (quasi égalité pour la précision, avantage pour le nombre de noms connus) sont représentatives pour les résultats de chaque évaluateur pris individuellement. 4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITÉS 4.3.7.2 143 Couverture de CelebWiki Nous avons testé la couverture des deux structures conceptuelles en utilisant 370 noms (liste obtenue à partir des 20 noms de concepts du test précédent). Pour ce deuxième jeu de test, nous avons extrait le nombre de propositions de requêtes dans les deux systèmes. Tab. 4.10 – Comparaison de la couverture du domaine dans Ask et dans CelebWiki. Nombre moyen de requêtes proches Concepts avec aucune requête proche Ask 5,27 48 CelebWiki 32,6 5 Les résultats du tableau 4.10 montrent clairement que la couverture offerte par Ask est bien plus réduite que celle offerte par notre structure (5,27 noms contre 32,6 en moyenne). Les articles Wikipédia pour une célébrité permettent d’inclure un grand nombre d’autre noms qu’il est possible d’ordonner, comme nous l’avons vu, par rapport au concept initial en utilisant leurs propriétés conceptuelles et des statistiques sur le Web. Ask ne propose aucun nom proche pour 48 requêtes sur 370, cela ne se produit que dans cinq cas pour notre structure. Il serait possible de ramener ce dernier chiffre au minimum en exploitant des similarités conceptuelles entre les articles (supposer que deux noms de personnalités sont proches même s’ils n’apparaissent pas ensemble dans un article). Les métriques de similarité à utiliser dans ce dernier cas seraient identiques à celles pour les noms apparaissant dans une même page de Wikipédia. 4.3.8 Discussion et conclusions Nous avons présenté une méthode d’extraction automatique d’une structure conceptuelle pour les célébrités à partir de Wikipédia appliquée à trois sous-domaines conceptuels : les acteurs, les chanteurs et les footballeurs. La structure contient plus de 45000 noms de célébrités pour lesquels nous avons extrait et ordonné différentes informations utiles en recherche d’images. Notre approche se distingue de celle de DBPedia [8] par un traitement plus détaillé du contenu des articles et par le fait que nous proposons une méthode d’ordonnancement des entités proches découvertes. Cette dernière caractéristique est fondamentale pour une utilisation en recherche d’information car elle permet de présenter en priorité l’information la plus pertinente à une requête donnée. L’ordonnancement des relations entre les concepts prend en compte à la fois des propriétés conceptuelles et des statistiques obtenues à partir du Web. Nous avons évalué la structure obtenue par rapport à la seule ressource similaire dont nous avons connaissance : le module de proposition de requêtes d’Ask. Les résultats obtenus montrent une qualité comparable pour les deux méthodes. Toutefois, la couverture du 144 CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES domaine offerte par la structure basée sur Wikipédia est bien plus élevée que celle d’Ask. L’évaluation nous a permis de trouver des moyens d’amélioration de la représentativité des noms proches en incluant aussi des relations de parenté. Une évaluation serait toutefois nécessaire pour d’autres types de relations que celles liant les noms mais cette évaluation n’est pas aisée car il n’existe pas, à notre connaissance, de ressources comparables. La méthode présentée ici est assez facilement adaptable à d’autres types de célébrités. Nous souhaitons notamment la généraliser en prenant en compte les résultats de l’étude du fichier de log (voir section 3.1) pour traiter, par exemple, le cas des politiciens, d’autres sportifs et des scientifiques. Chapitre 5 Applications de recherche d’images sur Internet basée sur des structures linguistiques Dans ce chapitre, nous reprenons l’architecture générale introduite dans le chapitre 3, nous y intégrons les ressources linguistiques décrites dans le chapitre 4, afin de proposer une plateforme de recherche d’images capable de répondre à des requêtes de nos trois domaines d’application1 : – Olive traite les noms communs et exploite la version adaptée de WordNet. – ThemExplorer recherche des images d’entités géographiques et utilise la version adaptée de Geonames et Gazetiki, notre thésaurus constitué automatiquement. – Safir recherche des noms de célébrités et exploite CelebWiki, la ressource décrivant les célébrités extraite à partir de Wikipédia. Pour chaque application, nous décrivons son architecture, ses principales composantes, des exemples d’utilisation et des évaluations. Les applications ont été implémentées en PHP. ThemExplorer inclut également une composante AJAX pour l’affichage de la carte interactive. Les scripts pour le téléchargement des images ont été écrits en Perl. L’accès aux connaissances stockées dans les structures linguistiques est réalisé via un script Perl dans Olive et via des requêtes MySQL dans ThemExplorer et Safir. 5.1 Olive — recherche de noms communs Dans cette section, nous présentons Olive, une application pour la recherche d’images de noms communs. Cette application est construite suivant les principes d’exploitation d’une structure linguistique et de techniques de traitement d’images discutées dans le chapitre 3. Nous commençons cette section par une analyse du modèle de données uti1 Des vidéos illustrant le fonctionnement des applications sont disponibles à l’adresse : http ://moromete.net/demos.html. 145 146 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES lisé, continuons par une description de l’architecture du système et par un d’exemple d’utilisation. Finalement, nous décrivons une série d’expériences menées afin d’évaluer et de valider notre approche. 5.1.1 Modélisation des données Notre système utilise un modèle formel des données obtenu en se basant sur le contenu de la ressource linguistique exploitée pour les données textuelles et en utilisant l’indexation du contenu visuel pour les images. Tout concept de la version adaptée de WordNet est exprimé par le vecteur 5.1 : Concept = (nom, synset, f euilles, heritiers, parents, siblings, images, pertinence) (5.1) Où : – nom : concept dans la ressource linguistique. Ex. : dog 1 pour le premier sens de dog). – synset : les différents synonymes pointant vers la même entité (s’ils existent). Ex. : dog et Canis familiaris pour dog 1. – f euilles : nœuds terminaux dans la sous-hiérarchie déterminée par le concept. Ces termes sont rangés en fonction de leur fréquence dans le corpus d’images du Web (la même observation est vraie pour les héritiers, les parents, les siblings). La composante feuille est naturellement vide pour les feuilles. Ex. : doberman, Newfoundland, basset pour dog 1. – heritiers : termes héritant du concept, avec une préférence donnée aux synsets non-feuilles. Ex. : poodle, corgi, hunting dog pour dog 1. – parents : les concepts plus généraux englobant le terme courant. Ex. : domestic animal, canine, organism, living thing pour dog 1. – siblings : les noeuds de la hiérarchie ayant le même parent que le concept courant. Ex. : wolf, fox, hyena, wild dog pour dog 1. – images : les images associées à chaque feuille de la hiérarchie. Cette dimension du vecteur n’est pas renseignée pour les termes ayant des héritiers (ex. dog 1 ) et les photographies représentant ce type de termes sont obtenues en utilisant la liste des feuilles. – pertinence est la mesure basée sur la fréquence jointe du terme et de son parent immédiat calculée à partir du corpus d’images du Web et sur la structure de la hiérarchie. Le vecteur 5.1 décrit plusieurs composantes des concepts dans WordNet, permettant de relier les concepts à des images représentatives, de décrire leur voisinage conceptuel et de les situer relativement à la pertinence d’autres concepts dans la hiérarchie. Toutes ces informations seront exploitées pour proposer un traitement des requêtes textuelles et pour introduire une forme de recherche d’images par le contenu dirigée par les concepts. Toute image associée à un terme feuille de WordNet s’exprime par le vecteur 5.2 : Image = (nomF euille, index, classement) (5.2) 5.1. OLIVE — RECHERCHE DE NOMS COMMUNS 147 Où : – nomF euille : nom du concept feuille auquel l’image est associée ; – index : représentation vectorielle du contenu de l’image utilisant des descripteurs de bas niveau ; – classement : la position de chaque photographie dans l’ensemble des réponses obtenues par le moteur de recherche exploité. Les informations dans l’équation 5.2 permettent une description à la fois conceptuelle du contenu de l’image (via le nom du concept représenté) et de ses caractéristiques perceptuelles (via l’index), se conformant à la modélisation de la similarité décrite dans la sous-section 3.2.1. Le passage des concepts aux images est réalisé à travers les composantes images dans l’équation 5.1 qui est en fait une liste d’éléments décrits dans l’équation 5.2. Comme nous l’avons précisé dans la sous-section 2.3, les moteurs de recherche d’information actuels donnent de plus en plus d’importance à l’interactivité de l’application, sans pour autant modéliser le voisinage conceptuel d’une requête comme c’est la cas avec Olive. La modélisation des données proposée dans Olive est plus complexe que celle dans les moteurs de recherche d’images existants, notamment par la description du voisinage conceptuel de la requête et par la description du contenu visuel des images. 5.1.2 Architecture d’Olive Fig. 5.1 – Architecture d’un système de recherche d’images pour les noms communs. Les bases de données sont représentées sous forme de rectangles, les modules logiciels par des rectangles arrondis et les requêtes par des ellipses. Nous présentons, dans la figure 5.1, l’architecture d’un système de recherche d’images 148 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES pour les noms communs. L’architecture présentée est un cas particulier de l’architecture générique de recherche d’images basée sur des ressources linguistiques décrite dans 3.3.3. WordNet est ici la ressource linguistique exploitée pour traiter les requêtes textuelles et PIRIA [65] est le moteur de recherche par similarité visuelle développé par le CEA LIST utilisé dans toutes les applications décrites dans ce travail. Google Images sert de corpus photographique à partir duquel nous choisissons les images associées aux requêtes reformulées par le sélecteur de concepts. Google a été préféré à d’autres moteurs pour des raisons de rapidité et parce qu’il assure une bonne couverture des noms communs. Néanmoins, l’application fonctionnerait de manière tout à fait similaire avec d’autres corpus. 5.1.2.1 Fonctionnement d’Olive L’utilisateur peut formuler des requêtes textuelles classiques et des requêtes par images exemples, ces dernières venant compléter les demandes textuelles. Une fois les requêtes textuelles formulées, le sélecteur de concepts vérifie si elles correspondent à des éléments existant dans la ressource linguistique (si la chaı̂ne de caractères introduite est identique à un élément de nom dans l’équation 5.1). Si oui, la requête est reformulée en exploitant le contenu de la composante synset du modèle conceptuel et transmise au collecteur d’images qui vérifie si les images pour le concept respectif existent déjà dans le corpus d’images local ou si elles doivent être récupérées à partir de Google Images. En même temps, le sélecteur de concepts récupère les éléments stockés dans les composantes heritiers, parents et siblings du vecteur de l’équation 5.1 et compose un ensemble de requêtes proches qui seront affichées dans l’interface. Toutes les images dans le corpus local sont indexées en utilisant le descripteur LEP (Local Edge Pattern) implémenté dans PIRIA, décrit plus en détail dans la sous-section 2.1.2.2. Les images affichées sont toutes associées à des termes feuilles de WordNet (par la composante nomFeuille du vecteur dans l’équation 5.2), des concepts couvrant habituellement des entités cohérentes de point de vue visuel. Toutes les images affichées peuvent initialiser une recherche par le contenu. Si une telle requête est lancée, le contenu de la photographie est comparé à la description de bas niveau de toutes les autres images associées au même terme feuille de WordNet. Nous présentons, dans la suite, les différentes composantes de l’architecture d’Olive. 5.1.2.2 La ressource linguistique La structure conceptuelle obtenue par l’adaptation de WordNet pour une utilisation en recherche d’images constitue la composante principale d’Olive et a été décrite dans la section 4.1.1. Les relations d’héritage conceptuel et de synonymie sur lesquelles est construite la hiérarchie lexicale servent à reformuler les requêtes des utilisateurs et à proposer un voisinage conceptuel pour enrichir l’interaction entre l’utilisateur et le système. Le nombre total de requêtes traitées correspond au nombre total de chaı̂nes uniques de WordNet, soit 145104. 5.1. OLIVE — RECHERCHE DE NOMS COMMUNS 5.1.2.3 149 Le corpus d’images local Le corpus local constitue une copie partielle des photographies indexées dans Google Images. Nous avons opté pour cette copie locale pour limiter le nombre de requêtes lancées dans Google. Ce moteur permet la récupération de 1000 images maximum par requête. Afin de réduire le temps d’exécution, nous avons limité le téléchargement à 300 images, ce qui correspond à une douzaine de pages de réponses standard de Google. Le corpus local s’enrichit au fur et à mesure de l’utilisation du système. Pour refléter le caractère dynamique du corpus d’images du Web, il serait possible de mettre en place des procédures de rafraı̂chissement périodique des classes d’images stockées en local. 5.1.2.4 Le sélecteur de concepts Le sélecteur de concepts reçoit la requête brute de l’utilisateur, interroge la ressource linguistique et regarde si la requête correspond à un élément de la ressource linguistique. Dans le cas négatif, la requête est transmise directement au collecteur d’images et les résultats affichés sont identiques à ceux de Google Images. Les deux fonctionnalités principales de ce module visent la reformulation de la requête et la proposition de termes proches. Comme nous l’avons expliqué dans la sous-section 3.3.2.1, la reformulation consiste à utiliser des sous-types feuilles du concept courant afin de rechercher des photographies représentatives. Si besoin, nous utilisons également le regroupement des termes dans des synsets pour enrichir l’ensemble des réponses. Par exemple, les images d’ours polaires peuvent être rassemblées en utilisant les synonymes suivants : ice bear, polar bear, Ursus Arctos Horibilis. La séparation des sens d’un terme dans WordNet facilite une procédure de désambiguı̈sation des requêtes courtes. Le sélecteur de concepts prend en compte la structure de la hiérarchie lexicale et, pour les termes ambigus, reformule les requêtes pour chaque sens d’un terme. La séparation des sens est réalisée via l’utilisation des hyponymes pour les termes ayant des héritiers et par l’expansion de la requête avec l’hypéronyme immédiat pour les termes feuille. Par exemple, une requête avec Angora sera reformulée en : Angora + rabbit, Angora + domestic goat, Angora + domestic cat. 5.1.2.5 Le collecteur d’images Le collecteur d’images est un script Perl qui reçoit en entrée les requêtes reformulées par le sélecteur de concepts et cherche des images correspondant à ces requêtes sur Internet. Comme nous l’avons expliqué plus haut, la première étape est de vérifier si les images associées à la requête existent dans le corpus local. Dans ce cas, nous ne lançons pas de collecte d’images via Google. S’il s’agit d’une nouvelle requête, le script interroge Google Images pour collecter un maximum de 300 images pour chaque concept feuille transmis par le sélecteur de concepts. Pour améliorer la vitesse d’exécution, une première requête vise à récupérer les images qui vont être affichées sur la première page de réponses. Après cet affichage, le 150 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES script collecte le reste des images. Des contraintes liées à la surcharge du serveur source conduisent à un temps de collecte total d’environ dix secondes à partir d’une connexion de 1Mbps. Ces performances sont obtenues en récupérant les vignettes d’images affichées par Google et non pas les images des sites d’origine. La collecte est bien plus rapide en utilisant les vignettes et, en plus, nous évitons le risque de suivre des liens cassés associés aux sites indexés par le moteur de recherche. 5.1.2.6 PIRIA La fonction de recherche par le contenu est réalisée en intégrant PIRIA. Ce système permet l’indexation et la recherche d’images en utilisant une indexation de bas niveau basée sur une série de descripteurs globaux ou locaux du contenu visuel. Dans Olive, nous avons choisi d’indexer les images en utilisant le Local Edge Pattern (LEP) [20], un descripteur global prenant en compte la texture et la couleur. La grande variété d’images à indexer nous a incités à utiliser un descripteur combinant ces deux propriétés qui donne des résultats intéressants sur des corpus d’images variées [99]. Certes, il aurait été possible de comparer plusieurs descripteurs ou d’essayer d’adapter le descripteur au type de concept représenté. Cela aurait demandé une charge de travail importante et dépassant le cadre de notre étude. Notre approche vise plutôt à montrer comment combiner la recherche par mots-clef et celle par le contenu et non pas à fournir une évaluation comparative des descripteurs de bas niveau. 5.1.2.7 L’interface d’Olive Nous illustrons l’interface d’Olive (figure 5.2) avec la requête duck. Les principales composantes de notre interface sont : – la zone de présentation des images ; – la barre de recherche textuelle ; – la zone de présentation d’un voisinage conceptuel ; – la boı̂te d’aide. L’interface est conçue afin d’orienter la navigation de l’utilisateur dans la structure conceptuelle de WordNet. La présentation du voisinage conceptuel permet d’actualiser les connaissances de l’utilisateur concernant les noms communs et de découvrir des nouveaux concepts de la hiérarchie de WordNet. Nous présentons, à titre de comparaison les résultats pour duck obtenus dans Ask (figure 5.3) et Google (figure 5.4). L’interface d’Olive est plus proche de celle d’Ask que de celle de Google notamment à cause de la proposition d’un ensemble structuré de requêtes proches. Nous avons comparé les performances du module de génération d’un voisinage conceptuel dans Olive et Ask et avons conclu que l’utilisation d’une structure conceptuelle construite manuellement rend des meilleurs résultats que la ressource lingustique utilisée par Ask. La présentation structurée des résultats constitue une différence importante entre notre application et les deux moteurs de recherche d’images. L’organisation conceptuelle des résultats sera comparée à une présentation non-structurée dans la sous-section 5.1.4. 5.1. OLIVE — RECHERCHE DE NOMS COMMUNS 151 Fig. 5.2 – Interface d’Olive présentant le résultat d’une requête avec duck. WordNet inclut plusieurs types de concepts et nous prenons en compte deux critères de séparation pour adapter la présentation des résultats dans Olive : – l’ambiguı̈té : si le terme demandé à plus d’un sens dans la hiérarchie lexicale, on présente les images associées au premier sens, considéré comme sens de base du mot. La polysémie est gérée par la proposition d’un lien vers une page incluant plusieurs sens du terme ou, alternativement, des liens individuels vers les sens secondaires attachés au concept. Le traitement de l’ambiguı̈té est une autre caractéristique séparant Olive d’autres moteurs de recherche d’images existants. Il permet à l’utilisateur de sélectionner le sens du mot l’intéressant à un moment donné. – l’existence d’héritiers dans la hiérarchie : si le terme demandé possède des héritiers, il sera représenté par leur intermédiaire. Pour les termes feuille, Olive propose simplement une reformulation visant à lever l’éventuelle ambiguı̈té du concept. 152 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES Fig. 5.3 – Résultats d’une requête avec duck dans Ask (Mai 2008). Fig. 5.4 – Résultats d’une requête avec duck dans Google (Mai 2008). 5.1.3 Exemple d’utilisation Nous illustrons le fonctionnement d’Olive avec un exemple d’utilisation incluant des requêtes textuelles et une requête image. Gardons notre premier exemple de requête et 5.1. OLIVE — RECHERCHE DE NOMS COMMUNS 153 supposons que l’utilisateur demande de voir des images pour duck. Le système retourne en première page les résultats de la figure 5.2. La deuxième page de réponses pour duck (partiellement représentée dans la figure 5.5) contiendra des résultats pour d’autres soustypes. Fig. 5.5 – Une partie de la deuxième page de réponses pour duck dans Olive. Notons qu’il y a une différence importante entre la navigation proposée par Olive réalisée dans l’espace conceptuel de la requête et celle proposée par les moteurs actuels dans lesquels les réponses sont seulement ordonnées en fonction de leur pertinence par rapport à la demande initiale (dans le cas de Google par Page Rank et à venir par Visual Rank [63]). Si on veut restreindre la requête initiale, on peut demander à ne voir que les images de teal (teal, le « canard Sarcelle » en français, figure 5.6). Teal a deux sens dans WordNet (la couleur turquoise et le canard) et le système propose, dans le contexte donné, des résultats correspondant uniquement au deuxième sens (canard). Alternativement, à partir de la deuxième page de réponses pour duck, on peut demander de voir des images pour une espèce particulière (feuille de WordNet), comme 154 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES Fig. 5.6 – Page de résultats pour teal dans Olive. canvasback (figure 5.7) et de lancer une recherche par le contenu parmi les images de cette classe (figure 5.8). 5.1. OLIVE — RECHERCHE DE NOMS COMMUNS 155 Fig. 5.7 – Page de réponses pour canvasback dans Olive. Fig. 5.8 – Page de réponses pour une requête CBIR avec une image de canvasback dans Olive. 156 5.1.4 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES Évaluation d’Olive Nous évaluons différentes parties d’Olive et le système dans sa globalité par rapport à des systèmes existants. Une première partie de la validation a été présentée dans la section 4.1.1, où nous avons comparé le module de proposition de requêtes proches d’Olive à celui d’Ask. Nous évaluons d’abord la précision des résultats obtenus en utilisant notre reformulation des requêtes contre celle de Google Images (choisi comme système de référence) et une évaluation du module CBIR. Nous présentons ensuite un test d’utilisation du prototype fonctionnel effectué sur un panel de dix utilisateurs. 5.1.4.1 Précision des résultats Nous avons effectué deux évaluations de la précision : pour les requêtes textuelles et pour les requêtes par images exemples. Dans chaque cas, nous avons proposé 20 requêtes couvrant différents domaines conceptuels aux utilisateurs et nous leur avons demandé de sélectionner les images retournées par le système qui sont représentatives de la requête. La comparaison entre les résultats d’Olive et ceux de Google a été effectuée dans une même interface, les testeurs n’ayant aucune information concernant l’identité des systèmes comparés. Requêtes textuelles La représentativité des images est difficile à évaluer en dehors d’un contexte. Afin d’aider les utilisateurs, nous avons présenté le texte suivant sur la première page du test : Imaginez que vous êtes en train d’écrire un rapport sur un sujet (par exemple les chevaux) et que vous devez l’illustrer avec des images. Vous trouverez, sur chaque page, le nom du concept cible (accompagné d’un terme plus général aidant à le désambiguı̈ser) et des réponses retournées par le moteur de recherche. Cochez la case en dessous de l’image si vous la considérez comme étant représentative du concept recherché (vous l’utiliseriez en tant qu’illustration de votre rapport). Cette tâche est suffisamment générale pour ne pas biaiser les résultats et correspond à un usage classique des moteurs de recherche d’images [79]. Nous avons évalué la précision des 20 premiers résultats rendus par Olive et par Google Images. Le nombre d’images à évaluer est approximativement celui présenté sur la première page de résultats des moteurs de recherche d’images (la page la plus regardée par les utilisateurs — voir la section 3.1). Les concepts à évaluer (voir la figure 5.9) ont été choisis afin de couvrir un spectre relativement large de domaines. Pour Google, nous avons récupéré les 20 premières réponses associées à chaque requête. Pour Olive, les résultats présentés sont obtenus après reformulation en utilisant les concepts proches de WordNet. Dans la figure 5.9, nous présentons les résultats de la comparaison entre Olive et Google Images sur un panel de 20 concepts, moyennés sur l’ensemble des utilisateurs. Les résultats globaux indiquent un meilleur comportement de notre système par rapport 5.1. OLIVE — RECHERCHE DE NOMS COMMUNS 157 Fig. 5.9 – Comparaison de la précision pour 20 requêtes textuelles dans Olive et dans Google Images — vue par concepts. à Google Images (12,8/20 contre 11,2/20). Des meilleurs résultats sont obtenus dans 15 cas sur 20 et on observe des différences significatives pour dog, apple, cloud ou car. Inversement, nous trouvons une différence significative en faveur de Google pour rose, cactus ou bomb. Olive se comporte bien au niveau de classes générales comme les animaux, les concepts naturels et les artéfacts ; pour les plantes, les résultats sont plus partagés. Nous avons également étudié les résultats des deux systèmes en considérant séparément chaque utilisateur (figure 5.10). La précision obtenue dans Olive est supérieure à celle de Google Images pour tous les testeurs. Des différences significatives sont à signaler pour U1, U2, U4 et U5 ; la plus petite différence est rencontrée pour l’utilisateur U6. Notons les différences importantes entre les résultats individuels : pour U1, une précision de 15,7 pour Olive et 13,5 pour Google Images alors que pour U8 nous avons respectivement 6,7 et 6,2. Ces différences soulignent la faible stabilité de la précision et la nécessité de tester les systèmes sur des panels d’utilisateurs les plus représentatifs possibles. Les résultats présentés dans cette section indiquent que les performances de notre système dépassent celles de Google Images sur l’échantillon de concepts utilisé. Ils valident notre approche qui consiste à reformuler automatiquement des requêtes avec certains de leurs sous-concepts. Requêtes images Nous avons fait l’hypothèse qu’une recherche par contenu visuel dans des espaces conceptuellement cohérents est plus efficace qu’une recherche brute basée uniquement sur les caractéristiques de bas niveau. Pour tester cette hypothèse, nous avons sélectionné un sous-concept représentatif pour chaque classe de la figure 5.9. Pour chaque sousconcept (figure 5.11), nous avons téléchargé 500 images afin de tester la recherche par le 158 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES Fig. 5.10 – Comparaison de la précision pour 20 requêtes textuelles dans Olive et dans Google Images — utilisateurs individuels. contenu dans des régions limitées du corpus d’images. Pour le CBIR classique, la base d’évaluation contient, en plus de toutes les images pour les feuilles de WordNet testées, environ 30000 images associées à 300 autres concepts feuilles de la hiérarchie. Toutes les images ont été indexées par le descripteur LEP (texture, couleur). Nous avons sélectionné une image de la première page de réponses pour chaque concept feuille et nous avons recherché les éléments les plus similaires parmi les photographies associées à la même classe (Olive dans la figure 5.11) et dans toute la base d’évaluation (CBIR classique dans 5.11). De même, pour se fixer un contexte, nous avons donné la consigne suivante aux utilisateurs : Imaginez que vous êtes en train d’écrire un rapport sur un sujet (par exemple les chevaux) et que vous devez l’illustrer avec des images. Vous trouverez, sur chaque page, une image exemple représentative du sujet de votre rapport et des réponses considérées comme similaires par le moteur de recherche d’images. Supposez que vous avez trouvé une image qui vous plaı̂t (l’« image exemple ») pour illustrer votre rapport, mais vous voulez voir si le corpus contient des photographies similaires à cet exemple. Cochez la case en dessous des images si vous les considérez similaires à l’image exemple (est-ce qu’elles pourraient la remplacer en tant qu’illustration de votre rapport ?). Afin de faciliter la tâche des participants, nous avons étudié la précision des dix premiers résultats rendus par le moteur de recherche. 5.1. OLIVE — RECHERCHE DE NOMS COMMUNS 159 Fig. 5.11 – Comparaison de la précision pour des résultats pour 20 requêtes images dans Olive et pour un CBIR classique — vue par concepts. Les résultats de la figure 5.11, qui sont moyennés sur l’ensemble des participants, montrent qu’il y a une différence très significative entre les performances d’Olive et celle d’un système CBIR classique (PIRIA). Globalement, la précision à 10 (P@10) est de 5,2 pour Olive et de 0,6 pour le CBIR classique. La recherche par le contenu visuel est réalisée sur un échantillon de seulement 40000 images. Pour Olive, la taille du corpus de test n’affecterait significativement pas les résultats puisque la recherche se réalise à l’intérieur d’espaces conceptuellement cohérents. Dans des cas comme doberman, saguaro ou jeep, le CBIR classique ne rend aucun résultat similaire à la requête. Pour ces mêmes requêtes, la précision dans Olive dépasse 40%. Sur l’ensemble des images et des testeurs (160 pages de réponses présentées), les participants n’ont trouvé aucune réponse similaire à l’image requête dans seulement six situations. Nous présentons, dans la figure 5.12, une vue des performances en fonction de chaque utilisateur. Similairement à la recherche textuelle, il y a des différences notables entre les participants, témoignant aussi de la subjectivité naturelle de la tâche. La différence globale entre les deux méthodes de recherche par le contenu visuel est bien reflétée au niveau de chaque utilisateur. La méthode de recherche par images exemples proposée dans Olive est simple et efficace car elle n’implique qu’une reformulation des requêtes textuelles et une indexation des images du corpus. Elle constitue une bonne solution pour introduire une recherche par similarité dans les moteurs de recherche d’images sur Internet car les résultats renvoyés par le système rendent compte de la notion de similarité propre aux utilisateurs. En même temps, l’utilisation de l’information textuelle pour limiter l’espace de recherche résout en partie le problème de mise à l’échelle des systèmes CBIR. 160 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES Fig. 5.12 – Comparaison de la précision pour 20 requêtes images dans Olive et pour un CBIR classique — vue utilisateurs. 5.1.4.2 Test utilisateurs [136] montre qu’il y a des différences notables entre les performances des systèmes estimées par des métriques comme la précision et celles perçues par des utilisateurs. Nous avons mis en place un test utilisateurs afin de comparer Olive et Google Images. Nous avons demandé à un panel de dix utilisateurs de tester notre application afin d’évaluer quelques unes de ses caractéristiques. Chaque participant a commencé par tester une série de concepts imposés (duck, angora, apple, car, rock ), pour continuer avec une exploration libre d’Olive. Pour chaque page d’Olive, nous avons demandé aux utilisateurs de regarder les résultats correspondants dans Google Images. Le test s’achevait par un questionnaire comprenant une série de questions imposées et une partie où les participants étaient libres de s’exprimer à propos de leurs expériences en tant qu’utilisateur. Les questions imposées (tableau 5.1) sont soit générales (QG), soit relatives au module de génération de requêtes proches (QR). Les questions générales comparent Olive à Google Images et évaluent des options de notre système n’existant pas dans Google. Nous avons adapté les réponses en conséquence : – Pour QG1 et QG2 nous avons utilisé une échelle de 1 à 5 : 1 indiquant une préférence forte pour Google et 5 pour Olive. – Pour QG3, QG4 et QG6 nous avons demandé une réponse binaire : Oui ou Non. – Pour QG5, les utilisateurs avaient à choisir entre une présentation groupée des images pour les termes ambigus (Non dans le tableau 5.2(b)) ou une présentation dans des classes différentes (Oui dans le tableau 5.2(b)). – Pour QR1 — QR4 nous avons proposé une échelle de 1 à 4 : 1 pour un manque de pertinence et 4 pour une forte pertinence des requêtes proches. Les réponses à QG1 (tableau 5.2(a)) montrent que les testeurs trouvent que les réponses présentées dans Olive sont plus pertinentes que celles de Google Images, avec 5.1. OLIVE — RECHERCHE DE NOMS COMMUNS 161 Tab. 5.1 – Questions imposées dans le test d’interactivité. QG1 QG2 QG3 QG4 QG5 QG6 QR1 QR2 QR3 QR4 Veuillez noter la qualité globale des résultats dans Olive et Google Images. Vous avez observé que les résultats d’Olive sont structurés. Notez votre préférence entre Olive et Google Images. Trouvez-vous l’utilisation d’Olive intuitive ? Olive propose une reformulation automatique des requêtes. Trouvez-vous satisfaisantes les réponses du système dans cette configuration ? Il existe des mots ambigus. Veuillez indiquer votre préférence concernant la présentation des réponses d’un moteur de recherche d’image pour ces mots. Olive propose certaines possibilités d’interaction. Considérez-vous utile la mise en place d’une interaction enrichie ? Notez la pertinence globale des requêtes proches présentées dans Olive. Notez la pertinence des termes plus spécifiques proposés dans Olive. Notez la pertinence des termes du même niveau proposés dans Olive. Notez la pertinence des termes plus généraux proposés dans Olive. une préférence assez marquée pour le premier système (4,5/5). Ce résultat, obtenu pour une exploration combinant des concepts imposés et des requêtes choisies par les utilisateurs, renforce les conclusions de la sous-section 5.1.4.1. Il montre aussi que la procédure de reformulation automatique des requêtes en utilisant des sous-concepts est bénéfique en recherche d’images sur Internet. Les réponses à QG2, concernant la structuration conceptuelle des résultats, indiquent une préférence pour la présentation structurée et viennent s’ajouter aux réponses à QG1 pour montrer que l’introduction d’une structure conceptuelle en recherche d’images est utile. Un seul utilisateur sur les dix testeurs a déclaré préférer la présentation des résultats sous forme de liste non-structurée. Les résultats obtenus pour les autres questions générales (tableau 5.2(b)) indiquent de bonnes performances de notre système. L’utilisation d’Olive est jugée intuitive (QG3) alors qu’aucun des participants n’avait utilisé le système au préalable. À une exception près, la reformulation automatique est jugée satisfaisante (QG4). Il serait préférable de présenter les réponses à des requêtes ambiguës dans des classes de réponses séparées (QG5) et de proposer aux utilisateurs plus de moyens d’interaction avec le système (QG6). 162 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES Tab. 5.2 – Résultats du test utilisateurs évaluant Olive. L’évaluation a été menée avec dix utilisateurs. (a) QG1 QG2 Moyenne 4,5 4 (b) Ecart type 0,71 0,94 QG3 QG4 QG5 QG6 Oui 10 9 9 10 (c) Non 0 1 1 0 QR1 QR2 QR2 QR2 Moyenne 3 3,1 2,9 2,9 Ecart type 0 0,74 0,57 0,87 Les performances du module de génération de requêtes proches ont été jugées assez satisfaisantes (tableau 5.2(c)). Concernant le type de requêtes proches à présenter, les utilisateurs ont eu une faible préférence pour les requêtes plus spécifiques (QR2) par rapport à la présentation de termes de même niveau (QR3) ou plus généraux (QR4). Ce résultat était attendu car les concepts plus spécifiques facilitent une focalisation de la requête mais nous nous attendions à trouver une préférence plus importante. Fort heureusement, les utilisateurs ont exprimé un nombre important d’idées concernant l’amélioration d’Olive dans la partie d’expression libre. Nous synthétisons celles qui sont apparues le plus fréquemment : – Extension de la hiérarchie afin d’inclure plus de noms propres : WordNet ne contient qu’un nombre réduit d’instances et les testeurs ont essayé de retrouver des noms de personnes connues n’appartenant pas à la hiérarchie lexicale. Les requêtes avec des noms de personnes connues constituent une partie importante des recherches d’images sur Internet (section 3.1). Nous présentons une application dédiée dans la section 5.3. – Représentativité des requêtes proches : l’algorithme de présentation de requêtes proches obtient des performances généralement bonnes mais il existe des cas où les utilisateurs jugent que le résumé du voisinage conceptuel n’est pas suffisamment pertinent. – Séparation des images suivant le type de représentation (photographie, clipart, cartes, peintures) : [89] présente une solution intéressante à ce problème basée sur un apprentissage supervisé (SVM) mais nous n’avons pas encore intégré ce module dans l’architecture d’Olive (voir la section 5.5). – Proposition d’une vue type graphe des classes proches : tout comme pour la présentation des images résultats, certains utilisateurs trouvent qu’une présentation structurée hiérarchiquement des requêtes proches serait plus adaptée que la présentation actuelle comprenant trois grandes classes de termes proches. 5.1.5 Discussion et conclusions Les résultats présentés dans cette sous-section et dans la précédente confirment la validité de notre approche de recherche d’images en exploitant une hiérarchie conceptuelle à large échelle. Nous avons évalué les principaux modules du système mis en place 5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES 163 par rapport à un système existant (Google Images). Les tests montrent les très bonnes performances de notre système. Les résultats présentés sont en accord avec ceux décrits dans [79] et [142] pour la structuration des résultats et avec les conclusions de [146] et [140] sur l’utilité d’une structure conceptuelle en recherche d’images. La précision des réponses sur le panel de concepts retenus est supérieure à Google Images, chaque utilisateur favorisant Olive. Comme les requêtes appartiennent à des domaines conceptuels différents, on peut raisonnablement supposer que les résultats obtenus sont généralisables. Concernant la fonctionnalité de recherche par le contenu, notre solution, qui restreint l’espace de recherche à des régions délimitées par les mêmes concepts, s’avère plus adaptée que la recherche classique sans prise en compte du voisinage conceptuel. Parallèlement à une amélioration très nette de la précision des résultats, la limitation de l’espace de recherche réduit drastiquement les temps de calcul du processus CBIR et permet d’envisager des passages à de plus larges échelles [63]. L’évaluation du système montre que les utilisateurs préfèrent, majoritairement, la présentation des résultats dans Olive à celle de Google Images. L’amélioration de la précision des résultats se reflète également dans le jugement global réalisé par les utilisateurs et la structuration conceptuelle des résultats est perçue comme bénéfique. L’enrichissement de l’interactivité, sans que l’utilisateur ressente une perte de contrôle par rapport à Google Images, s’avère utile car il permet une exploration aisée de vastes espaces conceptuels. La proposition de requêtes proches a été testée de manière plus détaillée dans la section 4.1.1, où nous avons montré que les résultats obtenus en utilisant WordNet sont de meilleure qualité que ceux obtenus dans Ask, à notre connaissance le seul moteur actuel de recherche d’images proposant une structuration des requêtes proches. Une perspective intéressante serait de répéter les expériences à une plus large échelle mais cela représentait une charge de travail trop importante qui excédait le temps et les moyens impartis pour cette thèse. 5.2 ThemExplorer — recherche d’entités géographiques Dans cette section, nous présentons ThemExplorer, une application permettant de visualiser des photographies associées au domaine géographique. Comme pour Olive, nous utilisons conjointement une ressource linguistique et des techniques de traitement d’images pour proposer une méthode efficace de recherche d’images géo-référencées. L’application est construite autour du thésaurus géographique décrit dans la section 4.2 et de Geonames et propose une recherche thématique parmi les objets géographiques. Nous commençons la présentation de ThemExplorer par décrire la modélisation des données, puis nous détaillons l’architecture du système. Nous décrivons un exemple d’utilisation et, pour finir, nous décrivons une série de tests validant notre approche. 5.2.1 Modélisation des données Nous présentons ici un modèle formel des données textuelles exploitées dans ThemExplorer, dérivé de celui du thésaurus géographique enrichi automatiquement (section 4.2) 164 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES et un autre modèle pour les images représentant une entité géographique. La définition d’un objet géographique dans ThemExplorer est donnée par l’équation 5.3 : ObjetGeographique = (nom, classeP arent, coordonneesObjet, pertinenceObjet) (5.3) Où : – nom : terme désignant l’objet géographique. Par exemple : Louvre ou Cathedral of Learning. – classeP arent : membre du vocabulaire géographique, représentant l’hypéronyme de chaque nom géographique. Pour les exemples précédents : museum et tower. – coordonneesObjet : elles précisent la position spatiale de l’objet par l’intermédiaire du couple (latitude, longitude). – pertinenceObjet : la valeur de pertinence associée à chaque objet géographique. Elle est extraite en utilisant une mesure statistique sur un corpus spécialisé (Panoramio) et sur un corpus généraliste (Alltheweb) et permet d’ordonner les objets géographiques. Le vecteur 5.3 est une extension de la définition minimale d’un concept inclus dans un thésaurus géographique donnée dans [50] en ajoutant une valeur de pertinence pour chaque entité. Les différents éléments de la définition d’une entité géographique permettent sa caractérisation unique au sein du thésaurus et offrent la possibilité de bâtir une application de recherche d’information plus interactive et mieux structurée que les systèmes existants, comme World Explorer2 [1] ou Flickr Map3 . Les photographies utilisées dans ThemExplorer sont représentées par 5.4 : Image = (nom, index, coordonneesImage, pertinenceImage) (5.4) Où : – nom : idem à 5.3. – index : représentation vectorielle du contenu de l’image utilisant des descripteurs de bas niveau. – coordonneesImage : coordonnées géographiques de chaque image. – pertinenceImage : la position de chaque photographie dans l’ensemble de réponses hérité du moteur de recherche exploité. Les informations dans l’équation 5.4 fournissent une description complexe de l’image, incluant le concept représenté dans l’image par l’intermédiaire de nom, le point de vue à partir duquel la photographie a été prise (coordonneesImage), la popularité de l’image parmi les images géo-référencées autour de l’entité cible (pertinenceImage) et une description de bas niveau du contenu (index ). Ahern [1] ou Kennedy [73] ont montré la pertinence de l’information de localisation pour la recherche d’images géographiques. De plus, nous faisons une liaison entre chaque image et les thématiques déterminées par les classes du vocabulaire géographique. 2 3 http ://tagmaps.research.yahoo.com/worldexplorer.php http ://flickr.com/map 5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES 165 La description du contenu par des caractéristiques de bas niveau (index ) est appliquée aussi bien aux images d’Olive qu’à celles de ThemExplorer. Cependant, il existe une différence importante entre les deux vecteurs. Dans le second cas, nous avons jugé utile d’enrichir la description du contenu des images géo-référencées en ajoutant un descripteur local basé sur des points d’intérêt et le descripteur SIFT. La fusion des descripteurs globaux et locaux est validée par l’amélioration des performances (voir 5.2.5 pour des détails). Les informations présentées dans les équations 5.3 et 5.4 déterminent un modèle de données plus riche que celui inclus dans des applications comme World Explorer [1] ou Panoramio. Elles permettent la proposition d’une architecture de recherche d’images géoréférencées complète et facilitent une interaction riche et plus intuitive entre le système et les utilisateurs. Outre la richesse du thésaurus, les principales nouveautés par rapport aux applications existantes viennent de la possibilité d’une navigation thématique et de la proposition d’une recherche basée sur le contenu visuel des images. Fig. 5.13 – Architecture d’un système de recherche d’images d’objets géographiques. Les bases de données sont représentées sous forme de rectangles, les composants actifs par des rectangles arrondis et les requêtes par des ellipses. 5.2.2 Architecture de ThemExplorer La figure 5.13 présente l’architecture d’un système de recherche d’images pour les objets géographiques. Cette architecture est un cas particulier de l’architecture générique basée sur des ressources linguistiques décrite dans la sous-section 3.3.3. La ressource linguistique est la version de Geonames enrichie automatiquement avec les noms géographiques composant Gazetiki et est utilisée pour traiter les requêtes textuelles. Comme pour Olive, nous utilisons PIRIA pour indexer le contenu des images et réaliser la rechercher par similarité visuelle. Le corpus photographique constitue une co- 166 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES pie locale d’une partie de l’ensemble d’images géo-référencées dans Flickr. Quand un objet n’est pas représenté par un nombre suffisant d’images géo-référencées, nous ajoutons des images provenant de Flickr non géo-référencées. S’il n’y a toujours pas assez de photographies, nous complétons avec des images de Google Images. L’ordre de présentation des images (Flickr géo-référencé, Flickr puis Google Images) est justifié par le niveau de précision de ces corpus. 5.2.2.1 L’interaction dans ThemExplorer Dans ThemExplorer, l’utilisateur peut formuler des requêtes textuelles et des requêtes par images exemples, ces dernières étant limitées à des espaces de recherches restreints par les requêtes textuelles initiales. Une différence importante entre ThemExplorer et Olive tient dans le fait que la formulation des requêtes textuelles dans ThemExplorer est réalisée à l’intérieur d’un ensemble fermé, par l’intermédiaire d’une carte affichant des tags tandis que l’utilisateur d’Olive peut formuler librement sa requête. Le rôle du sélecteur de concepts de ThemExplorer commence dès qu’une région de la carte et une série de thèmes de recherche ont été sélectionnées. Quand un tag est choisi par l’utilisateur, le sélecteur de concepts extrait les informations associées à celui-ci (le nom, la position géographique et la classe parent) qui sont transmises au collecteur d’images. Le collecteur d’images vérifie si l’objet géographique est déjà représenté dans le corpus local. Si ce n’est pas le cas, des photographies représentatives sont recherchées d’abord sur Flickr puis dans Google Images. Toutes les images du corpus local sont indexées en fusionnant le descripteur LEP et celui basé sur les points d’intérêt. Chaque image affichée peut constituer le point de départ d’une requête visuelle. Si une telle recherche est amorcée, le contenu de la photographie choisie est comparé à la description de bas niveau de toutes les autres images associées au même nom géographique du thésaurus. 5.2.2.2 Le thésaurus géographique Le thésaurus géographique est constitué par la fusion de la version adaptée de Geonames et de Gazetiki (voir les sections 4.1.2 et 4.2 pour des détails). Chaque nom géographique est renseigné pour être placé précisément sur une carte et être associé à des concepts plus généraux du domaine géographique. Si un objet géographique apparaı̂t dans les deux ressources, une préférence est accordé à Geonames puisque ce thésaurus est constitué manuellement et donc moins sujet aux erreurs. La base de données finale contient un nombre total d’environ quatre millions d’entités géographiques qu’il est possible d’afficher sur une carte. 5.2.2.3 Le corpus d’images local La base d’images locale est une copie partielle du corpus de Flickr et de Google Images. Les images de Flickr sont préférées à celles de Google Images car elles sont plus représentatives et plus facilement récupérables (et généralement sous des formats de 5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES 167 meilleure qualité). L’addition d’une information de localisation dans les requêtes améliore la précision des résultats [1], [73]. La formulation des requêtes est expliquée plus en détail dans la sous-section 5.2.2.5. En théorie, il est possible de récupérer toutes les images de Flickr correspondant à un tag donné mais, afin d’améliorer le temps d’exécution, nous limitons la collecte d’images à environ 300 éléments. Notons qu’il existe d’autres corpus d’images géo-référencées disponibles, comme Panoramio, mais ce dernier se prête mal à une utilisation interactive à partir d’une interrogation par tags. En effet, l’API de Panoramio ne permet pas une limitation de l’espace de recherche en fonction de l’information textuelle associée aux images. Avec Panoramio, la récupération des images pour une région et un tag donnés comporte deux étapes : 1. le téléchargement de tous les titres des photographies de la région et 2. la sélection des images avec le tag question. Ce processus en deux temps devient beaucoup trop fastidieux si l’on considère des régions autour d’objets bien représentés dans la base. De plus, avec plus de 50 millions d’images géo-référencées, la couverture du corpus Flickr est significativement plus importante que celle de Panoramio, qui contient environ cinq millions de photographies. 5.2.2.4 Le sélecteur de concepts Le rôle du sélecteur de concepts est double puisqu’il intervient aussi bien dans la sélection des noms géographiques associés à une région et à un thème donnés que dans le choix d’un tag. La structure du thésaurus géographique permet une double sélection des noms géographiques : par rapport à leur position dans l’espace (définie par la relation de méronymie entre un tag et une région de la carte) et par rapport à l’appartenance à une classe parent du domaine géographique (définie comme une relation d’héritage conceptuel). Les deux types de limitation de l’espace de recherche se traduisent par la sélection d’une partie de la carte et d’une série de thèmes d’intérêt. Par exemple, si on se place sur le centre de Paris et que l’on sélectionne des ponts et des musées, ThemExplorer affiche des tags comme Pont Alexandre III, Pont des Arts, Pont Neuf, Louvre, Musée d’Orsay, Centre Georges Pompidou, Musée Rodin etc. (voir la figure 5.14). 5.2.2.5 Le collecteur d’images Le collecteur d’images reçoit la liste de requêtes reformulées de la part du sélecteur de concepts et cherche à trouver des images correspondantes. Tout d’abord, le script vérifie si la requête a déjà été proposée et si des images de cette entité existent déjà dans le corpus local. Si c’est le cas, elles sont affichées immédiatement dans l’interface. Dans le cas contraire, il s’agit d’un nouveau concept et le collecteur lance plusieurs requêtes dans les corpus d’images du Web, selon l’ordre suivant : – tag + région autour des coordonnées de l’objet, dans Flickr ; – tag + classe parent, dans Flickr ; – tag + classe parent, dans Google ; – tag, dans Flickr ; 168 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES Fig. 5.14 – Ponts et musées au centre de Paris dans ThemExplorer. – tag, dans Google. En ne retenant que 300 photographies pour chaque entité, il n’est pas nécessaire de lancer toutes les requêtes. Pour les objets connus, comme Eiffel Tower, nous obtenons habituellement assez d’images en n’utilisant que le premier type de reformulation. Des études comme [73] ou [72] montrent que la quantité d’images non pertinentes pour les requêtes géographiques atteint 50% dans Flickr. L’utilisation des coordonnées géographiques réduit significativement le niveau de bruit mais beaucoup d’objets géographiques sont faiblement représentées par des images géo-référencées. Néanmoins, avec la croissance rapide de Flickr, notamment pour les données géo-référencées, nous pouvons espérer à une meilleure couverture de l’espace des images géographiques. Le thésaurus géographique est structuré par la relation d’héritage conceptuel et nous pouvons reformuler la requête initiale (par exemple Notre Dame) en utilisant la classe parent (Notre Dame + cathedral ). Ce choix de reformulation se base sur une hypothèse simple : il y a moins de chances qu’un utilisateur ait annoté de manière erronée une image avec Notre Dame et cathedral qu’avec Notre Dame seulement. Si on ne trouve pas assez d’images annotées avec l’objet et son type, nous formulons des requêtes portant seulement sur le nom de l’entité. 5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES 169 La préférence pour le corpus de Flickr s’explique par sa meilleure précision pour le type d’images demandées. La plateforme Flickr permet une interrogation en mixant les tags et les coordonnées géographiques. De plus, elle contient un nombre important de photographies touristiques qui sont potentiellement très intéressantes pour notre application. Google Images est un corpus plus généraliste (et donc plus bruité) que Flickr et s’avère utile pour enrichir l’ensemble des résultats pour des entités moins connues et donc moins bien représentées dans Flickr. 5.2.2.6 PIRIA L’indexation des images est faite en exploitant des descripteurs globaux et locaux de PIRIA. La caractérisation globale de la photographie est réalisée en utilisant LEP, le même descripteur que dans Olive (présenté plus en détail dans 2.1.2.2). Les objets géographiques sont généralement rigides et peuvent être efficacement décrits par des approches locales par points d’intérêts. Nous utilisons une approche dite par « sacs de mots visuels » (« bags of features » ou « bags of visual word ») [26] (voir aussi 2.1.2.2). Afin de calculer un vocabulaire de 5000 mots visuels, nous avons utilisé un jeu de données comprenant 5000 images de Flickr, pour lesquelles nous avons extrait au maximum 1000 points d’intérêts (Harris-Laplace). Une version parallélisée de K-means4 a été exploitée pour créer le vocabulaire. Nous avons lancé plusieurs K-Means avec différentes initialisations (aléatoires) et nous avons sélectionné la partition la plus proche d’une partition optimale selon un critère tenant compte de la distance intra- et inter-clusters. La distance finale entre deux images dans ThemExplorer est obtenue par la combinaison de celle obtenue en utilisant les descripteurs globaux et celle obtenue en employant les descripteurs locaux, sans pondération privilégiant l’une ou l’autre des composantes. 5.2.2.7 L’interface de ThemExplorer La figure 5.15, relie les actions des utilisateurs aux éléments actifs et aux bases de données de l’architecture du système. Nous illustrons l’interface de ThemExplorer dans le cas d’une requête avec le Golden Gate Bridge de San Francisco. Les principales composantes de l’interface de ThemExplorer sont : – Une carte interactive : cette carte est librement proposée par Yahoo !5 . Sa principale particularité par rapport à d’autres interfaces de ce type est qu’elle permet l’affichage de tags, une propriété qui la rend très utile pour des tâches de recherche d’information multimédia. L’affichage de tags s’avère en effet plus efficace que l’affichage, souvent peu visible, de petites vignettes proposé dans d’autres applications (comme Panoramio ou Google Earth). – Un arbre de concepts géographiques : les concepts présentés dans la zone centrale de l’interface reprennent la structure hiérarchique du thésaurus et facilitent une navigation thématique dans la ressource. Dans la figure 5.15, nous présentons le 4 5 http ://www.ece.northwestern.edu/%7Ewkliao/Kmeans/index.html http ://tagmaps.research.yahoo.com/ 170 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES Fig. 5.15 – Interface de ThemExplorer présentant les résultats d’une requête avec Golden Gate Bridge, à San Francisco. cas d’une sélection de plusieurs types d’artéfacts faisant apparaı̂tre sur la carte les tags les plus représentatifs correspondant aux concepts géographiques d’intérêt. – La zone d’affichage d’images associées à la requête : les photographies récupérées à partir de Flickr et Google Images sont affichées dans un format classique de moteur de recherche d’images. L’interface est construite afin d’exploiter la structure de données géographiques décrite dans la sous-section 5.2.1 et de permettre à l’utilisateur d’explorer facilement le contenu du thésaurus géographique à large échelle inclus dans l’architecture de ThemExplorer. Nous présentons, à titre comparatif, l’interface de World Explorer (5.16), une application de recherche d’images géographiques développée par Yahoo ! qui nous a inspiré pour la construction de notre système. 5.2.3 Comparaison de ThemExplorer et World Explorer Les interfaces de ThemExplorer (figure 5.15) et de World Explorer (figure 5.16) utilisent la même carte interactive permettant d’afficher des tags géo-localisés. Dans les deux cas, les images représentatives proviennent de Flickr. Il y a toutefois deux différences importantes : – Le degré de structuration de la base de données géographiques est supérieur dans ThemExplorer puisqu’on ajoute une information liée à la catégorie des entités. Dans la figure 5.15, la restriction thématique porte sur des classes d’objets artificiels (bridge, building, museum ...). L’utilisateur peut naviguer facilement dans l’arbre de concepts géographiques et définir ainsi ses centres d’intérêts. Par ailleurs, 5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES 171 Fig. 5.16 – Interface de World Explorer (Yahoo !) présentant les résultats d’une requête avec Golden Gate Bridge, à San Francisco. nous avons privilégié la présentation des noms géographiques spécifiques car les images représentant ces entités forment des classes conceptuellement et visuellement compactes. – La fonctionnalité de recherche d’images par similarité visuelle n’existe pas dans World Explorer. Elle est introduite dans notre système et porte sur les photographies d’un même objet géographique. Ce dernier point mérite d’être souligné puisque nous augmentons la possibilité de retrouver des réponses à la fois visuellement et conceptuellement similaires. Il y a beaucoup plus de chances de retrouver (par le contenu) des images représentant la Tour Eiffel dans un ensemble d’images annotées avec ce terme que dans un autre, plus large, correspondant à Paris ou à France. De plus, la restriction de l’espace de recherche à des objets spécifiques permet de s’affranchir de certains problèmes de temps de traitement qui handicapent les technologies de recherche par le contenu. Notre seule hypothèse est que l’utilisateur désire naviguer dans un espace conceptuellement cohérent : nous supposons donc qu’il s’attend à voir des photographies de la Tour Eiffel en réponse à une requête image avec la Tour Eiffel et non pas d’images d’autres monuments de Paris. La comparaison des deux systèmes de recherche d’images géographiques est reprise dans la section traitant de l’évaluation. 172 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES 5.2.4 Exemple d’utilisation Supposons qu’un utilisateur désire voir des images représentatives pour toutes les catégories géographiques de Gazetiki, à partir de la carte centrée sur l’Europe (figure 5.17). Fig. 5.17 – Noms géographiques les plus représentatifs dans ThemExplorer, avec la carte centrée sur l’Europe. Le tag sélectionné est la Tour Eiffel. Les tags présentés dans la figure 5.17 sont des entités géographiques généralement connues et appartiennent à une grande variété de catégories. Il y a des ponts (Tower Bridge, Ponte Vecchio), des édifices réligieux (Sagrada Familia) ou des ı̂les (Capri, Santorini ). Dans la figure 5.18, nous avons demandé de voir uniquement les ponts de la région de San Francisco. Cette requête illustre la double restriction, conceptuelle et spatiale, de l’espace de recherche. L’image de Golden Gate Bridge encadrée en rouge est l’image requête pour la recherche par le contenu, les photographies les plus proches étant affichées à la suite. 5.2.5 Évaluation de ThemExplorer Nous avons effectué trois expériences : – La première évaluation compare la limitation de l’espace de recherche en utilisant uniquement des mots-clef et en ajoutant une restriction spatiale. – La seconde évalue les descripteurs (et leur fusion) pour la recherche par le contenu. – La dernière compare ThemExplorer à World Explorer en situation d’utilisation réelle. 5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES 173 Fig. 5.18 – Présentation de noms géographiques de la catégorie bridge, dans la région de San Francisco. Une recherche par similarité visuelle est proposée pour une image de Golden Gate Bridge (encadrée en rouge). La structure linguistique intégrée dans ThemExplorer a été évaluée en détail dans la section 4.2 et nous avons montré que la ressource utilisée dans notre système est de meilleure qualité que celle exploitée par World Explorer. Des travaux en relation avec le notre ont aussi proposé des évaluations. [1] et [73] montrent que la qualité des réponses est améliorée quand on utilise conjointement des mots-clef et des coordonnées spatiales par rapport à la seule utilisation des mots-clef. Quant à la recherche par le contenu, [99] montre que la restriction spatiale de l’espace de recherche rend des résultats plus pertinents qu’une simple recherche par le contenu sur l’intégralité de la base. 5.2.5.1 Restriction de la recherche par le contenu Dans 5.1.4, nous avons montré que la réduction de l’espace de recherche pour le CBIR en utilisant des mots-clef améliore grandement les résultats du processus. [99] arrive à des conclusions similaires pour une limitation spatiale de la recherche d’images géo-référencées. Nous comparons ici une restriction spatiale de la recherche à une double limitation, par mots-clef et spatiale, de l’espace de recherche. Toutes les images ont été indexées avec LEP. Pour notre évaluation, nous avons demandé à six utilisateurs de tester les réponses du système sur un panel de 20 images requêtes représentant des monuments connus dans cinq grandes villes : San Francisco, Londres, Paris, Sydney et New York. Chaque objet est représenté par un maximum de 500 images obtenues à partir de Flickr et Google Images, avec une priorité donnée aux images géo-localisées. La métrique d’évaluation 174 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES est la précision à 10 (P@10). La tâche est relativement similaire à l’évaluation du CBIR dans 5.1.4. Au début de chaque test, nous présentons le texte suivant à l’évaluateur : Imaginez que vous êtes en train d’écrire un rapport sur un sujet (par exemple la Tour Eiffel) et que vous devez l’illustrer avec des images. Vous trouverez, sur chaque page, une image exemple représentative du sujet de votre rapport et des réponses considérées comme similaires par le moteur de recherche d’images. Supposez que vous avez trouvé une image qui vous plaı̂t (l’« image exemple ») pour illustrer le rapport, mais vous voulez voir si le corpus d’images contient des photographies similaires à cet exemple. Cochez la case en dessous des images si vous les considérez similaires à l’image exemple (est-ce qu’elles pourraient la remplacer en tant qu’illustration de votre rapport ?). Fig. 5.19 – Comparaison de la précision du CBIR pour une restriction spatiale de l’espace de recherche (SPATIAL) et pour une limitation spatiale et par mots-clef (SPATIAL+MOTS-CLEF). La restriction spatiale est évaluée en lançant le CBIR uniquement parmi les objets d’une même ville. Pour évaluer la restriction conceptuelle accompagnée d’une restriction spatiale, les images similaires sont recherchées uniquement parmi les photographies du même objet. Les résultats du test sont présentés dans la figure 5.19. Les résultats de la figure 5.19 montrent que le CBIR contraint avec les mots-clef et la localisation est plus efficace qu’une recherche par le contenu en n’utilisant que la localisation des images (51% contre 29%). À l’exception du cinquième utilisateur, la différence entre les deux méthodes est assez nette pour les autres évaluateurs. Pour la restriction 5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES 175 spatiale, nous avons utilisé un cas assez simple car la recherche est réalisée dans un corpus contenant uniquement cinq objets pour chaque ville. Dans des cas réels d’utilisation, l’écart de précision présenté dans la figure 5.19 serait probablement beaucoup plus prononcé. Fig. 5.20 – Précision en utilisant un descripteur global texture-couleur (LEP), un descripteur basé sur les sacs de mots visuels (BAG) et une fusion tardive des deux descripteurs. 5.2.5.2 Fusion des descripteurs en recherche par le contenu Après avoir étudié la limitation de l’espace de recherche, nous avons fait l’hypothèse qu’une fusion des descripteurs sera plus efficace que l’utilisation d’un seul descripteur. Pour tester cette hypothèse, nous avons sélectionné 20 images appartenant aux mêmes classes que celles de l’expérience précédente. Ces images ont été indexées en utilisant le descripteur LEP (approche globale) et les sacs de mots visuels (BAG — approche locale). La fusion des deux descripteurs est réalisée en combinant simplement les résultats de chaque descripteur. Nous avons demandé à six utilisateurs (U1 — U6) d’évaluer la précision à dix documents (P@10) pour chaque image de test. Les résultats du test sont présentés dans la figure 5.20. Les résultats de la figure 5.20 confirment ceux présentés dans la figure 5.19 et montrent que la recherche par contenu visuel dans des espaces conceptuellement cohérents permet d’obtenir de bons niveaux de précisions (0.7 en moyenne pour la fusion). La différence entre les moyennes obtenues en employant LEP (51% dans 5.19 et 57% dans 5.20) s’explique par le fait que le groupe d’utilisateurs n’était pas le même pour les deux expériences. Les performances globales des deux descripteurs sont relativement similaires (57% pour LEP et 60% pour BAG) avec un léger avantage pour BAG qui se retrouve pour chaque utilisateur. La fusion des deux descripteurs améliore la précision d’environ 176 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES 10% par rapport à BAG et 13% par rapport à LEP. En prenant en compte les utilisateurs individuellement, la différence varie entre 3% et 15% et demeure plus faible pour les trois testeurs les plus « exigeants ». Si notre hypothèse initiale semble être vérifiée, cette amélioration des résultats est obtenue au prix d’une augmentation de la complexité de traitements (notamment par l’utilisation de BAG). Des solutions algorithmiques basées sur la parrallélisation de certains processus permettraient de garder une phase d’indexation en temps réel. 5.2.5.3 Test utilisateurs pour ThemExplorer Nous avons mis en place un test utilisateurs pour comparer ThemExplorer et World Explorer. Huit évaluateurs ont utilisé ces deux systèmes selon deux étapes : 1. Chaque utilisateur a exploré trois lieux imposés. Nous avons proposé deux villes très connues (Paris et San Francisco) et une ville moins connue : Timişoara (Roumanie). 2. Les utilisateurs ont été encouragés à explorer librement d’autres régions du monde (situation d’utilisation réelle). Au début de l’évaluation, nous avons expliqué brièvement le mode de fonctionnement des deux systèmes. À la fin, chaque utilisateur devait rédiger un commentaire libre sur les deux systèmes puis répondre à une série de questions imposées (QCM). Les questions imposées Q1 à Q4 (tableau 5.3) comparent plusieurs caractéristiques communes à ThemExplorer et World Explorer. Q5 et Q6 s’intéressent à l’utilité des deux principales fonctionnalités introduites dans ThemExplorer (la sélection thématique et la recherche par le contenu). Pour les questions Q1 à Q4, nous avons utilisé une échelle de 1 à 5 : 1 représentant une préférence forte pour World Explorer et 5 une préférence forte pour ThemExplorer. Pour les questions Q5 et Q6, nous avons proposé une échelle de 1 (fonctionnalité inutile) à 5 (fonctionnalité très utile). Le tableau 5.3 montre que les évaluateurs préfèrent ThemExplorer à World Explorer sur toutes les caractéristiques testées (Q1 — Q4). Les nouvelles fonctionnalités introduites sont considérées comme étant très utiles (Q5, Q6). Nous avons montré dans la section 4.2.8 que la base de données géographiques intégrée dans l’architecture de ThemExplorer couvre mieux le domaine géographique que celle de World Explorer. Cette différence est aussi soulignée par les participants au test. Les réponses à Q1 (moyenne de 4,5) rendent compte soit d’une préférence forte pour notre système (5/5) dans quatre cas, soit d’une préférence (4/5) dans les autres cas. L’évaluation dans la sous-section 4.2.8 nous a permis de conclure que le niveau de bruit dans Gazetiki est plus faible que celui dans TagMaps, la base de donnée utilisée par World Explorer. Ce résultat se retrouve bien dans les réponses des utilisateurs à Q2 (moyenne de 3,88). Un seul participant au test a considéré que les tags affichés dans World Explorer sont plus pertinents que ceux de ThemExplorer. Les noms des entités géographiques présentés dans ThemExplorer sont complets dans la plupart des cas contrairement à ceux proposés dans World Explorer (par exemple, notre système 5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES 177 Tab. 5.3 – Questions imposées pour le test comparant ThemExplorer et World Explorer. Q1 Q2 Q3 Q4 Q5 Q6 Question Pour la représentation du domaine géographique, notez votre préférence entre ThemExplorer et World Explorer : Jugez le niveau du bruit (tags incorrects ou incomplets) entre ThemExplorer et World Explorer : Pour les régions explorées, comparez la qualité des premiers tags présentés par ThemExplorer et par World Explorer : Jugez l’enrichissement des modalités d’interaction dans ThemExplorer par rapport à World Explorer est : Vous considérez la représentation structurée des catégories géographiques dans ThemExplorer : Vous considérez la recherche par similarité visuelle proposée dans ThemExplorer : Moyenne 4,5 Ecart type 0,53 3,88 0,83 3,13 1,13 4,38 0,52 4,63 0,52 4,63 0,52 présente les tags Père Lachaise et Tour Eiffel tandis que World Explorer propose Lachaise et Eiffel ). Ces différences s’expliquent par les méthodes d’extraction utilisées pour construire les bases de données géographiques : nous procédons à l’extraction des noms d’un thésaurus existant, de Wikipédia ou de Panoramio (en utilisant des patrons lexicaux) alors que [110] proposent une méthode purement statistique pour obtenir des tags représentant des noms de lieux. Pour une région donnée, les tags affichés dans notre système sont considérés comme étant légèrement plus représentatifs que ceux de World Explorer (moyenne de 3,13 pour Q3). Le résultat obtenu pour Q3 confirme celui décrit dans la sous-section 4.2.8, où nous comparons les premiers noms affichés par rapport à l’ordonnancement des éléments proposés par TripAdvisor. C’est la plus petite différence entre les deux systèmes et elle s’explique principalement par le fait que ThemExplorer propose des noms géographiques spécifiques à tous les niveaux alors que World Explorer adapte les tags présentés en fonction de l’échelle. Par exemple, si on se positionne à l’échelle de la France, notre système affiche des tags comme Louvre ou Tour Eiffel alors que World Explorer présente des noms de villes comme Paris ou Nantes. La prise en compte de l’échelle dans World Explorer est, en effet, une caractéristique très intelligente et représente un axe intéressant d’amélioration de notre système. Notons que, dans la version actuelle, nous ne présentons pas les noms de divisions administratives (communes, départements, régions), même si ces dernières existent dans Geonames, 178 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES puisque nous avons essentiellement axé notre travail sur une recherche (et une navigation au sein) d’entités spécifiques. L’enrichissement de l’interactivité dans notre système par rapport à World Explorer est évalué positivement par tous les participants au test (moyenne 4,38 pour Q4). Cet enrichissement est réalisé de manière à ne pas compliquer l’interaction avec l’application et rend ThemExplorer aussi facile à utiliser que World Explorer, mais plus flexible. L’introduction d’une restriction thématique (Q5) est considérée comme étant « très utile » par cinq participants au test et « utile » par trois évaluateurs. La sélection thématique est une différence fondamentale entre ThemExplorer et World Explorer puisqu’elle symbolise l’intérêt d’utiliser des ressources structurées pour une application de recherche d’images. Les résultats à cette cinquième question valident donc notre choix. La recherche par le contenu à l’intérieur d’un espace conceptuel restreint (Q6) est considérée comme étant « très utile » par cinq testeurs et « utile » par les trois autres. Le CBIR s’avère utile dans les cas où un utilisateur trouve une image intéressante et veut voir si le corpus photographique contient d’autres images similaires. Plus particulièrement, cette fonctionnalité est très pertinente pour les objets connus, comme la Tour Eiffel ou le Golden Gate Bridge, qui possèdent beaucoup de représentations très différentes. Heureusement, les participants au test ont exprimé un grand nombre d’idées concernant les points forts et les points faibles des deux applications. Les commentaires ont précédé les questions guidées et ne sont pas, par conséquent, influencés par les réponses à ces questions. Nous synthétisons et commentons brièvement ici les idées apparues le plus fréquemment pour ThemExplorer et pour World Explorer. Points forts de ThemExplorer : – Organisation conceptuelle de la base de données géographiques. Cette observation est celle qui apparaı̂t la plus fréquemment parmi l’ensemble des commentaires. – Bonne couverture du domaine géographique. Commentaire lié aux réponses de Q1. – Lisibilité de l’interface (affichage des photographies) : Nous avons fait le choix de présenter les images de manière similaire à la représentation classique des moteurs de recherche, contrairement à la représentation plus « moderne » mais plus « brouillonne » de World Explorer (superposition des images). – Bonne précision des résultats images : le choix d’afficher des tags spécifiques et la collecte de photographies en combinant les noms de l’objet et ses coordonnées permettent de proposer des photographies très pertinentes. Point faibles de ThemExplorer – Présence de tags en double : certains noms géographiques sont retrouvés à partir de plusieurs sources distinctes. Nous n’avons pas encore procédé à l’élimination des doublons. – Absence d’images pour certaines entités : nous avons utilisé deux types de sources différentes (elles ne coı̈ncident pas) : (1) Geonames, Wikipédia et Panoramio pour construire Gazetiki et (2) Flickr et Google Images pour rechercher des photographies. Gazetiki contient environ quatre millions de noms géographiques et Flickr 5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES 179 contient environ 50 millions d’images géo-référencées. Ce ratio de dix est faible et montre que Gazetiki est plus « riche » que Flickr. Il est donc normal que des entités (notamment celles ne représentant pas un « intérêt » important) dans Gazetiki n’aient pas (encore. . .) de représentation dans Flickr. Néanmoins, nous n’en sommes qu’au début de l’essor des données géo-référencées et la croissance du corpus de Flickr ou de Google Images ne peut que réduire le nombre d’entités n’ayant pas d’images associées. – Les tags s’affichent trop lentement : ThemExplorer utilise un service Web d’affichage de cartes proposé par Yahoo ! qui doit se connecter à un troisième serveur. Celui-ci stocke le thésaurus géographique utilisé par ThemExplorer. Points forts de World Explorer – Bonne corrélation entre les tags présentés et les nombre d’images affichés : les noms géographiques contenus dans TagMaps sont obtenus après une analyse des informations textuelles associées aux images de Flickr, le même corpus utilisé pour présenter des photographies. Points faibles de World Explorer – Interface de présentation des photographies peu lisible : dans World Explorer, les images se superposent. Cette présentation est certes « à la mode » mais reste néanmoins un choix assez étrange de la part de Yahoo !, un acteur pourtant expérimenté des interfaces web. – Informations présentées de manière non-structurée : cette observation est soulignée par contraste avec ThemExplorer. – Tags trop génériques : Malgré l’intérêt d’une analyse de l’échelle, il n’y a pas assez de noms géographiques spécifiques dans TagMaps. Or, les utilisateurs naviguent rapidement dans des régions assez spécifiques de la carte (par exemple à l’échelle des villes ou des quartiers). – Des régions entières ne contiennent aucun tag : nous touchons ici le problème de couverture de World Explorer. L’algorithme de sélection de tags géographiques de TagMaps est probablement trop restrictif et ne trouve pas d’entités pour un nombre important de régions. Une amélioration de la couverture demeure difficile car [110] conclut qu’avec une relaxation des contraintes de sélection de noms géographiques, le niveau du bruit parmi les tags obtenus devient vite trop important. Les commentaires des utilisateurs permettent de dégager quelques directions de développement pour notre application : – Analyse du corpus de Flickr afin d’améliorer la couverture du domaine géographique de Gazetiki. – Calcul de la mesure de pertinence à partir du corpus de Flickr afin d’obtenir une meilleure corrélation entre les tags et les photographies affichées. – Elimination des doublons : cette opération est réalisable si on compare entre eux les noms géographiques spatialement proches. Les résultats du test utilisateurs confirment les évaluations des différentes composantes de ThemExplorer et valident le système dans sa globalité. De plus, la comparaison avec World Explorer est favorable à notre système et nous permet de considérer 180 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES ThemExplorer comme un système de recherche d’images géographiques compétitif. 5.3 Safir — recherche de noms de personnalités De façon similaire aux deux autres domaines d’application, Safir exploite conjointement une ressource linguistique et des techniques de traitement d’images. L’application est construite autour de la structure conceptuelle décrite dans la section 4.3 et propose une navigation enrichie parmi les noms de personnalités, avec notamment la présentation de requêtes proches et l’adaptation de l’affichage des résultats au domaine. Dans un premier temps, nous décrivons le modèle de données exploité dans Safir, puis nous offrons un aperçu de l’architecture du système et de ses composantes principales. Enfin, nous présentons un exemple d’utilisation du système et évaluons notre approche. 5.3.1 Modélisation des données Nous décrivons un modèle formel des données textuelles exploitées dans Safir, dérivé de la ressource linguistique représentant le domaine conceptuel (section 4.3) ainsi qu’un autre modèle pour les images. L’étude du fichier de log de la section 3.1 montre que la plupart des requêtes de ce domaine porte sur des noms précis de personnalités. Les connaissances relatives à une personnalité exploitées dans Safir sont résumées dans l’équation 5.5. P ersonnalite = (nom, classeP arent, nationalite, (5.5) personnalitesAssociees, activite, pertinence) Où : – nom : nom de la personne. – classeP arent : hypéronyme de chaque nom. Dans notre cas : acteur, chanteur/musicien, footballeur. – nationalite : nationalité de la célébrité. – personnalitesAssociees : une liste ordonnée de noms de personnalités ayant un lien avec la personnalité cible, extraite à partir de l’article Wikipédia sur la célébrité. – activite : ensemble d’informations décrivant le profil « professionnel » de la personne. Nous détaillons ces informations dans les trois cas dans les équations 5.6, 5.7 et 5.8. – pertinence : valeur de pertinence associée à chaque nom de la structure. Elle est déterminée en combinant des propriétés conceptuelles de la personne et des statistiques du Web. L’équation 5.5 contient des informations relatives à toute personnalité décrite dans la structure conceptuelle qui constituent autant de critères pour enrichir simplement et efficacement l’interaction entre l’utilisateur et Safir. Les différentes composantes de l’équation 5.5 permettent une caractérisation unique de chaque élément de la ressource 5.3. SAFIR — RECHERCHE DE NOMS DE PERSONNALITÉS 181 ainsi que sa mise en relation avec d’autres concepts. Une valeur de pertinence est associée à tout concept et à toute relation inter-conceptuelle de la structure permettant un ordonnancement des éléments et donc une meilleure présentation des résultats. Les informations relatives à l’activité des acteurs, des musiciens et footballeurs sont structurées de la façon suivante : ActiviteActeur = (f ilms, roles, prix) (5.6) Où : – f ilms : liste ordonnée des films dans lesquels l’acteur a joué. – roles : liste ordonnée (en suivant le même ordre que pour les films) des rôles de l’acteur. – prix : liste des prix obtenus par la personne. ActiviteChanteur = (genres, groupes, instruments, prix, albums) (5.7) Où : – genres : liste ordonnée des genres musicaux du musicien. – groupes : liste ordonnée des groupes auxquels a appartenu la personnalité. – instruments : liste ordonnée des instruments joués. – prix : liste des prix obtenus. – albums : la liste ordonnée des albums. ActiviteF ootballeur = (postes, clubs) (5.8) Où : – postes : liste ordonnée des postes occupés par le joueur. – clubs : liste ordonnée des clubs dans lesquels a joué le joueur. Les vecteurs des équations 5.6, 5.7 et 5.8 contiennent les principales informations concernant le parcours professionnel des personnalités incluses dans la structure conceptuelle. Avec les informations communes à toutes les catégories (éq. 5.5), ces connaissances facilitent une représentation adéquate des personnalités cible. Les photographies présentées dans Safir sont représentées par le vecteur suivant : Image = (nom, index, pertinenceImage) (5.9) Où : – nom : le nom de la personne représentée dans l’image. – index : le vecteur des caractéristiques de bas niveau représentant l’image. – pertinenceImage : la position de la photographie dans l’ensemble des réponses. La pertinence est héritée du moteur de recherche d’images utilisé comme source. Les informations dans l’équation 5.9 forment une description complexe de l’image, alliant le concept représenté, la représentation de bas niveau du contenu et la popularité de l’image dans le corpus de référence. La combinaison de ces trois types d’informations facilite une recherche à la fois conceptuelle et par le contenu. Notons que, étant donné 182 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES la structure incomplète de Wikipédia, des champs sont non renseignés parmi les descripteurs d’un concept. Toutefois, comme l’ont montré les expériences menées pour valider la procédure de construction de la ressource (section 4.3.7), la couverture du domaine est significativement plus importante par rapport à Ask. Les équations 5.5, 5.6, 5.7 et 5.8 et 5.9 décrivent un modèle de données plus riche et plus structuré que celui d’Ask (à notre connaissance la seule application comparable). Notre application repose sur une modélisation de domaines conceptuels qui permet de proposer une interaction plus riche et intuitive, aidant l’utilisateur à se repérer dans des espaces conceptuels vastes. De plus, la recherche par le contenu facilite un accès rapide à des photographies proches d’une image question dans des espaces conceptuels cohérents. Fig. 5.21 – Architecture d’un système de recherche d’images de noms de célébrités. Les bases de données sont représentées sous forme de rectangles, les composants actifs par des rectangles arrondis et les requêtes par des ellipses. 5.3.2 Architecture de Safir L’architecture de Safir (figure 5.21) est un cas particulier de l’architecture générique décrite dans la section 3.3.3. Dans cette application, la ressource linguistique est représentée par CelebWiki (section 4.3) et PIRIA est le moteur de recherche par similarité visuelle. La ressource linguistique sert à traiter les requêtes textuelles apparentées au domaine tandis que PIRIA est utilisé pour répondre aux requêtes par images exemples. Comme pour Olive, nous avons choisi de récupérer les images à inclure dans le corpus local à partir de Google Images. Ce moteur assure une bonne couverture des noms propres et permet d’effectuer beaucoup de requêtes dans un temps limité. L’application fonctionnerait de manière tout à fait similaire en utilisant des corpus extraits d’autres moteurs. 5.3. SAFIR — RECHERCHE DE NOMS DE PERSONNALITÉS 5.3.2.1 183 Fonctionnement de Safir L’utilisateur peut formuler deux types de requêtes : textuelles et par images exemples. Dans le premier cas, les requêtes sont transmises au sélecteur de concepts qui vérifie si elles correspondent à des éléments de la structure. Si oui, les requêtes sont reformulées en utilisant des informations relatives à l’activité de la personne et transmises au collecteur d’images. Ce dernier vérifie si les images associées à la requête courante existent déjà dans le corpus local ou si elles sont à télécharger à partir de Google Images. En parallèle, le sélecteur de concept analyse le voisinage conceptuel de la requête initiale afin de formuler des requêtes proches. La nationalité, la liste de personnalités associées ou l’activité (voir éq. 5.5) sont utilisées pendant ce processus. Le voisinage conceptuel inclut les noms des personnalités considérés comme les plus proches et des requêtes plus générales, portant sur des caractéristiques comme la nationalité, le classe parent de la célébrité ou son activité. Similairement à Olive, les photographies incluses dans le corpus local d’images sont indexées en utilisant le descripteur LEP de PIRIA (voir la section 2.1.2.2 pour plus de détails). Les images sont toutes associées à des requêtes contenant les noms de personnalités et quelques-unes de leurs caractéristiques (par exemple, les films et les rôles les plus connus pour les acteurs). Toutes les images affichées peuvent constituer le point de départ d’une recherche par le contenu. Le processus CBIR est limité à un espace conceptuellement cohérent, incluant les photographies associées à la même célébrité. 5.3.2.2 La ressource linguistique Safir exploite CelebWiki, la structure conceptuelle pour le domaine des personnalités créée à partir de Wikipédia, décrite en détail dans la section 4.3. La ressource linguistique contient environ 13000 entrées pour les acteurs, 6000 pour les chanteurs et 26000 pour les footballeurs et est implémentée en utilisant le modèle de données décrit en 5.3.1. Afin d’améliorer la vitesse de traitement, il est nécessaire de réaliser un certain nombre de prétraitements, comme l’ordonnancement des concepts et de leurs relations. La ressource est exploitée afin de reformuler automatiquement les requêtes des utilisateurs portant sur son contenu et de proposer un résumé pertinent du voisinage conceptuel de la requête. 5.3.2.3 Le corpus local d’images Le téléchargement et l’indexation de bas niveau des images demandent un temps de traitement significatif. Afin d’améliorer la vitesse d’exécution, nous utilisons un corpus local d’images contenant des photographies des requêtes qui ont déjà été formulées par les utilisateurs. Ce cache est une copie locale et partielle du corpus Google Images, que l’on utilise comme source de données pour notre application. 5.3.2.4 Le sélecteur de concepts Le sélecteur de concepts est un script Perl qui prend en entrée la requête de l’utilisateur et la compare au contenu de la ressource linguistique. Si la requête peut être traitée 184 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES en utilisant CelebWiki, deux opérations principales sont réalisées : sa reformulation et un processus destiné à extraire un résumé conceptuel de la requête. La reformulation implique l’exploitation des connaissances relatives à chaque type de concept. Elle vise à améliorer la précision des résultats et à les présenter de manière structurée. L’étude des fichiers de log (section 3.1) montre que la grande majorité des requêtes pour des images de célébrités porte sur leurs noms précis et nous nous sommes concentrés ici sur ce type de reformulation. L’opération est adaptée à chaque type de célébrité et comporte une expansion de la requête initiale en utilisant des informations relatives à l’activité de chaque personne : – Pour les acteurs, une requête sera enrichie en nom + titre film et nom + rôle. Les films (avec les rôles correspondants) les plus représentatifs pour un acteur sont présentés en priorité. – Pour les chanteurs, la reformulation implique l’expansion avec des noms de groupes (nom + album) et des instruments (nom + instrument). – Pour les footballeurs, on ajoute les noms des clubs (nom + club). Rappelons que les informations nécessaires au processus de reformulation des requêtes ne sont pas disponibles pour tous les concepts de la ressource. Afin de gérer ces manques, le sélecteur de concepts transmet également la requête initiale brute au collecteur d’images. L’expansion des requêtes est réalisée afin de réduire le risque de trouver des images non pertinentes, partant du principe que la probabilité d’attacher deux annotations textuelles erronées à une image est plus faible que celle d’en associer une seule. Le premier résultat souhaité est une augmentation de la précision des réponses. Le second est la possibilité de présenter les images de manière structurée. Par exemple, la première page de réponses pour Jack Nicholson peut contenir des images de l’acteur dans quelques-uns de ses films les plus représentatifs : Chinatown, One Flew over the Cuckoo’s Nest, The Shining, As Good as it Gets ou The Departed. Un second rôle du sélecteur de concepts est de produire un résumé du voisinage conceptuel de la requête utilisé pour afficher des requêtes proches. La ressource conceptuelle facilite une présentation structurée de ces requêtes associées selon deux catégories : noms proches et requêtes plus générales. Le premier groupe est une liste de cinq noms (au maximum) liés à la requête courante et ordonnés en utilisant aussi bien leur proximité conceptuelle que leur degré de cooccurrence dans le corpus du Web. La deuxième catégorie contient des requêtes plus générales, formulées à partir des différentes caractéristiques du modèle de données utilisées, comme l’activité ou la nationalité. Reprenons l’exemple de Jack Nicholson, la liste des célébrités proches contient : Robert de Niro, Al Pacino ou Leonardo di Caprio. Les requêtes plus générales incluent : Actors from The Shining, Actors from As Good as it Gets, Actors on the Hollywood Walk of Fame, Best Actor Academy Award Winners, Best Supporting Actor Academy Award Winner. 5.3.2.5 Le collecteur d’images La requête reformulée est transmise au collecteur d’images qui vérifie s’il s’agit d’un élément déjà présent dans le corpus local. S’il s’agit d’un nouveau concept, le script 5.3. SAFIR — RECHERCHE DE NOMS DE PERSONNALITÉS 185 utilisera la liste des reformulations pour récupérer des images à partir de Google Images. Nous retenons au maximum 60 images pour chaque reformulation. Ces images sont stockées dans le corpus local, dans des répertoires dédiés à chaque concept. 5.3.2.6 PIRIA Le moteur d’indexation et de recherche par similarité visuelle est utilisé de manière similaire à Olive et nous renvoyons le lecteur à la sous-section 5.1.2.6 pour une présentation plus détaillée du module. Le descripteur utilisé ici est LEP (couleur et texture). 5.3.2.7 L’interface de Safir La figure 5.22 présente l’interface de SAFIR dans le cas d’une requête sur l’acteur Robert De Niro. Fig. 5.22 – Interface de Safir présentant le résultat d’une requête avec Robert de Niro. Les principales composantes de l’interface sont : – une barre de recherche textuelle ; – une zone de présentation des images ; 186 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES – une zone de présentation du voisinage conceptuel. La présentation d’un voisinage conceptuel permet d’actualiser les connaissances de l’utilisateur concernant le nom de l’acteur demandé et de naviguer utilisant des requêtes proches. Les termes associés à une requête sont séparés en deux catégories, l’une présentant des noms d’acteurs proches et l’autre proposant une série de requêtes plus générales. 5.3.2.8 Exemple d’utilisation Supposons qu’un utilisateur cherche des images pour Robert De Niro. Le système retourne en première page les résultats de la figure 5.22. Cette structuration des réponses pour Robert De Niro permet à l’utilisateur d’avoir une vue temporellement ordonnée des images de l’acteur. Toutes les images présentées sur une page de réponses de Safir peuvent constituer le point de départ d’une recherche par le contenu parmi les images de la même classe. Nous présentons un exemple de recherche par le contenu pour une image représentative pour le film Goodfellas (de Martin Scorsese) avec Robert de Niro dans la figure 5.23. Fig. 5.23 – Page de réponses pour Robert De Niro dans Goodfellas. L’image requête est encadrée en rouge et les images visuellement similaires à la requête sont présentées de manière ordonnée. La recherche par similarité visuelle est proposée uniquement à l’intérieur de groupes d’images représentant des requêtes spécifiques 5.3. SAFIR — RECHERCHE DE NOMS DE PERSONNALITÉS 187 (ici Robert de Niro dans Goodfellas). 5.3.3 Évaluation de Safir Le mode de fonctionnement de Safir est similaire à celui d’Olive donc nous n’avons pas répété le test utilisateurs. Nous avons uniquement mesuré la précision des résultats pour les requêtes textuelles dans Safir et Google Images afin d’évaluer l’utilité de la reformulation automatique. Comme pour nos précédents tests, nous avons présenté le texte explicatif suivant en début de chaque évaluation : Imaginez que vous êtes en train d’écrire un rapport sur l’activité d’une personne connue (par exemple, Jack Nicholson) et que vous devez l’illustrer avec des images. Vous trouverez, sur chaque page, le nom de la requête et des réponses retournées par le moteur de recherche. Cochez la case en dessous de l’image si vous la considérez comme étant représentative du concept recherché (est que vous l’utiliseriez en tant qu’illustration de votre rapport ?). Nous avons évalué la précision des 20 premiers résultats (P@20) rendus par Safir et Google Images pour 20 noms de footballeurs, acteurs et chanteurs. Le nombre d’images à évaluer est approximativement celui présenté sur la première page de réponses des moteurs de recherche d’images. Fig. 5.24 – Comparaison de la précision des résultats pour Safir et Google Images pour chaque utilisateur et en moyenne. Les résultats de la figure 5.24 indiquent que la reformulation automatique n’améliore pas la qualité des résultats. Les réponses de Google Images sont plus précises que celles proposées par Safir (68% contre 60%) et, à l’exception du premier utilisateur U1, la précision moyenne est plus importante pour Google Images. Des différences significatives sont à signaler entre la précision évaluée par chaque utilisateur. Par exemple pour le cinquième participant, la précision atteint 0,29 pour Safir et 0,35 pour Google Images 188 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES tandis que pour le troisième évaluateur les valeurs correspondantes sont 0,75 et 0,84. Nous avons calculé les moyennes par type de célébrité. Pour les footballeurs, la précision des résultats (MOYENNE FOOT) dans Safir dépasse celle de Googles Images de 4%. Pour les acteurs (MOYENNE ACT) et les chanteurs ((MOYENNE MUS)) les précisions des résultats dans Google Images sont nettement supérieures (respectivement une différence de 12% et15%). Les résultats présentés dans cette section indiquent que la reformulation automatique des requêtes n’est pas efficace dans le cas des célébrités. Ce résultat peut s’expliquer par le fait qu’une image de célébrité est souvent entourée d’un grand nombre de noms. La reformulation choisie peut également expliquer ce résultat. Pour les chanteurs, nous avons utilisé les noms d’albums pour compléter les requêtes et il semble que ce choix n’est pas approprié. Il reste donc à trouver d’autres informations pouvant améliorer les performances actuelles de Safir. Il est par conséquent préférable d’utiliser les images fournies par Google Images pour illustrer les requêtes avec des noms de célébrités. Par rapport à Google Images, les principales contributions de Safir sont la proposition d’un voisinage conceptuel de la requête permettant à l’utilisateur du système d’affiner ou de généraliser sa recherche et l’introduction d’une fonctionnalité CBIR. 5.4 Participation à la campagne d’évaluation ImageCLEF ImageCLEF6 est une campagne d’évaluation internationale sur la recherche d’images dans des documents multilingues, proposant plusieurs tâches d’évaluation, comme la recherche d’images médicales, l’annotation de concepts visuels ou la recherche d’images dans un corpus d’images de tourisme. En 2008, les organisateurs ont introduit une tâche de recherche d’images de Wikipédia7 en se basant sur la campagne d’évaluation INEX Multimedia (2005-2006). Le but de cette évaluation est de tester des méthodes de recherche d’images sur un corpus hétérogène, avec des requêtes diversifiées. Le corpus contient environ 150000 images de l’encyclopédie, ainsi que les informations textuelles leurs étant associées dans Wikipédia (titre et description textuelle). Les requêtes ont été proposées par les équipes participantes et contenaient obligatoirement une partie textuelle. Ces requêtes pouvaient contenir une image exemple illustrative et/ou des concepts visuels aidant la recherche (par exemple : scène d’intérieur/extérieur, présence d’un visage dans l’image). La requête présentée dans la figure 5.25 (cities by night) contient deux concepts, city et night, un concept visuel(building) et une image exemple. Pour aider l’évaluation, l’auteur décrit plus en détail sa requête dans le champ intitulé narrative. Cette description détaillée n’était pas disponible pour les participants. Elle est disponible seulement lors de l’évaluation. 6 ImageCLEF — http ://imageclef.org/ — a débuté en 2003 comme campagne spécifique de CLEF (Cross Language Evaluation Forum). La campagne est annuelle. 7 http ://imageclef.org/2008/wikipedia 5.4. PARTICIPATION À LA CAMPAGNE D’ÉVALUATION IMAGECLEF 189 Fig. 5.25 – Exemple de la requête « cities by night » pour la tâche Wikipédia d’ImageCLEF 2008. Les participants pouvaient soumettre un nombre illimité de « runs » en combinant les paramètres suivants : – run automatique ou manuel : Pour les approches automatiques, aucune intervention humaine n’est tolérée dans le processus de recherche ; – utilisation de l’expansion des requêtes et du retour de pertinence ; – type de recherche : CBIR, textuelle, par concepts visuels ; Nous avons soumis deux deux runs (nommés ceaTxt et ceaTxtCon) à partir d’approches automatiques et en utilisant une expansion des requêtes. La différence entre les deux soumissions est que, dans la première (ceaTxt), la recherche était purement textuelle alors que, dans la deuxième (ceaTxtCon), nous avons combiné une recherche textuelle et une recherche basée sur des concepts visuels. Pour ceaTxtCon, nous avons utilisé le système de détection de concepts visuels décrit dans [89] permettant de classer les images en fonction des attributs intérieur/extérieur, image/dessin/carte ou présence/absence de visage. Les requêtes contenaient un ou plusieurs concepts, avec toutefois une forte représentation des requêtes mono-conceptuelles, par exemple : Eiffel Tower, Golden Gate Bridge, hunting dog ou beach volley. Des exemples de requêtes plus complexes étaient : red Ferrari, portrait of Hu Jintao, bridges by night ou female beachvolley players. L’élément clé de notre approche est l’expansion des requêtes. Nous avons isolé les noms dans les requêtes afin d’extraire un voisinage conceptuel exploitable pour reformuler les requêtes. Pour certains noms propres, comme Eiffel Tower, nous avons extrait les traductions dans d’autres langues (Tour Eiffel, Eiffelturm etc.). Pour les termes plus généraux, comme hunting dog, Ferrari ou bridge, nous avons construit des listes d’hyponymes à partir de Wikipédia et de WordNet. Les éléments du voisinage conceptuel ont ensuite été ordonnés en utilisant une mesure de pertinence qui combine le poids de l’élément dans Wikipédia et la fréquence d’apparition sur le Web. Le poids dans Wikipédia est déterminé par la longueur de l’article afin de favoriser les éléments correctement décrits de manière détaillée dans l’encyclopédie (supposés importants). La fréquence sur le Web est obtenue en lançant une requête avec le terme initial et chaque hyponyme. Nous avons aussi établi une liste de concepts visuels, contenant des termes comme portrait, night, map, sky etc. qui n’ont pas été reformulés mais qui ont été utilisés 190 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES pour réordonner les éléments dans la recherche combinant le texte et les concepts visuels (ceaTxtCon). Notre stratégie de recherche est focalisée sur le traitement des noms inclus dans les requêtes, pour lesquels, nous avons défini des voisinages conceptuels à partir de Wikipédia et de WordNet. Dans le cas des requêtes contenant un seul concept, l’expansion est similaire à celle décrite dans Olive et est basée sur l’utilisation des hyponymes pour les concepts généraux et des synonymes pour les concepts spécifiques. Par exemple, une requête avec hunting dog sera reformulée en hunting dog + afghan hound mais aussi en afghan hound. Dans le cas des requêtes plus complexes, la stratégie de reformulation dépend du contenu de la requête. D’une manière générale, on favorise respectivement : 1. les requêtes contenant tous les termes initiaux et des hyponymes, 2. les requêtes initiales, 3. des parties de la requête initiale et des hyponymes, 4. uniquement des hyponymes. Dans le cas où un adjectif est rattaché à un nom, comme dans red Ferrari, l’expansion de la requête est centrée sur le deuxième terme. Nous obtenons alors : red + Ferrari + 250 GTO, red + Ferrari, red + 250 GTO et 250 GTO. Si un concept visuel apparaı̂t dans la requête, comme dans bridges by night, nous reformulons la requête en bridge(s) + night + Golden Gate Bridge, bridge(s) + night, night + Golden Gate Bridge, Golden Gate Bridge. La figure 5.26 présente la première partie du classement de la tâche Wikipédia de ImageCLEF 2008. Fig. 5.26 – Classement des « runs » de la tâche Wikipédia d’ImageCLEF en fonction de la MAP (mean average precision). Les soumissions du CEA se situent à la deuxième et quatrième place (sur 77 runs soumis par 12 équipes). 5.5. COMMENTAIRES 191 Les deux stratégies de recherche mises en place se sont avérées très compétitives. La recherche combinant le texte et les concepts visuels (ceaTxtCon) a été classée seconde et la recherche purement textuelle (ceaTxt) a été classée quatrième (sur 77 runs soumis par 12 équipes). Les résultats obtenus montrent que l’utilisation d’une expansion des requêtes basée sur l’utilisation de voisinages conceptuels permet d’améliorer les performances des systèmes de recherche d’images. L’ajout d’une détection de concepts visuels, en plus de l’expansion des requêtes, améliore les résultats. Pour cette campagne, nous nous sommes focalisés sur l’obtention d’une bonne précision des résultats et nos deux soumissions arrivent en deuxième et troisième positions en se basant sur la P@5 et la P@10 (0,5467 et 0,4653 pour ceaTxtCon et 0,5200 et 0,4427 pour ceaTxt). Les résultats obtenus prouvent que notre approche est efficace et qu’elle peut être étendue à d’autres domaines que ceux traités dans le cadre de cette thèse, à condition de créer ou d’adapter des structures linguistiques appropriées. Une autre conclusion importante de la campagne ImageCLEF 2008 est que notre approche s’applique aussi à des requêtes contenant plus d’un concept et permet donc d’assurer une couverture importante des requêtes exprimées par les utilisateurs. 5.5 Commentaires sur l’utilisation d’autres techniques par le contenu Pour chacun des trois systèmes (Olive, ThemExplorer et Safir) nous avons présenté une approche utilisant des techniques classiques d’indexation et de recherche par le contenu. Nous avons néanmoins eu l’occasion d’expérimenter d’autres techniques faisant intervenir une analyse du contenu des images. 5.5.1 Filtrage et classification de la nature des images par apprentissage supervisé Le module PIRIA offre la possibilité de classer les images selon plusieurs attributs liés à la nature de l’image (clipart, photographie couleur, photographie noir et blanc, reproduction artistique) ou à son contexte (image intérieure/extérieure, jour/nuit, environnement urbain/naturel ). Cette classification [89] est basée sur un apprentissage supervisé utilisant des Support Vector Machine (SVM, via la librairie en ligne LibSVM) et un ensemble de descripteurs de bas niveau (couleur, texture, forme). Cette approche a obtenu de bons résultats à la campagne d’évaluation ImagEVAL8 . PIRIA propose aussi un filtrage des images à partir de la détection et la localisation de visages basées sur la technique AdaBoost [138]. Dans un premier temps, nous avions utilisé la classification des images selon leur nature pour filtrer et éliminer les cliparts des résultats du système Olive. Les résultats sont pertinents mais nous n’avons pas pu intégrer dans les temps cette fonctionnalité dans le système opérationnel final, pour des raisons de temps de traitement. Ceci représente néanmoins une perspective d’amélioration à court terme très intéressante. 8 ImagEVAL — http ://www.imageval.org/e publications.html 192 CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES La classification des images en fonction de leur contexte est une fonctionnalité qui peut se révéler importante pour le système ThemExplorer pour différencier et donc structurer les images représentant l’extérieur ou l’intérieur d’un monument ou d’un musée (par exemple Notre Dame de Paris ou Le Louvre), d’autant que les niveaux de performance de la classification intérieur/extérieur sont particulièrement élevés (généralement supérieur à 90% de bonnes classifications dans l’état de l’art). Le temps nous a manqué pour dépasser le stade de simples tests et intégrer complètement cette fonctionnalité au système ThemExplorer. Enfin, la détection de visages par AdaBoost permettrait un filtrage efficace des résultats de Safir. Rappelons que cette fonctionnalité est devenue relativement classique dans les moteurs de recherche actuels comme Exalead, Google Images ou Microsoft Live. 5.5.2 Classification non-supervisée d’images (clustering) Le clustering d’images nous apparaı̂t comme une alternative très pertinente — ou tout du moins fortement complémentaire — à la recherche par le contenu à partir d’une image exemple. En effet, le fonctionnement classique d’une recherche CBIR part du principe que l’utilisateur trouve assez rapidement une « image requête ». Or, dans beaucoup de cas, l’utilisateur souhaite simplement découvrir rapidement les différents types de représentations de sa requête, sans connaı̂tre et donc favoriser a priori une représentation bien précise. Le clustering d’images permet d’offrir à l’utilisateur un ensemble restreint mais représentatif de la diversité des images répondant à sa requête (on parle dans certains articles récents d’un ensemble d’images canoniques). Nous avons essayé une technique de clustering d’images développée au CEA LIST, basée sur les Shared Nearest Neighbors (SNN) et testée en 2008 sur trois sous-corpus de Flickr [92]. Les résultats sont particulièrement prometteurs mais le niveau de maturité de la technologie (notamment l’optimisation des paramètres en fonction du type de requête et l’amélioration des temps de traitement via une parallélisation du SNN) ne nous ont pas permis d’intégrer ce type de fonctionnalité dans Olive et ThemExplorer. Néanmoins, les retours utilisateurs et les travaux récents de la communauté sur cette question [73] nous ont persuadés qu’une représentation sous forme de clusters visuellement homogènes, associée à notre représentation conceptuellement structurée dans Olive ou ThemExplorer, serait particulièrement bénéfique à l’amélioration des systèmes. Dans le cas de ThemExplorer, la majorité de ces pistes complémentaires de recherche sera implémentée et évaluée dans le cadre du projet ANR (Contenu et Interactions) GEORAMA regroupant le CEA LIST, Exalead et Telecom Bretagne. Chapitre 6 Conclusions et perspectives Nous avons présenté une nouvelle approche de la recherche d’images sur Internet en alliant une réflexion théorique et en proposant un ensemble d’applications concrètes. Dans le chapitre 2, nous avons décrit les principaux travaux actuels relatifs à notre approche. Puis, dans le chapitre 3, nous avons détaillé les principales notions théoriques appuyant notre démarche comme les études utilisateurs, les structures linguistiques, la figurabilité et la similarité entre les images. Le quatrième chapitre a été dédié à l’introduction de méthodes d’adaptation et de construction de structures linguistiques à large échelle pour la recherche d’images. Dans le cinquième chapitre, nous avons décrit une application de l’approche proposée à trois domaines conceptuels d’intérêt : les noms communs, les noms géographiques et les noms de personnalités. Avant de conclure, nous détaillons les principales contributions apportées par notre travail, les limites de notre approche et les perspectives ouvertes par cette thèse. 6.1 Contributions Le travail proposé dans cette thèse se situe à l’intersection de plusieurs domaines d’étude comme l’extraction et la structuration de connaissances, les études des usages et la recherche d’images. 6.1.1 Structuration automatique de connaissances La mise en place de systèmes de recherche d’information sémantiques telle qu’envisagée dans cette thèse s’appuie sur l’exploitation de ressources conceptuelles à grande échelle, dont la construction manuelle est une opération laborieuse. Comme nous l’avons montré, il existe sur Internet une masse importante de connaissances déjà structurées ou semi-structurées mais elles doivent être adaptées et enrichies pour être utilisables par les applications de recherche d’images. Pour augmenter la couverture des ressources existantes ou en créer des nouvelles, nous avons implémenté des méthodes d’extraction automatique de connaissances à partir du Web. 193 194 CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES Le principal défi relevé est de constituer des ressources avec une bonne couverture et assurant une bonne qualité des informations structurées. Afin d’atteindre ce but, nous privilégions l’utilisation de sources de données semi-structurées, comme Wikipédia ou Panoramio, dont l’exploitation est plus aisée que celle des corpus textuels non-structurés. Les sources semi-structurées ne contiennent pas toute l’information nécessaire et nous avons également exploité les réponses des moteurs de recherche d’information du Web pour compléter les structures créées. – Pour les noms communs, nous avons augmenté le contenu de WordNet, proposant un classement des synsets basé sur les propriétés des concepts et sur des statistiques issues du Web. Le classement des concepts facilite l’utilisation du réseau lexical en recherche d’images, permettant de classer les termes en fonction de leur pertinence. La structure résultante a été comparée à celle exploitée dans le moteur Ask en analysant les requêtes considérées comme proches du concept initial dans les deux systèmes. Les résultats de l’expérience montrent que WordNet permet de proposer des requêtes plus adaptées que celles issues de la base de connaissance d’Ask. – Dans le cas des noms géographiques, nous avons mis en place une méthodologie plus complexe, permettant aussi bien l’adaptation d’une ressource existante que son enrichissement automatique. Nous avons étendu le modèle minimal des gazetteers [50], proposant en plus du nom de l’objet, de sa classe parent et de son positionnement, un classement par ordre de pertinence. La méthode mise en place permet d’acquérir automatiquement ces quatre informations essentielles à partir de sources hétérogènes d’information. Comme pour WordNet, l’ajout d’un ordonnancement par pertinence ouvre la voie à une utilisation efficace des bases de données géographiques en recherche d’images. La ressource constituée a été comparée à Tagmaps [110], une autre tentative de structuration automatique de connaissances géographiques à partir du Web dont nous avons connaissance. Les résultats obtenus montrent que notre structure est plus riche et assure une meilleure qualité des connaissances incluses. – Pour les noms de personnalités, nous avons analysé les pages Wikipédia correspondantes et nous avons extrait des informations utiles en recherche d’images, comme une liste de noms associés, des données biographiques et des informations relatives à l’activité publique de la personne. Un classement par ordre d’importance des concepts et de leurs relations est également proposé. Similairement à WordNet, la structure obtenue a été comparée avec celle utilisée dans Ask et les résultats de la comparaison montrent que la qualité des requêtes proches est similaire dans les deux structures mais que la couverture de notre ressource est meilleure. 6.1.2 Recherche d’images conceptuelle Pour la recherche d’images sur Internet, les moteurs de recherche d’images actuels s’appuient sur l’utilisation classique d’un alignement de chaı̂nes de caractères. Aucun des grands moteurs actuels n’utilise le contenu des images à l’exception notable et très récente (annoncé en avril 2008) de Google Images pour l’amélioration du tri des réponses (Visual Rank) [63]. Nous proposons une approche basée sur l’exploitation de structures 6.1. CONTRIBUTIONS 195 linguistiques à large échelle et sur l’utilisation d’une recherche par le contenu. Une architecture générique, intégrant des ressources sémantiques et un moteur de recherche par similarité visuelle, est d’abord décrite puis appliquée aux trois domaines considérés. Les aspects suivants de la recherche d’images sont améliorés par l’introduction de ressources sémantiques dans les architectures dédiées : – L’interactivité — les relations conceptuelles servent à proposer plus de choix à l’utilisateur. Dans les cas des noms communs et des personnalités, cet enrichissement se traduit par la proposition d’un résumé pertinent du voisinage conceptuel de la requête. Pour les noms géographiques, nous introduisons la possibilité de restreindre la recherche à des régions conceptuelles du corpus intéressantes pour l’utilisateur. – La structuration des résultats — les résultats présentés par les moteurs actuels de recherche d’images sont organisés en se basant sur un l’alignement entre la requête introduite par l’utilisateur et l’index textuel associé à l’image, ainsi que sur un retour de pertinence implicite. Les relations contenues dans les structures linguistiques facilitent une présentation conceptuelle des résultats, qui s’ajoute à la méthode actuelle de classement des images dans les moteurs de recherche. Dans le cas des noms communs, la structuration se traduit par une présentation des résultats en utilisant des sous-concepts. Pour les personnalités, nous introduisons présentation chronologique des images. Nous avons fait le choix de présenter la structure des résultats de manière explicite mais il est également envisageable de ne pas renseigner l’utilisateur sur l’appartenance des réponses à des classes plus précises que la requête initiale. – La précision des résultats — la reformulation automatique des requêtes en ajoutant leurs sous-concepts associés, détermine une amélioration de la pertinence des réponses du système. Ceci s’explique par le fait que la probabilité d’annoter une image avec deux termes non-pertinents est plus faible que celle de lui attribuer un seul mot non-pertinent. Certes, l’introduction des structures linguistiques rend l’architecture du système plus complexe mais cela n’a aucune incidence quant à l’interaction entre l’utilisateur et le système. Au contraire, les tests utilisateurs montrent que l’interaction avec les applications présentées dans cette thèse reste intuitive et permet une meilleure exploration de l’espace de recherche comparé aux systèmes existants. 6.1.3 Recherche d’images par le contenu visuel Malgré des efforts de recherche soutenus [82], les techniques de traitement d’images sont peu ou pas utilisées par les moteurs actuels de recherche d’images. Deux facteurs principaux expliquent cela : – La recherche par le contenu visuel rend des résultats inadaptés aux attentes des utilisateurs quand elle est appliquée à des corpus diversifiés, comme les images d’Internet. – Les temps de calcul nécessaires à la recherche par le contenu visuel sont significativement plus importants que ceux associés à la recherche par mots-clef. 196 CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES Nous avons présenté une solution simple et efficace pour introduire une fonctionnalité de recherche par le contenu dans les systèmes de recherche d’images en limitant l’espace de recherche à des régions conceptuellement cohérentes du corpus. Dans le cas des noms communs, la reformulation automatique restreint la recherche à des concepts spécifiques. Pour les noms géographiques et les noms de personnalités, les utilisateurs visualisent uniquement des concepts précis. Les termes spécifiques ont une apparence généralement stable et la comparaison entre les images représentatives met en valeur les avantages de la similarité des caractéristiques de bas niveau. Aussi, la première difficulté citée ci-dessus est résolue par une meilleure prise en compte de la notion de similarité entre les images, avec une description simultanée des concepts représentés et des caractéristiques de bas niveau de l’image. La restriction de l’espace de recherche par le contenu s’accompagne d’une réduction du temps de traitement à un niveau acceptable par l’utilisateur (quelques secondes). Dans le cadre de cette thèse, nous avons essayé à chaque fois d’appliquer nos hypothèses théoriques par l’intermédiaire de systèmes opérationnels (modules logiciels et interfaces). Cette approche s’est traduite par la création de ressources linguistiques adaptées à la recherche d’images mais utilisables dans le cadre d’autres applications et par la création d’une plateforme de recherche d’images fonctionnelle, capable de gérer des requêtes portant sur les noms communs, les noms géographiques et les noms de personnalités. 6.2 Limites et perspectives Suite à ce travail doctoral, il existe à notre sens plusieurs directions qu’il serait possible de suivre, combinant, tout comme la thèse, une dimension théorique et une dimension applicative. Nous présentons ici quelques limitations de notre travail, ainsi que des solutions envisagées pour dépasser ces limitations. Précisons que le domaine d’application le plus prommeteur parmi les trois analysés dans le cadre de notre thèse nous semble être celui des objets géographiques. Tout naturellement, il sera au centre de nos préoccupations futures. 6.2.1 Incomplétude des structures conceptuelles Les structures linguistiques sont intrinsèquement incomplètes car elles contiennent un nombre limité de concepts et de relations entre ces concepts. Cela étant, nous avons essayé de modéliser les domaines conceptuels traités de manière à inclure les connaissances les plus utiles pour les utilisateurs. Une étude initiale des pratiques associées aux moteurs de recherche d’images permet de déceler les domaines conceptuels les plus demandés et d’orienter le travail de recherche. Nous avons suivi cette démarche et proposé une plateforme de recherche d’images traitant des requêtes appartenant à des régions conceptuelles bien représentées dans l’ensemble des requêtes. Il serait cependant nécessaire de continuer à développer des structures similaires pour d’autres domaines bien représentés dans les fichiers de log, comme les 6.2. LIMITES ET PERSPECTIVES 197 noms de véhicules ou les personnages d’oeuvres artistiques. Pour chaque domaine, nous devons sélectionner les propriétés les plus représentatives, aussi bien conceptuellement que visuellement, et nous devons essayer de les renseigner de la manière la plus complète possible. Une autre voie intéressante à suivre concerne la création de structures conceptuelles multilingues. Nous avons travaillé sur des ressources en anglais mais les requêtes exprimées sur le Web appartiennent à une grande variété de langues. Dans le cas de la construction de ressources alignées, il est possible d’enrichir les réponses du moteur avec des résultats en d’autres langues car les représentations photographiques sont généralement indépendantes de la langue de la requête. L’Internet est un environnement hautement dynamique dans lequel les requêtes des utilisateurs et les informations à indexer et à organiser évoluent considérablement au fil du temps. Aussi, les structures conceptuelles doivent être remises à jour périodiquement pour suivre au mieux l’évolution des pratiques et des connaissances. 6.2.2 Traitement des requêtes complexes Dans le cadre de cette thèse, nous traitons principalement des requêtes mono-conceptuelles qui constituent une partie importante de l’espace de requêtes sur Internet. Un traitement des requêtes plus complexes, dans le cadre (limité) d’ImageCLEF, est également mis en place. Il nous parait important de continuer cet effort en explorant les modalités d’extension de notre approche à des requêtes plus complexes dans un cas général. La reformulation des requêtes formées de plusieurs termes pourrait enrichir les résultats, mais la tâche n’est pas triviale puisqu’il n’est pas aisé de déterminer quels concepts doivent être reformulés et comment. Avec la croissance de la complexité d’une requête, le nombre de reformulations possibles devient vite très important et il faut ordonner ces reformulations. Pour les requêtes complexes, nous nous limitons simplement à proposer une amélioration simple à mettre en œuvre dans ces cas : la proposition d’une recherche par le contenu parmi les réponses à ces requêtes. L’utilisation de plusieurs termes dans une requête détermine souvent des classes de réponses visuellement cohérentes (prenons l’exemple de black dog ou de cactus in the desert) et rend la recherche par similarité visuelle utile. 6.2.3 Qualité des résultats Nous avons décrit plusieurs tests évaluant la qualité des résultats fournis par les moteurs actuels de recherche d’images et les résultats issus d’une reformulation automatique des requêtes. Nous avons montré que les performances varient en fonction du domaine conceptuel. Pour améliorer la qualité des réponses, il faudrait étudier des méthodes d’amélioration de la précision en tenant compte d’indices de confiances appliqués aux sites en fonction du domaine conceptuel de la requête. Par exemple, dans le cas des célébrités, il serait utile de mettre en avant les photographies provenant de sites 198 CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES spécialisés comme IMDB1 ou ViewImages2 dont on connaı̂t la qualité des images. Dans cette thèse, nous favorisons une présentation conceptuellement structurée des réponses par rapport à une présentation non-structurée mais sans que cela soit appliqué au niveau du contenu visuel des images. Aussi, il faudrait aller plus loin et ajouter par exemple des méthodes de clustering d’images afin de proposer des résultats plus diversifiés à l’utilisateur. 6.2.4 Structuration automatique d’une ressource géographique La structure conceptuelle décrivant le domaine géographique est actuellement basée sur l’exploitation de trois sources principales d’information : Geonames, Wikipédia en anglais et Panoramio. Le processus d’extraction peut assez facilement être adapté à d’autres sources d’information, comme des versions de Wikipédia en d’autres langues ou Flickr. Il existe un nombre important d’objets qui ne sont pas pas géo-référencés dans la version anglaise de Wikipédia mais qui le sont dans d’autres langues. L’utilisation de ces nouvelles sources d’information engendrera une meilleure couverture de la ressource obtenue. Flickr contient environ dix fois plus d’images géo-référencées que Panoramio et son inclusion parmi les sources d’information déterminera également une meilleure couverture de la ressource, ainsi qu’un classement amélioré des objets géographiques. Nous extrayons actuellement uniquement le nom, les coordonnées et le type des objets décrits par des pages Wikipédia géo-localisées. Certaines de ces pages contiennent également d’autres informations intéressantes comme : les régions englobant l’objet décrit, la population et la surface dans le cas des entités administratives, des photographies illustratives. Toutes ces informations peuvent être extraites afin d’enrichir la structure du thésaurus. 6.2.5 Annotation automatique d’images géo-référencées Nous avons décrit l’utilisation d’un thésaurus géographique en recherche d’images géo-localisées. Il est également possible d’exploiter ce type de ressource pour l’annotation automatique des photographies du même type et nous explorons actuellement cette piste de recherche. La principale difficulté en annotation automatique des images de corpus variés regarde la grande diversité du contenu. Il n’existe pas actuellement des méthodes de classification automatique rendant des résultats raisonnables si on s’attaque à des espaces contenant des milliers (ou plus) d’objets. Il est donc obligatoire de proposer une réduction de la région du corpus recherchée avant de procéder à une classification. Dans le cas des images géo-référencées, cette réduction est envisageable en utilisant les coordonnées de la photographie (il ne sert pas à grande chose de comparer une image prise près de la Tour Eiffel à des objets de New York ou Tokyo pour tenter une classification). La localisation de l’espace de recherche réduit drastiquement la complexité du problème, le rendant traitable avec des méthodes de classification existantes. 1 2 http ://imdb.com http ://viewimages.com 6.2. LIMITES ET PERSPECTIVES 199 Il est certes nécessaire de se constituer des bases de référence afin de pouvoir classifier des nouvelles photographies. Des corpus comme Panoramio et Flickr sont aussi bien utilisables comme base de référence pour la classification que pour la recherche d’images à condition que l’objet en question soit assez bien représenté dans le corpus. De plus, la procédure de vérification manuelle des images de Panoramio permet d’enlever la plupart du bruit et on peut utiliser ces photographies afin d’enrichir la base de référence avec des images obtenues à partir de moteurs de recherche d’images généralistes. Deux cas d’utilisation sont envisagés : celui des appareils photographies permettant une localisation directe des images et celui des appareils n’incorporant pas cette fonction. Dans le premier cas, le problème est plus facile car l’image est bien localisée. Par conséquent, nous pouvons savoir assez précisément quels sont les objets connus autour de ses coordonnées et donc les annotations possibles. Dans la seconde situation, on peut imaginer une interface permettant à l’utilisateur de situer sur une carte des répertoires comme « Photographies de vacances de Paris ». Ensuite le système comparera ces images aux objets saillants dans Paris, essayant d’attribuer des étiquettes aux images dans le répertoire. 6.2.6 Plateforme de tourisme virtuel interactive Les applications de e-tourisme existantes, comme TripAdivsor, Schmap3 ou encore Google Earth, structurent bien la partie commerciale de leur offre mais proposent, au mieux, une organisation assez rudimentaire des lieux d’intérêt, prenant assez peu en compte les préférences de l’utilisateur. Il est par exemple impossible actuellement d’introduire les requêtes suivantes : – J’aimerais aller en Roumanie, y rester pendant une semaine et visiter des endroits représentatifs pour l’architecture réligieuse du pays, ainsi que des musées d’histoire et des châteaux. – J’aimerais visiter les églises baroques de Paris en une journée. Proposez moi un itinéraire sachant que je veux manger marocain à midi et indien le soir. Je ne veux pas dépenser plus de 20 euros par repas. – Je suis à Augsburg, j’ai trois heures avant de partir à l’aéroport — proposez moi un circuit incluant les principales attractions touristiques de la ville. L’utilisation d’un thésaurus géographique, enrichi avec des informations commerciales, associée à un système de cartes permettrait de répondre à ce type de questions et de proposer des itinéraires adaptés aux préférences exprimées par l’utilisateur. Avec l’essor des appareils géo-localisés, il est également possible de guider l’utilisateur pendant son excursion et de modifier les itinéraires en temps réel. Le système peut intégrer un outil comme ThemExplorer afin de proposer des « previews » des itinéraires suggérés, permettant à l’utilisateur de définir plus précisément ce qu’il veut vraiment visiter. Cet outil de tourisme virtuel interactif peut être vu comme un service autonome ou comme un module intégré à un service plus large, proposant aussi des vols et des hébergements. Nous pensons qu’il sera plus utile dans le dernier cas et permettra à la plateforme 3 http ://schmap.com 200 CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES l’intégrant de se démarquer par rapport à d’autres applications existantes. Comme indiqué à la fin du chapitre précédent, l’acceptation du projet ANR GEORAMA nous permet de centrer notre recherche future sur le domaine géographique. Les principaux objectifs du projet sont : l’amélioration de la qualité et de la couverture du thésaurus géographique mis en place, l’achévement du travail sur l’annotation automatique d’images d’objets géographiques et l’implémentation d’un prototype de la plateforme de tourisme virtuel décrite ci-dessus. Chapitre 7 Liste des publications Voici la liste des publications présentées au cours de cette thèse. 7.1 Chapitres d’ouvrages – Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic. Improving Image Retrieval Using Semantic Resources, Dans Advances in Semantic Media Adaptation and Personalization, Springer Series in Computational Intelligence, 2008. 7.2 7.2.1 7.2.1.1 Conférences Conférences internationales Présentations orales – Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic. Gazetiki : Automatic Creation of a Geographical Gazetteer, Proceedings of JCDL 2008 , June 16 - 20, Pittsburgh, USA. – Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos. A Conceptual Approach to Web Image Retrieval, LREC 2008, May 28 - 30, 2008, Marrakech, Maroc. – Adrian Popescu, Ioannis Kanellos. Multilingual and content based access to Flickr, ICTTA 2008, April 7 - 11, 2008, Damas, Syrie. – Davide Picca, Adrian Popescu. Using Wikipedia and supersense tagging for semiautomatic complex taxonomy construction, CALP workshop, in conjunction with RANLP 2007, September 30, 2007, Borovets, Bulgarie. – Adrian Popescu. Large Scale Semantic Structures for Image Retrieval, ACM Multimedia 2007 - doctoral symposium, September 24 - 29, Augsburg, Allemagne. – Christophe Millet, Isabelle Bloch, Adrian Popescu. Using the Knowledge of Object Colors to Segment Images and Improve Web Image Search, RIAO 2007, 30 mai 1 juin, 2007, Pittsburg, États-Unis. 201 202 CHAPITRE 7. LISTE DES PUBLICATIONS – Adrian Popescu. Image Retrieval Using a Multilingual Ontology, RIAO 2007, May 30 - June 1, 2007, Pittsburgh, États-Unis. – Christian Fluhr, Gregory Grefenstette, Adrian Popescu. Toward a common semantics between Media and Languages, Proceedings of IWRIDL, December 12-15, 2006, Kolkata, Inde – Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic. Using Semantic Commonsense Resources in Image Retrieval, Proceedings of SMAP 2006, December 4 - 5, 2006, Athènes, Grèce. – Adrian Popescu, Christophe Millet, Pierre-Alain Moëllic, Patrick Hède, Gregory Grefenstette. Automatic Construction of a Grounded Multimedia Ontology of Objects to Illustrate Concepts in a Learning Process, Proceedings of the 10th NETTIES Conference, 6-9 septembre, 2006, Timisoara, Roumanie. 7.2.1.2 Posters et démonstrations – Adrian Popescu, Sofiane Souidi, Pierre-Alain Moëllic. See the World with ThemExplorer, JCDL 2008 - demos session, June 16 - 20, Pittsburgh, Etats-Unis. – Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos. ThemExplorer : Finding and Browsing Geo-referenced Images, Proceedings of CBMI 2008 - posters session, June 18 - 20, London, Grande Bretagne. – Adrian Popescu, Pierre-Alain Moëllic. Olive - A Conceptual Web Image Search Engine, ACM Multimedia 2007 - demos session, September 24 - 29, Augsburg, Allemagne. – Adrian Popescu, Christophe Millet, Pierre-Alain Moëllic. Ontology Driven Content Based Image Retrieval, CIVR 2007 - posters session, 9-11 juillet, 2007, Amsterdam, Pays-Bas. – Adrian Popescu, Pierre-Alain Moëllic, Christophe Millet. SemRetriev – an Ontology Driven Image Retrieval System, CIVR 2007 - demo session, 9-11 juillet, 2007, Amsterdam, Pays-Bas. – Adrian Popescu, Christophe Millet, Gregory Grefenstette, Pierre-Alain Moëllic, Patrick Hède. Imaging Word - Wording Images, SAMT 2006 - poster session, 6-9 décembre, 2006, Athènes, Grèce. 7.2.2 Conférences nationales – Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos. Utilisation de structures sémantiques pour la recherche d’images sur Internet, ECOI Workshop, in conjunction with EGC 2008, January 29, 2008, Nice, France. Bibliographie [1] S. Ahern, M. Naaman, R. Nair, J. Yang. “World explorer : visualizing aggregate data from unstructured text in geo-referenced collections”. In JCDL ’07 : Proceedings of the 7th ACM/IEEE-CS joint conference on Digital libraries, pages 1–10, New York, NY, USA, (2007). ACM. [2] A. Al-Maskari, M. Sanderson, P. Clough. “The good and the bad system : Does the test collection predict users’ effectiveness ?”. In Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval, Singapore, (2008). [3] F.-X. Alario, L. Ferrand. “A set of 400 pictures standardized for french : Norms for name agreement, image agreement, familiarity, visual complexity, image variability, and age of acquisition”, Behavior research methods, instruments & computers, 31(3), pp. 531–552, (1999). [4] Aristote. Catégories. Seuil, (2000). [5] J. Ashley, M. Flickner, J. Hafner, D. Lee, W. Niblack, D. Petkovic. “The query by image content (qbic) system”, SIGMOD Rec., 24(2), pp. 475, (1995). [6] Y. A. Aslandogan, C. Thier, C. T. Yu, J. Zou, N. Rishe. “Using semantic contents and wordnet in image retrieval”. In Proceedings of the 20th annual international ACM SIGIR conference on Research and development in information retrieval, pages 286–295, New York, NY, USA, (1997). ACM. [7] J. Atserias, H. Zaragoza, M. Ciaramita, G. Attardi. “Semantically annotated snapshot of the english wikipedia”. In Proceedings of the Sixth International Language Resources and Evaluation (LREC’08), Marrakech, Morroco, (2008). [8] S. Auer, C. Bizer, G. Kobilarov, J. Lehmann, R. Cyganiak, Z. Ives. “Dbpedia : A nucleus for a web of open data”. In Proceedings of the 6th International Semantic Web Conference (ISWC), Volume 4825 of Lecture Notes in Computer Science, pages 722–735. Springer, (2008). [9] M. Berland, E. Charniak. “Finding parts in very large corpora”. Technical report, Providence, RI, USA, (1999). [10] T. Berners-Lee, J. Hendler, O. Lassila. “The semantic web”. (May 2001). [11] R. Besançon, C. Millet. “Merging resultes from different media : experiments at imageclef 2005”. In Working Notes for the ImageCLEF 2005 Workshop, (2005). 203 204 BIBLIOGRAPHIE [12] T. Bittner, M. Donnelly, B. Smith. “Endurants and perdurants in directly depicting ontologies”, AI Commun., 17(4), pp. 247–258, (2004). [13] O. Bodenreider. “The unified medical language system (umls) : integrating biomedical terminology.”, Nucleic Acids Res, 32(Database issue), (January 2004). [14] E. Brill, J. J. Lin, M. Banko, S. T. Dumais, A. Y. Ng. “Data-intensive question answering”. In TREC, (2001). [15] A. Broder. “A taxonomy of web search”, SIGIR Forum, 36(2), pp. 3–10, (2002). [16] P. Bryan-Heidorn. Natural Language Understanding for Image Retrieval : Botanical texts. PhD thesis, University of Pittsburgh, (1997). [17] P. Buitelaar, P. Cimiano, editors. Ontology Learning and Population : Bridging the Gap between Text and Knowledge, Volume 167 of Frontiers in Artificial Intelligence and Applications. IOS Press, Amsterdam, (2008). [18] R. C. Bunescu, M. Pasca. “Using encyclopedic knowledge for named entity disambiguation”. In Proceedings of 11st Conference of the European Chapter of the Association for Computational Linguistics, (2006). [19] D. Cai, X. He, Z. Li, W.-Y. Ma, J.-R. Wen. “Hierarchical clustering of www image search results using visual, textual and link information”. In Proceedings of the 12th annual ACM international conference on Multimedia, pages 952–959, New York, USA, (2004). [20] Y.-C. Cheng, S.-Y. Chen. “Image classification using color, texture and regions”, Image Vision Comput., 21(9), pp. 759–776, (2003). [21] P. Cimiano, S. Handschuh, S. Staab. “Towards the self-annotating web”. In Proceedings of the 13th WWW Conference, pages 462–471, New York, USA, (May 2004). [22] P. Cimiano, S. Staab. “Learning concept hierarchies from text with a guided hierarchical clustering algorithm”. In Proceedings of the ICML 2005 Workshop on Learning and Extending Lexical Ontologies with Machine Learning Methods, (2005). [23] P. Clough, H. Joho, M. Sanderson. “Automatically organizing images using concept hierarchies”. In Proceedings of the Multimedia Information Retrieval, 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Salvador, Brazil, (August 2005). [24] P. Clough, M. Sanderson, X. M. Shou. “Searching and organizing images across languages”. In Proceedings of Electronic Imaging, the Visual Arts and Beyond, Moscow, Russia, (2005). [25] I. J. Cox, M. L. Miller, S. M. Omohundro, P. N. Yianilos. “Pichunter : Bayesian relevance feedback for image retrieval”. In ICPR ’96 : Proceedings of the International Conference on Pattern Recognition (ICPR ’96) Volume III-Volume 7276, Washington, DC, USA, (1996). IEEE Computer Society. BIBLIOGRAPHIE 205 [26] G. Csurka, C. R. Dance, J. W. L. Fan, C. Bray. “Visual categorization with bags of keypoints.”. In In Proc. of ECCV Workshop on Statistical Learning in Computer Vision, pages 1–22, (2004). [27] C. Dorai, S. Venkatesh. “Guest editors’ introduction : Bridging the semantic gap with computational media aesthetics”, IEEE MultiMedia, 10(2), pp. 15–17, (2003). [28] K. Eckert, H. Stuckenschmidt, M. Pfeffer. “Semtinel : interactive supervision of automatic indexing”. In JCDL ’08 : Proceedings of the 8th ACM/IEEE-CS joint conference on Digital libraries, pages 425–425, New York, NY, USA, (2008). ACM. [29] U. Eco. A Theory of Semiotics. Indiana University Press, Bloomington, Indiana, (1976). [30] U. Eco. The Search for the Perfect Language. Wiley-Blackwell, Bloomington, Indiana, (1995). [31] P. G. B. Enser, C. J. Sandom, P. H. Lewis, J. S. Hare. “The reality of the semantic gap in image retrieval”. In Proceedings of the 1st International Conference on Semantic and Digital Media Technologiess, (2006). [32] O. Etzioni, K. Reiter, S. Soderland, M. Sammer. “Lexical translation with application to image search on the web”. In Proceedings of the 11th Machine Translation Summit, (September 2007). [33] C. Fellbaum, editor. WordNet : an electronic lexical database. MIT Press, (1998). [34] M. Ferecatu, N. Boujemaa, M. Crucianu. “Semantic interactive image retrieval combining visual and conceptual content description”, Multimedia Syst., 13(5-6), pp. 309–322, (2008). [35] J. Fournier. Indexation d’images par le contenu et recherche interactive dans les bases généralistes. PhD thesis, Université de Cergy-Pontoise, (octobre 2002). [36] B. Froba, A. Ernst. “Face detection with the modified census transform”. In Proceedings. Sixth IEEE International Conference on Automatic Face and Gesture Recognition, (2004). [37] F. Gandon. “Ontology engineering : a survey and a return on experience”. Technical Report 4396, INRIA - Sophia Antipolis, (mars 2002). [38] T. Gevers, A. W. M. Smeulders. Emerging Topics in Computer Vision, chapter Content-based Image Retrieval : An Overview. Prentice Hall, (2004). [39] J. Giles. “Internet encyclopaedias go head to head”, Nature, 438, pp. 900–901, (2005). [40] E. H. Gombrich. Histoire de l’art. Phaidon, (2002). [41] A. Goodrum, A. Spink. “Image searching on the excite web search engine”, Inf. Process. Manage., 37(2), pp. 295–311, (2001). [42] P.-H. Gosselin, M. Cord. “Active learning methods for interactive image retrieval”, IEEE Transactions on Image Processing, 17(7), pp. 1200–1211, (2008). [43] G. Grefenstette. Explorations in Automatic Thesaurus Discovery. Kluwer, (1994). 206 BIBLIOGRAPHIE [44] G. Grefenstette. “Conquering language : Using nlp on a massive scale to build high dimensional language models from the web”. In Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Text Processing, pages 35–49, (2007). [45] C. Grimes, D. Tang, D. M. Russel. “Query logs alone are not enough”. In Proceedings of the Query Log Analysis : Social and Technological Challenges Workshop, held in conjunction with WWW 2007, (2007). [46] W. I. Group. “Image annotation on the semantic web”. http ://www.w3.org/2005/Incubator/mmsem/XGR-image-annotation-20070814/. [47] R. V. Guha, D. B. Lenat. “Cyc : a mid-term report”, Appl. Artif. Intell., 5(1), pp. 45–86, (1991). [48] E. Hargittai. “Beyond logs and surveys : in-depth measures of people’s web use skills”, J. Am. Soc. Inf. Sci. Technol., 53(14), pp. 1239–1244, (2002). [49] M. A. Hearst. “Automatic acquisition of hyponyms from large text corpora”. In Proceedings of the 14th conference on Computational linguistics, pages 539–545, Morristown, NJ, USA, (1992). Association for Computational Linguistics. [50] L. Hill, J. Frew, Q. Zheng. “Geographic names : The implementation of a gazetteer in a georeferenced digital library”, D-Lib Magazine, (January 1999). [51] E. Hörster, R. Lienhart, M. Slaney. “Image retrieval on large-scale image databases”. In CIVR ’07 : Proceedings of the 6th ACM international conference on Image and video retrieval, pages 17–24, New York, NY, USA, (2007). ACM. [52] M.-H. Hsu, H.-H. Chen. “Information retrieval with commonsense knowledge”. In SIGIR ’06 : Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, pages 651–652, New York, NY, USA, (2006). ACM. [53] M.-H. Hsu, M.-F. Tsai, H.-H. Chen. “Query expansion with conceptnet and wordnet : An intrinsic comparison”. In Proceedings of the Third Asia Information Retrieval Symposium Information Retrieval Technology, pages 1–13, (2006). [54] E. Hyvönen, S. Saarela, K. Viljanen. “Application of ontology techniques to viewbased semantic search and browsing”. In Proceedings of The Semantic Web : Research and Applications, First European Semantic Web Symposium, ESWS 2004, pages 92–106, (2004). [55] A. Iftene, A. Balahur-Dobrescu. “Named entity relation mining using wikipedia”. In Proceedings of the 6th Language Resources and Evaluation Conference, (2008). [56] J. B. Ilan. “Access to query logs — an academic researcher’s point of view”. In E. Amitay, C. G. Murray, J. Teevan, editors, Query Log Analysis : Social And Technological Challenges. A workshop at the 16th International World Wide Web Conference (WWW 2007), (May 2007). [57] E. J. M. Martı́nez. “Mpeg7 standard”. http ://www.chiariglione.org/mpeg/standards /mpeg-7/mpeg-7.htm. BIBLIOGRAPHIE 207 [58] A. Jaimes, S.-F. Chang. “A conceptual framework for indexing visual information at multiple levels”. In Proceedings of the IST/SPIE Internet Imaging 2000, (2000). [59] B. J. Jansen, D. L. Booth, A. Spink. “Determining the informational, navigational, and transactional intent of web queries”, Inf. Process. Manage., 44(3), pp. 1251– 1266, (2008). [60] B. J. Jansen, A. Goodrum, A. Spink. “Searching for multimedia : analysis of audio, video and image web queries”, World Wide Web, 3(4), pp. 249–254, (2000). [61] B. J. Jansen, A. Spink, T. Saracevic. “Real life, real users, and real needs : a study and analysis of user queries on the web”, Inf. Process. Manage., 36(2), pp. 207–227, (2000). [62] B. J. Jansen. “Search log analysis : What it is, what’s been done, how to do it”, Library & Information Science Research, 28(3), pp. 407–432, (2006). [63] Y. Jing, S. Baluja. “Pagerank for product image search”. In WWW ’08 : Proceeding of the 17th international conference on World Wide Web, pages 307–316, New York, NY, USA, (2008). ACM. [64] Y. Jing, S. Baluja, H. Rowley. “Canonical image selection from the web”. In CIVR ’07 : Proceedings of the 6th ACM international conference on Image and video retrieval, pages 280–287, New York, NY, USA, (2007). ACM. [65] M. Joint, P.-A. Moellic, P. Hede, P. Adam. “Piria : a general tool for indexing, search, and retrieval of multimedia content”. In Proceedings of SPIE Image Processing : Algorithms and Systems III, (2004). [66] D. Joshi, R. Datta, Z. Zhuang, W. P. Weiss, M. Friedenberg, J. Li, J. Z. Wang. “Paragrab : a comprehensive architecture for web image management and multimodal querying”. In VLDB ’06 : Proceedings of the 32nd international conference on Very large data bases, pages 1163–1166. VLDB Endowment, (2006). [67] X. J.Wang, W. Y. Ma, X. Li. “Data-driven approach for bridging the cognitive gap in image retrieval”. In Proceedings of the 2004 IEEE International Conference on Multimedia and Expo, Volume 3, pages 2231–2234, Taipei, Taiwan, (June 2004). IEEE. [68] I. Kanellos, T. L. Bras, F. Miras, I. Suciu. “Le concept de genre comme point de départ pour une modélisation sémantique du document électronique”. In Actes du huitième colloque international sur le document électronique (CIDE.8) : Le Multilinguisme, (2005). [69] L. Karoui, M. Aufaure, N. Bennacer. “Ontology discovery from web pages : Application to tourism”. In Proceedings of the ECML/PKDD Workshop on Knowledge Discovery and Ontologies, (2004). [70] J. Kazama, K. Torisawa. “Exploiting wikipedia as external knowledge for named entity recognition”. In Proceedings of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages 698–707, (2007). 208 BIBLIOGRAPHIE [71] F. C. Keil. Concepts, Kinds, and Cognitive Development. MIT Press, Cambridge, Massachusetts, (1989). [72] L. Kennedy, M. Naaman, S. Ahern, R. Nair, T. Rattenbury. “How flickr helps us make sense of the world : context and content in community-contributed media collections”. In MULTIMEDIA ’07 : Proceedings of the 15th international conference on Multimedia, pages 631–640, New York, NY, USA, (2007). ACM. [73] L. S. Kennedy, M. Naaman. “Generating diverse and representative image search results for landmarks”. In WWW ’08 : Proceeding of the 17th international conference on World Wide Web, pages 297–306, New York, NY, USA, (2008). ACM. [74] J. Klavans, T. Sidhu, C. Sheffield, D. Soergel, J. Lin, E. Abels, R. Passonneau. “Computational linguistics for metadata building (climb) text mining for the automatic extraction of subject terms for image metadata”. In Proceedings of the VISAPP Workshop Metadata Mining for Image Understanding, (2008). [75] H. Kong, M. Hwang, P. Kim. “The study on the semantic image retrieval based on the personalized ontology”, International Journal of Information Technology, 12(2), (2006). [76] C.-H. Kuo. “Building semantic indexing for image retrieval systems”. In Proceedings of the International Computer Symposium, ICS 2004, (2004). [77] A. Kutics, A. Nakagawa, S. Arai, H. Tanaka, S. Ohtsuka. “Relating words and image segments on multiple layers for effective browsing and retrieval”. In Proceedings of the International Conference on Image Processing, ICIP 2004, pages 2203–2206, (2004). [78] J. Li, J. Z. Wang. “Real-time computerized annotation of pictures”. In MULTIMEDIA ’06 : Proceedings of the 14th annual ACM international conference on Multimedia, pages 911–920, New York, NY, USA, (2006). ACM. [79] S. P. Liao, P. J. Cheng, R. C. Chen, L. F. Chien. “Liveimage : Organizing web images by relevant concepts”. In Proc. of the Workshop on the Science of the Artificial 2004, pages 210–220, (2005). [80] H. Liu, P. Singh. “Conceptnet — a practical commonsense reasoning tool-kit”, BT Technology Journal, 22(4), pp. 211–226, (2004). [81] H. Liu, X. Xie, X. Tang, Z.-W. Li, W.-Y. Ma. “Effective browsing of web image search results”. In MIR ’04 : Proceedings of the 6th ACM SIGMM international workshop on Multimedia information retrieval, pages 84–90, New York, NY, USA, (2004). ACM. [82] Y. Liu, D. Zhang, G. Lu, W.-Y. Ma. “A survey of content-based image retrieval with high-level semantics”, Pattern Recogn., 40(1), pp. 262–282, (2007). [83] D. Lowe. “Distinctive image features from scale-invariant keypoints”, International Journal of Computer Vision, 20, pp. 91–110, (2003). [84] A. Maedche, S. Staab. “Discovering conceptual relations from text”. In Proceedings of the 14th European Conference on Artificial Intelligence (ECAI), pages 321–325, (2000). BIBLIOGRAPHIE 209 [85] N. Maillot, M. Thonnat, A. Boucher. “Towards ontology based cognitive vision”. In International Conference on Computer Vision Systems, ICVS, pages 44–53, (avril 2003). [86] V. Mezaris, I. Kompatsiaris, M. Strintzis. “An ontology approach to object-based image retrieval”. In Proceedings of the IEEE International Conference on Image Processing, ICIP03, Volume 2, pages 511–514, (September 2003). [87] K. Mikolajczyk, C. Schmid. “A performance evaluation of local descriptors”, IEEE Trans. Pattern Anal. Mach. Intell., 27(10), pp. 1615–1630, (2005). [88] G. A. Miller. “Nouns in wordnet : A lexical inheritance system”, Int J Lexicography, 3(4), pp. 245–264, (January 1990). [89] C. Millet. Annotation automatique d’images : annotation cohérente et création automatique d’une base d’apprentissage. PhD thesis, ENST Paris, (2007). [90] M. Minsky. “Framework for representing knowledge”. Technical report, (1974). [91] M. Missikof, R. Navigli, P. Velardi. “Integrated approach to web ontology learning and engineering”, Computer, 35(11), pp. 60–63, (2002). [92] P.-A. Moëllic, J. E. Haugeard, G. Pitel. “Image clustering based on a shared nearest neighbors approach for tagged collections”. In Proceedings of the ACM International Conference on Image and Video Retrieval 2008, (July 2008). [93] M. Naaman, , Y. J. Song, A. Paepcke, H. Garcia-Molina. “Automatic organization for digital photographs with geographic coordinates”. In Proceedings of the 4th ACM/IEEE-CS joint conference on Digital libraries, pages 53–62. ACM Press, (2004). [94] M. Naaman, , Y. J. Song, A. Paepcke, H. Garcia-Molina. “Assigning textual names to sets of geographic coordinates”, Computers, Environment and Urban Systems, 30(4), pp. 418–435, (July 2006). [95] A. Nakagawa, A. Kutics, K. Tanaka, M. Nakajima. “Combining words and objectbased visual features in image retrieval”. In ICIAP ’03 : Proceedings of the 12th International Conference on Image Analysis and Processing, page 354, Washington, DC, USA, (2003). IEEE Computer Society. [96] M. Naphade, J. R. Smith, J. Tesic, S.-F. Chang, W. Hsu, L. Kennedy, A. Hauptmann, J. Curtis. “Large-scale concept ontology for multimedia”, IEEE MultiMedia, 13(3), pp. 86–91, (2006). [97] Neon. “Neon project website”. http ://www.neon-project.org/web-content/. [98] B. V. Nguyen, M.-Y. Kan. “Functional faceted web query analysis”. In Query Log Analysis : Social And Technological Challenges. A workshop at the 16th International World Wide Web Conference (WWW 2007), (May 2007). [99] N. O’Hare, C. Gurrin, A. F. Smeaton, G. Jones. “Combination of content analysis and context features for digital photograph retrieval”. In Proceedings of EWIMT 2005, (2005). 210 BIBLIOGRAPHIE [100] T. Ojala, M. Pietikainen, D. Harwood. “A comparative study of texture measures with classification based on feature distributions”, Computers, Environment and Urban Systems, 29(1), pp. 51–59, (1996). [101] A. Oltramari, A. Gangemi, N. Guarino, C. Masolo. “Restructuring wordnet’s toplevel : The ontoclean approach”. In Proceedings of 2nd International Workshop on Evaluation of Ontology-based Tools, (2002). [102] ONERA. “Etat de l’art des travaux sur les méthodes actuelles de recherche par le contenu dans les bases de données images”. Technical report, (2006). [103] L. Page. “Method for node ranking in a linked database”. U.S. Patent 6285999. [104] Z. Pan. “Benchmarking dl reasoners using realistic ontologies”. In Proceedings of the Workshop on OWL : Experiences and Directions (OED’05), (2005). [105] E. Panofsky. Meaning in the Visual Arts. The University of Chicago Press, Chicago, Illinois, (1955). [106] G. Pass, A. Chowdhury, C. Torgeson. “A picture of search”. In InfoScale ’06 : Proceedings of the 1st international conference on Scalable information systems, New York, NY, USA, (2006). ACM. [107] S. P. Ponzetto, M. Strube. “Deriving a large scale taxonomy from wikipedia”. In Proceedings of the Twenty-Second AAAI Conference on Artificial Intelligence, (2007). [108] A. Potrich, E. Pianta. “L-isa : Learning domain specific isa-relations from the web”. In Proceedings of LREC 2008, (2008). [109] T. Quack, U. Mönich, L. Thiele, B. S. Manjunath. “Cortina : a system for largescale, content-based web image retrieval”. In MULTIMEDIA ’04 : Proceedings of the 12th annual ACM international conference on Multimedia, pages 508–511, New York, NY, USA, (2004). ACM. [110] T. Rattenbury, N. Good, M. Naaman. “Towards automatic extraction of event and place semantics from flickr tags”. In SIGIR ’07 : Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, pages 103–110, New York, NY, USA, (2007). ACM. [111] K. Rodden, W. Basalaj, D. Sinclair, K. Wood. “Does organisation by similarity assist image browsing ?”. In CHI ’01 : Proceedings of the SIGCHI conference on Human factors in computing systems, pages 190–197, New York, NY, USA, (2001). ACM. [112] E. Rosch, C. B. Mervis, W. D. Gray, D. M. Johnson, P. Boyes-Braem. “Basic objects in natural categories”, Cognitive Psychology, 8, pp. 382–439, (1976). [113] D. E. Rose, D. Levinson. “Understanding user goals in web search”. In WWW ’04 : Proceedings of the 13th international conference on World Wide Web, pages 13–19, New York, NY, USA, (2004). ACM. [114] M. Ruiz-Casado, E. Alfonseca, P. Castells. “Automatic assignment of wikipedia encyclopedic entries to wordnet synsets”, Advances in Web Intelligence, pages 380– 386, (2005). BIBLIOGRAPHIE 211 [115] M. Ruiz-Casado, E. Alfonseca, P. Castells. “Automatising the learning of lexical patterns : An application to the enrichment of wordnet by extracting semantic relationships from wikipedia”, Data Knowl. Eng., 61(3), pp. 484–499, (2007). [116] D. M. Russell, C. Grimes. “Assigned tasks are not the same as self-chosen web search tasks”. In HICSS ’07 : Proceedings of the 40th Annual Hawaii International Conference on System Sciences, page 83, Washington, DC, USA, (2007). IEEE Computer Society. [117] M. Sanderson. “Ambiguous queries : Test collections need more sense”. In Proceedings of the 31nd annual international ACM SIGIR conference on Research and development in information retrieval, New York, NY, USA, (2008). ACM. [118] M. Sanderson, B. Croft. “Deriving concept hierarchies from text”. In SIGIR ’99 : Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pages 206–213, New York, NY, USA, (1999). ACM. [119] M. Sanderson, Y. Han. “Search words and geography”. In GIR ’07 : Proceedings of the 4th ACM workshop on Geographical information retrieval, pages 13–14, New York, NY, USA, (2007). ACM. [120] M. Sanderson, J. Tian, P. Clough. “Testing an automatic organisation of retrieved images into a hierarchy”. In Proceedings of International Workshop OntoImage’2006 Language Resources for Content-Based Image Retrieval, held in conjuction with LREC’06, pages 44–49, (2006). [121] S. Santini. “Summa contra ontologiam.”. In Lecture Notes in Computer Science, Volume 4254, pages 483–496. Springer, (2006). [122] S. Santini, A. Gupta, R. Jain. “Emergent semantics through interaction in image databases”, IEEE Trans. on Knowl. and Data Eng., 13(3), pp. 337–351, (2001). [123] C. Schlenoff, E. Messina. “A robot ontology for urban search and rescue”. In KRAS ’05 : Proceedings of the 2005 ACM workshop on Research in knowledge representation for autonomous systems, pages 27–34, New York, NY, USA, (2005). ACM. [124] S. Shatford-Layne. “Some issues in the indexing of images”, J. Am. Soc. Inf. Sci., 45(8), pp. 583–588, (1994). [125] P. Singh, B. Barry. “Collecting commonsense experiences”. In K-CAP ’03 : Proceedings of the 2nd international conference on Knowledge capture, pages 154–161, New York, NY, USA, (2003). ACM. [126] A. W. M. Smeulders, M. Worring, S. Santini, A. Gupta, R. Jain. “Content-based image retrieval at the end of the early years”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(12), pp. 1349–1380, (2000). [127] J. R. Smith, S.-F. Chang. “Visualseek : a fully automated content-based image query system”. In MULTIMEDIA ’96 : Proceedings of the fourth ACM international conference on Multimedia, pages 87–98, New York, NY, USA, (1996). ACM. 212 BIBLIOGRAPHIE [128] J. Sowa. Knowledge Representation : Logical, Philosophical, and Computational Foundations. Brooks/Cole Publishing Co., Pacific Grove, CA, (2000). [129] K. Spärck-Jones, S. E. Robertson, M. Sanderson. “Ambiguous requests : implications for retrieval tests, systems and theories”, SIGIR Forum, 41(2), pp. 8–17, (2007). [130] A. Spink, B. J. Jansen, C. Blakely, S. Koshman. “A study of results overlap and uniqueness among major web search engines”, Inf. Process. Manage., 42(5), pp. 1379–1391, (2006). [131] R. O. Stehling, M. A. Nascimento, A. X. Falcão. “A compact and efficient image retrieval approach based on border/interior pixel classification”. In Proceedings of the eleventh international conference on Information and knowledge management, CIKM, pages 102–109, New York, NY, USA, (2002). ACM Press. [132] TASI. “A review of image http ://www.tasi.ac.uk/resources/searchengines.html. search engines”. [133] A. Toral, R. Muñoz. “A proposal to automatically build and maintain gazetteers for named entity recognition by using wikipedia”. In NEW TEXT - Wikis and blogs and other dynamic text sources, Trento, (2006). [134] M. Trautwein, P. Grenon. “Roles : One dead armadillo on wordnet’s speedway to ontology”. In Proceedings of the 2nd International Global WordNet Conference, pages 341–346, (2004). [135] P. D. Turney. “Mining the web for synonyms : Pmi-ir versus lsa on toefl”. In EMCL ’01 : Proceedings of the 12th European Conference on Machine Learning, pages 491–502, London, UK, (2001). Springer-Verlag. [136] A. Turpin, F. Scholer. “User performance versus precision measures for simple search tasks”. In SIGIR ’06 : Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, pages 11–18, New York, NY, USA, (2006). ACM. [137] P. Vincent, R. Bruskiewich, E. C. Jr, P. Jaiswal, S. McCouch, M. Schaeffer, L. Stein, D. Ware. “The plant ontology consortium and plant ontologies”, Comparative and Functional Genomics, 3(2), pp. 137–142, (2002). [138] P. Viola, M. Jones. “Robust real-time object detection”, International Journal of Computer Vision, ICVR, (2002). [139] V. Haarslev, R. Möller. “Racer : A core inference engine for the semantic web”. In Proceedings of 2nd International Workshop on Evaluation of Ontology-based Tools, (2002). [140] H. Wang, S. Liu, L.-T. Chia. “Does ontology help in image retrieval ? - a comparison between keyword, text ontology and multi-modality ontology approaches”. In MULTIMEDIA ’06 : Proceedings of the 14th annual ACM international conference on Multimedia, pages 109–112, New York, NY, USA, (2006). ACM. BIBLIOGRAPHIE 213 [141] J. Wang, N. Ge. “Automatic feature thesaurus enrichment : extracting generic terms from digital gazetteer”. In Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries, pages 326–333, New York, NY, USA, (2006). ACM. [142] S. Wang, F. Jing, J. He, Q. Du, L. Zhang. “Igroup : presenting web image search results in semantic clusters”. In CHI ’07 : Proceedings of the SIGCHI conference on Human factors in computing systems, pages 587–596, New York, NY, USA, (2007). ACM. [143] C. Welty, N. Guarino. “Supporting ontological analysis of taxonomic relationships”, Data Knowl. Eng., 39(1), pp. 51–74, (2001). [144] S.-H. Wu, T.-H. Tsai, W.-L. Hsu. “Domain event extraction and representation with domain ontology”. In Proceedings of IJCAI-03 Workshop on Information Integration on the Web (IIWeb-03), August, pages 33–38, (2003). [145] J. Yang, A. Hauptmann. “Annotating news video with locations”. In Proceedings of International Conference on Image and Video Retrieval (CIVR), (2006). [146] J. Yang, L. Wenyin, H. Zhang, Y. Zhuang. “Thesaurus-aided approach for image browsing and retrieval”, Proceedings of ICME 2001, (2001). [147] K.-P. Yee, K. Swearingen, K. Li, M. Hearst. “Faceted metadata for image search and browsing”. In CHI ’03 : Proceedings of the SIGCHI conference on Human factors in computing systems, pages 401–408, New York, NY, USA, (2003). ACM. [148] H. Zaragoza, H. Rode, P. Mika, J. Atserias, M. Ciaramita, G. Attardi. “Ranking very many typed entities on wikipedia”. In CIKM ’07 : Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, pages 1015–1018, New York, NY, USA, (2007). ACM. [149] R. Zhao, W. Grosky. “Bridging the semantic gap in image retrieval”, Distributed Multimedia Databases : Techniques and Applications, (2001). [150] Y. Zhuang, X. Liu, Y. Pan. “Apply semantic template to support content-based image retrieval”. In Proc. SPIE Vol. 3972, p. 442-449, Storage and Retrieval for Media Databases 2000, (2000). [151] H. Zhuge. “Retrieve images by understanding semantic links and clustering image fragments”, J. Syst. Softw., 73(3), pp. 455–466, (2004). [152] S. Zinger, C. Millet, B. Mathieu, G. Grefenstette, P. Hède, P.-A. Moëllic. “Clustering and semantically filtering web images to create a large scale image ontology”. In Proceedings of the IS&T/SPIE 18th Symposium Electronic Imaging, pages 89– 97, San Jose, Californie, USA, (janvier 2006). [153] C. Zirn, V. Nastase, M. Strube. “Distinguishing between instances and classes in the wikipedia taxonomy”. In M. Hauswirth, M. Koubarakis, S. Bechhofer, editors, Proceedings of the 5th European Semantic Web Conference, LNCS. Springer Verlag, (June 2008).