Structures linguistiques pour la recherche d`images

Transcription

Structures linguistiques pour la recherche d`images
Structures linguistiques pour la recherche
d’images sur Internet
Adrian Popescu
Thèse soutenue pour obtenir le grade de docteur de
l’École Nationale Supérieure des Télécommunications de Bretagne
Spécialité Informatique.
Directeur de thèse :
Encadrants CEA :
Examinateur :
Rapporteurs :
Ioannis Kanellos
Gregory Grefenstette
Pierre-Alain Moëllic
Pierre-François Marteau
Florence Sèdes
Bruno Bachimont
2
Résumé
Les recherches d’images représente une part importante du nombre total des requêtes
sur Internet. Malgré leur utilité et leur popularité, les systèmes de recherche actuels
souffrent de certaines limitations, comme le manque de sémantique dans le traitement
des requêtes, l’imprécision des résultats, une faible interactivité, ou encore un manque
d’intégration de techniques de traitement d’images. Dans cette thèse, nous démontrons
que l’exploitation de structures linguistiques à large échelle représente une réponse viable
aux problèmes des systèmes actuels de recherche d’images.
Cette thèse est constituée de trois parties :
La première partie s’intéresse au cadre de notre étude. Pour commencer, nous essayons de répondre à la question « quelles images cherchons-nous ? » en étudiant un fichier de log qui met en évidence quelques domaines conceptuels importants en recherche
d’images, comme les noms communs, les noms géographiques ou les personnalités. Ensuite, nous analysons la relation entre les concepts et leur représentation imagée, puis
nous introduisons et définissons les structures linguistiques qui sont le cœur de notre
approche. Nous concluons cette première partie par la proposition d’une architecture
générique d’un système de recherche d’images intégrant des ressources sémantiques et
des fonctionnalités de traitement d’images.
La deuxième partie étudie la possibilité d’adapter et/ou de construire automatiquement des structures linguistiques à large échelle pour la recherche d’images sur Internet.
Cette tâche est particulièrement ardue car il est nécessaire d’acquérir des connaissances
de bonne qualité et d’assurer également une bonne couverture des domaines conceptuels
analysés. Notre approche combine la réutilisation de ressources existantes, dans une
forme adaptée à la recherche d’images et la structuration de nouvelles connaissances.
Nous proposons en particulier un algorithme permettant une extraction totalement automatique d’un thésaurus géographique à partir de sources hétérogènes du Web. Nous
proposons plusieurs évaluations permettant de valider notre approche.
La troisième partie correspond à la dimension applicative de ce travail avec le développement de trois systèmes permettant le traitement de requêtes portant sur des noms
communs, des noms géographiques et des personnalités. Les architectures de ces applications sont des déclinaisons de notre architecture générique présentée dans la première
partie. Elles intègrent les nouvelles ressources sémantiques que nous avons produites et
proposent une recherche par le contenu dirigée par la sémantique. Ces applications sont
décrites, illustrées, puis évaluées par rapport à des systèmes existants.
3
4
Abstract
Image requests represent a hefty chunk of the total number of Internet information
queries. Despite their utility and wide usage, current image search engines suffer from
certain limitations, such as the lack of semantics in query processing, the imprecision
of the results returned, poor interactivity and the limited use of image processing techniques. In this PhD, we prove that the use of large-scale linguistic structures represents
a solution to the limitations of existing Web image retrieval systems.
This thesis has three main parts :
The first part analyses the main purposes of our work. To begin, we set up a log
file analysis that attempts to answer the question ”what images are we looking for ?”.
The study shows that a lot of queries belong to conceptual domains like common nouns,
celebrity names and geographic names. Second, we analyse the relationship between
the concepts and their pictorial representation and introduce some definitions that are
necessary when building linguistic structures. We conclude this chapter by proposing an
image search architecture that integrates conceptual structures with image processing
techniques.
The second part of the thesis deals with the automatic adaptation and construction
of large-scale linguistic structures for use in Web image retrieval. This task is particularly
difficult because it implies a good balance between the quality of the extracted knowledge and the coverage of wide conceptual domains. Our approach combines the reuse
of existing resources, in an adapted form, and the building of new linguistic structures.
For instance, we present a new algorithm for the automatic extraction of a geographic
thesaurus using heterogeneous sources of information on the Web. We propose several
evaluations that validate our approach.
5
6
Table des matières
1 Avant propos
11
1.1 Problématique de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Ambition et défis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Structure de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Etat de l’art
2.1 Modèles de description d’une image . . . . . . . . . . . . . . . . . . . . .
2.1.1 Le fossé sémantique . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Modèles formels de description . . . . . . . . . . . . . . . . . . .
2.1.3 Utilisation des modèles de description pour la recherche d’images
sur Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Corpus d’images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Classification des bases de données images . . . . . . . . . . . . .
2.2.2 Les différents types d’annotation . . . . . . . . . . . . . . . . . .
2.3 Recherche dans les bases de données type Internet . . . . . . . . . . . .
2.3.1 Recherche par mots-clef . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Recherche par le contenu visuel . . . . . . . . . . . . . . . . . . .
2.4 Études utilisateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1 Etudes de l’interaction entre les utilisateurs et les systèmes de
recherche d’information . . . . . . . . . . . . . . . . . . . . . . .
2.4.2 Exploitation des fichiers de log . . . . . . . . . . . . . . . . . . .
2.4.3 Études utilisateurs pour la recherche d’information sur Internet .
2.4.4 Considérations relatives aux études utilisateurs . . . . . . . . . .
2.5 Structures sémantiques pour la recherche d’images . . . . . . . . . . . .
2.5.1 Construction de ressources sémantiques . . . . . . . . . . . . . .
2.5.2 Constitution de ressources sémantiques spécifiques à un domaine
2.5.3 Constitution de ressources sémantiques généralistes . . . . . . . .
2.5.4 Travaux utilisant Wikipédia . . . . . . . . . . . . . . . . . . . . .
2.5.5 Rôles des structures sémantiques en recherche d’images . . . . .
2.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
19
. 19
. 20
. 20
.
.
.
.
.
.
.
.
29
30
30
32
34
34
39
43
.
.
.
.
.
.
.
.
.
.
.
44
45
46
47
48
48
50
55
61
64
68
8
TABLE DES MATIÈRES
3 Démarche de la thèse
3.1 Analyse d’un fichier de log . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Analyse générique de fichiers de log . . . . . . . . . . . .
3.1.2 Analyse utilisant WordNet . . . . . . . . . . . . . . . . .
3.1.3 Analyse des requêtes pour des noms de personnes . . . . .
3.1.4 Analyse des requêtes pour les noms géographiques . . . .
3.1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Concepts et images . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Similarité entre les images . . . . . . . . . . . . . . . . . .
3.3 Système de recherche d’images basé sur la sémantique . . . . . .
3.3.1 Définition de structures sémantiques . . . . . . . . . . . .
3.3.2 Les fonctionnalités offertes par les structures sémantiques
3.3.3 Architecture de recherche sémantique d’images . . . . . .
3.4 Les défis soulevés par notre approche . . . . . . . . . . . . . . . .
3.4.1 Défis d’ordre théorique . . . . . . . . . . . . . . . . . . . .
3.4.2 Défis d’ordre pratique . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Construction de structures linguistiques
4.1 Adaptation de WordNet et Geonames . . . . . . . . . . . . . . . . . . .
4.1.1 Adaptation de WordNet . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Adaptation de Geonames . . . . . . . . . . . . . . . . . . . . . .
4.2 Construction automatique d’un thésaurus géographique . . . . . . . . .
4.2.1 Modélisation du domaine . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Sources d’information géographique sur Internet . . . . . . . . .
4.2.3 Extraction des noms géographiques . . . . . . . . . . . . . . . . .
4.2.4 Catégorisation des noms géographiques . . . . . . . . . . . . . .
4.2.5 Localisation des noms géographiques . . . . . . . . . . . . . . . .
4.2.6 Mesure de pertinence associée aux noms géographiques . . . . .
4.2.7 Vue globale de l’algorithme . . . . . . . . . . . . . . . . . . . . .
4.2.8 Gazetiki — résultats et évaluation . . . . . . . . . . . . . . . . .
4.2.9 Relation entre Gazetiki et TagMaps et Geonames . . . . . . . . .
4.3 Structure linguistique pour les personnalités . . . . . . . . . . . . . . . .
4.3.1 Modélisation du domaine . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Extraction de connaissances pour les personnalités à partir de Wikipédia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.3 Catégorie des chanteurs et musiciens . . . . . . . . . . . . . . . .
4.3.4 Catégorie des acteurs . . . . . . . . . . . . . . . . . . . . . . . .
4.3.5 Les footballeurs . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.6 Valeur de pertinence associée aux noms de personnes et aux relations entre ces noms . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.7 Évaluation de CelebWiki . . . . . . . . . . . . . . . . . . . . . .
4.3.8 Discussion et conclusions . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
71
72
73
78
83
87
89
91
92
94
94
100
104
105
105
107
109
. 109
. 109
. 114
. 116
. 116
. 117
. 118
. 120
. 122
. 123
. 124
. 124
. 132
. 134
. 134
.
.
.
.
135
136
136
139
. 139
. 142
. 143
TABLE DES MATIÈRES
9
5 Applications de recherche d’images
5.1 Olive — recherche de noms communs . . . . . . . . . . . . . . . . . . . .
5.1.1 Modélisation des données . . . . . . . . . . . . . . . . . . . . . .
5.1.2 Architecture d’Olive . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.3 Exemple d’utilisation . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.4 Évaluation d’Olive . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.5 Discussion et conclusions . . . . . . . . . . . . . . . . . . . . . .
5.2 ThemExplorer — recherche d’entités géographiques . . . . . . . . . . . .
5.2.1 Modélisation des données . . . . . . . . . . . . . . . . . . . . . .
5.2.2 Architecture de ThemExplorer . . . . . . . . . . . . . . . . . . .
5.2.3 Comparaison de ThemExplorer et World Explorer . . . . . . . .
5.2.4 Exemple d’utilisation . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.5 Évaluation de ThemExplorer . . . . . . . . . . . . . . . . . . . .
5.3 Safir — recherche de noms de personnalités . . . . . . . . . . . . . . . .
5.3.1 Modélisation des données . . . . . . . . . . . . . . . . . . . . . .
5.3.2 Architecture de Safir . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.3 Évaluation de Safir . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Participation à la campagne d’évaluation ImageCLEF . . . . . . . . . .
5.5 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.1 Filtrage et classification de la nature des images par apprentissage
supervisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.2 Classification non-supervisée d’images (clustering) . . . . . . . .
6 Conclusions et perspectives
6.1 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Structuration automatique de connaissances . . . . . . .
6.1.2 Recherche d’images conceptuelle . . . . . . . . . . . . .
6.1.3 Recherche d’images par le contenu visuel . . . . . . . .
6.2 Limites et perspectives . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Incomplétude des structures conceptuelles . . . . . . . .
6.2.2 Traitement des requêtes complexes . . . . . . . . . . . .
6.2.3 Qualité des résultats . . . . . . . . . . . . . . . . . . . .
6.2.4 Structuration automatique d’une ressource géographique
6.2.5 Annotation automatique d’images géo-référencées . . . .
6.2.6 Plateforme de tourisme virtuel interactive . . . . . . . .
7 Liste des publications
7.1 Chapitres d’ouvrages . . . . . . . .
7.2 Conférences . . . . . . . . . . . . .
7.2.1 Conférences internationales
7.2.2 Conférences nationales . . .
Bibliographie
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
145
. 145
. 146
. 147
. 152
. 156
. 162
. 163
. 163
. 165
. 170
. 172
. 172
. 180
. 180
. 182
. 187
. 188
. 191
. 191
. 192
193
193
193
194
195
196
196
197
197
198
198
199
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
201
. 201
. 201
. 201
. 202
203
10
TABLE DES MATIÈRES
Chapitre 1
Avant propos
Les applications de recherche d’information sont parmi les plus utiles et les plus populaires sur Internet. Elles répondent à un besoin fondamental dans un environnement
très riche, dynamique et faiblement structuré : disposer d’un moyen d’accès aux informations pertinentes, rapide et simple, par rapport à une requête donnée. Bien que très
largement adoptés par le grand public, les systèmes actuels à grande échelle sur Internet
sont construits pour traiter de l’information brute, sans aucune prise en compte de la
signification qu’elle véhicule. C’est de ce principe que découlent leurs principaux avantages (la robustesse, la couverture et la rapidité) ainsi que leurs principales limitations
(l’adaptation souvent partielle par rapport aux requêtes des utilisateurs, le traitement
non-différencié selon les média et le manque d’interactivité avec l’utilisateur).
L’introduction d’une couche sémantique dans les applications de recherche d’information est très vite apparue comme une condition nécessaire pour permettre un traitement
non plus au niveau des chaı̂nes de caractères, mais à un niveau symbolique. Cet ajout au
sein de l’architecture de recherche vise à surmonter les limitations des systèmes actuels
tout en préservant leurs principaux avantages. L’utilisation des ressources sémantiques
est loin d’être triviale et aucun système à large échelle n’utilise massivement de telles
ressources malgré des efforts de recherche soutenus qui témoignent d’un très fort intérêt
scientifique et pratique vis-à-vis de cette approche. A l’exception du moteur Ask1 qui
propose une interface contenant, de manière structurée, des propositions de recherche
liées à la requête, les autres moteurs de recherche fournissent simplement en réponse une
liste d’images dont la représentativité par rapport à la requête formulée par l’utilisateur
n’est pas toujours correcte [140].
Notre intention n’est pas de dresser un panorama exhaustif des recherches traitant
de l’utilité de la sémantique pour la recherche d’information en général. Nous nous
intéressons et bornons notre travail à un seul type de données : les images fixes.
La croissance quantitative du nombre de documents sur le Web, ainsi que la faible
structuration de cette immense masse de données, appelle au développement de techniques de recherche efficaces, robustes et adaptées aux besoins et attentes des utilisateurs.
Ces impératifs de la recherche documentaire renvoient à l’un des principaux défis des
1
http ://ask.com
11
12
CHAPITRE 1. AVANT PROPOS
technologies de l’information : traiter des données numériques selon plusieurs niveaux
symboliques. Ceci passe par l’introduction, dans l’architecture de recherche, d’une couche
fonctionnelle qui serait sensible à la sémantique. Cette sensibilité à la signification du
contenu des requêtes implique l’utilisation des réseaux sémantiques (au sens large du
terme).
1.1
Problématique de recherche
Les réseaux sémantiques sont des ressources difficiles à constituer quand on ne se
borne pas à des domaines spécialisés ; aussi est-il souhaitable de pouvoir réutiliser des
ressources existantes dès que cela s’avère possible. Les réseaux exploitables sont issus de
domaines comme la lexicographie (WordNet [33]), la géographie (Geonames2 , Alexandria
[50]), la folksonomie (ConceptNet [80], Wikipédia3 ). Néanmoins, une adaptation, voire
une structuration des données, sont nécessaires si l’on souhaite les appliquer à un domaine
d’application particulier.
Ainsi, dans un premier volet de cette thèse, nous employons des techniques empruntées à la fouille de données sur le Web [43] pour enrichir WordNet et Geonames (un
thesaurus géographique) pour les rendre pleinement utilisables pour une application de
recherche d’images. Le cas de Wikipédia est naturellement plus complexe puisque l’information contenue dans la populaire encyclopédie en ligne doit d’abord être organisée
sous forme de structures sémantiques avant d’être exploitée pour la recherche d’images.
Un second volet important de cette thèse est l’étude des usages et des pratiques liées
aux moteurs de recherche d’images. Cette étude permet une description des pratiques
de recherche et, par conséquent, offre la possibilité d’accorder des moyens d’interaction adéquats entre l’utilisateur et le système. Deux types d’études sont généralement
mis en œuvre : l’étude des fichiers de log produits par des moteurs de recherche [60],
[41] et les études utilisateur [48], [116]. Il y a une évidente complémentarité entre ces
deux méthodologies de recherche. Les études de fichiers de log donnent un bon aperçu
statistique des principaux types de requêtes mais ne permettent qu’un accès limité à
l’information liée au processus de recherche. Les études utilisateurs, bien qu’effectuées
généralement à petite échelle (et sans garantie sur la représentativité du panel), facilitent
grandement la compréhension des pratiques de la recherche d’information.
Un troisième axe de recherche s’intéresse au type des documents numériques traités,
les images fixes en tant qu’objets singuliers et en tant qu’éléments dans des vastes collections. Une image est souvent associée à diverses informations textuelles mais possède
aussi un contenu visuel qui lui est propre. Aussi, dans notre approche, l’introduction
d’une couche sémantique dans l’architecture d’un système de recherche d’images s’accompagne de l’utilisation de techniques de traitement d’images. Ces techniques ont deux
rôles principaux :
– proposer une modalité de recherche basée sur le contenu visuel dans des parties de
la base de données qui ont des caractéristiques sémantiques communes ;
2
3
https ://geonames.org
http ://en.wikipedia.org
1.1. PROBLÉMATIQUE DE RECHERCHE
13
– filtrer les résultats indésirables.
La prise en compte de ces trois axes va nous permettre de proposer une solution de
recherche d’images qui aura pour objectif d’améliorer les points suivants :
– L’interactivité, par l’utilisation de structures de données construites selon la façon
dont nous organisons les entités dans le monde.
– La précision des résultats grâce à une meilleure exploitation des informations
décrivant les images.
– La prise en compte du type de document recherché, par l’introduction de techniques
de traitement d’images permettant une recherche par similarité visuelle.
La réalité empirique est décrite par des catégories que nous organisons au sein de
structures dédiées selon divers types de relations et de contextes. Étant donné la richesse conceptuelle du monde, il nous est souvent difficile d’actualiser nos connaissances
et, dans ces cas, les structures conceptuelles peuvent nous rendre service. Il existe des
structures linguistiques à large échelle exploitables dans des applications informatiques
et ce de manière transparente pour l’utilisateur, permettant une actualisation aisée de
nos connaissances. La recherche d’images sur Internet est un champ d’application pouvant bénéficier de manière significative de l’utilisation de telles données structurées. Dans
cette thèse, nous proposons conjointement une réflexion théorique centrée sur les structures linguistiques à large échelle et une réflexion sur les problématiques spécifiques à
notre champ d’application (la recherche d’images sur Internet). Nous citons ici quelques
problématiques de recherche que nous nous proposons d’aborder :
– Comment adapter ou créer des ressources conceptuelles à large échelle ? Quels sont
les principaux défis associés ? De la très riche et ancienne histoire du problème de
« la structuration des concepts » [30] nous savons qu’il n’existe pas d’agrégation
unique des catégories et que l’on peut les combiner de différentes façons. Néanmoins,
certaines relations entre les concepts sont communément acceptées et il est possible
de les agréger dans des structures linguistiques afin de les intégrer dans des applications informatiques. L’utilisation pertinente et efficace des structures sémantiques
dans les applications informatiques étant fortement conditionnée par la cohérence
logique de ces structures, leur construction à large échelle est un processus complexe [88].
– Quels sont les bénéfices et les limites de l’introduction d’une couche sémantique
associée aux annotations des images ? Dans le cas d’un système de recherche
d’images généraliste, étant donné la variété de l’espace des requêtes images [41],
il est nécessaire d’avoir à disposition des structures linguistiques de grande taille
assurant une bonne couverture conceptuelle.
– Quels sont les usages associés aux moteurs de recherche ? Ce sujet est partiellement
couvert par les travaux actuels comme les contributions de Broder et al [15] ou
Rose et Levinson [113] qui présentent, de manière générale, les types de recherche
dans les applications de recherche d’information : informationnel, de navigation et
obtention de ressources. Les travaux dans le domaine de l’analyse de l’utilisation
des systèmes de recherche d’information déplorent souvent l’inexistence d’études
qui souligneraient les motivations des utilisateurs [45], [61], [98] et qui pourraient
14
CHAPITRE 1. AVANT PROPOS
guider l’adaptation des systèmes en fonction de leurs besoins réels.
– Comment associer de manière fiable des annotations textuelles aux images ? Les algorithmes automatiques qui sont utilisés actuellement corrèlent souvent des images
avec du texte qui n’est pas nécessairement représentatif du contenu de l’image [19],
[140]. La difficulté de cette tâche vient notamment du fait que le Web est un environnement très faiblement structuré et qu’il est difficile de définir une architecture
d’annotation automatique qui limiterait les associations texte - images erronées.
Ici encore, il est difficile de contourner la question des usages.
– Dans le cas des systèmes de recherche d’images à grande échelle, quelles sont les
contributions des techniques de traitement d’images susceptibles d’améliorer la
qualité des réponses ? Malgré d’importants efforts de recherche [82], ces techniques
ne sont actuellement pas introduites dans les applications réelles. Une exception
notable est la détection de visages proposée par Exalead4 puis par Google et Microsoft Live Search pour filtrer les images.
– Comment présenter les résultats de façon à ce que l’utilisateur puisse naviguer
rapidement dans un grand nombre de réponses ? Par exemple, il y a plus de 48
millions de réponses (sur Google Images) pour la requête dog et il est difficilement
envisageable d’explorer de manière séquentielle une telle quantité de données.
La plupart de ces questions tourne autour de l’accès à l’information dans les applications de recherche d’images. Aujourd’hui, les deux principales méthodes d’accès aux
collections d’images sont l’utilisation du texte associé aux images et la recherche par
similarité visuelle.
La première méthode est utilisée par tous les acteurs majeurs de la recherche d’information sur Internet. Elle est basée sur l’indexation des informations textuelles (titre
du fichier ou de la page, description HTML <ALT>, texte dans la page) qui entourent
l’image [19], [79]. Les algorithmes employés pour retrouver et ordonner les images sont
divers, ce qui explique le faible recouvrement des réponses obtenues pour une requête
identique en utilisant plusieurs moteurs [130]. Néanmoins, il existe un point commun : le
texte est regardé comme une chaı̂ne de caractères, sans prise en compte du contenu des
requêtes. Cette approche explique les principaux avantages et problèmes des systèmes
existants. Parmi les avantages nous citons :
– la rapidité ;
– l’annotation textuelle automatique des ressources sur le Web ;
– la simplicité de l’architecture de recherche ;
– la facilité de l’évolution dans un environnement fortement dynamique.
Les problèmes les plus commentés [140], [111], [79], sont :
– des réponses souvent non pertinentes par rapport à la requête ;
– une présentation non-structurée des résultats ;
– de faibles possibilités d’interaction avec les systèmes.
Dans cette thèse, nous proposons une architecture de recherche par mots clé dans
laquelle les résultats sont présentés après un filtrage de la requête en se basant sur des
ressources sémantiques. Ce filtrage permet l’obtention de résultats plus pertinents et
4
http ://exalead.com
1.2. AMBITION ET DÉFIS
15
facilite une recherche par le contenu visuel adaptée du point de vue de l’utilisateur.
La deuxième méthode de recherche d’images est la recherche par contenu visuel
(CBIR — Content Based Image Retrieval) [126]. Généralement, la requête est une image
ou un groupe d’images (query by example ; on trouve aussi des systèmes offrant la possibilité à l’utilisateur de dessiner sa requête — query by sketches). Les images réponses
sont fournies en utilisant une mesure de similarité appliquée à un ou plusieurs descripteurs de bas niveau associés à des caractéristiques comme la couleur, la texture ou la
forme. Malgré le caractère automatique de cette approche, la recherche de type CBIR
présente deux handicaps majeurs :
– Le fossé (appelé fossé sémantique) qui existe entre la notion de similarité propre
aux utilisateurs et celle calculée par les systèmes CBIR [25], [82].
– La complexité des algorithmes utilisés qui rend le passage à l’échelle difficile.
Ces inconvénients ont freiné l’utilisation des méthodes de type CBIR dans les applications de recherche d’images généralistes. Comme en témoigne le nombre important
de travaux cités dans un récent état de l’art (2007) [82], l’association de la similarité
visuelle de bas niveau et des techniques sémantiques suscite un très fort intérêt de la
part de la communauté scientifique. Si l’introduction de la sémantique réduit le fossé
entre la similarité calculée par la machine et celle perçue par l’utilisateur, elle induit habituellement une plus grande complexité dans l’architecture de recherche rendant moins
aisés les passages à l’échelle. Dans cette thèse, nous proposons une méthode simple de
recherche par similarité visuelle reposant sur une limitation de l’espace de recherche par
le contenu aux images partageant une même description textuelle.
Les recherches par mots-clef et par contenu visuel sont complémentaires et peuvent
être fusionnées dans un même système parallèlement ou séquentiellement (on parle de
fusion précoce et de fusion tardive) [95]. Dans le premier cas, les deux types de recherche sont utilisés simultanément, les résultats étant le plus souvent une fusion des
résultats de chaque système (fusion dite tardive). Nous nous intéresserons au deuxième
cas : l’interaction entre l’utilisateur et le système commence habituellement par une
phase d’interrogation de la base de données par une requête textuelle, puis une phase de
raffinement des résultats en utilisant la similarité visuelle.
1.2
Ambition et défis
Cette thèse se situe dans le domaine de la recherche d’images destinée à un large
public et réalisée dans des vastes bases de données faiblement structurées. Notre approche
combine une dimension théorique et une dimension pratique grâce à l’implémentation
d’applications opérationnelles qui ont servi de base à nos évaluations et à la proposition
d’améliorations futures. La recherche d’images sur le Web couvre une grande diversité de
domaines [60] ; aussi est-il impératif de disposer de structures sémantiques qui couvrent
le plus possible la variété des requêtes exprimées par les utilisateurs. Par conséquent,
les structures linguistiques créées doivent inclure le plus de concepts possibles et leur
organisation doit refléter la structuration catégorielle des entités dans notre monde.
La construction des ressources sémantiques est une tâche réputée difficile [21] et nous
16
CHAPITRE 1. AVANT PROPOS
essayons de réutiliser des ressources existantes, en les adaptant à la recherche d’images.
Si cela s’avère impossible, nous construisons de nouvelles structures en regroupant des
informations accessibles sur le Web. Dans le cadre de cette thèse, nous abordons trois
grands types de requêtes fréquentes : les noms communs, les toponymes et les noms de
célébrités.
Afin de répondre à des requêtes avec des noms communs, nous avons décidé d’utiliser
une ressource existante : WordNet. WordNet est une structure sémantique constituée
par des lexicographes afin de décrire l’organisation de catégories dans le monde selon
les connaissances du sens commun. Son inclusion dans une architecture de recherche
d’images sur Internet comporte, comme étape préalable, son adaptation à une application de recherche d’images. Il est montré dans [101] que les relations sémantiques
dans WordNet sont critiquables si on se place dans l’optique des ontologies formelles
mais, dans la plupart des cas, la qualité des relations entre les éléments de WordNet est
suffisante pour la recherche d’images.
Dans le domaine géographique, il existe des bases de données comme Alexandria
[50] ou Geonames5 qui ont été construites manuellement. Ces ressources offrent une
couverture inégale des régions du monde. Nous adaptons donc ces ressources pour la recherche d’images et nous décrivons une méthode d’enrichissement automatique utilisant
des sources d’information complémentaires comme Wikipédia ou Panoramio6 .
Wikipédia est également utilisée pour extraire des informations relatives aux célébrités
à partir des nombreux articles dédiés aux personnalités.
Les principaux défis relevés lors de la construction de structures linguistiques pour
la recherche d’images sont les suivants :
– L’obtention de ressources à grande échelle, assurant une bonne couverture des
domaines ciblés mais également une bonne qualité des connaissances incluses.
– L’adaptation des méthodes d’extraction de connaissances aux différents domaines
conceptuels afin d’extraire des relations pertinentes.
– L’ajout d’une mesure de pertinence aux concepts afin de pouvoir résumer efficacement des espaces conceptuels vastes en présentant prioritairement les concepts les
plus pertinents.
– L’intégration des structures linguistiques dans des architectures de recherche d’images
adaptées au traitement de vastes masses de données.
Sur le plan pratique, nous nous donnons comme ambition de présenter des prototypes
fonctionnels de moteurs de recherche d’images qui exploitent également des fonctionnalités de traitement d’images. La validation de l’approche est réalisée à travers une série
de tests évaluant la qualité des réponses aussi bien de manière quantitative que qualitative. L’évaluation quantitative des résultats passe par l’utilisation de mesures comme
la précision sur un large ensemble de concepts tandis que les tests qualitatifs évaluent
l’interaction d’un panel d’utilisateurs avec notre système.
5
6
http ://www.geonames.org/
http ://panoramio.com
1.3. STRUCTURE DE LA THÈSE
1.3
17
Structure de la thèse
La figure 1.1 résume la structure de cette thèse. Après avoir introduit brièvement
les principales directions de recherche, nous présentons un état de l’art des différents
domaines abordés dans cette thèse. Nous commençons par les modèles formels de description d’images, puis nous discutons les différents types et caractéristiques des collections d’images. Dans un troisième temps, nous analysons les principales modalités
de recherche dans ces collections. Un autre volet important de la recherche d’images
concerne les études utilisateurs. Nous accordons un intérêt particulier à l’analyse des
requêtes, à la présentation des résultats et à l’interaction de l’utilisateur avec le système.
Enfin, nous proposons une synthèse des principaux travaux s’intéressant à la construction
des ressources sémantiques et à leur utilisation pour améliorer la recherche d’images.
Le troisième chapitre de la thèse introduit notre approche inspirée par des domaines
comme les études des usages, l’analyse et l’interprétation des images, l’extraction de
connaissances et la recherche d’information. Nous commençons par une étude de fichier
de log à large échelle qui analyse les usages associés aux moteurs de recherche d’images,
pour continuer avec la discussion de quelques notions relatives à la représentation imagée
des concepts. Nous présentons ensuite les principes de construction d’une ressource
sémantique à large échelle, exploitable pour une application de recherche d’images sur
Internet. Pour clôturer le chapitre, nous introduisons une architecture de recherche
d’images générique basée sur l’utilisation conjointe de ressources conceptuelles et de
techniques de traitement d’images.
Dans le quatrième chapitre, nous présentons en détail la méthodologie mise en place
pour adapter ou construire des structures linguistiques pour la recherche d’images sur
Internet. Il s’agit notamment de la description d’une adaptation de WordNet, l’enrichissement automatique d’un thésaurus géographique et l’extraction de connaissances à
partir de Wikipédia. Nous présentons, dans chaque cas des évaluations en comparant —
quand cela s’avère possible — nos ressources avec des ressources existantes.
Le cinquième chapitre correspond à la dimension applicative de la thèse. Il présente
une plateforme opérationnelle de recherche d’images qui reprend l’architecture générique
du troisième chapitre en l’adaptant à trois applications : recherche de noms communs,
de toponymes et de personnalités. Les trois parties de cette plateforme intègrent une
version adaptée de WordNet, un thésaurus géographique enrichi et une ressource dédiée
aux personnalités. Nous présentons dans chaque cas des scénarios typiques d’utilisation
ainsi que des évaluations qualitatives et quantitatives validant notre démarche.
Un dernier chapitre résume les principales contributions de cette thèse et propose
plusieurs perspectives pour continuer notre effort de recherche. Compte tenu de la visée
applicative de cette thèse, nous présentons une série de services tirant profit de l’introduction de structures linguistiques à large échelle dans la recherche d’images sur Internet.
Ainsi, nous discutons brièvement l’utilité de telles structures dans d’autres applications,
comme l’annotation automatique des images ou l’e-tourisme, les deux principaux sujets
de notre recherche actuelle.
18
CHAPITRE 1. AVANT PROPOS
Fig. 1.1 – Schéma présentant l’approche proposée dans cette thèse.
Chapitre 2
Etat de l’art
Dans ce chapitre, nous présentons un état de l’art des différents domaines de recherche
en liens avec cette thèse et essayons d’extraire quelques propositions d’amélioration des
applications actuelles de recherche d’images. Cette partie est structurée de la façon
suivante :
– Description des images : nous détaillons les différents niveaux d’analyse des images,
des caractéristiques dites bas niveaux jusqu’à une description sémantique.
– Introduction des grands types de bases de données d’images et de leurs principales
caractéristiques (taille, modalité d’annotation, évolution. . .).
– Les modalités de recherche dans les bases d’images sur Internet : par mots-clef ou
par contenu visuel et la relation entre ces deux types d’accès.
– Les études utilisateurs à partir de l’analyse statistique des requêtes ou par l’étude
de l’interaction entre les utilisateurs et les systèmes.
– La construction et l’utilisation de structures sémantiques pour la recherche d’images
et ses limites actuelles.
2.1
Modèles de description d’une image
Les représentations picturales sont l’objet de nombreuses études dans plusieurs domaines, comme l’histoire de l’art [40], [105], la sémiologie [29], la représentation conceptuelle [112], [3] mais aussi le traitement d’images [57]. Dans cette section, nous présentons
quelques modèles de descriptions d’images qui ont été proposés pour être utilisés dans
des applications informatiques. Premièrement, nous mettons en évidence les différents
niveaux auxquels une image peut être caractérisée et les problèmes induits par ces descriptions. Deuxièmement, trois types de modèles sont discutés : modélisation par des
attributs de « haut niveau », de « bas niveau » et modélisation hybride. Pour finir, nous
analysons la pertinence des modèles formels pour des bases d’images à large échelle.
19
20
CHAPITRE 2. ETAT DE L’ART
2.1.1
Le fossé sémantique
Une même image peut être « vue » à plusieurs niveaux : la vision par ordinateur est
non-interprétative, en opposition à la forte subjectivité de celle d’un utilisateur. Ces deux
extrêmes caractérisent ce que l’on appelle communément « le fossé sémantique ». Smeulders et al. définissent ce dernier comme « le manque de coı̈ncidence entre l’information
extraite à partir des caractéristiques visuelles et l’interprétation de ces caractéristiques
par un utilisateur dans une situation donnée » [126]. Le fossé sémantique est l’un des
problèmes les plus souvent cités dans les travaux en recherche d’images [16], [27], [31],
[38], [58], [85], [149]. Deux constats découlent de la définition proposée dans [126] et des
discussions proposées dans les autres articles cités :
– Les machines sont capables d’analyser plus ou moins finement les caractéristiques
perceptuelles d’une image numérique mais échouent dans l’interprétation de son
contenu.
– L’interprétation d’une image est étroitement liée à une situation donnée. On peut se
focaliser plutôt sur les objets représentés, sur les événements ou sur la localisation
de la scène. L’interprétation des images est un processus potentiellement infini
mais, dans un système de calcul formel, les informations qu’on peut en extraire
sont intrinsèquement limitées. Nous sommes capables de sélectionner facilement
l’information pertinente dans un contexte particulier alors que, pour la machine,
un des problèmes majeurs est de sélectionner l’information pertinente pour une
image à un certain moment [58].
Dans les applications de recherche d’images qui prennent en compte le contenu visuel,
il est important de concilier la vue « machine » et celle de l’utilisateur. Si une application
se base sur les caractéristiques d’une image dites de « haut niveau », on parle d’un
paradigme de recherche sémantique. Au contraire, si des paramètres dits de « bas niveau
» sont considérés, le paradigme est dit de recherche par le contenu. Dans le premier cas,
l’information textuelle autour des images est privilégiée pour modéliser le contenu de
l’image ; dans le second, des caractéristiques visuelles de l’image comme la couleur, la
texture, la forme sont extraites pour en décrire le contenu. La recherche sémantique est
caractéristique des très populaires systèmes de recherche d’images sur Internet, comme
Google Images, alors que la recherche par le contenu est utilisée dans des applications à
plus petite échelle et moins populaires, comme Qbic [5] ou VisualSeek [127]. Un nombre
très important de travaux s’attache à combiner ces deux approches [82].
2.1.2
Modèles formels de description
Pour décrire le contenu d’une image, il faut choisir quels attributs vont la représenter,
une description exhaustive de l’image étant naturellement irréalisable [124]. Dans cette
section, nous nous intéressons à trois types de modèles de description basés sur les
paramètres de haut niveau, de bas niveau d’une image et une combinaison des deux.
2.1. MODÈLES DE DESCRIPTION D’UNE IMAGE
2.1.2.1
21
Modélisation des paramètres de haut niveau d’une image
Cette approche est illustrée par les travaux complémentaires de Shatford [124] et
du Consortium du Web (W3C) [46]. Le modèle de Shatford est censé fournir un cadre
théorique pour l’annotation manuelle des images. Le travail du W3C est plus ciblé sur
les possibilités d’implémentations des techniques d’annotation d’images. Shatford et al.
[124] soulignent les objectifs d’une telle annotation :
– proposer un accès à des images individuelles compte tenu de leurs attributs ;
– proposer un accès à des groupes d’images qui partagent certains attributs.
Plusieurs types d’attributs sont utilisés pour annoter les images :
– Attributs biographiques : ils incluent des données relatives à la production de
l’image, à son auteur, aux droits associés. Ces informations n’ont pas de relation
directe avec le contenu représenté mais peuvent être utiles dans certaines situations, comme trouver toutes les images prises par un même auteur ou à un moment
donné.
– Attributs liés au sujet : ils décrivent l’image à la fois en termes du contenu représenté
ainsi que sa signification. Le sujet peut être décrit selon deux niveaux de représentation : générique ou spécifique. On peut remarquer la parenté avec la théorie de
Rosch [112] ; il s’agit ici d’une version appauvrie de cette théorie qui propose trois
niveaux de représentation pour les concepts : super-ordonné, de base, subordonné.
Dans [124], quatre caractéristiques sont identifiées pour le sujet d’une image : caractéristiques spatiales, caractéristiques temporelles, caractéristiques d’activités et
d’événements et caractéristiques des objets. Toutes ces caractéristiques peuvent
être décrites aussi bien de manière générique que de manière spécifique. Pour
une photographie, les dimensions temporelles et spatiales sont habituellement des
données biographiques.
– Type de représentation : les images peuvent être de différents types comme des
gravures, peintures, photographies. . .
– Attributs relationnels : ces attributs relient une image à d’autres objets qui peuvent
être eux-mêmes des images ou des textes par exemple. Ces attributs sont utiles
pour intégrer les images dans des formes d’expression plus complexes ou pour
proposer une recherche dans un espace pictural défini par une image source.
Les attributs exposés ci-dessus sont généralement représentatifs pour des photographies mais leur importance varie en fonction de plusieurs critères dont : le contenu de
l’image, le niveau de représentation, l’utilisation ou le mode de production. Bien que,
dans la perspective d’une application informatique, il soit nécessaire de spécifier le cadre
théorique et, en même temps, la ou les modalités d’implémentation technique, l’approche
exposée dans [124] est entièrement centré sur les aspects théoriques de l’annotation et
ne se soucie pas des aspects techniques du processus de génération de ces attributs. Par
exemple, il n’est pas spécifié si le texte associé aux images doit être exprimé en langage
contrôlé ou libre.
Dans un travail en cours [46], le Consortium du Web essaie de définir un standard
pour l’annotation d’images qui doit être en accord avec les fondements technologiques
du Web sémantique [10]. Plusieurs problèmes relatifs à l’annotation des images sont
22
CHAPITRE 2. ETAT DE L’ART
rapportés :
– l’automatisation du processus ;
– la dépendance du type d’annotation par rapport aux utilisations prévues pour les
images ;
– le manque de sémantique et de structuration dans la majorité des applications
d’annotation existantes ;
– l’impossibilité de réutiliser les annotations réalisées dans différents systèmes.
Une possible réponse à ces problèmes serait l’utilisation d’ontologies formelles pour
associer du texte aux images, le formalisme OWL1 fournissant un langage de description
pour l’annotation permettant une réutilisation des annotations dans plusieurs applications. Dans le cas où des ontologies formelles sont utilisées, il est envisageable d’associer
du texte aux images selon deux façons : (1) en utilisant des données textuelles en langage
naturel ou (2) du texte contrôlé qui caractériserait plusieurs propriétés de l’image. Le
premier cas permet une plus grande souplesse d’annotation mais leur exploitation dans
des systèmes de recherche devient plus laborieuse. Dans le second cas, la situation est
inverse : la structure des ontologies permet de hiérarchiser des annotations textuelles
(attributs de haut niveau) et des paramètres de l’image comme la couleur, la texture,
la forme (caractéristiques de bas niveau) dans ce qui serait une tentative de combler le
fossé sémantique.
Nous avons mentionné que, dans [46], une attention particulière est accordée à
l’implémentation des systèmes d’annotation en tenant compte de plusieurs critères :
– Le type du document contenant les annotations.
– Le type de métadonnées retenues : elles peuvent être descriptives, structurales ou
administratives et sont à relier aux différents types d’attributs décrits dans [124].
– Le format des métadonnées : RDF (Ressource Description Framework) ou OWL
(Web Ontology Language).
– L’annotation du contenu doit pouvoir se réaliser selon différents niveaux de détail
et il doit être possible de passer facilement entre les niveaux.
– Prise en compte des besoins utilisateurs pour modéliser les différents usages possibles.
– Le type de licence logiciel.
– La granularité : traitement au niveau des fichiers photographiques ou de leurs
segments.
– L’interactivité : les possibilités données aux utilisateurs d’interagir avec des annotations déjà existantes (ajouts, suppressions, modifications)
La perspective d’annoter les images de manière structurée suivant les standards technologiques du Web sémantique est très intéressante pour les applications de recherche
d’images à grande échelle. Cependant, comme il est souligné dans [46], l’adoption de ces
standards par les utilisateurs est problématique puisqu’il est aujourd’hui difficilement
imaginable d’imposer un standard unique d’annotation aux fournisseurs de contenu.
1
http ://www.w3.org/TR/owl-features/
2.1. MODÈLES DE DESCRIPTION D’UNE IMAGE
2.1.2.2
23
Modélisation des paramètres de bas niveau d’une image
Cette approche est illustrée à travers des descripteurs inclus dans le standard MPEG7 [57]. Les images numérisées peuvent être analysées automatiquement en utilisant des
paramètres comme la couleur, la texture, la forme. Ces paramètres sont locaux s’ils s’appliquent à des régions dans l’image ou globaux s’ils caractérisent toute sa surface. Nous
traitons ici uniquement des images fixes et nous présentons une partie des paramètres
qui leurs sont associés dans MPEG-7.
La couleur est l’un des paramètres fondamentaux qui peut être modélisé automatiquement. Elle est caractérisée par sept descripteurs dans MPEG-7 (six pour les images
fixes et un pour les vidéos) :
– L’espace des couleurs : six encodages sont supportés dans MPEG-7, dont RVB
(rouge, vert, bleu) et TSV (teinte, saturation, valeur). Le premier modélise de
manière approximative les trois couleurs qui sont perçues par les cellules coniques
de l’œil. Le modèle RVB est un modèle additif où chaque couleur est une combinaison linéaire des trois composantes chromatiques. Le codage TSV est une transformation non-linéaire du modèle RVB et rend compte de la teinte, la saturation
(l’intensité de la couleur) et la valeur (la brillance de la couleur).
– La quantification de l’espace couleur (par exemple 2563 = 16777216 couleurs dans
RVB).
– La (les) couleur(s) dominante(s) : paramètre habituellement local, utile pour des
régions de l’image caractérisées par un petit nombre de couleurs.
– Scalable color : histogramme de couleurs dans l’espace TSV, le nombre de classes
et de bits par couleur sont paramétrables.
– Color layout : représentation de la distribution spatiale des couleurs d’une image
dans une forme compacte.
– Descripteur couleur — structure : ce descripteur considère l’image comme un ensemble de blocs de taille 8x8 pixels. Un histogramme couleur est construit en
comptant le nombre de blocs contenant chaque couleur.
La texture peut être représentée par trois paramètres dans MPEG-7 :
– Descripteur de texture homogène basé sur des filtres de Gabor.
– Texture browsing : ce descripteur utilise l’analyse faite par le précédent descripteur
mais propose des statistiques différentes basées sur la régularité, la « rugosité » et
l’orientation de la texture.
– Descripteur de texture non homogène : ce descripteur est composé de plusieurs
histogrammes de répartition de l’orientation des contours (l’image est découpée en
16 blocs).
La forme peut être modélisée par trois descripteurs dans MPEG-7, dont deux pour
les images en deux dimensions et un pour celles en trois dimensions :
– Descripteur basé région : ce descripteur caractérise la distribution des pixels à
l’intérieur d’une région grâce à une transformation dite ART (Angular-Radial
Transformation) qui est robuste aux légères déformations des contours.
– Descripteur basé contour : ce descripteur est basé sur la caractérisation de la
courbure du contour (évolution de la longueur d’un rayon parcourant la forme).
24
CHAPITRE 2. ETAT DE L’ART
– Des informations de localisation sont accessibles via deux descripteurs (un pour
les images fixes et un pour les vidéos). Ils permettent notamment de localiser des
régions d’intérêt en l’entourant par un polygone.
Les paramètres visuels de MPEG-7 permettent la construction automatique de signatures d’images qui rendent compte d’une ou plusieurs caractéristiques fondamentales
de l’image. Le choix de l’un ou l’autre des paramètres est généralement déterminé par le
type d’images traitées. Contrairement au modèle décrit dans [124], MPEG-7 est créé en
vue de l’implémentation d’applications reposant sur les paramètres du standard MPEG7.
Smeulders et al. [126] en 2000 proposent un état de l’art des principaux descripteurs
utilisés pour les systèmes CBIR. Ces descripteurs sont regroupés selon qu’ils s’intéressent
plus particulièrement à la couleur, la texture ou la forme. Fournier [35] ajoute une
quatrième catégorie en séparant les descripteurs utilisant des approches locales par points
d’intérêts comme les très populaires descripteurs SIFT [83].
Nous présentons ci-dessous plus en détails les descripteurs utilisés dans le système
de recherche par le contenu développé par le CEA LIST, nommé PIRIA (Programme
d’Indexation et de Recherche d’Images par Affintiés) [65].
Descripteurs couleur
Parmi les nombreux descripteurs basés sur la couleur, l’un des plus utilisé est un
histogramme à 64 classes dans l’espace RVB ( Rouge, Vert, Bleu) où chaque composante
est quantifiée en quatre valeurs. Une approche identique est possible dans l’espace TSV,
généralement la quantification de la composante Teinte étant plus riche que celles des
deux autres composantes.
Dans PIRIA il est possible d’ajouter des informations spatiales en découpant une
image en neuf régions identiques et en calculant un descripteur couleur pour chaque
bloc. Dans le cas du descripteur RVB, nous obtenons une signature globale de 576 composantes. Un autre descripteur utilisé dans PIRIA est basé sur le Border Interior Classification (BIC) proposé par Stehling et al. [131]. Ce descripteur (nommé CIME dans
PIRIA) utilise une quantification de la couleur comme par exemple l’espace RVB en 64
classes. Chaque pixel est classé comme « Interior » si le pixel est de la même couleur
que ses quatre voisins en 4-connexité et que ses huit voisins en 8-connexité. Dans le cas
contraire (au moins un voisin n’a pas la même couleur), le pixel est considéré comme «
Border » (voir figure 2.1). Finalement, deux histogrammes couleur sont construits pour
chacune de ces deux classes. Nous obtenons donc une signature globale de 128 composantes pour une quantification de RVB en 64 classes.
Descripteurs texture
PIRIA utilise le descripteur LEP (Local Edge Pattern) proposé par Cheng et al.
[20]. Le descripteur LEP est un des nombreux dérivés du très populaire descripteur
Local Binary Pattern (LBP) [100] qui a montré de très bons résultats pour plusieurs
problèmes2 comme la caractérisation de texture ou la détection de visage [36]. Une
2
On peut trouver une liste très complète d’applications sur le site de l’université d’Oulu :
2.1. MODÈLES DE DESCRIPTION D’UNE IMAGE
25
Fig. 2.1 – Descripteur BIC. En haut, image originale (base Corel). En bas, à droite, l’ensemble des pixels « intérieurs », à droite les pixels « border ».
image des gradients avec des valeurs entre 0 et 255 est d’abord calculée en appliquant
un filtrage de Sobel. Cette image est binarisée par seuillage (généralement : 100, figure
2.2).
Fig. 2.2 – Image binarisée après filtrage de Sobel.
Pour chaque pixel de cette image, LEP décrit le type de la micro-texture du voisinage de ce pixel. Cette caractérisation est faite en considérant la répartition des pixels
dans une fenêtre 3×3 autour de ce pixel. Traitant des valeurs binaires, nous avons 29 =
512 configurations possibles. Ces configurations sont numérotées en utilisant le masque
http ://www.ee.oulu.fi/research/imag/texture/lbp/lbp.php.
26
CHAPITRE 2. ETAT DE L’ART
Tab. 2.1 – Masque binomial pour le descripteur Local Edge Pattern.
1
8
32
2
256
64
4
16
128
binomial 3×3 du tableau 2.1. En associant au pixel central le numéro de la configuration,
il est alors possible de construire un histogramme de 512 composantes caractérisant la
distribution de ces 512 micro-textures dans l’image. Pour des applications de recherche
par similarité, ces descripteurs sont comparés entre eux par une mesure de similarité
comme la distance euclidienne, cosinus ou de Mahalanobis. Plusieurs travaux [126], [51]
discutent des avantages et inconvénients des très nombreuses métriques utilisées dans
l’état de l’art.
Sacs de mots visuels
Fig. 2.3 – Description des images par des sacs de mots visuels.
Cette approche, illustrée dans la figure 2.3, repose sur un vocabulaire visuel représentatif de l’ensemble des images à indexer, construit à partir d’un ensemble de descripteurs
2.1. MODÈLES DE DESCRIPTION D’UNE IMAGE
27
locaux, le plus souvent des SIFTs [83] ou ses dérivés. Ce vocabulaire est le résultat d’une
quantification non supervisée d’un ensemble de patches (correspondant aux voisinages
des points d’intérêts) qui sont extraits selon plusieurs approches (de manière dense avec
une grille, aléatoirement ou à partir d’un détecteur de points d’intérêt, comme les points
de Harris ou la « Difference of Gaussian »). Généralement le nombre de patches est
assez important et l’étape de clustering est problématique. Des techniques classiques
comme les K-Means sont habituellement utilisées pour trouver une partition optimale
des patches. Une fois le vocabulaire construit, chaque image peut être décrite par un
histogramme de la taille du vocabulaire, dont chaque composante peut être considérée
comme la fréquence d’un des mots visuels du vocabulaire dans l’image. La similarité
entre deux images est calculée en utilisant la distance cosinus décrite dans l’équation
(2.1)
vi × vj
d(Ii , Ij ) =
(2.1)
||vi || × ||vj ||
Avec vi et vj les deux histogrammes (de la taille du vocabulaire) de l’image Ii et Ij .
2.1.2.3
Modélisations hybrides
Cette approche est illustrée par les travaux de [58] et de [86]. [58] insiste sur une
première séparation entre l’information visuelle et l’information non visuelle d’une image
qui n’est pas sans rappeler la différentiation entre les informations biographiques et celles
liées au sujet proposée par Shatford [124]. La modélisation de l’information visuelle
repose sur une description des images sur dix niveaux :
1. Définition du type de l’image (ex. : photographie, peinture, dessin) et de la technique utilisée (ex. : couleurs, noir et blanc).
2. Distribution globale des paramètres comme la couleur et la texture.
3. Détermination de structures locales dans l’image : points, lignes, couleur et texture
pour des régions de l’image.
4. Composition globale : distribution spatiale des éléments de l’image.
5. Objets génériques : connaissance générale des objets représentés dans les images.
Ce niveau est à rapprocher du niveau de représentation de base défini par Rosch
[112].
6. Scènes génériques : à partir d’un nombre assez réduit de types généraux de scènes
comme image urbaine/scène naturelle ou image d’intérieur/image d’extérieur.
7. Objets spécifiques : connaissance plus détaillée des objets. [58] lie ce niveau spécifique
à la description du sujet présenté dans [124].
8. Scènes spécifiques : comme pour les objets, ce niveau implique une connaissance
précise des scènes.
9. Objets abstraits : ce niveau correspond à une interprétation (subjective) des objets
représentés dans l’image.
28
CHAPITRE 2. ETAT DE L’ART
10. Scènes abstraites : ce niveau requiert une interprétation subjective de la scène
représentée dans la photographie. Par exemple, on peut associer une description
comme groupe de personnes mécontentes à une image représentant une grève.
Les quatre premiers niveaux, dits « syntaxiques », correspondent à des paramètres
de l’image similaires à ceux dans MPEG-7, tandis que les six derniers niveaux mélangent
l’analyse des descripteurs de bas niveau et l’utilisation de connaissances sur le monde
extérieur. Une analyse automatique des images est aisément réalisable pour les quatre
premiers niveaux, mais elle devient de plus en plus difficile pour les autres niveaux. Il
est souligné dans [58] que, même s’il y a des relations entre les niveaux, ils peuvent être
regardés indépendamment. Leur utilisation dépend de la base de données et de l’usage
envisagés. Les auteurs discutent de l’implémentation de leur modèle et précisent qu’il est
possible d’automatiser les quatre premiers niveaux et partiellement les niveaux de cinq
à huit. Une annotation manuelle parait indispensable pour les deux derniers niveaux.
Fig. 2.4 – Ontologie décrivant les objets dans une images (cf. [86]).
Le travail décrit dans [86] repose sur la définition d’ontologies spécifiques aux objets
représentés dans les images. L’ontologie décrivant le contenu de l’image est illustrée dans
la figure 2.4. Entre la racine de l’ontologie, correspondant au nom de l’objet, et les valeurs
numériques, caractérisant la région de l’image contenant l’objet, les auteurs ajoutent un
niveau intermédiaire réalisant le passage entre une description symbolique et une analyse
de bas niveau de l’image. Les caractéristiques modélisées sont :
– La luminosité (exprimée par cinq paramètres) et la distribution des couleurs dans
la gamme vert-rouge et bleu-jaune (sept paramètres).
– La position de la région dans l’image — horizontale et verticale (trois paramètres
par orientation).
– La taille de l’objet (trois paramètres).
– La forme de l’objet (trois paramètres).
Les régions de l’image supposées contenir l’objet sont ainsi définies par une série
de caractéristiques de bas niveau dans une forme compacte. Ce modèle d’analyse est
plus simple que celui dans [58] et est mis en place pour rechercher des images dans
des bases hétérogènes de grand volume. Notons qu’il s’agit d’une description locale des
2.1. MODÈLES DE DESCRIPTION D’UNE IMAGE
29
composantes de l’image et qu’il est impossible d’avoir ici des descriptions des scènes ou
d’objets abstraits. La principale limitation du modèle vient du fait que le passage entre
les paramètres de bas niveau et ceux de haut niveau est quasiment immédiat. Dans
des espaces conceptuels de grande taille, plusieurs objets peuvent ainsi avoir la même
représentation de bas niveau. La méthodologie proposée dans [86] est conçue pour le
développement d’un système réel qui est par la suite évalué sur un corpus contenant 5000
images de la base Corel illustrant des dizaines de concepts. Les résultats de l’annotation
sont satisfaisants pour la base d’évaluation mais aucune hypothèse n’est faite quant aux
performances du système après passage à l’échelle.
2.1.3
Utilisation des modèles de description pour la recherche d’images
sur Internet
Shatford [124] et Jaimes [58] soulignent que le choix des annotations associées à une
image est lié à l’utilisation de cette image et que l’annotation manuelle est un processus
extrêmement coûteux. Reposant majoritairement sur des techniques d’apprentissages
supervisés, les méthodes d’analyse automatique [86] sont une alternative efficace dans
l’hypothèse des mondes fermés, c’est-à-dire avec des bases d’images contenant un nombre
restreint d’objets. Néanmoins, l’application des différents modèles formels de description
d’images au corpus du Web est rendue difficile (voire impossible) par deux facteurs
principaux :
– La très grande diversité du contenu des images présentes sur le Web ainsi que
la diversité d’usages potentiels. Les objectifs et les pratiques de recherche des
utilisateurs dans des applications destinées au grand public sont difficiles à étudier,
seules les informations contenues dans des fichiers de log de moteurs de recherche
permettant d’extraire des tendances générales [61]. Ce point est détaillé dans la
section 2.4. L’identification des usages potentiels [46], [102], comme la recherche
de personnes ou la recherche encyclopédique, n’est généralement pas suivie par la
proposition de modélisations formelles qui pourrait constituer la base de nouveaux
moteurs de recherche plus adaptés à ces usages.
– Le contenu pictural disponible sur Internet provient d’une très grande diversité de
sources et il n’est pas possible d’imposer des règles d’annotation aux fournisseurs
d’images [46]. À cela s’ajoute l’impossibilité d’annoter manuellement le volume
considérable d’images existantes (plus de deux milliards d’images pour Google).
Il faut noter une approche devenue très populaire et symbolisée par Flickr3 . Flickr
est un service en ligne permettant de partager des images. L’indexation est basée sur une
annotation des utilisateurs avec du texte libre et des mots-clef. Il est également possible
de proposer une annotation des photographies par l’ensemble de la communauté Flickr,
si l’auteur le désire. Dans les deux cas, un problème crucial est l’association de mots-clef
qui ne sont pas représentatifs ou pertinents par rapport au contenu de l’image [140].
Une approche naı̈ve d’annotation automatique extrait des mots-clés du texte avoisinant l’image. Cette approche conduit souvent à une faible précision puisque le texte
3
http ://flickr.com
30
CHAPITRE 2. ETAT DE L’ART
entourant l’image n’est pas forcement lié à son contenu. Dans le cas de Flickr, s’agissant
de photographies personnelles les « tags » associés sont souvent fortement subjectifs et
pas nécessairement partagés par d’autres utilisateurs du service.
Nous proposons une description plus précise des problématiques de l’annotation des
images du Web dans la section 2.3.
2.2
2.2.1
Corpus d’images
Classification des bases de données images
Dans la littérature de spécialité, nous trouvons un nombre important de critères de
classification des corpus d’images. Nous en illustrons ici quelques-uns :
– Selon la (les) source(s) des données il peut y avoir :
– Des ensembles constitués d’images prises par une seule personne, comme par
exemple les nombreux portfolios présents sur des pages personnelles ou des blogs.
– Des corpus photographiques constitués à partir des données fournies par plusieurs personnes. L’exemple le plus populaire est la base Flickr (deux milliards
de photographies en novembre 20074 ).
– Selon la diversité du contenu :
– Bases d’images spécialisées : les images d’automobiles de Yahoo ! Auto5 ou les
images de chiens sur http ://www.puppypoopy.com/.
– Bases d’images généralistes : les corpus Flickr et Google, la base Corel ou Getty
Images.
– Selon les droits associés aux images :
– Bases d’images libres de droit.
– Bases d’images propriétaires. Les bases professionnelles de Getty6 ou Corbis7
contiennent majoritairement des photographies sous copyright. Une quantité
croissante des images sous Flickr est aussi protégée par la licence Creative Commons.
– Selon le degré d’évolution de la base de données :
– Les bases statiques, comme la base Corel par exemple.
– Les bases dynamiques qui voient leur volume croitre (le plus souvent) avec le
temps, comme le corpus de Flickr ou de Google Images.
Par souci de clarté, nous présentons ces critères de façon binaire (généraliste/spécialisé,
libre de droit/propriétaire, . . .). Néanmoins, il est évident qu’il serait possible de définir
des niveaux intermédiaires reflétant plus précisément l’extrême diversité des bases d’images
sur Internet. Ainsi, on peut facilement décrire plusieurs nuances concernant les droits associés aux images :
– Les images complètement libres de droits.
4
http
http
6
http
7
http
5
://www.techcrunch.com/2007/11/13/2-billion-photos-on-flickr/
://fr.cars.yahoo.com/
://www.gettyimages.com/Home.aspx
://pro.corbis.com/
2.2. CORPUS D’IMAGES
31
– Les images réutilisables librement, sauf à des fins commerciales (licence Creative
Commons8 par exemple).
– Les images qu’il faut acheter quelque soit la réutilisation (la majorité des images
de Corbis ou Getty).
L’évolution des contenus est un paramètre important pour les utilisateurs qui veulent
pouvoir accéder et naviguer dans les bases quelque soit leur évolution. Beaucoup d’articles sur la recherche d’images commencent en faisant référence au dynamisme du corpus
d’images d’Internet [58], [79], [86] mais il n’y a, à notre connaissance, aucune étude analysant l’évolution des principales bases de données.
Enfin, notons que la distinction entre les bases spécialisées et les bases généralistes
doit être relativisée en fonction du point de vue adopté. Par exemple, une base contenant
des photographies de chiens appartenant à une grande variété de races va paraı̂tre «
généraliste » à une personne spécialiste du bulldog français.
En reprenant les critères énoncés auparavant, les principaux corpus d’images sur
Internet sont :
– Des bases de données formées d’images prises par une multitude de contributeurs.
– Des corpus généralistes où on peut retrouver des photographies portant sur une
grande variété de sujets.
– Des bases contenant seulement des vignettes des images et des liens vers les images
originales.
– Des corpus fortement dynamiques.
– Des bases de données à très large échelle — de l’ordre de centaines de millions à
des milliards d’images.
Les plus importants corpus d’images du Web sont relatifs aux principaux moteurs
de recherche d’information :
– Google à travers Google Images pour les images du Web, Picasa pour le partage
d’images, Panoramio pour les photographies géo-référencées.
– Yahoo ! avec Yahoo ! Images pour les images du Web et Flickr pour le partage de
photographies ; Microsoft avec Live Image pour les images du Web.
– Ask (Ask Image) pour les images du Web.
– Exalead (Exalead Images) pour les images du Web
À ces corpus s’ajoutent aussi ceux accesibles par des moteurs spécialisés dans la
recherche d’images comme Picsearch ou Idée Inc.
Le volume de données actuellement indexées dépasse deux milliards de photographies
dans le cas de Google ou Yahoo !. [132] propose la liste de moteurs qui utilisent les bases
indexées par d’autres applications. Par exemple, A9 et AOL appuient leur recherche sur
Google. Nous parlons de plusieurs corpus d’images car l’intersection entre les corpus
indexés par différents moteurs est assez réduite. Spink et al. [130] ont comparé quatre
moteurs de recherche textuelle et les réponses sur la première page apparaissent dans
un seul moteur dans 84,9% des cas. Les réponses sont communes à deux moteurs dans
11,4% des cas, à trois moteurs dans 2,6% des cas et à tous dans 1,1% des cas. Même si
l’étude de [130] est focalisée sur la recherche textuelle, ses conclusions s’appliquent aussi
8
http ://fr.creativecommons.org/
32
CHAPITRE 2. ETAT DE L’ART
à la recherche d’images.
Le début des années 2000 a vu le volume des images stockées dans les bases de
données varier très fortement. D’un extrême à l’autre, on peut trouver quelques images
dans des répertoires personnels ou plus de deux milliards d’images pour les images annotées par Google. Devant de telles différences, la taille d’un corpus d’images influence
nécessairement les stratégies d’interaction avec le contenu. Pour les répertoires d’images
de petite taille (comme ceux stockés sur les ordinateurs personnels), il est possible d’avoir
assez rapidement un aperçu de toute la base. Pour les gros corpus photographiques, l’exploration exhaustive est irréalisable et il est nécessaire de proposer des solutions de
recherche efficaces. Deux solutions principales sont proposées pour retrouver des images,
l’accès par texte et l’accès par le contenu. Ces solutions sont décrites en détail dans la
section 2.3.
2.2.2
Les différents types d’annotation
L’annotation d’images est connue [46] comme étant l’une des principales problématiques liées à la recherche d’images sur Internet. Malgré l’existence de plusieurs ressources
comme Dublin Core9 ou Visual Ressources Association10 , il n’existe pas de réel standard
pour l’annotation sémantique. De plus, ces ressources existantes sont très généralement
de petite taille et portent principalement sur des renseignements biographiques.
Nous analysons ici l’annotation des images en fonction des différences suivantes :
– Annotation manuelle ou automatique.
– Annotation structurée ou libre.
Pour illustrer l’annotation manuelle (et libre), nous présentons une photographie
tirée de la base Flickr qui a été annotée par son auteur (figure 2.5).
Fig. 2.5 – Image de chien dans Flickr.
9
10
http ://dublincore.org/
http ://www.vraweb.org/
2.2. CORPUS D’IMAGES
33
Cette photographie est annotée avec les mots (tags) suivants : dogs, mike nl, golden retriever, beaches, sea, reflections, water, shores, Friday, Kijkduin, Sphinx, wet, The
Netherlands, nature, Holland, The Hague, Den Haag, NL, furry, Magic, Donkey, interestingness4, SuperHearts, SuperShot, APlusPhoto, SuperAPlus, 2007, march, ilovenature,
Nederland, dreams, chien, Explore, interesting, interestingness, fun, Hakuna Matata, delight, Flickr, environment.
En filtrant cette liste de mots par le modèle proposé dans [124], on trouve :
– des informations biographiques : mike nl, SuperAPlus, APlusPhoto ;
– des informations sur le sujet :
– informations temporelles : 2007, march ;
– informations spatiales : The Netherlands, Den Haag, shores, sea ;
– informations sur le contenu : golden retriever, dog, chien, Donkey, water ;
Ces annotations appartiennent aussi bien au niveau générique (dog, chien, water )
qu’au niveau spécifique (Den Haag, golden retriever, Donkey). Notons également des
termes qui correspondent aux niveaux abstraits de [58] comme delight ou fun. D’autres
mots ne sont visiblement pas liés au contenu de la photographie (dreams, Flickr, Explore)
et peuvent constituer des sources d’erreurs pour un processus de recherche d’images.
L’annotation automatique peut être structurée, en suivant un modèle formel de description de l’image, comme c’est le cas dans [86] ou pour certains niveaux dans [58], ou
elle peut être libre, comme pour les moteurs de recherche d’images sur Internet. L’annotation automatique libre est plus simple à mettre en place et plus repandue qu’une
approche structurée. Un panorama de l’annotation automatique ou semi-automatique du
contenu de l’image est proposé dans [89]. Une des conclusions de ce travail est que l’automatisation de l’annotation à partir de techniques d’apprentissage supervisé est possible
avec des résultats satisfaisants seulement pour des bases de données de petite taille et
couvrant un vocabulaire restreint (typiquement des dizaines de mots). Ce dernier point
est important puisqu’il impose une restriction assez forte sur le nombre d’objets possibles
à détecter automatiquement et rend la technique difficilement applicable à des bases à
large échelle.
La sélection automatique de mots-clef dans le texte qui entoure les images est un
processus plus facile à mettre en œuvre pour des grands volumes de données et, comme
nous l’avons mentionné, il est très largement utilisé pour l’indexation des corpus du
Web. Selon les algorithmes utilisés par les différents moteurs de recherche, les mots-clef
correspondant à une image sont extraits d’une ou plusieurs des sources d’information
suivantes [19] :
– le nom du fichier ;
– une fenêtre de texte de la page Web qui se trouve autour de l’image ;
– le texte se trouvant entre les balises <ALT> associées aux images ;
– le titre de la page Web ;
– l’URL de la ressource ;
Une limitation importante de ce type d’approche est la détection de termes qui ne
sont pas liés au contenu des images et qui vont être utilisés dans la phase de recherche.
Même pour des requêtes simples, comme fox (renard), beaucoup d’images ne représentent
34
CHAPITRE 2. ETAT DE L’ART
pas un renard, figure 2.6.
Fig. 2.6 – Images non pertinentes pour fox sur la première page dans Google Images
(Avril 2008).
Les erreurs de la figure 2.6 sont dues au fait que le mot fox a été trouvé dans le texte
autour des images. Pour les deux premières images, fox fait partie de termes composés de
races de chiens (Toy fox terrier et Wirehaired fox terrier ) mais pour la dernière image,
il s’agit d’une carte de distribution du programme de télévision de la chaı̂ne Fox Sports.
Des évaluations quantitatives sur des panels de concepts pour analyser ce types d’erreurs
sont présentées dans [140] ainsi que dans le chapitre 5.
Les annotations associées aux images par les moteurs de recherche d’images sont
conservées dans des fichiers d’index, ceci facilitant un accès rapide aux photographies
dans le corpus. À part les mots-clef, l’index contient des informations permettant de retrouver la position de l’image parmi les réponses présentées aux utilisateurs. Dans Google
Images, ces informations sont actualisées à chaque fois qu’une image est sélectionnée afin
d’améliorer son « ranking ».
2.3
Recherche dans les bases de données type Internet
Les images indexées par les moteurs de recherche sont accessibles selon deux modalités principales : la recherche par mots-clef et celle par contenu visuel (CBIR). Le
premier type d’accès est beaucoup plus répandu que le deuxième en dépit d’importants
efforts de recherche [126], [82].
2.3.1
Recherche par mots-clef
Cette modalité est utilisée par les principaux moteurs de recherche sur le Web. Il
s’agit d’utiliser un ou plusieurs termes pour retrouver les documents (textes, images,
vidéos, sons) qui sont les plus pertinents vis-à-vis de cette requête. Les mots peuvent
être généralement combinés à l’aide d’opérateurs logiques comme la conjonction, la disjonction et la négation11 . Il est également possible de limiter la recherche à certains
domaines du Web. Pour les images, l’approche repose sur un ensemble d’annotations qui
sont obtenues de deux façons (voir aussi 2.2.2) :
11
http ://images.google.fr/advanced image search
2.3. RECHERCHE DANS LES BASES DE DONNÉES TYPE INTERNET
35
– L’analyse de l’information textuelle associée aux images : c’est la stratégie employée
par les moteurs de recherche classiques (Google, Yahoo !, Picsearch).
– L’association de mots-clef par les utilisateurs comme pour les répertoires d’images
du Web2.0 (dont Flickr est l’application phare).
Nous allons discuter séparément ces deux types d’applications par le biais de quelques
exemples.
2.3.1.1
Moteurs de recherche d’images classiques
Il existe des fonctionnalités de recherche d’images dans tous les principaux moteurs
de recherche actuels. Comme mentionné dans 2.2.2, la recherche repose sur les mots-clef
qui sont associés automatiquement aux images en utilisant les informations textuelles
avoisinantes. Dans la figure 2.7, nous présentons le diagramme fonctionnel d’un moteur
de recherche d’images :
– Barre de recherche : la région présentée à l’utilisateur pour taper sa requête textuelle.
– Recherche avancée : page dans laquelle l’utilisateur peut choisir de contraindre sa
recherche selon plusieurs critères supplémentaires (ex. mots-clef et leurs combinaisons logiques, taille, type du fichier image, attributs couleur. . .).
– Préférences : page dans laquelle il est possible de préciser quelques contraintes
générales liées à la recherche (ex. langage de l’interface, langue des sites inclus
dans la recherche ou filtrage du contenu).
– Réponse : page présentant à l’utilisateur les images trouvées par le système en
réponse à sa requête. Les résultats sont présentés sous forme de vignettes pointant
généralement vers les pages d’origine.
– Page source de l’image : page sur laquelle l’image est présentée dans son contexte
original.
L’interaction typique avec un moteur de recherche d’images est la suivante : l’utilisateur saisit une requête textuelle, le moteur répond en lui présentant les images associées.
Le volume de réponses dépend de la complexité de la requête mais il est rare, pour des
requêtes de moins de cinq termes, de n’obtenir aucune réponse. En fonction du nombre de
réponses, les images sont réparties sur une ou plusieurs pages de résultats. L’utilisateur
peut naviguer parmi les pages et choisir de voir une image dans son contexte original. À
tout moment, une nouvelle requête peut être formulée via la barre de recherche.
Certains moteurs (ex. : Ask, Picsearch, Yahoo !) proposent une reformulation automatique de la requête initiale sur la page de réponses pour guider et accélérer la recherche.
En général, il s’agit de requêtes portant sur une seule entité formée d’un ou plusieurs
termes. Nous allons illustrer cette reformulation avec la requête « coco » (figure 2.8).
Ask organise les reformulations en trois catégories :
– Requêtes plus spécifiques : Coco’s World, Coco Beach Florida, Cocoa Beach.
– Requêtes plus génériques : Coca Cola, Buffie the Body.
– Requêtes sur des noms associés : Coco Chanel, Nicole Austin.
Si on interroge Picsearch avec la même requête, le moteur propose également Coco
Chanel et Coco Lee comme noms de personnes associés. Ici, la reformulation de la requête
36
CHAPITRE 2. ETAT DE L’ART
Fig. 2.7 – Diagramme fonctionnel d’un moteur de recherche d’images sur Internet.
est plus simple que celle proposée par Ask, elle repose simplement sur l’ajout d’un terme
au mot coco. Les propositions de recherches associées au terme initial illustrent bien
le fait que la requête est ambiguë. La relation entre les nouveaux termes et celui de
base n’est pas toujours facile à comprendre, il est en effet difficile de saisir la relation
entre Buffie the Body (le surnom d’un modèle) ou Coca Cola et coco. De plus, pour
Ask, l’appartenance des termes associés aux catégories des requêtes proches n’est que
partiellement correcte. Buffie the Body et Coca Cola sont considérés comme des requêtes
plus générales.
Se basant uniquement sur les informations textuelles avoisinantes, les principaux
moteurs de recherche ont d’évidents problèmes de précision. Dans [140] la part d’images
non-représentatives pour un ensemble de 4000 images (en prenant 20 races de chien et
200 images par classe) dépasse 30%. La présentation des résultats se fait sous la forme
d’une liste dans laquelle sont favorisées les images que le système a jugé comme les plus
pertinentes. Le nombre de fois que les ont été sélectionnées (cliquées) est également pris
en compte [103]. Mises à part les requêtes proches présentées par Ask, il n’y a aucune
structuration des résultats et l’utilisateur ne peut pas affiner sa recherche en utilisant
les réponses images.
2.3.1.2
Moteurs de recherche d’images basés sur des annotations manuelles
Avec le développement de ce que l’on a appelé le Web 2.0, dans lequel les utilisateurs
sont devenus aussi des fournisseurs de contenu, un certain nombre d’applications de
partage de photographies est apparu et ces applications ont connu un rapide succès. Nous
avons choisi de présenter le site le plus représentatif : Flickr. Le schéma de fonctionnement
de Flickr est assez similaire à celui des moteurs de recherche d’images classiques à ceci
près que Flickr offre une plus grande variété d’options d’interaction à l’utilisateur. Ceci
2.3. RECHERCHE DANS LES BASES DE DONNÉES TYPE INTERNET
37
Fig. 2.8 – Page de réponses pour une requête avec coco dans Ask (Mai 2008).
est une conséquence immédiate de l’existence d’un plus grand nombre de métadonnées
associées aux images comme :
–
–
–
–
l’identité de la personne qui a mis la photographie en ligne ;
des descriptions sous forme de texte libre ou de mots-clef ;
type d’appareil photographique utilisé ;
l’appartenance à un ensemble d’images (sous forme d’« albums » et de « classeurs
») ;
– informations géographiques (géo tags) ;
– le groupe d’appartenance des photographies.
Ces métadonnées sont exploitées lors de la phase de recherche d’images. L’exploration
au sein de la base peut se faire à partir des mots-clef, de tout le texte, des groupes
d’images auxquelles une image est attachée mais aussi de l’auteur de l’image. Nous
illustrons les différentes options de navigation de Flickr dans la figure 2.9.
38
CHAPITRE 2. ETAT DE L’ART
Fig. 2.9 – Page de réponses de Flickr pour une requête avec Golden Gate Bridge. Les
différentes options de navigation sont encadrées en rouge.
2.3. RECHERCHE DANS LES BASES DE DONNÉES TYPE INTERNET
2.3.2
39
Recherche par le contenu visuel
La recherche d’images basée sur le contenu (CBIR) est fondée sur des descripteurs visuels (caractérisant principalement la couleur, la texture et la forme). Une image ou une
région de l’image est décrite à l’aide de certaines caractéristiques (globales ou locales).
L’objectif est de rechercher toutes les images qui possèdent des éléments similaires au
sens d’une métrique donnée (par exemple la distance euclidienne). Habituellement, pour
d’évidentes questions de temps de traitement, l’indexation de la base d’images est un
processus off-line. Dans la section 2.1.1, nous avons abordé la différence entre la description d’une image faite par une machine et celle réalisée par un utilisateur. La machine
rend compte d’une description perceptuelle de l’image tandis que l’humain favorise une
représentation conceptuelle du contenu visuel. Cette différence fondamentale est la principale raison de l’inadaptation des systèmes CBIR classiques pour la recherche d’images
dans des bases à large échelle et hétérogènes [25], [126]. Ainsi, la limite principale des
systèmes CBIR classiques vient du fait qu’un utilisateur considère deux images comme
proches si ces deux images partagent une cohérence conceptuelle et une cohérence perceptuelle [25]. Aussi, beaucoup de solutions hybrides combinant le CBIR et la recherche
textuelle ont été proposées pour réduire cette limitation [82].
2.3.2.1
Les systèmes CBIR classiques
Du point de vue de l’utilisateur, le fonctionnement d’un système CBIR est relativement simple : une image question est choisie et le système propose des éléments qui sont
visuellement proches de cette requête. La modélisation des images à l’aide de descripteurs de bas niveaux couvre un spectre assez large de techniques. Nous en proposons
quelques unes ci-dessous :
– Smith et al. [127] décrivent les images à l’aide d’un simple histogramme de couleurs.
– Cox et al. [25] proposent un modèle qui inclut 18 caractéristiques basées sur la
couleur et la texture.
– Quack et al. [109] introduisent un modèle basé sur quatre descripteurs : un pour
la texture, un pour les contours et deux pour la couleur.
– Hoerster et al. [51] adoptent une description plus complexe des images basée sur
des sacs de mots visuels qui sont extraits d’un dictionnaire (codebook) constitué
au préalable (voir 2.1.2.2).
Nous illustrons le principe de fonctionnement d’un moteur CBIR dans la figure 2.10.
Le système dans la figure 2.10 est assez complexe car il inclut des parties comme la
segmentation des images ou le retour de pertinence qui ne sont pas présents dans tous
les moteurs CBIR. Le haut de la figure illustre l’indexation des images à partir des
caractéristiques de bas niveau. La partie basse présente le processus de recherche par le
contenu, avec comme point de départ une image exemple qui est segmentée, indexée et
comparée aux images de la base d’images.
De nombreuses expériences montrent qu’une recherche d’images basée uniquement
sur une proximité perceptuelle produit des résultats peu pertinents dès lors qu’on s’intéresse à des bases diversifiées et de grandes tailles, comme le corpus d’Internet. L’obser-
40
CHAPITRE 2. ETAT DE L’ART
Fig. 2.10 – Schéma de fonctionnement d’un système de recherche d’images par le contenu
(cf. [38]).
vation qui conclut l’article de Cox et al. [25] concernant la primauté de la cohérence
conceptuelle sur la cohérence perceptuelle est judicieuse et doit servir de base à la
construction de systèmes de recherche d’images qui proposent une modalité de recherche
par le contenu.
2.3.2.2
Les systèmes CBIR hybrides
Le succès limité de la recherche d’images par le contenu a fortement poussé la communauté scientifique à se tourner vers des méthodes hybrides combinant des descriptions
bas-niveau, comme celles citées dans 2.3.2.1 et des modèles plus conceptuels. Un bon état
de l’art est proposé dans [82] qui regroupe les différentes approches dans cinq catégories :
1. Utilisation d’une ontologie visuelle pour définir des concepts de haut niveau. Le
travail déjà cité de [86] illustre bien cette approche. Chaque objet est décrit par
une ontologie à deux niveaux facilitant le passage de descripteurs de bas niveau
vers la racine de l’ontologie composée du nom de l’objet.
2. Introduction de techniques d’apprentissage pour relier les descripteurs de bas niveau au contenu sémantique des images.
3. Architectures basées sur l’active learning. Cette technique [42], [34], [77], [146]
implique une intervention humaine pour affiner les résultats de la recherche. Habituellement, considérant une image question, l’utilisateur sélectionne des réponses
2.3. RECHERCHE DANS LES BASES DE DONNÉES TYPE INTERNET
41
qu’il juge pertinentes. À partir de ce choix, le système propose de nouvelles images
réponses. Ce processus peut se répéter plusieurs fois, une amélioration sensible des
résultats étant constatée après quelques itérations [77].
4. Génération de patrons sémantiques pour guider la recherche d’images. L’approche
utilise WordNet pour étendre des requêtes textuelles et retourner des résultats
enrichis [150].
5. Utilisation du texte associé aux images et de leur contenu visuel. Une version de
cette technique est implémentée dans notre travail et nous la présentons plus en
détail. Il y a deux types de bases photographiques utilisées :
– celles ayant une description textuelle préalable [19], [34], [67], [146], [151].
– celles où la description est produite par annotation automatique des régions de
l’image [77]
Une autre séparation importante est considérée selon le degré de structuration des
données textuelles :
– Le texte, sous forme de mots-clef, appartient à des ressources sémantiques préexistantes. Par exemple, WordNet est utilisé dans des applications de recherche
d’images par le contenu pour calculer des distances entre différents concepts
dans la hiérarchie [34], [146] ou pour proposer une navigation conceptuelle [66],
[95], [78], [146].
– Des structures sémantiques ad-hoc sont constituées. Les auteurs de [19], [151]
proposent la création d’un réseau de liaisons sémantiques entre les images. Des
algorithmes de fouille de données sont mis en place pour extraire, à partir de
pages Web, l’information pertinente pour les images contenues et pour structurer
un graphe de parenté entre les images.
Beaucoup de travaux se situent dans plus d’une catégorie. Par exemple [146], [95], [34]
tirent partie de l’active learning et d’une utilisation conjointe du contenu des images et
du texte associé. Dans [77], à part l’active learning, des techniques d’apprentissage sont
introduites dans l’architecture afin d’annoter les images.
2.3.2.3
Classification non supervisée d’images
Récemment des évaluations de systèmes de recherche d’information [2] ont montré
que les utilisateurs préfèrent une bonne couverture du champ conceptuel de la requête
à une très bonne précision des résultats focalisés sur un seul aspect de la requête. Le
clustering d’images tente de séparer différentes classes visuelles associées à une requête
et ainsi de proposer à l’utilisateur une vision synthétique et représentative de l’ensemble
des réponses. Il existe un nombre très important de travaux s’intéressant au clustering
d’images, nous pouvons néanmoins extraire trois grandes catégories en fonction du type
d’information utilisé :
– approches exploitant uniquement le texte associé aux images ;
– approches utilisant uniquement le contenu des images ;
– approches hybrides.
42
CHAPITRE 2. ETAT DE L’ART
iGroup [142] est un bon exemple de la première approche. Le système exploite le
moteur de recherche Microsoft Live. Les clusters sont créés à partir du nombre de termes
partagés par les images. La technique est assez intuitive et permet de séparer plusieurs
représentations d’une requête, ce qui est très utile pour les termes polysémiques. Le
problème principal vient du temps de calcul puisque le processus nécessite plusieurs
minutes.
Le clustering basé uniquement sur le contenu est proposé dans [152] ou, plus récemment,
dans [64] et [63]. Théoriquement, cette approche n’est pas conditionnée par l’existence
d’un texte associé aux images. Toutefois, dans le cadre de la recherche dans des grands
corpus, la technique est appliquée à la suite d’une requête textuelle permettant de restreindre efficacement l’espace de recherche [63]. Cette approche nécessite d’abord une
phase d’extraction des caractéristiques de bas niveau suivie par la classification proprement dite. Les temps de calcul sont ici aussi relativement importants et une extraction off-line des caractéristiques est souvent privilégiée pour accélérer le processus.
Une autre solution revient à pré-classifier l’ensemble du corpus mais cette solution apparaı̂t irréaliste pour un corpus comme Internet [63]. De plus, il faudrait reproduire
régulièrement le processus pour suivre au mieux l’évolution du corpus d’images. Enfin,
notons que les travaux cités utilisent le plus souvent des descripteurs globaux, ceux-ci
étant moins complexes à calculer que les approches locales, comme les sacs de mots
visuels basés sur des points d’intérêts.
Fig. 2.11 – Clustering multimodal d’images géo-référencées (cf. [73]).
Dernièrement, des travaux comme [92] et [73] explorent un clustering multimodal
des images d’Internet, dans le cas des bases comme Flickr pour [92], respectivement des
images géo-référencées pour [73]. [92] propose d’utiliser conjointement des clusters issus
des informations textuelles (mots clés) et issus d’un clustering par le contenu (à partir
d’une approche par sacs de mots visuels). [73] analyse le cas des images géo-localisées et
utilise le contenu des images, les mots-clef, la position spatiale des images et l’information
temporelle. Le processus de clustering décrit par les auteurs de [73] est illustré par la
figure 2.11.
Le clustering d’images permet d’extraire des images canoniques décrivant différentes
représentations de la requête et permettant à l’utilisateur de choisir ensuite les ensembles
d’images qui l’intéressent le plus. [152] observe que, dans le cas d’images du Web, le
clustering visuel s’applique aussi bien aux images représentatives qu’au bruit, aussi estil nécessaire d’ordonner les clusters par pertinence. [63] utilise certaines caractéristiques
2.4. ÉTUDES UTILISATEURS
43
des clusters (leur densité ou leur connectivité) pour les trier et [73] propose d’ordonner
les clusters en fonction de leurs informations spatiales et temporelles.
2.3.2.4
Considérations sur les systèmes de recherche par le contenu
Une séparation importante peut être faite entre les techniques analysant globalement les images (approches holistiques) et celles se focalisant sur des parties de l’image.
Dans le premier cas, comme dans [25], [127], [109], les descripteurs de bas niveau sont
majoritairement des histogrammes calculés sur toute l’image. [109] montre que ces descripteurs supportent mieux le passage à l’échelle (le plus grand volume d’images traité
par un système CBIR étant — à notre connaissance — de onze millions d’images avec
le système Cortina12 ) mais n’offrent pas de performances suffisamment intéressantes
pour des grandes bases d’images. Les approches locales [95], [77] donnent généralement
des résultats plus pertinents mais restent problématiques pour un passage à l’échelle
nécessitant une plus grande complexité de calcul.
Beaucoup de travaux s’intéressent à l’active learning [42] comme une approche alternative pour améliorer la précision. Si cette approche a un intérêt certain pour des bases
et des utilisateurs spécialisés (par exemple le corpus d’un musée comme Le Louvre) l’intervention de l’utilisateur au cœur d’un processus itératif est difficilement envisageable
pour un système grand public.
L’obstacle le plus important quant à l’utilisation d’une modalité de recherche par le
contenu reste l’incohérence conceptuelle entre la requête et les résultats. Comme nous
l’avons mentionné, une solution possible est de restreinte conceptuellement l’espace de
recherche avant d’appliquer une recherche par le contenu. Les images réponses seront
ainsi visuellement proches et déjà conceptuellement similaires.
2.4
Études utilisateurs pour les applications de recherche
d’images
Ici, nous présentons les interactions entre les utilisateurs et les systèmes en s’intéressant
plus particulièrement :
– aux pratiques des utilisateurs et leurs interactions avec les systèmes de recherche
d’information ;
– l’exploitation des fichiers de log produits par les moteurs de recherche.
L’analyse des pratiques des utilisateurs permet de comprendre leurs motivations et
de souligner leur comportement face à un système de recherche. Cette analyse nécessite
la création d’un protocole expérimentale généralement difficile à mettre en place, en particulier parce qu’il implique la constitution d’un panel d’utilisateurs représentatifs [45].
De plus, les résultats sont difficilement généralisables, aussi bien en termes de population
évaluée et de la représentativité des requêtes proposées.
[56] souligne que les fichiers de log sont difficiles à obtenir puisqu’ils ne sont pas
rendus publiques par les moteurs de recherche comme Google ou Yahoo !. L’avantage
12
http ://vision.ece.ucsb.edu/multimedia/cortina.shtml
44
CHAPITRE 2. ETAT DE L’ART
des fichiers de log est qu’ils contiennent un grand volume de données venant d’une population représentative. Leur principale limitation vient du fait qu’il n’est pas possible
de connaı̂tre quels étaient les objectifs des utilisateurs ni même leurs jugements par
rapport aux réponses proposées [45]. Aussi, une étude directe avec un panel d’utilisateurs et l’analyse d’un fichier de log sont deux approches considérées comme fortement
complémentaires.
2.4.1
Etudes de l’interaction entre les utilisateurs et les systèmes de
recherche d’information
La forme générale de ces études est la suivante [79], [111], [81] : l’utilisateur est
mis en situation d’interagir avec le système et il lui est demandé d’évaluer différents
paramètres. Le protocole expérimental est important pour la pertinence des résultats
puisque l’utilisateur doit avoir l’impression de réaliser ce test comme s’il était dans une
situation normale de recherche. Les résultats sont obtenus en analysant directement
l’interaction entre l’utilisateur et le système et par l’intermédiaire de questionnaires.
L’analyse directe [45] évalue le comportement de l’utilisateur pendant la tâche. Les
questionnaires, qui peuvent aussi comporter des zones d’expression libre, s’intéressent le
plus souvent à :
– La structure des résultats : dans [111], une présentation des résultats d’une requête
suivant des critères de similarité visuelle est comparée à une organisation conceptuelle et à une présentation non-structurée. La structure conceptuelle et l’organisation visuelle des résultats sont comparées par dix-huit utilisateurs auxquels on
demande de choisir des images pour trois requêtes. L’organisation conceptuelle est
préférée par huit testeurs, sept trouvent que les deux méthodes sont équivalentes
et trois que la cohérence visuelle est préférable. La structuration des résultats sur
des critères visuels et la présentation sous forme de listes simples sont comparées
avec un panel de dix utilisateurs. Six d’entre eux favorisent l’organisation visuelle,
trois trouvent les deux équivalentes et un seul utilisateur préfère la présentation
non-structurée. [79] compare une organisation issue d’un raffinement des requêtes
utilisant des fichiers de log à une présentation non-structurée. Sur un panel de 23
utilisateurs, la majorité trouve la présentation structurée préférable. [81] compare
trois méthodes de présentation des résultats : liste simple, organisation utilisant un
regroupement sur des critères visuels et leur méthode basée sur une modélisation
de l’attention visuelle. Sur dix utilisateurs, sept préfèrent cette méthode, deux la
présentation utilisant un regroupement visuel et un seul pour la liste simple.
– L’interactivité est étudiée dans [120] où des menus basés sur une organisation
hiérarchique des concepts sont proposés à l’utilisateur pour guider sa recherche.
Les menus conceptuels sont comparés avec une présentation des images sous forme
de liste. Les résultats indiquent une préférence des utilisateurs pour l’interface
utilisant les menus par rapport à une présentation classique des images sous forme
de liste. Le comportement des utilisateurs indique également que la recherche dans
une hiérarchie conceptuelle est plus facile que la reformulation libre des requêtes.
– Des questions relatives aux usages associés aux moteurs de recherche d’images sont
2.4. ÉTUDES UTILISATEURS
45
incluses dans [79] et [81]. Les utilisateurs citent le divertissement comme thème
général et la création de pages Web ou la rédaction de rapports comme usages
liés à une population particulière (panel d’étudiants en informatique). On retrouve
une analyse plus détaillée dans [102] qui, en plus des deux usages précédemment
cités, ajoute la recherche encyclopédique, destinée à augmenter la connaissance de
l’utilisateur en illustrant, par des images, un sujet donné.
2.4.2
Exploitation des fichiers de log
L’utilisation des fichiers de log produits par les moteurs de recherche est une approche
fortement complémentaire des études utilisateurs [60]. Les requêtes pour des documents
textuels, des images, des vidéos ou fichiers audio sont analysées dans [61] ou [106].
Des études dédiées à la recherche d’images sont décrites dans [41] ou [62]. Les études
concernant la recherche d’images suivent, au moins en partie, la même méthodologie.
Nous avons insisté dans la section 2.2 sur le dynamisme d’Internet, il est ainsi devenu
particulièrement intéressant de voir comment les requêtes évoluent dans le temps. Les
principales informations qui sont extraites à partir des fichiers de log sont :
– la longueur moyenne des requêtes ;
– la longueur moyenne des sessions utilisateur ;
– le nombre de requêtes analysées ;
– le nombre d’utilisateurs uniques ;
– le pourcentage des requêtes images ;
– les domaines d’appartenance des termes fréquents.
La longueur moyenne des requêtes images est de 3,74 mots dans [41] et de 3,46
mots dans [60]. Il est à noter que, dans ces études menées en 2000 les moteurs ne
proposaient pas encore une fonctionnalité dédiée à la recherche d’images. La séparation
entre les requêtes textuelles et les requêtes images est faite en utilisant une liste de
mots-clef spécifiques pour les requêtes images (ex. : photo, jpg, image etc.). La longueur
des requêtes images est plus grande en moyenne que celle des recherches de documents
textuels (3,74 contre 2,35 dans [41]).
Les résultats de [41] montrent que les utilisateurs formulent, en moyenne, quatre à
cinq requêtes pendant une session de recherche. Cependant, la longueur moyenne d’une
session est plus difficile à interpréter car une session longue peut aussi bien signifier
que l’utilisateur a posé plusieurs requêtes différentes (indépendantes) ou qu’il a utilisé
plusieurs tentatives pour arriver à un résultat pertinent.
La part de la recherche d’images dans le nombre total des requêtes ne dépasse pas
5% dans [41] ou [60]. Avec la proposition d’applications séparées dédiées à la recherche
d’images, la part de ce type de recherche atteint environ 10% du nombre total de requêtes
[132].
[41] et [60] décrivent les principaux domaines d’appartenance des requêtes : les identifiants d’images, les termes relatifs à du contenu pornographique, le divertissement, les
noms de personnes et termes associés à l’art. Il faut toutefois noter que les domaines
sont extraits uniquement à partir des requêtes les plus fréquentes, défavorisant ainsi les
domaines incluant une grande diversité de termes.
46
CHAPITRE 2. ETAT DE L’ART
Le « divertissement » représente une part importante des usages, mais il faut néanmoins
citer des usages plus professionnels. [41] identifie un panel d’usages potentiels pour les
moteurs de recherche d’images en listant des catégories professionnelles qui ont un usage
important des moteurs images : les journalistes, les historiens, les professeurs, les artistes,
les agences publicitaires. Ces résultats sont à corroborer avec les constats de [79], [81] et
[102] qui indiquent les mêmes types d’usage dans des études impliquant directement les
utilisateurs.
Plus récemment, [59] utilise les fichiers de log pour entraı̂ner un classifieur automatiques de requêtes. Jansen et al. reprennent les catégories générales des requêtes Web
définies dans [15] : informationnelle, transactionnelle et de navigation. L’intérêt de ce
travail tient à une meilleure adaptation des réponses compte tenu de l’intention de l’utilisateur mais les résultats présentés (75% de classifications correctes) sont pour l’instant
encore insuffisantes pour espérer une utilisation dans une application grand public à large
échelle. En réalité, il serait certainement plus intéressant de classifier automatiquement
les requêtes dans des catégories plus spécifiques que dans les classes générales présentées
dans [59]. Notons enfin que les auteurs de l’étude montrent que la plupart des erreurs
de classification correspond aux requêtes courtes qui sont souvent ambiguës.
2.4.3
Études utilisateurs pour la recherche d’information sur Internet
[15] propose une classification des requêtes selon trois catégories :
– De navigation : la requête vise à atteindre un site web (comme par exemple taper
« l’équipe » sur Google pour accéder au site du quotidien sportif).
– Informationnelles : la requête vise à obtenir diverses informations relatives à cette
requête.
– Transactionnelle : la requête vise à effectuer une activité à l’aide du Web, par
exemple acheter une voiture.
La très grande majorité des requêtes images s’inscrit dans la deuxième catégorie :
les requêtes informationnelles. Une différenciation peut aussi se faire entre les requêtes
spécifiques (recherche d’un document spécifique) et les requêtes catégorielles (la cible est
une collection de documents) qui représentent environ 15% du total des requêtes [15].
Les buts des utilisateurs dans la recherche d’information sur Internet sont analysés
dans [113] qui présente une classification similaire à celle de [15] ainsi que des statistiques montrant que les requêtes informationnelles sont majoritaires. Les recherches
informationnelles sont de deux types : celles censées répondre à une question précise
(directionnelles) et les requêtes non-directionnelles. Les premières peuvent être soit
spécifiques soit catégorielles tandis que les secondes sont toutes catégorielles. En recherche d’images les requêtes spécifiques et catégorielles sont traduites par la recherche
d’une image spécifiques et l’illustration d’un concept.
Une tentative intéressante de regrouper les requêtes est décrite dans [98]. Les auteurs
proposent une caractérisation des requêtes en utilisant quatre propriétés :
– l’ambiguı̈té ;
– l’auteur de la requête ;
– le moment du lancement ;
2.4. ÉTUDES UTILISATEURS
47
– la localisation de la requête.
La détection de ces caractéristiques devrait permettre une compréhension automatique
des motivations des utilisateurs et une adaptation des réponses. Le problème principal
soulevé par cette approche est justement la détection automatique de ces caractéristiques.
La majorité des systèmes de recherche d’information est évaluée par des mesures
quantitatives (précision, rappel. . .) mais, comme le montre [136] pour les systèmes de
recherche textuelle, l’amélioration des résultats selon ces mesures n’est pas toujours
accompagnée d’une amélioration sensible du point de vue des utilisateurs. La conclusion
de [136] peut être appliquée aux systèmes de recherche d’images et souligne l’importance
d’une évaluation qui comprend aussi bien des mesures quantitatives que qualitatives.
L’évaluation de notre travail (chapitre 5) essaie de tenir compte de cette observation.
2.4.4
Considérations relatives aux études utilisateurs
Nous avons souligné la complémentarité entre les études basées sur une évaluation
directe d’un panel d’utilisateurs et celles basées sur l’analyse de fichiers de log. Il est
possible de proposer des méthodologies exploitant conjointement les avantages de ces
deux approches. Les principales critiques apportées aux études utilisateurs concernent
naturellement le coût humain, le nombre souvent réduit d’évaluateurs dans le panel et
la faible représentativité de cet échantillon. Malgré ces difficultés ou critiques justifiées,
leur mise en place est essentielle pour une évaluation fiable des systèmes et pour les faire
évoluer de façon à mieux tenir compte des préférences (et des attentes) des utilisateurs.
Les fichiers de log sont des sources d’informations riches mais aujourd’hui leur exploitation reste majoritairement statistique. Une étude selon une approche plus conceptuelle
paraı̂t indispensable si l’on souhaite faire une liaison entre les requêtes brutes et les usages
des utilisateurs. Aujourd’hui, l’analyse de ces fichiers est faite au niveau des chaı̂nes de
caractères, séparant chaque terme, sans chercher à considérer une expression composée
par plusieurs termes comme une seule et unique entité (requête). Par exemple, la requête
berger allemand sera séparée en berger et allemand, de même pour les entités nommées
composés de plusieurs termes (ex : Port au Prince, Tour Eiffel, François Mitterand ).
Dans ces cas (nombreux), les résultats sont bruités car, au lieu de traiter les requêtes
de façon unitaire, on analyse chaque composante séparément. Une solution pour mieux
traiter ces requêtes serait d’introduire dans l’architecture d’analyse des dictionnaires et
des listes d’entités nommées.
L’objectif principal des études utilisateurs en recherche d’images est la détermination
des usages. Dans les approches actuelles, l’identification des usages reste très partielle
et les résultats ne sont pas pleinement exploitables [98]. [68] souligne que la création
de services Web adaptés aux utilisateurs passe par l’identification de communautés de
pratiques dont les membres ont des besoins similaires quand ils interagissent avec les
applications de recherche d’images.
48
2.5
CHAPITRE 2. ETAT DE L’ART
Construction et utilisation de structures sémantiques
pour la recherche d’images
Dans cette thèse, nous employons alternativement ressources sémantiques, structures
sémantiques et structures linguistiques, ces termes englobant aussi bien les thésauri,
ontologies formelles, dictionnaires ou réseaux sémantiques.
Comme le montre des projets tels que Cyc [47], ConceptNet [80] ou WordNet [88] la
construction de structures sémantiques à large échelle est une tâche demandant un effort
conséquent mais le nombre important de travaux basés sur ces ressources témoigne de
leur grande utilité. Cyc et WordNet sont développés manuellement par des spécialistes
des ontologies formelles et de la lexicographie. Le projet WordNet a rencontré plusieurs
critiques mais la connaissance contenue dans cette ressource est globalement de bonne
qualité. ConceptNet a été créé par une communauté d’utilisateurs qui instancie des relations conceptuelles du sens commun proposées par un système. Une approche alternative
à la construction de ressources sémantiques est l’utilisation de corpus de documents pour
en extraire (semi)automatiquement des connaissances [43], [115], [21], [91], [118]. L’effort
impliqué par le processus de création est plus faible mais les ressources sont de moins
bonne qualité. La plupart des ressources est limitée à un domaine donné [91], [118] mais
Grefenstette [44] propose une approche plus généraliste reposant sur l’utilisation d’une
très grande quantité de textes disponibles sur Internet pour obtenir une carte sémantique
qui relie les différents termes d’une langue.
Un cas particulier de constitution automatique de ressources sémantiques est l’utilisation de connaissances semi-structurées, comme celles de Wikipédia, qui sont ensuite
organisées pour enrichir des structures existantes [114]. La principale critique à ce type
d’approche est que la qualité des résultats obtenus est fortement conditionnée par les
connaissances de départ.
Une partie des ressources sémantiques existantes se prêtent à être utilisées dans
des applications de recherche d’images. Il a été souligné dans la section 2.3 qu’il existe
deux modalités principales d’accès aux images : par mots-clef et par contenu visuel.
Dans les deux cas, l’utilisation de ressources sémantiques peut améliorer le processus de
recherche. Si on utilise des mots-clef, une structure linguistique peut améliorer l’interactivité (par la proposition de requêtes proches) [66], [120], permettre la reformulation et la
désambiguı̈sation automatique des requêtes ([79]) ou structurer les résultats en fonction
de l’organisation des concepts dans la structure sémantique [54], [79], [120].
2.5.1
Construction de ressources sémantiques
Les structures sémantiques peuvent être classées en fonction de leur couverture
(spécifiques à des domaines données ou généralistes). Nous présentons ici plusieurs
exemples et accordons une description plus importante aux ressources généralistes qui
sont plus pertinentes pour la recherche d’images sur Internet. Buitelaar et al. [17] affirment que la construction des ontologies n’est pas intégralement automatisable car la
spécification des concepts et des relations dans un domaine relève de l’accord entre les
2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES
49
membres d’une communauté de pratiques et demande des connaissances implicites qu’il
serait impossible d’extraire automatiquement à partir d’un corpus. Ils identifient ensuite
quelques grands problèmes associés aux méthodologies de construction d’ontologies :
– Quelles sont les informations présentes dans un texte qui doivent être prise en
compte lors de la modélisation d’une ontologie ?
– Comment assister le processus de création d’un consensus sur la description d’un
domaine à l’aide d’informations extraites de textes ?
– Quel doit être le rôle de la construction d’ontologies dirigée par les données dans
le processus plus général d’ingénierie ontologique ?
– Quelles sont les méthodologies d’intégration de la construction d’ontologies dans
des plateformes plus génériques dédiées aux ontologies ?
– Comment assister au mieux les créateurs d’ontologies du point de vue des interfaces
de visualisation des connaissances ?
Dans la préface de l’ouvrage [17], les auteurs identifient les quatre communautés
scientifiques qui peuvent apporter une contribution importante à la construction des
ontologies et analysent leurs relations :
– La communauté du traitement automatique de la langue (TAL). Le TAL permet d’extraire des termes et leurs relations sémantiques. [135] et [115] proposent
des méthodes d’extraction automatique de synonymes ; [49] repère des relations
d’hypéronymie entre les termes d’un texte tandis que [9] extrait des relations de
méronymie. Des différences importantes existent entre la vision de la construction des ontologies type « TAL » et celle de la communauté « représentation de
connaissances », comme le mapping entre les termes extraits en utilisant le TAL
et les concepts, car ce passage n’est pas immédiat. De plus, dans une vision «
représentation de connaissances » [143], une différence est faite entre les rôles et
les types : les premiers représentent des attributs temporaires d’un terme (Nicolas
Sarkozy est le président de la France), alors que les derniers sont des propriétés
permanentes (Nicolas Sarkozy est un homme).
– La communauté de l’apprentissage (machine learning) intervient dans la plupart
des méthodes de construction automatique d’ontologies. Les modèles supervisés
sont prédictifs (ils servent par exemple à classer de nouveaux exemples) tandis
que les modèles d’apprentissage non-supervisé sont exploités afin de découvrir des
régularités dans les données traitées (découvrir des règles d’association dans les
textes par exemple). Cimiano et al. [22] exploitent des techniques de classification
pour la construction automatique de hiérarchies de termes. Dans [84], les auteurs
appliquent des règles d’association pour découvrir des relations inter-conceptuelles.
– La communauté de la représentation des connaissances s’est focalisée sur le développement de méthodes de raisonnement et d’inférences efficaces. Haarslev et
Möller [139] décrivent RACER, un moteur d’inférence exploitant des ontologies
décrites en langage OWL. À quelques exceptions près, cette communauté a négligé
des aspects importants associés aux ontologies : l’intégration des méthodes du
TAL dans la construction des ontologies ; la concordance entre la représentation
des concepts et leurs relations dans les ontologies formelles et la manière d’exprimer
50
CHAPITRE 2. ETAT DE L’ART
les connaissances propre au langage naturel. De plus, les techniques d’apprentissage sont insuffisamment prises en compte dans des travaux de la communauté
acquisition de connaissances.
– La communauté des interfaces H/M. Des interfaces utilisateurs plus performantes
sont nécessaires afin de visualiser les connaissances incluses dans les ontologies. Ces
interfaces sont d’autant plus utiles que le processus de construction d’ontologies
est généralement interactif. SemIntel [28] est un système dédié à la vérification interactive du contenu de structures linguistiques, permettant l’identification rapide
des concepts problématiques. Des logiciels comme Protégé13 sont très utiles pour
l’édition des ontologies mais un nombre important d’améliorations sont à apporter
à ces systèmes. Pour citer un exemple, il serait intéressant de disposer d’outils
de création d’ontologies collaboratifs permettant une évolution aisée des connaissances dans une ontologie. Ces thèmes de recherche sont notamment abordés dans
le cadre du projet européen NeOn [97].
2.5.2
Constitution de ressources sémantiques spécifiques à un domaine
Les structures sémantiques spécifiques à un domaine sont souvent constituées manuellement bien que de nombreuses techniques de constructions automatiques à partir de
corpus spécifiques aient été proposées dans la littérature. Le recours à un processus
manuel s’explique par l’imprécision des techniques automatiques. Toutefois, beaucoup
de travaux intéressants sont régulièrement proposés et s’intéressent à l’exploitation des
sources de données semi-structurées, comme Wikipédia, qui permettent l’obtention des
descriptions de domaines assez détaillées.
2.5.2.1
Le domaine géographique
Le domaine géographique est un domaine pour lequel il existe une grande quantité
d’informations structurées sous forme de thésauri (en anglais : gazetteers). La structure
minimale d’un thésaurus géographique est définie dans [50] et est composée de trois
éléments :
– le nom de l’entité ;
– ses coordonnées géographiques ;
– sa classe parent.
Nous présentons deux initiatives de recherche visant la constitution de bases de
données géographiques : Alexandria Gazetteer et Geonames.
Alexandria Gazetteer [50] contient environ six millions d’entrées provenant de deux
services gouvernementaux américains : Geographic Names Information System (GNIS)
et Geographic Names Processing System (GNPS). La base de données est structurée
hiérarchiquement, les catégories les plus générales incluant : régions administratives, hydrographie, relief terrestre, artefacts. Ces catégories se divisent en des catégories plus
spécifiques comme pays, lac, ı̂le ou église. Le niveau le plus spécifique de la hiérarchie
13
http ://protege.stanford.edu/
2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES
51
Fig. 2.12 – Illustration du contenu d’Alexandria (cf. [50]).
d’Alexandria contient des noms de lieux comme : France,Lake Louise, Barbuda ou Saint
Patrick’s Church. Nous illustrons le contenu d’Alexandria dans la figure 2.12. Pour Barbuda (figure 2.12), Alexandria contient le nom de l’entité (Barbuda), une version du
nom (Variant Name), le type (islands), des informations d’inclusion (isPartOf ) et de
localisation spatiale (Longitude, Latitude).
Geonames14 est une autre base de données géographiques, construite de manière assez
similaire à Alexandria mais plus riche car elle inclut, à part des sources comme GNIS ou
GNPS, des éléments géo-référencés extraits à partir de Wikipédia. Il faut toutefois noter
que pour les entrées provenant de Wikipédia, il n’existe pas d’information concernant la
catégorie parent (type) des entités. Aussi, dans ces cas, la définition minimale [50] d’un
« gazetteer » n’est pas respectée.
Dans Hill et al. [50] (1999) nous retrouvons aussi quelques problèmes toujours d’actualités concernant la modélisation du domaine géographique. Parmi les plus intéressants,
nous citons :
– La mise en place d’une hiérarchie des catégories géographiques détaillée et extensible afin de mieux rendre compte de la structure et des particularités du domaine.
– L’inclusion d’une dimension temporelle dans les bases de données géographiques.
Cette information s’avère intéressante puisque — par exemple — le nom ou la
surface d’une entité peuvent changer dans le temps.
– La description de l’étendue des régions bien délimitées. Les gazetteers existants ne
contiennent pas ou peu d’informations sur la surface et sont limitées à un rectangle
englobant toute la région. L’utilisation de formes rectangulaires est imprécise puis14
http ://geonames.org
52
CHAPITRE 2. ETAT DE L’ART
qu’elles incluent souvent des parties significatives d’autres régions.
– La description de l’étendue de régions aux frontières non délimitées. Nous pouvons
donner l’exemple du Sud de la France : quelles sont les limites spatiales de cette
région ? Ce problème est particulièrement complexe car il n’existe pas de règles,
comme dans le cas des régions bien délimitées, pour établir les limites les plus
adéquates à ce type de région.
Wang et Ge [141] soulignent le besoin d’extraire (semi)automatiquement des données
géographiques afin d’enrichir les thésauri existants. Une tentative intéressante de construire
une base de données géographiques est décrite dans [110]. Les auteurs retiennent un ensemble d’images géo-référencées de Flickr et les tags associés à ces images. À partir
d’approches statistiques, ils extraient des noms de lieux, des coordonnées et une valeur
de pertinence. La structure résultante ne contient pas d’informations sur le type pour
chaque entité mais inclut une valeur de pertinence qui permet d’ordonner efficacement
les entités. Cet ordonnancement s’avère très important lors de l’utilisation des bases de
données géographiques en recherche d’information car il permet de proposer en priorité
les entités les plus « saillantes ». Les auteurs rapportent une précision avoisinant 80%
quand ils retiennent la moitié des noms géographiques candidats. La majorité des travaux montre que la construction automatique des bases de données géographiques donne
des résultats très prometteurs et mérite d’être explorée plus en détail.
2.5.2.2
Autres domaines conceptuels
Le domaine médical a bénéficié d’un important effort de recherche visant la structuration et l’intégration de connaissances. UMLS (Unified Medical Language System) [13]
est une compilation de vocabulaires médicaux qui inclut trois parties principales :
– Metathesaurus : une collection de concepts et de relations inter-conceptuelles extraites à partir d’une variété de vocabulaires contrôlés. Le métathésaurus comprend plus d’un million de concepts biomédicaux et plus de cinq millions de noms
de concepts, ainsi que des relations entre ces concepts.
– Semantic Network : une liste des catégories et des relations utilisées afin de classifier les entrées du Metathesaurus. Il existe 135 types sémantiques (comme organisme, structure anatomique ou fonction biologique) et 54 relations (hypéronymie,
« spatialement lié à » ou « temporellement lié à »).
– SPECIALIST Lexicon : une base de données lexicographiques exploitable en traitement du langage naturel. Cette partie de la ressource contient des informations
syntaxiques, morphologiques et orthographiques relatives aux concepts décrits en
UMLS.
Outre le domaine médical, il existe un nombre important d’ontologies dédiées à des
domaines spécifiques. Nous citons ici quelques exemples pour illustrer cette diversité :
– PlantOntology [137] comprend une description contrôlée des termes botaniques
représentant les organes, les tissus, les cellules et leurs relations respectives.
– Schlenoff et Messina [123] décrivent une ontologie pour le domaine de la robotique
et plus spécifiquement pour les robots utilisés dans des opérations de sauvetage
urbain. La ressource contient, entre autres, des informations relatives aux capacités
2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES
53
des robots à naviguer, planifier et interagir avec des opérateurs humains.
– Karoui et al. [69] proposent une méthodologie de création d’ontologies reposant
principalement sur l’exploitation de balises HTML dans les pages Web et sur des
techniques de clustering de texte afin d’extraire une ontologie pour le tourisme. La
constitution de cette ontologie est semi-automatique car elle implique un retour
de pertinence des utilisateurs pour valider les connaissances extraites.
– Wu et al. [144] définissent une ontologie des événements associés à un domaine et
appliquent leur approche pour indexer des dépêches de presse. Chaque concept de
l’ontologie est décrit par ses attributs, par les événements lui étant associés et par
des synonymes.
– LSCOM (Large Scale Concept Ontology for Multimedia) [96] est une ontologie
dédiée à la description de vidéos. Cette ressource, de plus en plus populaire notamment via son utilisation dans la campagne TrecVid, propose des concepts
comme des noms de personnes, d’objets, d’événements, de lieux qui sont associés
à des séquences vidéo. Dans sa version initiale l’ontologie comprend environ 2000
concepts dont plus de 400 ont été renseignés avec des séquences vidéo. Le contenu
de LSCOM est particulièrement utile dans des applications relatives à la recherche
et annotation de vidéos informatives [145].
2.5.2.3
Utilisation de ressources sémantiques spécifiques en recherche d’images
Dans la suite, nous présentons quelques exemples d’utilisation d’ontologies dans la
recherche d’images.
Le projet CLiMB (Computational Linguistics for Metadata Building) [74] se propose
d’améliorer l’accès aux images par l’utilisation de techniques de traitement automatique
de la langue. Ces techniques sont employées pour extraire des informations à partir
de textes structurés et pour les transformer en métadonnées exploitables en recherche
d’images. Les cas d’utilisation incluent les images d’art et d’architecture, des domaines
pour lesquels il existe souvent des informations structurées sous forme de catalogues ou
autres. Parmi les objectifs actuels de CLiMB, nous citons la tentative d’analyse de textes
non-structurés qui s’avère bien plus difficile que l’exploitation de documents structurés.
Hyvonnen et al. [54] présentent une application de recherche d’images artistiques
basée sur l’utilisation d’une hiérarchie de concepts. Sept ontologies sont agrégées dans
le système et contiennent 10000 relations RDFS (RDF Schema). Les mêmes auteurs
soulignent que la principale difficulté de leur approche est la création des ontologies
qui supportent le processus de recherche. Cette construction est réalisée manuellement
et demeure, par conséquent, très laborieuse et implique la participation d’experts du
domaine.
Kong et al. [75] proposent la création d’ontologies personnalisées pour la recherche
d’images liées au football. L’utilisateur est censé alimenter le système avec des images et
des annotations, générant ainsi une ontologie qui décrit les relations entre les concepts.
Les auteurs pensent que l’implication de l’utilisateur dans la création de l’ontologie permettra d’obtenir une structure « personnalisée idéale ». L’évaluation est réalisée sur une
base d’images contenant 1000 images de joueurs de football. Leur système est comparé
54
CHAPITRE 2. ETAT DE L’ART
à Google Images et à une expansion des requêtes utilisant WordNet sur uniquement
cinq requêtes qui reproduisent bien la structure de l’ontologie présentée dans l’article.
Kong et al. avouent néanmoins, en fin d’article, que leur approche risque de s’avérer
problématique pour un passage à une plus large échelle.
La réutilisation de ressources existantes est parfaitement illustrée par [140], où une
ontologie existante, la « BBC Science and Nature Animal Category »15 , est enrichie
et utilisée en recherche d’images. Cette ressource contient à la base des informations
textuelles sur 620 concepts, les propriétés ontologiques ayant été décrites manuellement.
L’enrichissement consiste en l’addition de relations visuelles, comme la couleur ou la
texture, spécifiques aux catégories ontologiques. Les auteurs désignent la structure obtenue comme une « ontologie multimédia » (figure 2.13). Soulignons que la définition des
caractéristiques visuelles pour les concepts feuille de la hiérarchie a du sens car il s’agit
de catégories visuellement cohérentes (par exemple une espèce canine précise), mais il ne
serait pas possible d’instancier précisément de telles propriétés pour des concepts plus
généraux (comme mammifère).
Fig. 2.13 – Illustration de l’ontologie des animaux (cf. [140]).
Clough et al. [23] extraient des annotations manuelles associées à une collection
d’images de l’université St. Andrews et les organisent sous la forme de hiérarchies conceptuelles. Il examine cinq types de relation inter-conceptuelles : « sous-type de », « aspect de » (« instance de » ou « partie de »), synonymie, antonymie et autres. Les
auteurs discutent plusieurs types de proximités entre les catégories dans la hiérarchie :
visuelle (par exemple entre brique et mur) ; conceptuelle (par exemple entre chien et
berger) ou descriptives (par exemple entre bâtiment et bâtiment haut). Ces relations
15
http ://www.bbc.co.uk/nature/animals/
2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES
55
inter-conceptuelles sont extraites automatiquement et servent à enrichir l’interactivité
du système de recherche d’images. Plus précisément, les termes proches sont utilisés
pour regrouper des images annotées avec ces termes. L’application propose aussi bien
des images pour la requête courante que des liens vers des clusters d’images considérés
comme proches.
Les approches décrites dans [54] et [75] s’intéressent à la création d’ontologies sans
utiliser des ressources existantes. Ce processus suppose un effort important de la part des
créateurs du système [54] ou de la part des utilisateurs dans [75]. Si l’ontologie est créée
automatiquement à partir de textes libres, comme dans [23], la richesse et la qualité des
relations conceptuelles peuvent s’avérer problématiques et peuvent réduire les capacités
des systèmes. Le travail dans [140] est limité par la couverture de l’ontologie initiale et
par l’impossibilité de décrire des relations visuelles pour des catégories appartenant à
d’autres domaines conceptuels. Un bon exemple est celui des artefacts qui, contrairement
aux animaux, n’ont généralement pas des caractéristiques chromatiques et de texture
stables.
2.5.3
Constitution de ressources sémantiques généralistes
Les structures sémantiques généralistes incluent un grand nombre de catégories et
couvrent des domaines conceptuels différents. Pour la plupart, il s’agit de structures
créées manuellement bien qu’il soit possible d’extraire des connaissances à large échelle
de façon automatique à partir de grands corpus de documents. Parmi les ressources
constituées manuellement nous citons WordNet [33] ou Cyc [47]. [44] et [107] sont des
travaux représentatifs de l’exploitations de corpus documentaires à grande échelle. Semantic Map [44] est un exemple de construction d’une structure linguistique à grande
échelle à partir d’un corpus non-structuré de très grande taille. [107] nettoie la structure catégorielle de Wikipédia afin d’en extraire une taxonomie à large échelle. Cette
méthode s’appuie sur la contribution implicite des éditeurs de Wikipédia pour récupérer
les données brutes nécessaires. Une participation explicite à la constitution d’une ressources sémantique est requise dans OMCS (Open Mind Common Sense) [125] où les
utilisateurs sont invités à compléter des phrases afin d’extraire des connaissances relatives aux concepts dans la phrase.
2.5.3.1
Cyc
Cyc [47] se donne comme but de recueillir la connaissance humaine du sens commun
dans une structure formelle et d’exploiter le contenu de la ressource à l’aide d’un langage
de représentation de connaissances dédié : Cycl. Les unités de base dans cette ressource
sont les catégories, qui peuvent correspondre à un ou plusieurs termes. Cyc est organisée
sous la forme d’une hiérarchie, qui permet l’héritage multiple, constituée de deux niveaux
de représentation :
– Niveau épistémologique : utilisé principalement pour communiquer le contenu de
l’ontologie.
– Niveau heuristique : pour faire du raisonnement sur les catégories.
56
CHAPITRE 2. ETAT DE L’ART
Fig. 2.14 – Illustration du contenu de Cyc avec une requête pour dog (Source :
http ://www.cycfoundation.org/concepts).
Différents types de relations inter-conceptuelles sont définies et sont adaptées aux
types de catégories. Au niveau général, des distinctions sont faites entre les classes et les
instances, entre les « substances » (ex. air ) et les « individus » (ex. George W. Bush)
ou encore entre les « processus » (ex. marcher ) et les « objets » (ex. voiture). Pour les
catégories spécifiques, Cyc définit des relations décrivant des contextes prototypiques,
qui permettent un raisonnement concernant ces situations.
Ce type de description est apparenté aux « frames » de Schank [90]. Pour illustrer
le contenu de la base de connaissances, nous présentons dans la figure 2.14 les concepts
de Cyc qui sont retournés en réponse à une requête avec dog.
Le premier résultat renvoie vers le sens de dog comme animal (voir la figure 2.15).
Les autres pointent vers des concepts contenant la chaı̂ne dog dans leur nom mais qui ne
sont pas associés à ce terme d’un point de vue lexical. Par exemple, pour Dog-IR-0004
il n’y a pas d’informations supplémentaires concernant le sens du concept.
Parmi les résultats pour dog, le seul facilement utilisable en recherche d’information
est le sens de dog comme animal. Les relations d’héritage conceptuel de la figure 2.15,
comme dog isA canine ou afghan hound isA dog peuvent être utiles pour reformuler des
requêtes ou pour enrichir l’interactivité entre le système et l’utilisateur. Le même rôle
peut être joué par la hiérarchie de noms de WordNet, qui contient en plus une séparation
des différents sens d’un mot (voir la figure 2.16).
Dans sa version actuelle, la hiérarchie de Cyc inclut plus de 300000 noeuds, ainsi que
des assertions relatives à ces concepts. Le projet a une version « open source » disponible
à l’adresse http ://opencyc.org. Parmi d’autres applications, Cyc a été exploité dans des
applications de « recherche d’information intelligente », une des applications décrites
brièvement sur le site de la ressource concerne la recherche d’images16 . Par ailleurs,
l’utilisation de Cyc dans des systèmes de recherche multimédia est préconisée dans [96],
à travers l’inclusion de parties de la base de connaissances au sein des architectures de
recherche.
16
http ://www.cyc.com/cyc/technology/cycrandd
2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES
57
Fig. 2.15 – Illustration du contenu de Cyc pour le premier résultat associé à dog (Source :
http ://www.cycfoundation.org/concepts).
2.5.3.2
WordNet
WordNet [33] est une base de données lexicale créée par des lexicographes (initialement pour l’anglais) et censée être utilisée dans des applications informatiques.
Différentes catégories grammaticales (noms, verbes, adjectifs) sont décrites. Cette initiative a généré un nombre très impressionnant de travaux associés17 dans des domaines
très variés dont la recherche d’images. Les noms communs — une des parties de WordNet
les plus intéressantes pour la recherche d’images — sont organisés sous la forme d’une
hiérarchie structurée [88] selon deux relations fondamentales :
– La synonymie : les différents concepts qui pointent vers la même entité sont regroupés dans un synset, l’unité fondamentale de la hiérarchie.
– L’hyponymie : l’héritage catégoriel permet l’organisation en profondeur des noms
dans WordNet.
D’autres relations existent mais sont instanciées de façon moins systématique :
17
http ://lit.csci.unt.edu/ wordnet/
58
CHAPITRE 2. ETAT DE L’ART
– La méronymie : un concept est une partie d’un autre concept.
– L’holonymie : relation inverse de la méronymie.
Nous illustrons le contenu de la hiérarchie de noms de WordNet dans les figures
2.16 et 2.17. La première figure présente les différents sens du terme dog inclus dans la
hiérarchie, ainsi que les relations inter-conceptuelles décrites ci-dessus.
Fig. 2.16 – Illustration des différents sens de dog dans WordNet (Source : http ://wordnet.princeton.edu/perl/webwn).
Fig. 2.17 – Illustration des hypernymes du premier sens de dog. (Source : http ://wordnet.princeton.edu/perl/webwn).
Dans la figure 2.17, nous présentons une partie des hypernymes du premier sens de
dog. La structuration hiérarchique de WordNet permet une représentation des concepts
généraux par l’intermédiaire de leurs sous-concepts. Ainsi, pour une requête avec mammal, il est possible de reformuler cette requête en utilisant placental, carnivore, canine,
dog et d’aller ensuite vers des concepts encore plus spécialisés, comme hunting dog, terrier, Norwich terrier. L’intérêt de cette opération est de remplacer des concepts généraux,
2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES
59
ayant une représentation visuelle très diverse par des sous-concepts spécifiques, correspondant à des classes d’images plus homogènes. La version courante de la hiérarchie
est WordNet 3.0 qui contient 117798 chaı̂nes nominales uniques regroupées dans 82115
synsets. Une même chaı̂ne textuelle peut pointer vers une ou plusieurs entités et, dans
ce cas, on parle d’un terme polysémique (qui appartient à plusieurs synsets). La polysémie moyenne dans la hiérarchie des noms de WordNet est de 1,24. [76] montre que
les concepts polysémiques sont utilisés plus fréquemment que les concepts monosémiques.
La plupart des chaı̂nes nominales est monosémique mais un nombre important de termes
possède plusieurs sens comme point qui a 26 sens dans WordNet (le maximum).
Dans Wordnet, certains domaines sont mieux décrits que d’autres. On retrouve des
descriptions bien détaillées pour les animaux, les plantes ou les villes (plusieurs milliers
de sous-types) mais moins détaillées pour l’automobile (seulement quelques dizaines
de sous-types). Pour les domaines les mieux décrits, une préférence est accordée aux
entités du sens commun. Ainsi, il y a plus de 100 sous-types de chiens mais seulement
31 pour les papillons ou 12 pour les dauphins. Par comparaison, Wikipédia recense plus
de 500 races de chiens, plus de 200 types de papillons et quelques 50 sous-concepts de
dauphins. Ceci montre le caractère incomplet de WordNet et souligne l’importance de
son enrichissement en utilisant d’autres ressources. Une caractéristique importante de
WordNet est le fait que l’héritage multiple est autorisé. Par exemple, le premier sens de
chien hérite de canidé mais aussi de animal domestique. Cette propriété modélise une
situation réelle mais rend l’organisation de WordNet incompatible avec des langages de
description d’ontologies notamment OWL.
Une des critiques apportées par la communauté des ontologies formelles [101] aux
premières versions de WordNet est qu’aucune séparation n’existait entre les catégories
et les instances. Dans la version actuelle, les instances représentent environ un quart du
nombre total des synsets et décrivent notamment des noms de lieux, de personnes et
d’organisations. Ces volumes sont nettement inférieurs à ceux des ressources décrivant
des entités nommées. Pour comparaison, Geonames contient plus de six millions d’entrées
pour le domaine géographique et Wikipédia plus de 80000 noms de personnes [8]. Une
direction importante de recherche concernant WordNet est son internationalisation. Il
existe désormais des réseaux lexicaux inspirés directement par la base de données en une
trentaine de langues18 , avec différents degrés de développement. Les versions espagnole et
italienne de WordNet sont strictement alignées à la hiérarchie en anglais et contiennent
respectivement 105494 et 32700 synsets. La version française — hélas — n’est pas alignée
à la version anglaise et inclut moins de 20000 synsets. L’intérêt de l’alignement entre les
versions est qu’une utilisation conjointe et multilingue de la ressource est rendue possible.
Le principal désavantage découle le plus souvent du non-respect des particularités de
chaque langue.
En dépit des nombreuses critiques apportées à WordNet, cette hiérarchie lexicale
reste une ressource riche et exploitable dans de nombreux domaines, dont la recherche
d’images. [6] est l’un des premiers travaux à utiliser WordNet pour la recherche d’images.
[146] décrit une architecture de recherche d’images basée sur l’utilisation de la hiérarchie
18
http ://www.globalwordnet.org/
60
CHAPITRE 2. ETAT DE L’ART
lexicale dans laquelle les concepts de WordNet sont utilisés pour améliorer l’interactivité
avec l’utilisateur en proposant des concepts proches, mais aussi pour proposer une mesure
de similarité incorporant une partie conceptuelle et une partie visuelle. Cette mesure de
similarité est un cas de fusion précoce de données multimédia, similaire à celui présenté
dans [34] qui exploite la hiérarchie de noms de WordNet pour relier les termes associés
à une image à une série de « termes clef » de la hiérarchie et pour construire un vecteur
de similarité sémantique entre les images. Dans [146] et [34], le retour de pertinence est
une composante importante des architectures de recherche ce qui soulève de nombreux
problèmes de passage à l’échelle et d’utilisation par le grand public. [67] introduit une
méthode de construction d’un catalogue visuel basé sur l’utilisation de WordNet et sur la
récupération d’images à partir d’Internet. Un problème commun à [67] et [146] est que les
auteurs ne prennent pas en compte la séparation des sens pour les termes polysémiques
de WordNet.
2.5.3.3
ConceptNet
ConceptNet [80] est un réseau sémantique constitué par une communauté d’utilisateurs, censé recenser les connaissances du sens commun sur le monde. La ressource a été
créée par la contribution de plus de 10000 volontaires à qui on a demandé de remplir
des phrases incomplètes décrivant différentes propriétés conceptuelles. Le projet, appelé
à l’origine Open Mind Common Sense [125] est clairement inspiré par WordNet [80]
mais plusieurs différences existent entre les deux structures sémantiques. Ainsi, dans
ConceptNet :
– Il existe une plus grande variété de relations que dans WordNet. Les plus importantes sont : l’héritage conceptuel, la causalité et l’inclusion spatiale.
– La relation d’hyponymie a un statut identique aux autres relations et la structuration hiérarchique des noms perd son statut privilégié de WordNet.
– Les relations entre les concepts sont pondérées. Deux concepts sont d’autant plus
proches qu’ils sont mentionnés plus souvent ensemble au regard d’une relation
donnée.
– Le nombre de termes inclus dans la hiérarchie est plus petit que celui de WordNet.
Cela se traduit notamment par une présence très réduite des concepts spécialisés
et par la non-inclusion des instances.
– La séparation entre les différents sens d’un terme polysémique est perdue. En
recherche d’images, la séparation des sens est importante puisqu’elle permet de
proposer à l’utilisateur des ensembles d’images séparés pour chaque sens du mot.
Un problème important de ConceptNet est constitué par le déséquilibre qui existe
entre la description des concepts communément connus et les concepts spécialisés. Les
premiers ont un grand nombre de relations associées tandis que les derniers ne sont
souvent décrits que par une relation d’héritage conceptuel héritée de WordNet.
[52] utilise ConceptNet afin de reformuler des requêtes en recherche d’images. Étant
donné une requête, le système isole les noms et les remplace avec des concepts proches
dans ConceptNet. Les résultats présentés montrent que l’expansion des requêtes améliore
légèrement les résultats (une amélioration d’environ 3% pour une précision avoisinant
2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES
61
40%). Dans un autre travail [53], le même groupe montre la complémentarité de WordNet
et de ConceptNet en comparant l’expansion des requêtes à partir des deux ressources.
Leurs résultats montrent que les requêtes reformulées avec WordNet sont plus discriminantes alors que celles reformulées avec ConceptNet sont plus diversifiées.
2.5.3.4
Semantic Map
Semantic Map [44] est une structure linguistique à très grande échelle extraite automatiquement à partir du Web. Les termes sont séparés selon leur relation grammaticale
avec le concept initial (ex. objet de, complément de). Nous illustrons cette ressource avec
le terme pain 2.18(a). Pour chaque terme d’un dictionnaire, Semantic Map considère l’ensemble des mots dont le terme est le complément (2.18(a)). Il est également possible de
séparer les verbes dont il est le sujet (figure 2.18(b)) ou objet (figure 2.18(c)), les adjectifs proches (figure 2.18(d)) et les noms en apposition (figure 2.18(e)). Les relations
entre les termes de la carte sémantique ne sont pas conceptuellement typées et il n’est
pas possible, par exemple, de savoir si un nom est un sous-concept d’un autre.
La version actuelle de Semantic Map ne propose pas de séparation des sens pour
les termes polysémiques. Cette séparation est importante en recherche d’images car
les différents sens d’un terme ont des représentations visuelles différentes. La ressource
décrite dans [44] pourrait être utile pour proposer des requêtes proches mais structurées
grammaticalement plutôt que conceptuellement. Le rôle de Semantic Map serait similaire
à celui de la structure linguistique exploitée par Ask, qui propose trois types de requêtes
proches : plus générales, plus spécifiques et noms de personnes associés.
2.5.4
Travaux utilisant Wikipédia
Le succès de Wikipédia a généré de nombreux travaux de recherche dont une bonne
partie sur l’utilisation de l’encyclopédie en ligne pour la constitution de ressources
sémantiques.
L’enrichissement automatique de WordNet à partir de Wikipédia est abordé dans
[115] et [114]. Une relation entre les synsets de WordNet et les pages de l’encyclopédie est
établie automatiquement pour ensuite extraire des relations d’hyponymie, hyperonymie,
holonymie et méronymie. Des patterns lexicaux définissant les quatre types de relations
sont appris à partir de corpus textuels. Le taux de réussite dépasse 50% dans les quatre
cas mais il reste un nombre important de relations qui ne sont pas correctement définies.
La détection d’entités nommées utilisant Wikipédia est une autre application fréquente
[133], [55]. Parmi les premiers à proposer ce type d’applications, [133] analyse le texte
des articles Wikipédia et de WordNet pour créer des dictionnaires de noms propres. Les
noms de personnes sont correctement classifiés dans 61% des cas. Dans [70], les auteurs
mettent en place un traitement syntaxique de la première phrase des articles avec des
techniques d’apprentissage et obtiennent un taux de précision approchant 90%. Une application de désambiguı̈sation de noms de personnes à l’aide du contenu de l’encyclopédie
collaborative est décrite dans [18].
62
CHAPITRE 2. ETAT DE L’ART
(a) Mots dont pain est le complément.
(b) Verbes dont pain est le sujet.
(c) Verbes dont pain est l’objet.
(d) Adjectifs associés à pain.
(e) Termes en apposition avec pain.
Fig. 2.18 – Termes le plus souvent associés à pain dans Semantic Map.
2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES
63
Auer et al. ont introduit DBPedia [8], une présentation de Wikipédia sous la forme
d’une base de données. L’approche est basée sur un parsing des éléments réguliers de
la page, comme les fiches informatives associées à certains articles, les catégories ou
les tableaux. Ces parties des articles permettent une caractérisation assez complète
des concepts et pourraient être utilisés en recherche d’information afin de reformuler
des requêtes ou de structurer les résultats. DBPedia est une ressource très intéressante
car elle permet la formulation de requêtes complexes. L’analyse du texte libre des articles permettrait la découverte d’autres relations conceptuelles intéressantes mais cette
analyse est difficilement automatisable et n’est pas abordé dans le cadre de DBPedia.
[148] et [7] proposent une analyse des textes de Wikipédia afin d’associer des catégories
plus générales (des super-senses de WordNet). Cette méthode est prometteuse mais ses
résultats ne sont pas suffisamment précis pour une utilisation à court terme en recherche
d’information. De plus, le modèle proposé est assez restrictif car il associe nécessairement
tout nom à un des 41 super-senses et la hiérarchie conceptuelle résultante ne contient
que trois niveaux hiérarchiques.
Ponzetto et Strube ont dérivé une taxonomie des catégories de Wikipédia à partir
de la méthode suivante [107] :
– Nettoyage du graphe des catégories de l’encyclopédie pour éliminer les catégories
relatives à l’administration du portail. Le filtrage est réalisé en utilisant des motsclef comme Wikipédia, wikiprojects ou mediawiki.
– Identification des liens de raffinement (Miles Davis Albums est un raffinement
de Albums by artist) et assignation d’une relation is-refined-by à ces liens. Analyse syntaxique pour déterminer des relations isA entre des catégories comme par
exemple British Computer Scientists et Computer Scientists.
– Utilisation de la connectivité entre les catégories. On caractérise des instances et
on les propage ensuite à des concepts.
– Les liens non traités dans les étapes antérieures sont analysés en appliquant une
analyse lexico syntaxique basée sur l’utilisation de motifs.
– Une dernière analyse vise la découverte de relations isA par inférences comme fruits
isA crops et crops isA edible plant donc fruit isA edible plant. [107] comparent la
hiérarchie obtenue avec celle décrite dans Cyc. La précision de la méthode atteint
86,6%, avec un rappel de 89,1%. Dans un travail ultérieur [153], le même groupe
propose une séparation automatique entre les classes et les instances de Wikipédia,
modélisant ainsi mieux l’espace conceptuel décrit par l’encyclopédie.
2.5.4.1
Considérations sur la constitution de ressources généralistes
La première critique que l’on peut formuler sur ces ressources tient à leur caractère
nécessairement incomplet ce qui, comme le montre Eco [30], est intrinsèque à toute
tentative de modélisation conceptuelle.
Une deuxième critique concerne l’adéquation de certaines structures à des modèles
formels. [101] et [134] démontrent la non-conformité entre WordNet et les principes des
ontologies formelles. Par exemple, dans la hiérarchie lexicale, il n’existe pas de séparation
entre rôle (relation temporaire entre deux termes : X est étudiant) et héritage conceptuel
64
CHAPITRE 2. ETAT DE L’ART
(relation permanente entre deux termes : X est un homme). WordNet ne peut donc pas
être utilisée immédiatement dans des tâches de raisonnement automatique. Néanmoins,
le ralliement ultérieur d’un des auteurs de [101] au projet de transformation du contenu
de WordNet dans des triplets RDFS est une preuve supplémentaire de l’utilité de cette
ressource pour des applications du Web sémantique.
Une critique plus générale [121] vise les fondements même du Web Sémantique,
montrant une série d’incohérences concernant la définition des ontologies ainsi que leur
prétention d’encapsuler de la sémantique. Dans le processus de construction d’ontologies
formelles, il est supposé, à tort, que les relations conceptuelles sont figées et qu’elles seront valables dans tous les contextes d’utilisation. [121] considère que les ontologies sont
uniquement des structures syntaxiques et qu’on attache une valeur sémantique à leur
contenu uniquement lors d’un usage impliquant des utilisateurs. Notre vision s’accorde
avec [122] notamment sur le fait que la sémantique émerge de l’interaction entre l’utilisateur et le système et que les services dits « sémantiques » doivent être anthropocentrés.
Nous considérons que les structures linguistiques sont utiles pour améliorer l’interaction
utilisateur/système surtout quand il s’agit d’explorer des espaces conceptuels vastes.
La difficulté de construire manuellement des ressources sémantiques à grande échelle
rend indispensable la création de techniques automatiques. Mais, comme nous l’avons
déjà mentionné, la qualité de la connaissance obtenue n’est souvent pas suffisante pour
les applications envisagées. Pour faciliter l’extraction et atteindre un niveau de qualité
suffisant, une voie à explorer est l’utilisation de corpus de documents semi-structurés.
2.5.5
Rôles des structures sémantiques en recherche d’images
La plupart des structures conceptuelles décrites dans les sections précédentes n’est
pas construite en vue d’une application particulière et sont exploitées dans plusieurs domaines, parmi lesquelles la recherche d’images. Nous détaillons les rôles de ces structures
en recherche par mots-clef et par le contenu.
2.5.5.1
Structures sémantiques en recherche par mots-clef
La recherche d’images par mots-clef est le paradigme de recherche d’images le plus
répandu. Bien que l’usage de mots clés offre une grande liberté à l’utilisateur, une solution alternative est de proposer une hiérarchie conceptuelle dans laquelle il est possible de naviguer [127], Picsearch Directory19 , Yahoo ! Directory20 . Cette modalité limite
néanmoins l’espace de recherche aux périmètres de la hiérarchie. Le nombre de concepts
contenus dans les hiérarchies est limité à quelques centaines, principalement pour une
raison pratique, voire ergonomique. En effet, la navigation à l’intérieur des structures
composées d’un grand nombre de niveaux hiérarchiques devient vite fastidieuse.
Dans tous les cas, l’utilisation d’une ressource structurée pour améliorer une recherche
par mots clés nécessite d’atteindre la couverture la plus optimale possible. WordNet inclut une partie importante des noms communs de l’anglais (environ 100000 entités), ainsi
19
20
http ://www.picsearch.com/image-dir.html
http ://dir.yahoo.com/
2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES
65
qu’une série de noms propres, entités géographiques ou organisations (totalisant environ
20000 instances). Cyc inclut plus de 300000 catégories. Autant de catégories permettent
d’obtenir une bonne couverture pour les requêtes mono terme mais pas pour les requêtes
composées. De plus, la structure conceptuelle doit rester « cachée » à l’utilisateur dans le
sens où celui-ci ne doit pas faire d’efforts supplémentaires — en manipulant directement
la structure — pour avoir des résultats.
En tenant compte du degré de formalisme, les bases de connaissances textuelles se
séparent en :
– des dictionnaires qui incluent des concepts et leurs définitions ou leurs traductions
en d’autres langues ;
– des thésauri contenant des termes et des concepts apparentés, sans forcement
spécifier les types de relation ontologique entre ces termes ;
– des ontologies formelles qui incluent des catégories, ainsi que des propriétés reliant
ces catégories.
Les ressources faiblement structurées sont plus faciles à constituer que les ontologies
formelles, mais un raisonnement automatique sur leur contenu s’avère beaucoup plus
problématique que celui sur le contenu des ontologies. Néanmoins un problème existe
aussi pour les ontologies formelles, mais pour une raison différente puisque le raisonnement automatique est rendu délicat (pour des applications en temps réel) par les temps
de traitement induits [104].
Nous détaillons par la suite les quatre principaux avantages à l’utilisation d’une structure linguistique dans le cas d’une recherche d’images par mots-clef.
Reformulation automatique des requêtes
La reformulation automatique des requêtes consiste à affiner une requête initiale à
l’aide des connaissances incluses dans le système. Dans [Liao], Liao et al. citent deux
types de reformulation fonctionnant pour des requêtes simples :
– Ajouter des termes à la requête initiale. Les auteurs implémentent cette approche
à l’aide des fichiers de log d’un moteur de recherche en partant de l’idée que
les utilisateurs regroupent des termes proches dans leurs demandes. Ce type de
reformulation est facile à mettre en œuvre et, comme nous l’avons mentionné dans
la section 2.3.1, est couramment proposé par les moteurs de recherche.
– Reformuler la requête initiale en utilisant des termes proches dans une structure
conceptuelle. Cette méthode est implémentée par Ask qui propose des versions plus
spécifiques et plus générales, ainsi que des noms de personnes proches de la requête
initiale. Nous avons souligné dans 2.3.1 l’imprécision de ces propositions. [66] et
[146] proposent une alternative qui consiste à utiliser une structure conceptuelle
(WordNet) pour obtenir les requêtes proches et qui garantit la proximité entre le
concept de départ et les autres concepts. Dans [146] et [66], la séparation des sens
pour les termes polysémiques n’est pas respectée, ce qui peut donner lieu à des
propositions de requêtes non pertinentes pour l’utilisateur.
Un intérêt particulier est porté sur la reformulation des requêtes permettant de
désambiguı̈ser des résultats [67]. Dans la sous-section 2.5.3.2, nous avons souligné qu’il
66
CHAPITRE 2. ETAT DE L’ART
existe un grand nombre de termes polysémiques et que les applications actuelles ne
proposent pas de séparation des sens dans l’espace des résultats. Un exemple : angora
représente en même temps un type de lapin, de chèvre ou de chat et le nom (l’ancien nom pour être exact) de la capitale de la Turquie. Sans séparation des sens, tous
ces résultats sont présentés ensemble, alors que l’introduction d’une ressource textuelle
comme WordNet rend possible la séparation des sens. Un deuxième type d’ambiguı̈té,
moins fréquent, apparaı̂t pour les mots qui ont la même forme mais des sens différents
dans deux ou plusieurs langues. L’utilisation de ressources multilingues peut résoudre
ce type d’ambiguı̈té. Ainsi, il existe des applications comme PanImages [32] qui exploite
ce type de ressources multilingues pour améliorer la recherche d’images. Les auteurs de
[32] proposent un alignement de plus de 100 dictionnaires de traduction, permettant un
passage entre différentes langues afin d’obtenir un nombre plus élevé de réponses images.
L’application est particulièrement utile pour formuler des requêtes dans une langue peu
représentée sur Internet et obtenir des réponses en d’autres langues, mieux représentées.
Les études de fichiers de log montrent que les utilisateurs introduisent un nombre important de requêtes courtes, souvent ambiguës. [129] propose une réflexion théorique sur
ce sujet, en montrant les principales difficultés associées au traitement des ambiguı̈tés.
Par exemple, dans différents contextes, une même requête exprime des besoins différents.
Pour reprendre un exemple des auteurs de [129], prix des maisons peut faire référence
aux prix mêmes des maisons ou au contexte économique du moment. [117] analyse des
requêtes ambiguës, montrant que les ressources existantes, comme WordNet, ne comprennent qu’une partie des sens possibles d’un terme. De même, la même étude montre
que les requêtes ambiguës ne sont malheureusement pas bien prises en compte dans les
collections de test actuelles ne permettant pas une évaluation complète et réaliste des
systèmes. [2] fait l’hypothèse qu’un bon moteur de recherche proposera une bonne couverture des différents sens d’un concept, même au détriment de la précision évaluée sur
un seul sens.
Structuration des résultats
Les applications de recherche d’images proposent les résultats sous la forme d’une
simple liste. La préférence des utilisateurs pour une présentation structurée des résultats
est mise en évidence par des études comme [111] ou [81]. Les ressources textuelles facilitent une organisation des résultats en se basant sur leur propre structure. La structuration des résultats est en étroite liaison avec la reformulation des requêtes. En effet, si
un utilisateur demande des images pour chien avec l’utilisation d’une hiérarchie conceptuelle, le système peut lui proposer des réponses correspondant aux sous-types de ce
concept, notamment les différentes races de chiens.
Navigation dans l’espace des résultats
Une critique touchant la majorité des applications de recherche d’images à large
échelle concerne leur manque d’options de navigation adaptées aux besoins des utilisateurs. Nous avons décrit le mode de fonctionnement des moteurs de recherche d’images
dans la section 2.3.1.1 et nous avons souligné qu’à l’exception d’Ask et de Flickr, très
2.5. STRUCTURES SÉMANTIQUES POUR LA RECHERCHE D’IMAGES
67
peu de place est accordé à l’interaction entre les utilisateurs et les systèmes. Pourtant, la
proposition de termes proches, en aidant directement l’utilisateur à affiner sa recherche,
est particulièrement utile pour des domaines qui ne sont pas bien connus par l’utilisateur
[54].
[146] introduit les hiérarchies sémantiques dynamiques qui, étant donné une requête,
extraient de WordNet les concepts proches les plus saillants, réduisant ainsi l’espace de
recherche aux termes les plus pertinents. Une stratégie proche est adoptée dans [66] et
[78]. [120] propose une navigation guidée par des menus construits en fonction d’une
structure sémantique liée au système et [54] propose une navigation par menus extraits
d’une série d’ontologies. Diversifier les possibilités de navigation n’est évidemment pas
sans risques, surtout si un effort supplémentaire de la part de l’utilisateur est demandé
par rapport à la simplicité des moteurs de recherche classiques. Cette critique s’applique
notamment aux travaux de [54] ou [147], où il est demandé à l’utilisateur de choisir dans
une trop grande diversité de menus. Les expériences présentées dans [147] montrent que
les participants au test d’évaluation jugent l’interface proposée comme étant trop difficile
à utiliser et qu’ils préfèrent des modes d’interaction plus simples, tels que ceux dans les
moteurs de recherche d’information actuels.
Enrichissement de l’espace des résultats
Un problème fréquent dans les applications de recherche d’images est le nombre
insuffisant de résultats pour une requête donnée. L’utilisation de ressources conceptuelles
offre une solution puisqu’il est possible de réaliser une expansion automatique de la
requête (et donc accéder à un plus grand volume d’images résultats) en utilisant :
– des sous-types [67] ou des synonymes pour des ressources mono-langues,
– une traduction dans d’autres langues si on dispose d’une structure multilingue [24],
[32].
Cet enrichissement doit s’accompagner de moyens adéquats pour naviguer rapidement dans l’espace de recherche. Dans le cas des images, une navigation enrichie peut
être basée sur l’utilisation de la similarité visuelle (recherche par le contenu).
2.5.5.2
Structures linguistiques et recherche par le contenu
La fusion de l’information textuelle et des descripteurs bas niveau peut se réaliser
selon une fusion précoce ou tardive [11]. Dans le cas de la fusion précoce ([34], [146]) on
cherche à fusionner les différents canaux informationnels en un seul descripteur ou dans
un seul espace de représentation. Pour la fusion tardive, on considère chaque information
indépendamment. Généralement, l’information textuelle est utilisée pour restreindre la
recherche par le contenu (fusion hiérarchique) à une région de la base photographique
qui a en commun un ou plusieurs termes [77]. L’agrégation séquentielle donne le plus
souvent un rôle prépondérant à l’information textuelle (voir les conclusions de [25] sur la
prépondérance de l’information textuelle). La fusion précoce implique généralement une
considération similaire du texte associé aux images et des descripteurs visuels, même s’il
est possible de pondérer les contributions de chaque information.
68
CHAPITRE 2. ETAT DE L’ART
Les structures linguistiques sont utilisées dans les deux types de fusion. Parmi leurs
rôles au sein de l’architecture de recherche, un est de structurer la base de données images
en suivant l’organisation de la ressource textuelle. WordNet est utilisé à cette fin dans [67]
et [146] où des classes d’images sont associées aux synsets de la hiérarchie lexicale. Suite
à cette structuration, il est possible de restreindre la recherche d’images par le contenu
à des régions de la hiérarchie qui sont conceptuellement et visuellement cohérentes. Une
implémentation de cette approche est décrite dans [127], mais la limitation de la recherche
ne va pas au-delà de concepts assez généraux, comme chien, car la hiérarchie conceptuelle
est assez réduite. Avec l’utilisation de structures linguistiques à large échelle, la recherche
par le contenu peut être restreinte à des espaces plus précis (comme par exemple des
races de chien).
2.6
Conclusions
Dans ce chapitre nous nous sommes intéressés à plusieurs aspects de la recherche
d’images en portant un intérêt particulier au corpus photographiques du Web. L’interrogation par mots-clef et par images exemples ont été discutées tout en soulignant leur
complémentarité. La recherche par mots-clef est bien plus répandue que la recherche par
contenu visuel, ce qui s’explique par plusieurs facteurs :
– La similarité de l’accès aux images et aux documents textuels quand les motsclef sont utilisés : ce type de recherche s’apparente à une pratique connue et
(généralement) maı̂trisée par les utilisateurs.
– L’inadéquation entre le modèle de similarité perceptuelle proposé par les systèmes
CBIR et le modèle de similarité conceptuelle propre aux utilisateurs (le fameux
fossé sémantique).
– Une complexité algorithmique plus grande pour la recherche par le contenu rendant
difficile leur utilisation pour des gros volumes de données.
Actuellement, les moteurs de recherche d’images sont basés sur la comparaison des
chaı̂nes de caractères de la requête et de celles associés aux images dans la base de
données. Un traitement plus conceptuel de l’information textuelle avoisinant les images,
qui passe par l’introduction de ressources conceptuelles dans les architectures de recherche, peut améliorer plusieurs aspects du processus d’interrogation, notamment :
– Une navigation enrichie. Des solutions à large échelle commencent à être déployées,
l’interface d’Ask en est un parfait exemple.
– Une présentation des résultats suivant la structure de la base de connaissances est
possible.
– Une amélioration de la précision des résultats rendus par le système.
À cela s’ajoute la possibilité d’utiliser conjointement les deux modalités de recherche
des images, permettant une exploration des parties de la base photographiques en utilisant aussi des caractéristiques visuelles (couleur, texture. . .) des images.
Ces améliorations sont conditionnées par l’existence de bases de connaissances à
large échelle, contenant des connaissances de bonne qualité et adaptées à la recherche
d’images qui assurent une couverture suffisante de l’espace de requêtes introduites par les
2.6. CONCLUSIONS
69
internautes. Pour un emploi efficace sur le corpus d’Internet, une intégration des bases de
connaissances dans des architectures de recherche en temps réel est indispensable, ainsi
qu’une présentation des résultats qui sachent tirer profit des avantages de l’utilisation
des structures sémantiques tout en restant intuitive pour les utilisateurs.
70
CHAPITRE 2. ETAT DE L’ART
Chapitre 3
Démarche de la thèse
Les systèmes de recherche d’images actuels, tels que Google Images, permettent de
retrouver des images au sein d’un volume considérable de données (plusieurs milliards
d’images) mais cet accès aux images du web est loin d’être optimale et ces systèmes
souffrent de nombreuses limites :
– la recherche d’images est uniquement basée sur l’utilisation de mots-clef ;
– une grande partie des réponses n’est pas pertinente ;
– les résultats de la recherche ne sont pas structurés ;
– les moyens d’interaction entre les utilisateurs et les systèmes sont réduits.
Pour répondre à ces limitations et améliorer les capacités des moteurs de recherche
d’images sur Internet, nous proposons d’introduire des structures linguistiques à large
échelle au sein des architectures de recherche et de proposer une modalité de recherche
par le contenu. Nous avons vu qu’il existe des ressources sémantiques qui décrivent
un grand nombre de concepts et de relations et que la communauté scientifique propose des techniques appropriées pour enrichir ces ressources ou en créer des nouvelles.
Néanmoins, l’adaptation et la construction des structures linguistiques à grande échelle
pour une utilisation en recherche d’images restent des processus délicats. L’adaptation
des ressources consiste notamment à ordonner des concepts afin de favoriser les concepts
les plus représentatifs pour une requête donnée. Si les ressources existantes ne sont pas
suffisantes, il devient alors nécessaire de construire — si possible automatiquement —
des nouvelles ressources qui doivent assurer une bonne couverture et une bonne précision
des connaissances extraites. Ce double impératif est particulièrement délicat pour des
espaces conceptuels vastes comme ceux mis en jeux pour la recherche d’images sur Internet.
Dans ce chapitre, nous présentons et expliquons la démarche mise en place au cours
de cette thèse en nous intéressant dans un premier temps à l’étude d’un fichier de log
d’un moteur de recherche. Cette étude nous permet d’analyser les usages associés aux
moteurs de recherche et de répondre à la question « Quelles images cherchons-nous
sur Internet ? ». Cette question sera aussi abordée, dans un deuxième temps, d’une
façon plus théorique en analysant la relation entre les concepts et leur représentation
imagée (que nous nommons « figurabilité » d’un concept), ainsi que la notion de simi71
72
CHAPITRE 3. DÉMARCHE DE LA THÈSE
larité entre les images. Ensuite, nous montrons comment sont construites les structures
sémantiques, en insistant sur les concepts et leur agrégation. Finalement, nous décrivons
une méthodologie de création de systèmes de recherche d’images basés sur l’utilisation
conjointe de structures sémantiques et de techniques de traitement d’images. Dans cette
dernière partie, nous introduisons également les trois domaines d’application qui servent
à valider notre démarche : les noms communs, les toponymes et les noms de célébrités.
Le choix de ces trois domaines est déterminé par l’analyse statistique du fichier de log
et par le fait que les concepts associés à ces domaines sont facilement représentables par
des images.
3.1
Analyse d’un fichier de log
Nous avons eu la chance de travailler sur un fichier de log mis à disposition par
Exalead dans le cadre d’un accord avec le CEA LIST. L’échantillon de requêtes images
étudié inclut 3055778 éléments. Les résultats sont exposés ici après présentation et accord
d’Exalead.
L’étude des fichiers de log permet d’avoir une représentation de l’espace de requêtes
exprimées par les utilisateurs des moteurs de recherche. Nous reprenons la méthodologie
classique d’analyse de ces fichiers [60] qui permet de caractériser certaines dimensions des
usages associés aux moteurs de recherche d’images, comme la complexité des requêtes ou
la distribution des pages de réponses consultées. Ces statistiques sont riches en enseignements et permettent notamment de confirmer la pertinence de l’introduction de structure
sémantique ou de l’ajout d’une modalité de recherche par le contenu. Par exemple, si
l’hypothèse que de nombreuses requêtes sont formées d’un seul concept est confirmée,
l’utilisation des ressources conceptuelles est (partiellement) justifiée puisqu’elles permettent un traitement adapté à ce type de requêtes. L’étude de la distribution des pages
de réponses consultées décrit la manière de naviguer parmi les résultats. Plus particulièrement, il est possible de voir si les utilisateurs regardent souvent au-delà de la
première page de réponses, pour proposer une recherche par le contenu qui permettrait
d’accéder plus rapidement et plus profondément à des images pertinentes pour l’utilisateur.
Cependant, l’analyse décrite ci-dessus reste assez limitée et nous proposons de considérer
l’espace des requêtes selon une approche conceptuelle. Cette approche met en évidence
des domaines conceptuels importants en recherche d’images pour lesquels il est possible
d’adapter ou de construire des ressources linguistiques à grande échelle. Ce type d’analyse nous permet d’obtenir une représentation plus complète des domaines conceptuels
ciblés par les utilisateurs que celle obtenue en ne considérant que les requêtes les plus
fréquentes. Le choix des trois domaines traités dans le cadre de cette étude est déterminé
par trois facteurs : une analyse initiale des requêtes fréquentes, une mise en corrélation
avec les résultats d’autres études comme [41] et par la disponibilité des ressources linguistiques à large échelle :
– les noms communs, représentés dans des ressources comme WordNet,
– les noms géographiques, décrits dans des thésauri comme Geonames,
3.1. ANALYSE D’UN FICHIER DE LOG
73
– les noms de célébrités, bien représentés dans des ressources en ligne comme Wikipédia.
Notons qu’après une rapide étude du fichier, nous avons décidé de normaliser les
requêtes en enlevant tous les guillemets, les espaces doublés, les accents et en transformant les majuscules en minuscules.
3.1.1
Analyse générique de fichiers de log
Dans un premier temps, nous reprenons une partie de la méthodologie proposée
dans [60] pour analyser statistiquement du fichier de log. Notre analyse est toutefois différente puisque nous ne nous intéressons pas aux termes fréquents, mais aux
requêtes (qui peuvent contenir plusieurs termes) les plus fréquentes. L’étude porte sur
les caractéristiques suivantes : la longueur des requêtes, la longueur des sessions, la
répartition des pages de résultats regardées, le domaine d’appartenance des requêtes les
plus fréquentes et une comparaison entre l’analyse de termes et une analyse basée sur
des concepts. Bien que très importante si l’on souhaite analyser l’espace des requêtes,
cette séparation entre terme et concept n’est pas, à notre connaissance, évaluée dans
d’autres études antérieures et constitue donc une particularité importante de ce travail.
3.1.1.1
Longueur des requêtes
Manipulant des structures linguistiques construites à partir de ressources comme
WordNet ou Geonames, nous allons plus aisément traiter des requêtes mono-conceptuelles.
Analyser la longueur des requêtes à partir du fichier de log nous permet de mesurer le
poids de ce type de requête. La figure 3.1 montre la distribution des requêtes en fonction
de leur longueur (nombre de termes).
Fig. 3.1 – Distribution des requêtes en fonction du nombre de termes contenus. Les
requêtes composées de un ou deux termes représentent presque 80% du total.
74
CHAPITRE 3. DÉMARCHE DE LA THÈSE
Le fichier de log contient un nombre quasiment égal de requêtes formées de un ou
deux termes. Ces deux types de requêtes couvrent environ 80% du nombre total de
requêtes. Des pourcentages relativement significatifs sont aussi à signaler pour les demandes contenant 3 ou 4 termes (respectivement 13,7% et 4,8%). Au total, les requêtes
de moins de cinq termes couvrent 96,6% du volume total de requêtes. Ces résultats sont
en accord avec ceux rapportés dans des études antérieures [41], [62], montrant que la
plupart des requêtes Web est peu complexe. Cette faible compléxité confirme la pertinence d’un traitement des requêtes images par des structures conceptuelles. De plus, ces
requêtes étant souvent ambiguës, puisque exprimées de manière concise, les structures
linguistiques permettent de séparer les différents sens d’un concept. Ainsi, si un utilisateur cherche des images de Cambridge, une structure linguistique adéquate proposera
une séparation entre Cambridge en Angleterre et Cambridge, Massachusetts.
3.1.1.2
Analyse des sessions
La figure 3.2 illustre une répartition des sessions en fonction de leur longueur exprimée
en nombre de requêtes.
Fig. 3.2 – Répartition des sessions compte tenu du nombre de requêtes. Les sessions
composées d’au maximum cinq requêtes représentent plus de la moitié du volume total.
Les sessions très longues (>20) représentent un volume non-négligéable (9%).
Le plus grand nombre de sessions est atteint pour celles composées d’une seule requête
(18,9%). Les sessions contenant au maximum cinq requêtes représentent 55,2% du volume total. Le pourcentage de sessions très longues (20 ou plus de requêtes) est non
négligeable (9,2%). Il est difficile d’interpréter le comportement de l’utilisateur en fonction du nombre de requêtes dans une session, car une recherche, courte ou longue, peut
aussi bien être satisfaisante ou infructueuse. Bien que cette analyse ne nous permette
pas de savoir combien de tentatives sont nécessaires à un utilisateur pour accéder à
des résultats qu’il juge pertinents, l’importance des sessions longues (figure 3.2) permet
néanmoins d’émettre l’hypothèse que l’utilisateur, pour accéder à des « bons » résultats,
a besoin de plusieurs tentatives. Ce problème est relativement connu des moteurs de
recherche actuels qui ne guident d’aucune manière l’utilisateur à formuler plus effica-
3.1. ANALYSE D’UN FICHIER DE LOG
75
cement ses requêtes. Exploiter des ressources conceptuelles au sein de l’architecture de
recherche permet d’enrichir l’interaction entre le système et utilisateur, en proposant à
tout moment un ensemble de requêtes conceptuellement proches.
3.1.1.3
Répartition des pages de résultats regardées
La plupart des moteurs de recherche étudie la répartition des pages consultées pendant les sessions de recherche pour cibler la ou les pages où il est souhaitable d’optimiser
la qualité des réponses (c’est notamment l’objectif du récent Visual Rank proposé par
Google en améliorant la précision des toutes premières pages à partir du contenu des
images [63]).
Fig. 3.3 – Répartition des pages de résultats regardées par les utilisateurs. Plus de la
moitié des résultats consultés sont ceux de la première page, mais les pages suivantes ne
sont pas négligées puisque les dix premières pages représentent 87% des consultations.
Les résultats de la figure 3.3 montrent que la majorité des résultats consultés (55,8%)
apparaı̂t la première page. Les quatre premières pages de réponses représentent environ
75% du volume des résultats consultés par les utilisateurs, volume qui monte à 87% en
considérant les dix premières pages. On retrouve, très naturellement, l’importance de
la première page de résultats, mais ces chiffres montrent surtout que, dans le cas d’une
recherche d’images, il ne faut pas négliger les pages suivantes. Il est ainsi remarquable
que les utilisateurs vont au-delà de la quinzième page de résultats dans 7,6% des cas. Ces
valeurs sont plus importantes que celles signalées pour les requêtes textuelles [61], où les
recherches se concentrent quasi exclusivement sur les deux ou trois premières pages de
réponses. Dans le cas de la recherche d’images, la distribution des pages consultées, plus
vaste que celle d’une recherche d’information textuelle, est un argument en faveur de
l’introduction d’une recherche d’images par le contenu, permettant une exploration en
76
CHAPITRE 3. DÉMARCHE DE LA THÈSE
profondeur de l’espace des réponses. Cette modalité répondrait à un scénario d’utilisation
dans lequel un utilisateur trouvant une image intéressante accède directement à d’autres
images similaires sans avoir à regarder toutes les pages de réponses proposées par le
système.
3.1.1.4
Analyse des requêtes fréquentes
Goodrum et al. [41] proposent une analyse manuelle des requêtes images les plus
fréquentes et de les associer à des domaines conceptuels. Ils rapportent que le top 100
des demandes couvrent plus de la moitié du nombre total de requêtes. Nous avons utilisé une méthodologie similaire et nous présentons les résultats classés selon différents
domaines. Après filtrage des requêtes relatives à la pornographie, le domaine le mieux
représenté est celui des personnalités (12 requêtes, avec un seul homme — Brad Pitt —
en 56ième position). Parmi les autres domaines, nous citons : les animaux et plantes (7
requêtes), l’informatique (5), l’automobile (4), les termes généraux désignant des personnes (4), la géographie (3). Nous avons observé une prédominance des concepts assez
généraux, comme animal, chien, wallpaper ou fleur. Le poids des 100 requêtes les plus
fréquentes dans l’ensemble du fichier de log est de 4,33%, contre plus de 50% dans [41].
Cette forte différence s’explique par la taille du fichier analysé : environ trois millions
de requêtes ici et seulement 30000 dans [41]. Le poids de 4,33% relativise sensiblement
la représentativité d’une analyse des domaines de recherche basée uniquement sur les
termes les plus fréquents et représente un argument supplémentaire pour une étude plus
détaillée des requêtes.
3.1.1.5
Termes vs. concepts
Une différence importante par rapport à la méthodologie classique d’analyse vient
du fait que nous ne considérons pas les requêtes comme une suite de termes séparés
par des espaces mais plutôt comme des concepts (simples ou composés). Ainsi, une
recherche d’images pour labrador retriever ou François Mitterand sont toutes les deux
considérées comme des requêtes mono-conceptuelles. Nous avons examiné manuellement
1000 requêtes afin de mettre en évidence la différence entre un comptage classique et
une analyse prenant en compte les concepts. Pour obtenir ces 1000 requêtes, nous avons
échantillonné aléatoirement le fichier de log et nous avons retenu chaque requête une
seule fois. Sur ces 1000 échantillons, 837 ont été retenus (les requêtes inconnues où en
d’autres langues que le français ou l’anglais n’ayant pas été prises en compte).
Exalead étant un moteur de recherche essentiellement connu par un public francophone, les requêtes françaises sont naturellement plus nombreuses que celles en anglais.
Les requêtes identiques en français et en anglais incluent notamment des noms de personnes, d’artéfacts et de lieux :
– les requêtes en français : 296 ;
– les requêtes en anglais : 215 ;
– les requêtes identiques aux deux langues : 326.
3.1. ANALYSE D’UN FICHIER DE LOG
77
Fig. 3.4 – Comparaison entre une analyse classique basée sur les termes et une analyse
basée sur le nombre de concepts dans une requête. Nous observons une différence notable
entre les requêtes mono-termes et les requêtes mono-conceptuelles.
La distribution des requêtes en tant que suite de termes dans l’échantillon analysé
manuellement suit approximativement la distribution globale du nombre de requêtes de
la figure 3.1. La comparaison avec une approche par concepts, présentée dans la figure
3.4, montre des différences significatives entre ces deux types d’analyse. Le volume des
requêtes mono-conceptuelles représente 64,2% du total, alors que les requêtes contenant un seul terme représentent uniquement 34,9% de l’échantillon. Si on additionne
les requêtes contenant deux concepts, le volume total dépasse 94% de l’échantillon. Les
différences de complexité entre les deux types d’analyse s’expliquent principalement par
le fait que l’on considère les noms de personnes (Tom Waits), d’artéfacts (Xsara Picasso) et de lieux (Charente Maritime) comme des requêtes mono-conceptuelles. Ces
résultats confirment le fait que les requêtes mono-conceptuelles constituent la majorité
des requêtes images sur Internet et confirment la cohérence de l’utilisation de structures
linguistique adaptées aux différents domaines conceptuels.
Après avoir caractérisé globalement les requêtes des utilisateurs, nous nous focalisons
sur nos trois domaines d’étude : les noms communs, les noms de personnes et les entités
géographiques. Nous tentons plus particulièrement de répondre aux questions suivantes :
– Quelle est la distribution des requêtes dans chacun de ces domaines conceptuels ?
– Comment les utilisateurs forment leurs requêtes dans ces domaines et quel est le
niveau de généralité de ces requêtes ?
78
CHAPITRE 3. DÉMARCHE DE LA THÈSE
3.1.2
Analyse utilisant WordNet
Nous avons utilisé les termes inclus dans la hiérarchie conceptuelle de la version
anglaise de WordNet, contenant plus de 100000 chaı̂nes nominales uniques. Cette ressource est aussi développée qu’un dictionnaire et présente l’avantage de contenir des
relations d’héritage conceptuel, facilitant le regroupement des concepts dans différentes
sous-hiérarchies.
3.1.2.1
Mesures statistiques
Nous avons extrait la liste de chaı̂nes nominales uniques du WordNet anglais et nous
avons considéré son intersection avec l’ensemble de l’échantillon du fichier de log. Nous
présentons tout d’abord quelques statistiques globales sur la distribution des requêtes
en nous basant sur les éléments de WordNet (tableau 3.1).
Tab. 3.1 – Statistiques génériques concernant la distribution des requêtes images identiques à des termes de WordNet.
Monosémiques
Polysémiques
Instances
Concepts
Feuilles
Non-feuilles
Feuilles et non-feuilles
Total
Nombre de concepts uniques
15236
7446
4827
17855
14721
3315
4646
22782
Volume de requêtes
189421
168657
75060
283018
194353
51131
112594
358078
L’intersection entre le fichier de log et la hiérarchie de noms du WordNet anglais
représentent 358078 requêtes (dont 22782 requêtes distinctes) soit environ 12% du nombre
total de requêtes exprimées par les utilisateurs. Sur les 358078 requêtes de WordNet,
283018 concernent des concepts et 75060 des instances (tel que Paris ou Madonna).
Nous n’avons pas eu à disposition une hiérarchie des noms en français pour réaliser une
étude similaire, une perspective intéressante serait néanmoins de refaire cette analyse
pour les requêtes en français.
Un volume de 168657 requêtes (7446 concepts différents) de WordNet correspond
à des termes polysémiques, tandis que 189421 requêtes (15236 termes uniques) sont
associées à des concepts monosémiques. Le nombre moyen de requêtes associées à chaque
concept polysémique est de 22,65 soit environ deux fois plus grand que pour les concepts
monosémiques. La distribution des requêtes en fonction de leur caractère polysémique
montre que le poids des requêtes ambiguës est important. Un volume de 75060 requêtes
(4827 termes différents) est associé à des instances de WordNet et 283018 requêtes (17855
concepts uniques) correspondent à des concepts de WordNet. La hiérarchie de noms de
3.1. ANALYSE D’UN FICHIER DE LOG
79
WordNet n’est pas très riche en instances, le pourcentage d’instances étant d’environ
25% du nombre total de nœuds de la hiérarchie lexicale. Le rapport entre le nombre de
requêtes correspondant à des instances et à des concepts dans le fichier de log est plus
équilibré que celui résultant de l’utilisation de WordNet (voir les sections 3.1.3 et 3.1.4).
WordNet permet de différencier les concepts qui ont aucun, un ou plusieurs héritiers. Il
faut préciser que les deux catégories ne sont pas mutuellement exclusives car il existe des
termes apparaissant dans les deux cas, comme dog, dont le premier sens (l’animal) est
inclus dans un synset ayant des héritiers contrairement au quatrième sens, la contraction
de hot dog. Le volume de requêtes pour des termes feuille atteint 194353 (14721 uniques)
tandis que le volume de requêtes pour des concepts ayant des héritiers est de 51131
(3315 uniques) et l’intersection contient 112594 requêtes (4646 uniques). Les feuilles
constituent approximativement 75% du nombre total de nœuds de la hiérarchie lexicale
et elles sont mieux représentées dans le fichier de log. Les résultats obtenus indiquent que
les requêtes des utilisateurs portent majoritairement sur des termes assez spécifiques.
Tab. 3.2 – Distribution des concepts de WordNet en fonction du nombre de mots qui
les composent.
Mots/Concept
1
2
3
4
5
Plus
Nombre de concepts
57506
51522
7107
1265
271
54
Le tableau 3.2 représente la distribution des concepts de WordNet en fonction du
nombre de termes les composant. Cette distribution montre que plus de la moitié des
concepts sont formés de plus d’un mot. Dans les études de fichiers de log classiques,
toutes les requêtes portant sur ces termes seraient considérées comme composées de plus
d’un terme.
Dans le tableau 3.3, nous présentons une distribution des requêtes mono-conceptuelles
appartenant à WordNet en fonction du nombre de mots formant un concept.
Confirmant les résultats de l’analyse manuelle de la section 3.1.1, les résultats du
tableau 3.3 montrent qu’il y a une différence significative entre notre étude et une analyse classique par termes. On observe ainsi que 7,8% des requêtes mono-conceptuelles
contiennent deux mots ou plus. L’écart par rapport à l’analyse manuelle s’explique par
la plus faible quantité de noms composés d’artéfacts et de personnes dans WordNet par
rapport à l’échantillon traité dans la section 3.1.1.
80
CHAPITRE 3. DÉMARCHE DE LA THÈSE
Tab. 3.3 – Distribution des requêtes WordNet en fonction du nombre de mots dans un
concept.
Mots/Concept
1
2
3
4
5
Plus
3.1.2.2
Nombre de concepts uniques
17751
4462
404
56
7
0
Volume de requêtes
330238
25795
1822
209
12
0
Répartition thématique
L’utilisation de WordNet permet de classer les requêtes en fonction de leur domaine conceptuel, cette classification étant plus adaptée qu’une classification manuelle
des requêtes les plus fréquentes. Dans un premier temps, WordNet nous a permis de
définir un ensemble de domaines conceptuels potentiellement importants pour la recherche d’images. Nous avons ensuite calculé la distribution des requêtes par rapport à
ces domaines. Pour chaque classe, nous avons étudié le volume de requêtes monosémiques
et polysémiques, le nombre de requêtes communes à deux des domaines étudiés et le
nombre de requêtes associées uniquement au premier sens des termes. Les catégories
sont les suivantes :
– entités abstraites / concrètes
– entités vivantes / concepts naturels / artéfacts
– animaux / plantes
– instruments / structures
– groupes / relations / caractéristiques psychologiques
Tab. 3.4 – Distribution des requêtes WordNet dans les classes abstrait, concret et leur
intersection.
Type de concept
monosémiques
Entités
polysémiques
abstraites
monosémiques
Entités
polysémiques
concrètes
Communs
Tous les sens
Nombre de Volume de
concepts
requêtes
4442
57619
1741
18772
10509
120860
2595
48568
4232
112257
Premier sens uniquement
Nombre de Volume de
concepts
requêtes
7626
118057
14925
238678
—
—
3.1. ANALYSE D’UN FICHIER DE LOG
81
Les résultats du tableau 3.4 montrent que les requêtes relatives à des concepts
concrets sont plus nombreuses que pour des concepts abstraits (169428 contre 75399).
Ce résultat est naturellement peu surprenant et renvoie à la plus grande « figurabilité »
des concepts concrets. Les requêtes correspondant à des termes abstraits constituent
environ 1/3 du total et le nombre de requêtes communes aux deux domaines (comme
match, dont le premier sens est celui d’allumette et le deuxième de compétition) est de
112257. Le rapport entre les deux types d’entités comparées est conservé quand on prend
en compte uniquement le premier sens des mots (qui est, dans la grande majorité des
cas, le sens de base).
Tab. 3.5 – Distribution du nombre de requêtes dans les classes entités vivantes, concepts
naturels, artéfacts et leur intersection.
Type de concept
monosémiques
polysémiques
monosémiques
polysémiques
monosémiques
Artéfacts
polysémiques
Communs
Entités
vivantes
Concepts
naturels
Tous les sens
Nombre de Volume de
concepts
requêtes
5060
57414
1923
47767
276
1156
159
5643
2265
25780
1562
29365
829
24103
Premier sens uniquement
Nombre de Volume de
concepts
requêtes
6833
94488
248
3967
3126
45028
—
—
La séparation par domaines proposée dans le tableau 3.5 est inspirée par [71]. Nous
observons que les entités vivantes sont les plus nombreuses, suivies par les artéfacts et par
les concepts naturels. Notons que le premier domaine inclut les noms de personnes, cette
classe étant représentée par 72848 requêtes, pour 4833 concepts uniques. Dans le cas
des artéfacts, le rapport entre le volume de requêtes monosémiques et polysémiques est
en faveur des requêtes polysémiques, ce qui est en opposition avec la tendance générale
observée au niveau de la hiérarchie lexicale.
Nous différencions également les requêtes pour des noms d’animaux et de plantes
(tableau 3.6). La classe des animaux est mieux représentée que celle des plantes (31443
requêtes contre 10637). Parmi les animaux, les sous-classes les mieux représentées sont
les mammifères (16365), les oiseaux (5216) et les reptiles (2216). Pour les plantes, les
deux principaux sous-domaines sont les arbres et les fleurs.
Pour les artéfacts (tableau 3.7), nous avons séparé les instruments (comme knife ou
computer ) qui totalisent 33701 requêtes pour 2223 concepts uniques et les structures
(dans le sens de construction, comme bridge ou airport) qui totalisent 8147 requêtes
pour 674 concepts uniques. La forte polysémie des requêtes concernant des artéfacts
est encore plus importante pour les instruments, puisque environ 2/3 des requêtes sont
82
CHAPITRE 3. DÉMARCHE DE LA THÈSE
Tab. 3.6 – Distribution des requêtes dans les classes animaux et plantes.
Type de concept
monosémiques
polysémiques
monosémiques
Plantes
polysémiques
Communs
Animaux
Tous les sens
Nombre de Volume de
concepts
requêtes
1014
8686
636
22757
623
2983
385
7654
25
633
Premier sens uniquement
Nombre de Volume de
concepts
requêtes
1194
15336
835
7770
—
—
Tab. 3.7 – Distribution des requêtes dans les classes instruments et structures.
Type de concept
monosémiques
polysémiques
monosémiques
Structures
polysémiques
Communs
Instruments
Tous les sens
Nombre de Volume de
concepts
requêtes
1188
11795
1339
21906
370
3374
303
4773
166
3896
Premier sens uniquement
Nombre de Volume de
concepts
requêtes
1517
18883
522
5688
—
—
ambiguës.
Le tableau 3.8 présente la distribution des requêtes pour les groupes, les relations
(comme unemployment rate ou pace) et les caractéristiques psychologiques (comme intelligence ou event). Le domaine le mieux représenté est celui des caractéristiques psychologiques (avec 72476 requêtes) dont les deux principales sous-classes sont les événements
(45667) et les concepts liés à la cognition (32341). Puis, on trouve les sous-concepts de
groupe (23954 requêtes) puis des relations (5602 concepts).
L’analyse du fichier de log en utilisant une comparaison avec WordNet permet d’analyser plus finement la distribution des requêtes au sein de grands domaines conceptuels.
Un nombre très important de requêtes portant sur des noms de personnes, nous allons
procéder à une analyse plus approfondie de ce domaine dans la section suivante. D’autres
domaines regroupent une quantité significative de requêtes comme les événements, les
instruments ou les animaux1 .
1
Il serait intéressant d’étendre l’analyse présentée ici en utilisant des listes de termes plus riches pour
des domaines comme les artéfacts (incluant plus particulièrement pour l’automobile, les marques, types
et caractéristiques des voitures).
3.1. ANALYSE D’UN FICHIER DE LOG
83
Tab. 3.8 – Distribution du nombre de requêtes dans les classes groupes, relations, caractéristiques psychologiques et leur intersection.
Type de concept
monosémiques
polysémiques
monosémiques
Relations
polysémiques
Caract.
monosémiques
psycho.
polysémiques
Communs
Groupes
3.1.3
Tous les sens
Nombre de Volume de
concepts
requêtes
999
6403
434
17551
149
2283
147
3319
1883
27876
2281
44600
580
15630
Premier sens uniquement
Nombre de Volume de
concepts
requêtes
1251
10718
290
4349
3035
48044
—
—
Analyse des requêtes pour des noms de personnes
Les requêtes composées de noms de personnes correspondent majoritairement à des
personnalités célèbres. Nous avons constitué une liste d’environ 70000 noms en exploitant
Wikipédia et NNBD2 . Cinq sous-domaines sont bien représentés dans cette liste : les
acteurs, les sportifs, les chanteurs/musiciens, les modèles/mannequins et les politiciens.
La liste inclut également des noms d’artistes, de scientifiques, d’écrivains, d’hommes
d’affaires et d’autres catégories. Le tableau 3.9 présente la distribution des requêtes.
Le fichier de log contient un volume total de 108062 requêtes (9625 noms différents)
correspondant à des noms de personnalités. La catégorie la mieux représentée est celle
des acteurs, avec 44727 requêtes, 59334 si on compte également les personnalités exerçant
plusieurs activités, dont acteur.
Les chanteurs et les modèles / mannequins sont également bien représentés, avec
respectivement 14091 et 12879 requêtes (21028 et 25095 requêtes si on compte également
les noms appartenant à plus d’une catégorie). Nous avons représenté dans le tableau 3.9
les catégories de personnalités représentées par plus de 1000 requêtes. Cette liste inclut,
à part celles déjà mentionnées : les sportifs, les politiciens, les artistes (autres que ceux
déjà mentionnés), les écrivains, les hommes d’affaires et les scientifiques. Nous avons
également calculé des intersections entre domaines. On observe des valeurs importantes
pour les acteurs et modèles, acteurs et chanteurs ou chanteurs et modèles.
Nous présentons dans le tableau 3.10, les dix requêtes les plus fréquentes pour chaque
catégorie. On note une forte proportion de personnalités anglo-saxonnes pour les acteurs, chanteurs et modèles et une bonne proportion de personnalités françaises pour les
écrivains et hommes politiques. Les femmes sont particulièrement représentées pour les
catégories acteurs, modèles, chanteurs et les hommes pour les sportifs, artistes, politi2
http ://nndb.com
84
CHAPITRE 3. DÉMARCHE DE LA THÈSE
Tab. 3.9 – Distribution des requêtes avec des noms de personnes par domaines.
Domaine d’appartenance
Acteurs
Chanteurs / Musiciens
Modèles / Mannequins
Sportifs
Politiciens / Personnages historiques
Artistes
Hommes d’affaires
Ecrivains
Acteurs et chanteurs
Acteurs et mannequins
Acteurs et politiciens
Acteurs et sportifs
Chanteurs et mannequins
Chanteurs et sportifs
Chanteurs et politiciens
Sportifs et mannequins
Sportifs et politiciens
Autres
Total
Nombre de concepts
3746
1586
693
1211
Volume de requêtes
44727
14091
12879
6794
7
12
239
130
371
168
230
8
24
9
11
1
1
9
594
9625
2387
1190
1518
4488
9847
118
154
2366
64
19
3
35
2408
108062
ciens et écrivains. À l’exception des écrivains et ponctuellement des politiciens (Abraham
Lincoln) et des artistes (Leonardo Da Vinci ), la majorité des requêtes porte sur des personnes ayant vécu au XXième siècle.
Les résultats du tableau 3.10 sont à mettre en relation avec ceux obtenus pour les
requêtes les plus fréquentes (section 3.1.1). Un nombre important de requêtes visent des
sex-symbols ou des actrices pornographiques (Pamela Anderson, Carmen Electra, Jenna
Jameson, Paris Hilton, Aria Giovanni ou Tera Patrick ). En analysant plus finement les
résultats, les actrices pornographiques représentent 1/3 du total des requêtes relatives
aux acteurs et actrices.
Après avoir analysé les requêtes sur des noms complets, nous avons constitué une
liste de prénoms et de noms et comparé ces deux nouvelles listes au fichier de log. Les
résultats du tableau 3.11 sont présentés sans filtrage et contiennent des termes pouvant
correspondre à des prénoms ou des noms de célébrités tels qu’obtenus en utilisant la liste
initiale de célébrités. Par exemple, un chanteur s’appelant Bébé Manga, Manga apparaı̂t
parmi les patronymes. De même, on retrouve Ferrari, qui désigne à la fois une marque de
voiture et un nom de famille. Le volume de requêtes du tableau 3.11 est assez surprenant
3.1. ANALYSE D’UN FICHIER DE LOG
85
Tab. 3.10 – Top 10 des requêtes pour chaque type de célébrité.
Domaine d’appartenance
Acteurs
Chanteurs / Musiciens
Modèles / Mannequins
Sportifs
Politiciens
Personnages
historiques
/
Artistes
Hommes d’affaires
Ecrivains
Nombre de concepts
Pamela Anderson ; Brad Pitt ; Angelina Jolie ; Carmen Electra ; Jessica Alba ; Emma Watson ; Jenna
Jameson ; Monica Bellucci ; Keira Knightley ; Scarlett Johansson
Madonna ; Britney Spears ; Shakira ; Christina
Aguilera ; Avril Lavigne ; Nelly Furtado ; 50 cent ;
Bob Marley ; Marilyn Manson ; Mariah Carey ; Justin Timberlake
Paris Hilton ; Aria Giovanni ; Adriana Lima ; Tera
Patrick ; Carla Bruni ; Keeley Hazell ; Kyla Cole ;
Victoria Silvstedt ; Vida Guerra ; Laetitia Casta
Cristiano Ronaldo ; Rafael Nadal ; David Beckham ;
Michael Jordan ; Serena Williams ; Ana Ivanovic ;
Thierry Henry ; Valentino Rossi ; Fernando Torres ;
Tony Parker
Ségolène Royal ; Nicolas Sarkozy ; Che Guevara ;
Rachida Dati ; Abraham Lincoln ; Rama Yade ;
George Bush ; Jacques Chirac ; Angela Merkel ;
Adolf Hitler
Spencer Tunick ; Andy Warhol ; Jock Sturges ; Salvador Dali ; Edward Hopper ; Helmut Newton ; Pablo Picasso ; Paul Klee ; Leonardo Da Vinci ; Roy
Lichtenstein
Steve Jobs ; Bill Gates ; Louis Vuitton ; Walt Disney ; Enzo Ferrari ; Ray Kroc ; Nigel Godrich ;
Henry Ford ; Thierry Breton ; Muhammad Yunus
Victor Hugo ; Jean de La Fontaine ; Jules Verne ;
Khalil Gibran ; Albert Camus ; Oscar Wilde ; Guy
de Maupassant ; William Shakespeare ; Charles Dickens ; Arthur Rimbaud
puisqu’on pouvait s’attendre à ce que les utilisateurs formulent plus précisément leurs
requêtes.
Le tableau 3.12 présente les 20 requêtes les plus fréquentes pour des termes dont
le sens premier est celui d’un prénom ou d’un nom. Les prénoms les plus fréquents
sont des prénoms féminins, alors qu’on trouve une répartition équilibrée pour les noms
de famille. Deux exemples illustratifs et célèbres sont celui de Ségolène Royal, dont le
86
CHAPITRE 3. DÉMARCHE DE LA THÈSE
Tab. 3.11 – Distribution des requêtes pour les prénoms et les noms.
Prénoms
Noms
Nombre de concepts
2643
6141
Volume de requêtes
50698
47322
prénom apparaı̂t fréquemment mais pas le nom et de Nicolas Sarkozy dont on voit
apparaı̂tre le nom mais peu le prénom. Les prénoms les plus fréquents sont ceux relatifs
à des acteurs et des chanteurs tandis que les noms de famille se retrouvent pour une plus
grande diversité de domaines, incluant aussi les politiciens et les footballeurs.
Tab. 3.12 – Top 20 des requêtes pour les prénoms et les noms.
Prénoms
Noms
Requêtes les plus fréquentes
Rihanna ; Britney ; Lorie ; Clara ; Segolène ; Pamela ; Jenna ;
Mika ; Jennifer ; Eva ; Sophie ; Sandra ; Dora ; Alice ; Sabrina ; Laura ; Pauline ; Jessica ; Monica ; Lisa
Sarkozy ; Chirac ; Zidane ; Sharapova ; Hilton ; Casta ;
Spears ; Bellucci ; Manara ; Alba ; Merkel ; Aguilera ; Bayrou ; Beckham ; Silvstedt ; Jameson ; Nasri ; Messi ; Batista ;
Nadal
Même en se restreignant au domaine des célébrités, les prénoms et les noms de
famille, utilisés seuls, pointent habituellement vers plusieurs personnes. Il serait donc
pertinent de proposer à un utilisateur ayant proposé un prénom, une liste de noms de
célébrités permettant de désambiguı̈ser sa requête puis d’étendre cette requête à d’autres
personnalités ayant une relation particulière avec la requête. Cette fonctionnalité est
déjà implémentée dans Ask, mais elle repose sur une détection automatique de noms de
personnes et les résultats sont bruités. Par exemple, pour une requête avec Royal, les
deux premiers résultats proposés sont Prince et Queen.
L’analyse des requêtes correspondant à des noms de personnes montre que ce domaine
a un poids important mais inférieur à celui calculé en utilisant uniquement les requêtes
les plus fréquentes [60] ou dans notre propre analyse (Section 3.1.1). Cette différence s’explique par le fait que les requêtes relatives à des noms de célébrités sont surreprésentées
parmi les demandes les plus fréquentes. Cette surreprésentation est causée par le nombre
réduit de noms de personnes célèbres comparé au dictionnaire général de la langue et par
la relative invariance des noms par rapport à la langue utilisée pour formuler les requêtes.
Cette étude souligne les principales catégories de personnalités recherchées par les
3.1. ANALYSE D’UN FICHIER DE LOG
87
utilisateurs d’un moteur de recherche. Le domaine le mieux représenté est celui des
acteurs, suivi par les mannequins et modèles puis les chanteurs et musiciens. Ce résultat
est en accord avec les classements des requêtes les plus fréquentes publiés régulièrement
par les moteurs de recherche3 . D’autres domaines regroupent des quantités significatives
de requêtes : les sportifs et les politiciens, personnages historiques. Nous avons été surpris
par la grande quantité de requêtes composées uniquement des prénoms ou des noms de
famille, alors même que ces requêtes sont fortement ambiguës.
3.1.4
Analyse des requêtes pour les noms géographiques
Nous avons étudié le domaine des requêtes géographiques en analysant l’intersection
entre le fichier de log et Geonames. Geonames est une base de données géographiques
contenant plus de six millions d’entrées pour des noms de lieux, classés dans 645 catégories
comme : ı̂le, pays, ville, parc ou gratte-ciel. Le volume de requêtes correspondant exactement à des toponymes est de 392868, reparties sur 43930 concepts différents (tableau
3.13).
Tab. 3.13 – Distribution des requêtes pour des toponymes.
Uniquement Geonames
Geonames et WordNet
Geonames et mots français
Total
Nombre de concepts
33455
5285
5190
43930
Volume de requêtes
162684
79156
151028
392868
Étant donné l’importance de l’intersection entre l’ensemble de toponymes et le vocabulaire général, nous avons aussi croisé les résultats avec WordNet (en excluant les
noms de lieux trouvés dans cette hiérarchie) et avec une liste des noms communs (en
français). Nous observons une intersection significative dans les deux cas. Le nombre de
requêtes communes entre Geonames et WordNet est de 79156 entités, tandis que l’intersection avec le vocabulaire français contient 151028 requêtes. Il reste 162684 requêtes
apparaissant uniquement dans Geonames.
Nous avons par la suite essayé de classer les requêtes en utilisant les catégories de
Geonames mais cette approche n’a pas conduit à des résultats concluants, car l’intersection entre Geonames et le vocabulaire général est non négligeable : il existe dans Geonames des lieux nommés Sexy (localité au Pérou), Œil (rivière en Auvergne) ou Earth
(ville au Texas). La forte polysémie des éléments de la base de données géographiques
constitue une deuxième difficulté quand on tente de catégoriser automatiquement des
requêtes géographiques. Par exemple, Parthénon est à la fois le nom du célèbre temple
d’Athènes, celui d’une ville et d’un bâtiment aux Etats-Unis et d’une ferme en Zambie.
3
http ://actu.abondance.com/2007/12/top-mots-cls-2007-google-fr.html
88
CHAPITRE 3. DÉMARCHE DE LA THÈSE
New York est, entre autres, le nom d’un état et de plusieurs villes américains, d’une colline en Afrique du Sud, de deux villes en Jamaı̈que. On aurait pu suivre une démarche
similaire à celle décrite dans la section 3.1.2, c’est à dire une analyse restreinte aux sens
premiers de chaque terme, mais le classement automatique des différents sens des termes
polysémiques est loin d’être trivial. À défaut de pouvoir catégoriser automatiquement
les requêtes géographiques, nous avons procédé à une classification manuelle en gardant
tous les termes apparaissant au moins 20 fois dans le fichier de log et en filtrant ceux
dont le sens premier n’appartient pas au domaine géographique.
En nous basant sur la répartition des requêtes les plus fréquentes du domaine géographique, nous avons choisi de présenter les résultats de cette classification manuelle
dans cinq grandes catégories, comprenant des divisions administratives (pays, région,
ville), des monuments connus et des entités naturelles. Nous avons inclus dans d’autres
catégories les requêtes plus rares, comme les noms de continents et de quartiers. Dans la
catégorie Région, nous avons inclus des parties de pays comme les états aux Etats-Unis
ou les régions et les départements de France. La classe nature contient des noms correspondant — entre autres — à des ı̂les, des parcs naturels ou des montagnes. La catégorie
monuments inclut des noms de monuments connus, de musées ou encore de gratte-ciels.
Tab. 3.14 – Distribution des requêtes pour des toponymes.
Pays
Région
Ville
Monument
Nature
Autre
Total
Nombre de concepts
85
36
199
38
57
7
422
Volume de requêtes
5985
511
16768
2019
2520
613
29733
Le tableau 3.14 montre que les 422 requêtes de notre échantillon ont été proposées
29733 fois par les utilisateurs. Si l’on compare les résultats des tableaux 3.14 et 3.15, on
observe que 1% des requêtes les plus fréquentes du domaine géographique couvrent 10%
du nombre total de requêtes. Parmi les requêtes les plus fréquentes, la classe la mieux
représentée est celle des villes avec 16768 requêtes sur un total de 29733, suivie par les
pays (5985), les objets naturels (2520) et les monuments connus (2019). La plupart des
requêtes concerne des divisions administratives.
Les résultats présentés incluent un grand nombre de termes familiers aux utilisateurs
français, confirmant la tendance générale observée dans le fichier de log. Une grande partie des concepts du tableau 3.15 représente des entités fortement touristiques confirmant
un usage fréquent associé aux moteurs de recherche d’images : la visualisation des lieux
« intéressants » du monde. Sur les dix monuments les plus fréquents, huit sont situés
3.1. ANALYSE D’UN FICHIER DE LOG
89
Tab. 3.15 – Requêtes les plus fréquentes dans le domaine géographique.
Pays
Région
Ville
Monument
Nature
Requêtes les plus fréquentes
France ; Maroc ; Japon ; Portugal ; Canada ; Egypte ; Chine ;
Inde ; USA ; Australie
Bretagne ; Corse ; Quebec ; California ; Texas ; Normandie ;
Pays Basque ; Yorkshire ; Alsace
Paris ; New York ; Marseille ; Lyon ; Venise ; Londres ; Versailles ; Berlin ; Rome ; Las Vegas
Tour Eiffel ; Big Ben ; Elysee ; Taj Mahal ; World Trade Center ; Buckingham Palace Louvre ; Moulin Rouge ; London
Eye ; Trafalgar Square
Tahiti ; Martinique ; Hawaii ; Sahara ; Seychelles ; Ile Maurice ; Mont Blanc ; Grand Canyon ; Atlantique ; Mayotte
dans deux grandes villes Paris et Londres, deux destinations touristiques majeures. Pour
les entités naturelles, on observe une prédominance des noms d’ı̂les, elles-mêmes des
destinations touristiques importantes (Martinique, Seychelles ...).
Les résultats des tableaux 3.14 et 3.15 montrent que la majorité des requêtes fréquentes
d’images géographiques correspond à des objets géographiques assez généraux (comme
les pays ou les villes). Ces résultats s’accordent avec les conclusions de [119] où les
auteurs étudient le poids des requêtes géographiques parmi les requêtes textuelles. Toutefois, la prédominance des requêtes géographiques calculée à partir des requêtes les plus
fréquentes dans [119] est à relativiser.
L’analyse présentée dans cette section nous a permis de découvrir quels sont les sousdomaines les mieux représentés parmi les requêtes géographiques, les noms de villes, de
pays, les monuments et les entités naturelles. Il existe aussi une corrélation entre les
requêtes les plus fréquentes et les grandes destinations touristiques. Cela pointe vers
un usage important des moteurs de recherche d’images : la recherche d’informations
touristiques qui se traduit notamment par une très forte croissance du e-tourisme et une
prise en compte de plus en plus importante de ce secteur par les géants du web (Google,
Yahoo !).
3.1.5
Conclusion
L’étude présentée est — à notre connaissance — la première analyse du contenu d’un
fichier de log à grande échelle selon une approche conceptuelle. Nous avons exploité des
ressources structurées associées à trois domaines qui sont apparus comme importants
pour la recherche d’images sur Internet : les noms communs, les noms de personnes et
les noms de lieux. Nous avons trouvé des différences importantes du poids relatif des
90
CHAPITRE 3. DÉMARCHE DE LA THÈSE
domaines par rapport aux autres études basées sur une analyse des requêtes les plus
fréquentes [41], [119], notamment pour les noms de personnes et les toponymes. Les
principales nouveautés apportées par notre approche sont :
– Une mise en évidence de la différence entre une étude des requêtes basée sur des
termes et une étude focalisée sur les concepts.
– Une évaluation du poids des différents sous-domaines pour les trois types de
requêtes traitées : les noms communs, les noms de personnes et les requêtes géographiques.
– Une classification automatique des requêtes par rapport à leurs domaines d’appartenance. Cette classification est particulièrement difficile dans le cas des requêtes
ambiguës.
– Une catégorisation des requêtes en fonction de leur niveau de généralité.
– Une détection automatique des requêtes ambiguës, qui constituent une partie importante du nombre total des requêtes mono-conceptuelles.
Nos résultats confirment ceux dans [117] avec une fréquence encore plus grande de
termes ambigus.
Les principales difficultés rencontrées correspondent à :
– La couverture imparfaite offerte par les ressources décrivant les domaines analysés.
– Le classement automatique des sens d’un concept ambigu, particulièrement pour
les requêtes géographiques.
– Les éléments communs à plusieurs langues induisent des imprécisions de classification, surtout pour un fichier de log multilingue comme celui sur lequel nous avons
travaillé.
Cette étude permet de proposer quelques pistes pour améliorer les architectures de
recherche d’images sur Internet. La majorité des requêtes étant mono-conceptuelles4 ,
elles peuvent plus aisement être traitées en utilisant des structures linguistiques à large
échelle. L’analyse met en évidence des domaines conceptuels importants en recherche
d’images, donnant ainsi un ordre de priorités pour la mise en place de structures linguistiques.
Il serait intéressant d’étendre l’étude à plusieurs langues, notamment par la constitution de ressources similaires à celles en anglais pour le français, langue qui semble
dominante dans ce fichier de log. Ici aussi, ce problème n’est pas trivial car la version
française de WordNet n’est pas aussi complète que celle pour l’anglais.
Une autre direction de travail concerne la constitution de ressources pour d’autres
domaines bien représentés dans le fichier de log. Afin de réduire le périmètre de cette
thèse, nous n’avons considéré que trois domaines parmi les plus importants, mais l’analyse manuelle d’un échantillon de requêtes (3.1.1) indique par exemple que les noms
d’artéfacts ou les noms associés à des jeux vidéo possèdent aussi un poids important
dans le fichier de log.
4
Dans le futur, nous envisageons aussi d’analyser les requêtes plus complexes afin d’obtenir plus
d’informations sur le contenu de requêtes. Cette tâche n’est pas facile puisque la classification des requêtes
complexes par rapport à des domaines spécifiques est encore plus difficile que celle de requêtes contenant
un seul concept.
3.2. CONCEPTS ET IMAGES
91
Enfin, il serait intéressant d’appliquer une analyse similaire aux requêtes textuelles,
qui, d’après Goodrum et al. [41], sont moins complexes que les requêtes images et pourraient, tout autant que pour les requêtes images, tirer partie de l’utilisation de structures
linguistiques.
3.2
Concepts et images
L’étude du fichier de log montre qu’il y a plus de requêtes pour les entités physiques que pour les concepts abstraits (qui forment les deux grandes sous-hiérarchies de
noms dans WordNet), ces premiers étant moins aisément « figurables » que les entités
physiques. Néanmoins, il existe pour certaines catégories abstraites des représentations
imagées stables qui sont bien représentées dans le fichier de log. Il s’agit notamment des
événements, rangées dans la sous-hiérarchie des abstractions dans WordNet, comme manifestation ou match de basketball pour lesquels il est aisé de s’en faire une représentation.
Pour d’autres catégories abstraites, il existe parfois une (ou plusieurs) représentations
symboliques comme la balance pour le concept justice. Dans ce travail, nous nous concentrons sur les concepts concrets qui, directement ou par l’intermédiaire de leurs sous-types,
forment des classes d’images conceptuellement et visuellement cohérentes.
Fig. 3.5 – En haut : diverses représentations de « Notre Dame de Paris » (Source :
Flickr). En bas : premiers résultats de Google Images.
La représentation d’un concept est généralement sujette à une forte variabilité spatiale et temporelle (figures 3.5, 3.6). Cette variabilité n’est pas prise en compte par les
92
CHAPITRE 3. DÉMARCHE DE LA THÈSE
Fig. 3.6 – Différentes images de Michael Jackson (Source : Google Images).
moteurs de recherche actuels qui vont chercher à améliorer leur performance en précision
plutôt qu’à assurer une bonne couverture. Néanmoins, des tendances actuelles en recherche d’information [2] donnent justement plus d’importance à une bonne couverture
des différentes représentations d’une requête plutôt qu’à l’amélioration de la précision
d’une seule représentation. Dans [117], Sanderson focalise son travail notamment sur
les termes ambigus ne se trouvant pas dans des dictionnaires ou des thésauri et montre
expérimentalement que, pour ce type de requête plus particulièrement, les moteurs de
recherche textuelle actuels ne fournissent pas des résultats diversifiés.
L’introduction de ressources linguistiques dans les architectures de recherche d’images
assure une meilleure couverture puisqu’elle apporte des informations qui vont spécifier
et décrire la richesse du voisinage conceptuel de la requête. Par exemple, en reprenant
l’exemple de la figure 3.6, une structure linguistique se rapportant aux personnalités
inclura des détails biographiques de la carrière de Michael Jackson permettant de proposer des images représentatives de la carrière du chanteur américain (notamment en
fonction des périodes de sorties de ces principaux disques). D’une façon identique, pour
des entités géographiques, comme Notre Dame de Paris (figure 3.5), une structure linguistique adéquate tiendra compte d’informations de localisation (géo-référencement) et
de catégorisation des entités. De plus, notons que l’intervention des techniques de traitement d’images permet aussi de diversifier les réponses, par exemple avec des approches
de classification non-supervisée d’images que nous décrivons dans 2.3.2.3.
3.2.1
Similarité entre les images
Bien que la perception de la similarité soit influencée par de multiples facteurs, nous
nous concentrons uniquement dans le cadre de cette thèse sur deux types de similarité
entre les images : basée sur des descripteurs de bas niveau et conceptuelle. Ici, nous nous
intéressons au paradigme classique d’une recherche par le contenu par l’exemple (query
by example). La similarité visuelle n’est actuellement pas utilisée par les systèmes de
recherche d’images destinés à un large public car une recherche « brute » par le contenu
n’est pas adaptée à l’exploration d’espaces conceptuels larges.
La proximité entre deux objets peut être évaluée selon différents niveaux. Prenons
un exemple : l’image d’un doberman est en même temps celle d’un chien de garde, d’un
chien, d’un mammifère, d’un animal... Si un système de recherche d’images retourne une
3.2. CONCEPTS ET IMAGES
93
réponse figurant un objet d’une de ces classes, nous pouvons fixer le seuil de similarité à
tous les niveaux de représentation cités et dire qu’une image de setter irlandais est similaire à celle d’un doberman puisque les deux représentent un chien ou un animal. Mais
la probabilité de juger deux images comme étant similaires décroı̂t avec l’élargissement
de l’espace conceptuel. Pour illustrer notre propos, nous présentons les résultats d’une
recherche par le contenu à partir de la même image de doberman mais dans deux espaces conceptuels différents. Dans la figure 3.7, l’image requête (en haut, à gauche) est
comparée à d’autres images de chiens de la même classe et dans la figure 3.8, la requête
est comparée à des représentations d’autres mammifères.
Fig. 3.7 – Résultat d’un système CBIR pour une image de doberman à l’intérieur de
cette classe.
Dans cette thèse, nous proposons un modèle hybride de similarité entre les images,
associant une description textuelle et une caractérisation de bas niveau. Il s’agit plus
précisément d’un modèle de fusion hiérarchique car le processus CBIR est restreint à des
images partageant des descriptions textuelles communes. Notre approche consiste à limiter l’espace de recherche à des concepts très spécifiques, rendue possible par l’intégration
de structures linguistiques à grande échelle dans les architectures de recherche d’images.
Il est possible de proposer des modèles de similarité plus complexes incluant explicitement, par exemple, la scène représentée dans l’image. Dans ce cas, il faudrait considérer,
en plus de l’objet représenté, son contexte (même si les descripteurs de bas niveau globaux que nous utilisons modélisent implicitement le contexte). Il est aussi important de
prendre en compte l’intention de l’utilisateur dans la modélisation de la similarité. Le
but de l’utilisateur n’est toujours pas bien défini au début du processus de recherche.
94
CHAPITRE 3. DÉMARCHE DE LA THÈSE
Fig. 3.8 – Résultats quand on restreint la recherche à l’intérieur de la classe mammifères.
Cela se reflète généralement par une forte ambiguı̈té de la requête (en première intention,
une requête est souvent assez courte) fournissant peu d’informations sur le contenu des
images à retrouver. Le but de la recherche peut se préciser au fur et à mesure de l’interaction entre l’utilisateur et le système. L’utilisateur évolue vers des espaces conceptuels
plus restreints ou utilise une recherche par le contenu souvent plus adaptée qu’au début
de la recherche. La similarité de la scène et celle déterminée par l’intention de l’utilisateur sont plus difficiles à formaliser et mériteraient une étude séparée, aussi nous ne les
incluons pas dans notre modèle de similarité entre les images.
3.3
3.3.1
Système de recherche d’images basé sur la sémantique
Définition de structures sémantiques
En nous basant sur plusieurs travaux [4], [128], [12], [33], nous présentons et illustrons un vocabulaire minimal décrivant l’agrégation des concepts dans des ressources
sémantiques.
Definition 1 : L’unité de base dans les structures sémantiques est le concept, défini
par son nom. Nous avons illustré quelques concepts dans la figure 3.9. Notons qu’il n’y
a aucune liaison entre les concepts dans la figure.
Définition 2 : Dans une structure sémantique, une différence est faite entre les
concepts et les instances [101]. Les concepts (ou catégories) pointent vers des classes
3.3. SYSTÈME DE RECHERCHE D’IMAGES BASÉ SUR LA SÉMANTIQUE
95
Fig. 3.9 – Structure sémantique : représentation d’une série de concepts.
d’entités du monde, les instances représentent des entités bien déterminées, uniques et
indivisibles en sous-concepts.
Dans la figure 3.10, pays, chien ou chien de garde sont des catégories tandis que Ville
Lumière, Paris et France sont des instances.
Définition 3 : La liaison entre deux concepts d’une ressource sémantique se fait par
l’intermédiaire d’une relation (figure 3.11). Deux concepts peuvent être reliés par une
ou plusieurs relations.
Les définitions 1 et 3 représentent le cadre minimal sur lequel repose une structure
sémantique et s’appliquent (avec des variations de vocabulaire) à la construction de toute
ressource conceptuelle. Jusqu’ici, cette dernière notion se définit mathématiquement
comme un graphe non directionnel (3.11), contenant en plus des nœuds de la figure 3.10,
des arrêtes reliant ces nœuds. Les définitions suivantes vont apporter plus de précisions
sur la nature de ce graphe.
Définition 4 : L’héritage conceptuel est une relation fondamentale pour les concepts
et est caractérisée par les propriétés suivantes :
– La relation d’héritage n’est pas symétrique. Si A hérite de B, B ne peut pas hériter
de A.
– La relation d’héritage est transitive [4]. Si A hérite de B et B hérite de C, alors A
hérite de C.
Un graphe doté de la relation d’héritage conceptuel (3.12) devient directionnel (et
hiérarchique), il est possible de déduire certaines propriétés d’un concept compte tenu
du groupe de ses parents. Ainsi un doberman est un type de chien de garde qui est un
héritier de chien etc. Dans la figure 3.12, Paris est à la fois un sous-type de département
et de ville et représente un cas d’héritage multiple. La présence de l’héritage multiple
dans une hiérarchie conceptuelle enrichit la structure de celle-ci, mais est en contradiction
avec certains formalismes, comme les logiques de description, utilisées pour modéliser les
96
CHAPITRE 3. DÉMARCHE DE LA THÈSE
Fig. 3.10 – Structure sémantique : séparation entre concepts (fond bleu) et instances
(fond jaune) dans les structures sémantiques.
Fig. 3.11 – Structure sémantique : représentation des relations entre les nœuds.
3.3. SYSTÈME DE RECHERCHE D’IMAGES BASÉ SUR LA SÉMANTIQUE
97
Fig. 3.12 – Structure sémantique : représentation des relations d’héritage conceptuel.
Fig. 3.13 – Structure sémantique : la relation de synonymie est représentée en bleu.
98
CHAPITRE 3. DÉMARCHE DE LA THÈSE
ontologies formelles [37]. Nous avons fait le choix de permettre l’héritage multiple dans les
structures utilisées dans notre travail car ce choix rend mieux compte de l’organisation
des concepts dans le monde. La réunion des sous-concepts d’une catégorie forme son
domaine conceptuel.
Définition 5 : La synonymie est la relation reliant différents termes qui expriment
un même concept (figure 3.13).
La synonymie permet de réduire le nombre de nœuds dans un graphe en regroupant
les termes synonymes. Le regroupement des synonymes est par exemple effectué dans
WordNet [33] et structure les unités minimales de la hiérarchie lexicale. Dans la figure
3.13, les termes Ville Lumière et Paris sont regroupés car ils pointent vers la même entité
du monde. Les deux termes auront les mêmes propriétés dans la hiérarchie conceptuelle.
Définition 6 : L’homonymie est une relation mettant en correspondance des termes
s’écrivant de la même façon mais qui pointent vers des entités différentes.
Fig. 3.14 – Structure sémantique : la relation d’homonymie est représentée avec Paris.
L’homonymie (figure 3.14) permet de séparer les différents sens d’un terme présents
dans une ressource sémantique. Cette différenciation est importante dans le contexte de
la recherche d’images car, pour les termes polysémiques, on attache des classes d’images
séparées à chaque sens d’un terme. Par exemple, Paris peut être aussi bien une ville en
France qu’une ville aux Etats-Unis.
Définition 7 : La méronymie est la relation reliant une partie de son ensemble et
est caractérisée par les propriétés suivantes :
– La relation de méronymie n’est pas symétrique. Si A est une partie de B, B ne
peut pas être une partie de A.
– La relation de méronymie est transitive : si B est une partie de A et C est une
partie de B, alors C est une partie de A.
Dans la figure 3.15, nous avons illustré quelques relations de méronymie. On voit
qu’une ville est une partie d’un département qui, à sont tour, est une partie d’un pays.
3.3. SYSTÈME DE RECHERCHE D’IMAGES BASÉ SUR LA SÉMANTIQUE
99
Fig. 3.15 – Structure sémantique : la relation de méronymie est représentée en vert.
Fig. 3.16 – Structure sémantique : les relations ACouleur and ACapitale sont
représentées en magenta.
100
CHAPITRE 3. DÉMARCHE DE LA THÈSE
Notons que, à la différence de l’héritage conceptuel, une instance peut se diviser en
parties. Dans la figure 3.15, la France (une instance de pays) contient Paris (une instance
de ville). La réunion des parties d’un concepts forme son domaine partonymique.
En plus des relations déjà mentionnées dans déf. 3 à déf. 7, les structures sémantiques
peuvent être caractérisées par des relations ayant un sens seulement pour une partie de
la structure ou pour certains domaines d’applications utilisant la ressource. Les relations
spécifiques à des domaines conceptuels particuliers instancient des propriétés décrivant la
structure de ce domaine plus en détail que les relations s’appliquant à toutes les catégories
incluses dans la structure. La structure du graphe décrivant la ressource sémantique
s’enrichit localement et permet une meilleure description des domaines conceptuels. Dans
la figure 3.16, nous illustrons deux relations spécifiques à des domaines conceptuels :
ACouleur relie Doberman et noir et marron ; ACapitale relie la France à Paris. Les
relation ACouleur et ACapitale n’ont de sens que dans des espaces conceptuels bien
déterminés.
Les définitions 1 à 7 nous permettent de construire des structures sémantiques comprenant des concepts et des relations entre ces derniers. Le choix des relations à définir
dépend du domaine conceptuel modélisé, ainsi que de l’application envisagée. Nous allons présenter des exemples concrets de modélisation de domaines dans le chapitre 4.
Notre usage des ressources sémantiques est différent de celui adopté par la communauté
« Web Sémantique » car nous restons dans une perspective anthroponcentrée. Le but du
Web Sémantique est de faire communiquer des machines de manière « intelligente » utilisant une modélisation conceptuelle du contenu des pages Web [10]. Cela implique une
description des connaissances sous forme d’ontologies formelles qui permettent un raisonnement automatique sur leur contenu. Nous introduisons les structures conceptuelles
dans l’architecture de recherche uniquement pour aider l’utilisateur et les connaissances
inclues dans ces structures ne sont pas aussi formalisées que celles contenues dans les
ontologies formelles. Dans notre approche, le raisonnement automatique se résume à
l’exploitation des relations de base, comme l’héritage conceptuel ou l’inclusion spatiale
et est réalisable à l’intérieur des formalismes comme les bases de données relationnelles.
3.3.2
Les fonctionnalités offertes par les structures sémantiques
Nous décrivons, dans les sous-sections suivantes, les principaux rôles des structures
linguistiques dans les systèmes de recherche d’images basés sur la sémantique.
3.3.2.1
Reformulation automatique des requêtes
L’introduction de ressources sémantiques dans la recherche d’images permet une reformulation automatique des requêtes qui contribue à l’amélioration de la pertinence des
réponses. La reformulation automatique est un processus de substitution d’une demande
d’information initiale par des versions modifiées, mieux définies. Rappelons que, dans
le cadre de ce travail, nous nous intéressons aux requêtes mono-conceptuelles. La reformulation des requêtes plus complexes est un sujet suffisamment vaste et complexe pour
faire l’objet d’une étude séparée. Prenons un exemple de reformulation pour un nom
3.3. SYSTÈME DE RECHERCHE D’IMAGES BASÉ SUR LA SÉMANTIQUE
101
commun en utilisant WordNet : un utilisateur demande des images pour butterfly. Une
première observation est que le terme désigne deux concepts différents : un insecte et un
style de nage. Avec l’utilisation du réseau lexical, le système va séparer ces deux sens. Si
on considère le sens de base du terme (l’insecte) on utilisera les nœuds terminaux dans
le domaine conceptuel du premier sens de butterfly pour former des nouvelles requêtes,
composées du concept initial et des termes feuilles : butterfly + monarch, butterfly +
tortoiseshell ou butterfly + admiral (figure 3.17). La reformulation permet de structurer
les résultats, de mieux borner la requête et ainsi de proposer des réponses plus précises
puisque la probabilité de trouver une image non pertinente avec une nouvelle requête enrichie (butterfly + monarch par exemple) est plus faible que pour une requête composée
du seul concept (butterfly).
Fig. 3.17 – Images de différents types de papillons : monarch, tortoiseshell et admiral.
3.3.2.2
Structuration des résultats
Les moteurs actuels de recherche sur Internet ne proposent pas une organisation
conceptuelle des réponses. L’introduction de ressources linguistiques modélise conceptuellement l’espace de recherche guide le processus de recherche en fonction des relations
entre les concepts de la hiérarchie. La relation type — sous-type est utilisée dans notre
approche pour décrire un concept par l’intermédiaire de ses héritiers. Dans la figure
3.18, nous présentons les résultats renvoyés par Google à la requête skyscraper (trois
des images représentent une maquette ou une image de synthèse). Si on réalise d’abord
une reformulation automatique avec des instances de gratte-ciel, comme Eiffel Tower,
Empire State Building, Petronas Towers ou Sears Tower, les réponses obtenues seront
celles de la figure 3.19, on notera la cohérence et la diversité des résultats.
3.3.2.3
Navigation enrichie
L’exploitation de ressources linguistiques à large échelle permet aux systèmes de recherche d’images d’aider l’utilisateur à mieux définir sa recherche mais aussi d’actualiser
les connaissances de l’utilisateur ou de le faire en découvrir de nouvelles. La structure
des hiérarchies permet la présentation de trois types de concepts associés à la requête
courante :
102
CHAPITRE 3. DÉMARCHE DE LA THÈSE
Fig. 3.18 – Images de skyscraper de Google Images.
Fig. 3.19 – Images structurées de skyscraper.
3.3. SYSTÈME DE RECHERCHE D’IMAGES BASÉ SUR LA SÉMANTIQUE
103
– Concepts spécialisés : si la requête building est proposée, le moteur de recherche
peut proposer des raffinements comme house, skyscraper ou theater qui elles-mêmes
peuvent conduire à d’autres concepts spécialisés comme Eiffel Tower, Empire State
Building ou Petronas Towers dans le cas de skyscraper.
– Termes généraux : si l’on reprend la requête building, les hypéronymes incluent
des concepts comme structure, artifact ou object. Si la requête initiale porte sur
les Petronas Towers, des termes comme skyscraper ou building apparaı̂tront parmi
les propositions plus génériques. Dans ce cas, l’utilisateur est invité à explorer des
espaces conceptuels plus larges que celui de départ.
– Termes du même niveau de généralité : pour une requête avec Empire State Building, les termes proches incluent Sears Tower ou Petronas Towers.
L’amélioration de l’interactivité obtenue en utilisant l’héritage conceptuel ne s’accompagne pas d’une complexification de l’interaction entre l’utilisateur et le système puisque
l’utilisateur se voit proposer des résultats pour chacune de ses propres requêtes, contrairement aux expériences comme Yahoo ! Directory ou Picsearch Directory, où l’utilisateur
doit choisir sa requête en naviguant dans plusieurs niveau d’une hiérarchie de concepts.
Ce dernier type de navigation devient vite fastidieux et inadapté à une utilisation grand
public et à une modélisation de larges domaines.
3.3.2.4
Adaptation des résultats par rapport aux concepts représentés
En fonction du domaine conceptuel et en utilisant des structures sémantiques adaptées,
il devient possible d’adapter les réponses du système en fonction de différentes propriétés
comme des propriétés temporelles ou spatiales. Pour les objets géographiques, il est ainsi
très utile d’adapter et structurer les réponses du système en fonction de caractéristiques
sur la localisation et les dimensions des entités géographiques. Par exemple, pour la
requête Notre Dame de Paris on privilégiera naturellement des images ayant des coordonnées spatiales (si accessibles) proches des coordonnées exactes du monument parisien.
De même, en utilisant des techniques de classification supervisée [89], il est possible de
séparer les vues intérieures ou extérieures de la cathédrale. Cette séparation est rendue possible en sachant a priori que Notre Dame de Paris est une cathédrale (donc un
bâtiment) et que ce type de classification (intérieur/extérieur) a un sens pour ce type
d’objet (contrairement au Pont Alexandre III par exemple).
Quant à la modélisation des caractéristiques temporelles, reprenons un exemple de
célébrité, comme Jack Nicholson. Si on extrait la filmographie de l’acteur, il est possible
de présenter les réponses en reformulant la requête à partir des titres de ses films les plus
connus (ou des rôles correspondants).
La prise en compte des propriétés spécifiques à des domaines conceptuels peut améliorer
la présentation des résultats et enrichir l’interaction de l’utilisateur avec le système.
Cette modélisation n’est pas faite actuellement par les moteurs de recherche standard.
Cependant, on retrouve des contributions importantes dans des travaux comme [1],
pour les concepts géographiques, ou dans [93] pour la dimension temporelle (détection
d’événements), mais l’utilisation des relations entre les concepts est moins riche que dans
notre approche.
104
3.3.3
CHAPITRE 3. DÉMARCHE DE LA THÈSE
Architecture de recherche sémantique d’images
Dans cette section, nous présentons notre approche de la recherche d’images sur
Internet qui repose sur l’exploitation de structures linguistiques. Comme souligné dans
la section 3.3.2, nous offrons une meilleure place à l’utilisateur, en lui proposant une
interaction enrichie, tout en gardant la simplicité d’utilisation des applications.
Dans la figure 3.20, nous présentons une architecture de recherche d’images intégrant
une ressource linguistique et des techniques de traitement d’images.
Fig. 3.20 – Architecture d’un système de recherche d’images basé sur la sémantique. Les
bases de données sont figurées sous forme de rectangles, les composants actifs comme
des rectangles arrondis et les requêtes sous forme d’ellipses.
Le système dont l’architecture est présentée dans la figure 3.20 permet à l’utilisateur
de poser deux types de requêtes : textuelles et images. Nous rappelons que les requêtes
images ne viennent qu’en complément des requêtes textuelles. La structure linguistique
contient un ensemble de concepts et de relations entre ces concepts utilisables pour
la recherche d’images. Ses rôles, incluant la reformulation automatique des requêtes,
la structuration des résultats ou l’amélioration de la navigation, ont été décrits plus en
détail dans la section précédente. La base d’images locale représente la copie d’une partie
du corpus d’images d’Internet, ce cache permettant d’améliorer le temps de réponse du
système. La base locale est enrichie à chaque fois qu’une nouvelle requête est lancée par
un utilisateur. Le sélecteur de concepts reçoit en entrée la requête brute de l’utilisateur,
la compare au contenu de la structure linguistique et en retient l’information utile pour
traiter la requête initiale. Le collecteur d’images teste si la requête a été déjà formulée.
Dans le cas contraire, il va chercher les images correspondantes en utilisant le corpus
d’Internet. Le moteur de recherche par le contenu réalise une indexation des images dans
3.4. LES DÉFIS SOULEVÉS PAR NOTRE APPROCHE
105
la base locale et une recherche visuelle à chaque fois qu’une image est posée en question.
Un fonctionnement typique de l’application comprend :
– La formulation d’une requête textuelle par l’utilisateur, qui est ensuite envoyée au
sélecteur de concepts.
– Le sélecteur de concept extrait l’information utile pour la requête donnée et l’envoie soit vers le collecteur d’images, soit vers l’utilisateur. Dans le premier cas, il
s’agit de la requête reformulée à l’aide de la structure linguistique pour laquelle il
est demandé de trouver des images. Si les images existent dans la base locale, elles
sont directement affichées, sinon elles sont téléchargées à partir d’Internet. L’information extraite de la structure linguistique envoyée directement à l’utilisateur
inclut une série de requêtes proches par rapport à la requête initiale.
– Chacune des requêtes affichées peut amorcer une nouvelle recherche. Sur toutes
les pages de réponses, une fois les images affichées, elles peuvent initialiser une
recherche par contenu visuel.
L’architecture de recherche décrite dans cette section est générale, la structure linguistique pouvant modéliser des domaines différents. Nous appliquons notre démarche à
nos trois domaines conceptuels :
– Les noms communs : notre application, nommée Olive, est décrite dans la section
5.1 et exploite une version adaptée de WordNet (voir la section 4.1.1).
– Les entités géographiques : notre application, nommée ThemExplorer est décrite
dans la section 5.2. Elle utilise Geonames (voir la section 4.1.2), enrichi d’un
thésaurus géographique structuré automatiquement (voir la section 4.2).
– Les célébrités : notre application, nommée Safir, est décrite dans la section 5.3 et
exploite une structure linguistique extraite à partir de Wikipédia (voir la section
4.3).
3.4
Les défis soulevés par notre approche
Nous proposons une nouvelle méthodologie de recherche d’images basée principalement sur l’utilisation de structures linguistiques à grande échelle. Cette s’approche
s’efforce de conserver les principaux avantages des moteurs de recherche actuels : la simplicité d’utilisation et la couverture de l’espace de recherche. Cette démarche soulève
plusieurs défis à la fois théoriques et pratiques que nous relevons dans les deux chapitres
sections suivantes.
3.4.1
Défis d’ordre théorique
– Les ressources linguistiques doivent contenir des concepts et des relations de manière
à modéliser une structure du domaine qui soit communément acceptée (dans notre
cas, non pas acceptée par une communauté de spécialistes mais par le grand public). Les utilisateurs doivent reconnaı̂tre, dans les possibilités d’interaction proposées par le système, une modélisation cohérente avec leurs pratiques liées au
domaine donné.
106
CHAPITRE 3. DÉMARCHE DE LA THÈSE
– Malgré l’automatisation de certaines étapes constituant le processus de recherche
d’images dans nos systèmes, il nous paraı̂t important de laisser à l’utilisateur une
impression de contrôle et de liberté.
– La présentation de requêtes proches doit préciser, pour chaque proposition, quel est
son rapport avec la requête initiale (s’il s’agit d’une spécialisation, d’une généralisation ou d’une requête du même niveau de généralité. . .). Nous avons présenté, dans
le chapitre 2, quelques exemples de propositions de requêtes proches faites par Ask
et nous avons souligné que ces propositions sont souvent inadéquates.
– La modélisation de la notion de similarité entre les images, dont nous avons évoqué
différents aspects dans la sous-section 3.2.1 reste un défi important. Tout en étant
conscients qu’une modélisation formelle de la similarité entre deux images reste
partielle, nous nous donnons comme but de prendre en compte plus de dimensions
que dans les systèmes actuels en accord avec les théories de la similarité développées
en sciences cognitives. Les moteurs actuels proposent uniquement des recherches
catégorielles, censées retourner un ensemble d’images illustrant une requête et
modélisent ainsi uniquement la similarité des concepts représentés. Nous proposons, en complément de la recherche par similarité conceptuelle, une restriction de
la recherche d’images basée sur leur contenu visuel. Cette utilisation de deux types
différents de similarité entre les images donne une place privilégiée à la proximité
conceptuelle et est motivée par les faibles performances des systèmes de recherche
d’images basés sur le contenu.
– La recherche par images exemple est un cas de recherche directionnelle [113], illustrant une situation où l’utilisateur est intéressé par un document particulier et veut
explorer son voisinage. Elle est particulièrement utile dans le cas de requêtes pour
lesquelles le système renvoie un grand nombre de réponses. Dans les systèmes actuels, si un utilisateur a trouvé une image qu’il considère comme intéressante parmi
les premières pages de résultats , il lui faudra parcourir les pages de réponses suivantes une par une pour trouver des images similaires (et sans doute encore plus
adaptées à son besoin). Une recherche par le contenu renverra immédiatement un
ensemble de photographies similaires. Comme le montrent les études de fichiers
de log [61], [130], l’exploration linéaire est très limitée, les utilisateurs regardant
rarement au-delà de la troisième page de réponses textuelles, mais la situation est
différente pour la recherche d’images ce qui souligne l’importance des méthodes
complémentaires d’exploration de l’espace des réponses.
– Dans la section 2.1, nous avons passé en revue le standard MPEG et nous avons
vu qu’il était possible de décrire le contenu des images en utilisant plusieurs caractéristiques visuelles (couleur, texture, forme, contours etc.). Ces caractéristiques
sont extraites selon des approches globales ou locales, généralement à partir de
points d’intérêts [87]. Intuitivement, les deux types de descriptions sont complémentaires et de plus en plus de travaux utilisent ou étudient leur combinaison. Néanmoins
peu de travaux se sont intéressés à mettre en relation le contenu visuel et le contenu
conceptuel. Nous pouvons raisonnablement supposer que l’importance d’un type
de descripteur varie en fonction du contenu de la photographie : une image de
3.4. LES DÉFIS SOULEVÉS PAR NOTRE APPROCHE
107
coucher de soleil serait mieux décrite par un descripteur global couleur que par un
ensemble de descripteurs locaux comme les SIFTs, ce qui ne serait sans doute pas
le cas pour une photographie de la Tour Eiffel.
3.4.2
Défis d’ordre pratique
Nous avons déjà mentionné le besoin d’assurer une bonne couverture des ressources
linguistiques employées. Le processus de construction pose d’importants problèmes liés
à la disponibilité des données brutes. Ces dernières sont récupérables à partir d’Internet,
mais le processus de récupération des données est long car il est nécessaire de ne pas
encombrer les serveurs sources (et accessoirement de ne pas se faire « black-lister »).
Par exemple, pour collecter les fréquences associées à un million de concepts dans un
moteur de recherche, en lançant une requête toutes les dix secondes, plus de 100 jours
sont nécessaires. La charge de calcul devient encore plus importante quand on s’attache
à évaluer les relations entre les concepts (nombre de requêtes en n2 , avec n le nombre
de concepts).
Le processus d’indexation d’images par le contenu est également long. Les volumes
indexées actuellement dépassent rarement les dizaines de millions d’images [109]. Encore
plus important, la phase de recherche d’images par le contenu doit se faire en temps réel
pour représenter un réel intérêt pour les utilisateurs.
108
CHAPITRE 3. DÉMARCHE DE LA THÈSE
Chapitre 4
Adaptation et construction de
structures linguistiques pour la
recherche d’images sur Internet
Dans le chapitre précédent, nous avons présenté quelques aspects théoriques sur la
structure des ressources linguistiques. Partant du constat que les structures existantes
sont utiles mais insuffisantes pour la recherche d’images sur Internet, nous présentons
ici l’adaptation de ces ressources et la construction de nouvelles structures sémantiques.
4.1
Adaptation de WordNet et Geonames
L’exploitation de WordNet et Geonames dans un système de recherche d’images
nécessite une adaptation de leur contenu. La modification du contenu de ces deux ressources est réalisée selon les mêmes règles, à savoir :
– la sélection de l’information utile à notre application ;
– l’ajout d’une mesure de pertinence à chaque concept ;
– la mise en place d’un accès rapide aux connaissances dans les deux structures ;
Nous détaillons ce processus d’adaptation des ressources dans les deux sections suivantes.
4.1.1
Adaptation de WordNet
Nous modélisons en priorité le domaine des noms communs, gardant toutefois les
instances présentes dans la hiérarchie lexicale. Si nous nous rapportons aux définitions
d’une structure conceptuelle (section 3.3.1), nous remarquons que la ressource adaptée
comprend plusieurs définitions données dans ce chapitre :
– le(s) nom(s) du concept (déf. 1) ;
– la séparation entre les classes et les instances (déf. 2) ;
– une structure basée sur l’héritage conceptuel (déf. 4) ;
– une valeur de pertinence associée aux concepts (autres relations).
109
110
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
Ces définitions permettent l’identification unique de tous les sens des noms inclus
dans WordNet, une structuration de leur voisinage conceptuel et un ordonnancement
des concepts et relations en fonction de leur pertinence.
La base de données lexicales contient des informations concernant plusieurs types
grammaticaux, comme les noms, les verbes, les adjectifs. Étant donné le domaine d’application envisagé, nous ne gardons que la hiérarchie des noms. Comme déjà mentionné,
WordNet offre une bonne couverture des noms communs et est structuré pour refléter
les relations d’héritage conceptuel entre ces noms. Dasn sa version 3.1, la hiérarchie des
noms contient :
– 81246 synsets ;
– 117798 chaı̂nes nominales uniques, correspondant à un total de 145104 sens ;
– le nombre de synsets feuille est d’approximativement 65000 ;
– la polysémie moyenne de la hiérarchie des noms est de 1,23.
4.1.1.1
Ajout d’une valeur de pertinence
Ordonner les différents concepts est un moyen efficace de rendre la navigation, dans
la volumineuse hiérarchie de WordNet, moins fastidieuss. Étant donné la grande variété
conceptuelle des noms à considérer, nous avons exploité Internet pour obtenir une valeur
de pertinence pour chaque terme de WordNet. Notre objet d’étude étant les images, il
nous a semblé approprié d’interroger le corpus photographique de Google Images plutôt
que le moteur de recherche textuelle. Des requêtes ont été lancées pour chaque synset de
la hiérarchie, contenant le premier terme du synset et le premier terme du synset parent.
Le terme parent est employé pour désambiguı̈ser les requêtes et d’obtenir des valeurs de
pertinence attachées à chaque sens d’un nom. Ce choix s’explique par le fait que nous
attachons des ensembles d’images aux synsets et donc aux différents sens d’un mot. Une
première valeur de pertinence serait donc la fréquence jointe (fréquence de cooccurrence)
de chaque terme et de son parent immédiat, que l’on notera f reqW eb.
Dans un premier temps, nous avions utilisé cette mesure pour ordonner les concepts
mais elle s’est avérée moins adaptée qu’une mesure prenant également en compte la
structure de la hiérarchie conceptuelle de WordNet :
Soit c1 et c2 deux concepts de WordNet (c2 étant dans notre cas le concept parent
de c1 ), la nouvelle mesure de pertinence, notée P ertin est :
P ertin(c1 , c2 ) =
f reqW eb(c1 , c2 ) ∗ distance(c1 , c2 )
sens(c1 )
(4.1)
Où :
– f reqW eb : la fréquence de cooccurrence des deux termes sur le Web ;
– distance : le nombre de nœuds dans la hiérarchie séparant c1 et c2 ;
– sens : le nombre de sens différents de c1 .
Cette mesure pondère la fréquence de cooccurrence sur le Web de deux concepts avec
un terme représentant la structure de la hiérarchie qui favorise les parties les plus riches
de la sous-hiérachie déterminée par c2 et pénalise les concepts polysémiques qui sont plus
susceptibles d’introduire du bruit dans les résultats. Si on prend l’exemple de dog (comme
4.1. ADAPTATION DE WORDNET ET GEONAMES
111
animal), les concepts feuilles jugés les plus représentatifs avec l’utilisation exclusive de
statistiques du Web sont pooch, pug, Newfoundland et basset. Pour les premiers deux
termes, il s’agit respectivement de deux héritiers directs de dog tandis que le troisième
est un mot polysémique. Après l’introduction du terme prenant en compte la structure
de la hiérarchie dans le calcul de la pertinence, les concepts feuilles considérés comme
les plus pertinents pour dog sont : collie, basset, german shepherd et doberman. Il s’agit
dans ces cas de races de chien bien connues et la représentativité du concept initial en
est améliorée
4.1.1.2
Modification du format
Le format natif de WordNet n’est pas adapté à notre utilisation et il est nécessaire
de réaliser des pré-calculs afin d’optimiser l’accès aux données. En fonction de son statut
dans la hiérarchie, l’entrée dédiée à chaque synset contiendra un certain nombre d’informations relatives à son voisinage conceptuel. Nous présentons un exemple de format
de sortie pour un terme avec des héritiers 4.1. Le format pour les termes feuilles est
similaire, à l’exception naturellement des lignes concernant les héritiers.
Tab. 4.1 – Entrée pour dog dans le format adapté de WordNet.
Synset
Membres
Ambigu
Feuille
Héritiers feuille
Héritiers
Termes du même niveau
Hypéronymes
dog 1
dog, domestic dog, canis familiaris
oui
non
collie, basset, german shepherd, doberman
poodle, corgi, spitz, cur, hunting dog, working dog,
toy dog, dalmatian, griffon
wolf, fox, hyena, wild dog, domestic cat, bitch, jackal
domestic animal, canine, organism, living thing,
physical entity, object
Les éléments du tableau 4.1 offrent plusieurs types d’information sur le premier sens
du terme dog :
– le synset contient plusieurs termes ;
– dog est ambigu ;
– il s’agit d’un terme ayant des héritiers dans WordNet.
Quant au voisinage conceptuel, le tableau contient une liste des termes feuilles les
plus fréquents qui seront utilisés pour structurer les images. Il y a deux lignes différentes
pour les héritiers : la première contient exclusivement des termes feuilles et la seconde
favorise la présentation des termes ayant eux-mêmes des héritiers dans WordNet.
La relation d’héritage permet d’associer des classes d’images uniquement aux synsets
feuilles de la hiérarchie et de proposer, par propagation, ces images également pour les
112
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
concepts non-feuille. La description des termes contient un pointeur vers leur statut
hiérarchique, donnant ainsi une information concernant l’existence d’une classe d’images
attachée directement au synset respectif.
4.1.1.3
Évaluation
Nous évaluons l’adaptation de WordNet en comparant la structure obtenue avec une
structure linguistique dédiée à la description des relations inter-conceptuelles, accessible
via l’interface du moteur de recherche Ask. Nous effectuons deux types de tests :
– un premier test pour évaluer la qualité du voisinage conceptuel des termes dans
les deux structures ;
– un second test pour comparer la couverture des deux structures.
Nous avons sélectionné 20 concepts de WordNet (tableau 4.2) correspondant approximativement au niveau de représentation de base de Rosch [112] et appartenant à des
domaines conceptuels différents. Le choix des termes a été guidé par les considérations
suivantes : avoir un panel représentatif pour les entités physiques de WordNet, proposer
des termes généralement connus et ne pas surcharger l’utilisateur. Pour chaque terme,
nous avons extrait un nombre maximal de dix requêtes proches à partir de la version
adaptée de WordNet et de la base de connaissances proposée par Ask. Les requêtes
proches incluent à la fois des requêtes plus générales et plus spécifiques que le concept
initial.
Tab. 4.2 – Concepts de WordNet pour l’évaluation du voisinage conceptuel.
Classe générale
Animaux
Plantes
Concepts naturels
Artéfacts
Concepts
dog ; bear ; duck ; shark ; frog
apple ; maple ; poplar ; cactus ; rose
cloud ; mountain ; windstorm ; forest
bomb ; table ; ship ; sword ; car
L’évaluation a été réalisée par sept utilisateurs auxquels on a demandé d’évaluer
chaque proposition de nom proche sur une échelle de 1 (concepts non reliés) à 3 (forte
relation entre les deux termes). Les concepts de test et leurs termes proches ont été
présentés dans une même interface afin d’assurer la neutralité des évaluateurs. Le test
était conçu pour durer environ 30 minutes mais les utilisateurs avaient le choix de
s’arrêter à tout moment. Sur les sept évaluations, quatre étaient complètes et trois incomplètes. Comme le test incluant des termes (en anglais) dans des domaines conceptuels
variés, certains termes pouvaient ne pas être connus par les évaluateurs. Dans ces cas,
ces derniers avaient la possibilité de le signaler (indice 0 sur notre échelle). Néanmoins,
afin de limiter le nombre de termes inconnus, nous avons permis aux testeurs d’afficher
des images illustratives pour les termes inconnus (mais par défaut les images n’étaient
pas affichées).
4.1. ADAPTATION DE WORDNET ET GEONAMES
113
Tab. 4.3 – Evaluation du voisinage conceptuel proposé utilisant WordNet et Ask.
Testeur 1
Testeur 2
Testeur 3
Testeur 4
Testeur 5
Testeur 6
Testeur 7
Moyenne
Proximité
WordNet
2,53
2,62
2,64
2,72
2,77
1,96
2,76
2,57
(max. 3)
Ask
2,16
2,71
2,35
2,65
2,31
1,75
2,14
2,29
Termes inconnus
WordNet
Ask
7%
3,4%
25%
14,2%
8,5%
5,7%
3%
0,6%
19,5%
10,8%
8%
1,7%
0%
0%
10,1%
5,2%
Les résultats du tableau 4.3 montrent que la qualité moyenne du voisinage conceptuel
d’un terme proposé exploitant WordNet est supérieure à celle d’Ask (2,57 contre 2,29
sur 3). À l’exception d’un utilisateur, les résultats pour chaque utilisateur suivent cette
tendance. Il est intéressant de remarquer que le résultat favorable à Ask est obtenu pour
l’utilisateur ayant reconnu le plus de termes inconnus. À l’exception du sixième testeur,
les résultats pour WordNet sont assez cohérents, se situant entre 2,53 et 2,77, ceux pour
Ask se situant entre 2,14 et 2,71.
Nous avons observé une tendance des évaluateurs à considérer positivement les
requêtes plus spécifiques que le concept initial, montrant ainsi l’utilité d’une reformulation automatique dans un processus d’assistance à la précision des requêtes. De même,
sont sélectionnées les requêtes proches contenant explicitement le terme initial (ex. red
maple ou vine maple pour maple).
Le nombre de requêtes inconnues est plus important pour WordNet que pour Ask
(10,1% contre 5,2%). Cela s’explique principalement par le fait que, pour WordNet, nous
proposons souvent des termes spécialisés ne faisant pas forcément partie du vocabulaire
commun (ex. garganey ou lesser scaup pour duck ) et que l’anglais n’est pas la langue
maternelle de la majorité des testeurs. Pour Ask, les requêtes proches proposées par le
moteur sont souvent des termes du même niveau de généralité que le concept initial (ex.
horse ou monkey pour dog).
Le voisinage conceptuel est plus riche quand on utilise WordNet qu’avec une reformulation d’Ask. Pour 13 des 20 termes testés, Ask propose au moins dix requêtes proches.
Par exemple, pour cactus le moteur de recherche ne propose que cinq termes proches.
Grâce à la richesse de la hiérarchie conceptuelle de WordNet, le voisinage contient au
minimum dix termes pour tous les concepts testés. Pour ne pas surcharger l’utilisateur,
il est souhaitable de ne pas représenter un trop grand nombre de requêtes proches, d’où
l’importance de classer les termes proches par rapport à leur relation avec la requête
initiale comme nous l’avons précédemment détaillé avec l’équation 4.1.
114
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
Dans le chapitre 2, nous avons mentionné l’imprécision des relations présentées dans
l’interface d’Ask. Par exemple, la catégorie « requêtes plus générales » de dog inclut
chihuahua et golden retriever, des requêtes plus précises ou horse et monkey, des animaux
qui ne sont pas des hypéronymes de dog. Quant aux requêtes plus spécifiques, Ask propose
souvent des expansions contenant explicitement la requête initiale comme search free dog
ou choosing a dog qui ont une utilité très limitée en recherche d’images.
4.1.2
Adaptation de Geonames
4.1.2.1
Sélection de l’information utile
La structure de Geonames offre une bonne modélisation du domaine géographique
mais, tout comme WordNet, Geonames doit être adaptée à notre domaine d’application.
Contrairement à WordNet, le contenu de Geonames est majoritairement composé d’instances (environ six millions) et simplement de deux niveaux hiérarchiques supérieurs
(huit catégories au niveau le plus général et 645 au second niveau). La version adaptée
de Geonames utilise la structure sémantique suivante :
–
–
–
–
–
nom du terme (déf. 1) ;
séparation classe/instance (déf. 2) ;
subsumption conceptuelle (déf. 4) ;
inclusion spatiale (déf. 7) : relation spécifique au domaine géographique ;
valeur de pertinence (autres relations) : relation spécifique au domaine d’application.
Geonames contient des informations utiles à notre cas d’application comme le nom de
l’objet géographique, sa position ou son hypéronyme. Il contient aussi des informations
dont on peut se dispenser et qu’on retire de la structure finale de la base de données
afin d’améliorer la vitesse d’accès aux informations : une liaison vers la catégorie la plus
générale, les renseignements spécifiques à certains types d’entités (altitude maximale
pour les montagnes, population pour les villes). Pour une utilisation en recherche d’information, il est nécessaire d’ajouter une valeur de pertinence aux entités incluses dans
la version adaptée de Geonames.
Similairement à la recherche de noms communs, nous essayons d’associer des images
à des entités bien définies et on peut élaguer Geonames afin d’éliminer les termes trop
généraux. Les noms d’entités administratives (villes, départements, régions, pays) sont
éliminés car ils n’ont pas une représentation visuelle bien définie. Ces régions de la
carte seront représentées par des objets spécifiques (églises, musées, monuments. . .),
plus cohérents du point de vue visuel. Après cet élagage, il reste environ trois millions
d’éléments dans la version adaptée du thésaurus mais avec une répartition géographique
non uniforme. Nous décrivons dans la section suivante, une approche pour la construction
automatique d’une base de données géographiques permettant d’étendre Geonames et
d’assurer une meilleure couverture.
4.1. ADAPTATION DE WORDNET ET GEONAMES
4.1.2.2
115
Valeur de pertinence associée aux noms géographiques
Dans [94], Naaman et al. considèrent que la difficulté principale liée à l’exploitation
des ressources existantes en recherche d’information géographique est l’absence d’une
valeur de pertinence attribuée aux éléments d’un thésaurus. Nous proposons une mesure de pertinence basée sur la fréquence d’apparition d’une entité dans deux corpus de
référence : Panoramio et Alltheweb. Panoramio est bien adapté puisqu’il est entièrement
dédié aux images d’objets géographiques. Néanmoins, malgré la qualité des renseignements, il n’assure pas — à l’heure actuelle — une couverture suffisante pour différencier
tous les éléments découverts. Alltheweb, plus généraliste, est moins spécialisé mais assure
une bonne couverture. Nous proposons donc le calcul d’une valeur de pertinence qui tient
compte en premier lieu des informations de Panoramio puis d’Alltheweb. Afin de gérer
la polysémie des noms géographiques (ex. Notre Dame Church va apparaı̂tre plusieurs
fois), nous proposons une limitation de l’espace de recherche autour des coordonnées
du monument et calculons la pertinence uniquement pour les images se trouvant dans
un rayon de moins de 10 km autour des coordonnées de l’entité dans Geonames. Pour
Panoramio, la valeur de pertinence est obtenue en utilisant l’équation 4.2.
pertinP ano(candidat) = f req(candidat) ∗ utilDif f (candidat)
(4.2)
Où :
– f req est le nombre d’images contenant le nom géographique candidat dans leur
titre,
– utilDif f est le nombre d’utilisateurs différents qui ont mis en ligne des images
contenant candidat dans leur titre.
Le premier terme de l’équation prend en compte le nombre total d’apparitions d’une
image dans Panoramio. Le deuxième terme introduit une notion de popularité de l’entité
géographique. L’équation 4.2 permet d’éviter que des entités beaucoup photographiées
par peu de personne soient mieux classés que des objets photographiés par beaucoup de
personnes différentes. Nous considérons comme plus représentatif un objet apparaissant
100 fois dans Panoramio mais photographié par 50 personnes qu’un autre ayant 150
images mais photographié par seulement trois personnes.
Fréquemment, des valeurs de pertinence calculées à partir de Panoramio s’avèrent
égales notamment pour les entités géographiques plus rares. Si deux entités géographiques
ont une même valeur de pertinence alors on considère comme plus importante celle ayant
le plus de pages de réponses proposées par Alltheweb.
4.1.2.3
Modification du format
Geonames est fourni sous forme d’un fichier texte contenant 18 champs pour chaque
objet de la base de données. Comme nous l’avons vu, nous ne conservons qu’une partie
de ces informations. Nous présentons un exemple de format de sortie dans le tableau 4.4
Les différentes caractéristiques des entités géographiques permettent de les associer
à une classe parent, de les localiser et de les classer par rapport à d’autres objets du
thésaurus. Ces informations permettent d’interroger la base de données en limitant à
116
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
Tab. 4.4 – Format de la version modifiée de Geonames.
Nom de l’objet
Classe parent
Latitude
Longitude
Pertinence Panoramio
Pertinence AlltheWeb
Golden Gate Bridge
bridge
37,819
-122,479
253300
85000
la fois spatialement et conceptuellement la recherche. De plus, l’ajout d’une valeur de
pertinence permet de présenter les éléments les plus saillants en priorité. Le thésaurus
obtenu est sauvegardé en format SQL. L’évaluation du classement des entités par ordre
de pertinence est réalisée dans la section 4.2.8.
4.2
Construction automatique d’un thésaurus géographique
Geonames offre une couverture des noms de lieux de qualité variable selon les régions
du monde. Les Etats-Unis sont représentés par plus de 1800000 entités, la France environ 115000 et la Roumanie approximativement 25000. L’enrichissement manuel d’une
ressource à large échelle, comme Geonames, serait particulièrement coûteux. Nous proposons ici une méthode automatique d’enrichissement, créant un thésaurus nommé Gazetiki
qui inclut Geonames et des connaissances supplémentaires extraites à partir du Web.
Rattenbury et al. [110] furent parmi les premiers à proposer une méthode automatique d’extraction d’informations géographiques avec une analyse statistique multi
échelles des données textuelles associées aux images géo-localisées de Flickr. La base
de données obtenue contient les noms des entités, une mesure de pertinence attachée à
chaque élément et des informations de localisation mais ne contient aucune information
de catégorisation des instances dans des classes géographiques plus générales. Aussi, la
structure minimale d’un thésaurus géographique, telle que définie par Hill et al. dans
[50] n’est pas respectée dans [110].
4.2.1
Modélisation du domaine
Nous partons de la structure de Geonames pour proposer un modèle de description du
domaine géographique. Le choix de modéliser la structure construite automatiquement
en se basant sur Geonames comporte deux avantages majeurs :
– Le travail de modélisation repose sur celui des spécialistes du domaine géographique.
– L’intégration des deux bases de données est quasi immédiate.
Comme mentionné dans [94], si on analyse le modèle de Geonames (et d’autres
thésauri géographiques) du point de vue d’une exploitation en recherche d’information,
4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE117
on constate que le manque d’une information de pertinence de chaque élément rend les
thésauri difficilement utilisables.
La structure construite automatiquement contient une partie des relations qui définissent une structure sémantique (voir 3.3.1) :
– Nom géographique : identifie le terme et correspond à la (déf. 1). Si l’on regarde
la différence entre concepts et instances (déf. 2), les noms géographiques sont des
instances.
– Classe parent : définition d’une relation d’héritage conceptuel (déf. 4).
– Coordonnées géographiques : association du nom géographique à une position spatiale. Les coordonnées renseignent une relation spécifique au domaine conceptuel
modélisé (déf. 8).
– Valeur de pertinence : les valeurs de pertinence correspondent à une relation
spécifique au domaine d’application envisagé (déf. 8).
Ces quatre éléments permettent une identification unique de tout objet géographique
et forment la structure de base de Gazetiki. Le vecteur (Nom géographique, Classe parent, Coordonnées géographiques, Valeur de pertinence) respecte la définition minimale
d’un thésaurus donnée par [50] et inclut, en plus, une valeur de pertinence associée à
chaque élément. Tout comme dans Geonames, nous allons extraire d’autres informations
pour certains objets.
4.2.2
Sources d’information géographique sur Internet
Nous avons identifié plusieurs ressources exploitables pour la création automatique
de notre thésaurus géographique mais aucune ne contient l’ensemble des informations
nécessaires. Nous combinons donc des données provenant de sources hétérogènes : Wikipédia, Panoramio et Alltheweb.
Wikipédia
La très populaire encyclopédie collaborative inclut un nombre important d’articles
géo-référencés. On peut en extraire des informations géographiques ou atteindre d’autres
articles intéressants mais non géo-référencés. L’analyse du contenu de chaque article
permet l’obtention du triplet (Nom géographique, Classe, Coordonnées) ou seulement la
paire (Nom géographique, Classe). Dans les deux cas, il n’est pas possible d’associer une
valeur de pertinence aux noms de lieux à partir du contenu de Wikipédia.
Le mode de création des articles Wikipédia (contribution communautaire) peut
légitimement soulever des doutes quant à la qualité des connaissances introduites. [39]
a mené une étude comparant la qualité de l’information présente dans les articles Wikipédia à celle de la prestigieuse encyclopédie Britannica sur une série d’articles d’informations scientifiques. Les résultats de l’étude montrent que les deux ressources encyclopédiques contiennent des informations de qualité comparable pour l’échantillon
comparé. Des informations fausses peuvent apparaı̂tre notamment pour les sujets dits
« controversés » mais cela est rarement le cas pour les entités géographiques.
118
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
Panoramio
Panoramio est une plateforme dédiée à la mise en ligne d’images géographiques, utilisée dans Google Earth et Google Maps afin d’illustrer différents endroits du monde.
Dans Panoramio, toute photographie doit être validée comme pertinente par un autre
utilisateur pour être incluse dans le corpus d’images. Cette procédure de validation assure un faible taux de bruit contrairement à d’autres outils de partage photographique,
mais freine naturellement la croissance du corpus. Une API permet la récupération des
informations relatives aux images de Panoramio notamment : le titre de l’image, ses
coordonnées et une information sur l’utilisateur l’ayant mise en ligne. À partir de ces
données, on peut extraire le triplet (Nom géographique, Coordonnées, Pertinence). Pour
définir la classe d’appartenance, une approche naı̈ve consiste à prendre comme classe
géographique celle apparaissant explicitement dans le nom. Cette approche ne fonctionne pas dans la majorité des cas et n’est pas exempte d’erreurs. Par conséquent, il
faut extraire la classe d’appartenance de chaque élément avec des méthodes plus robustes.
Alltheweb
Alltheweb est un moteur de recherche d’information sur Internet que nous avons
utilisé pour récupérer au maximum 50 réponses associés à chaque nom géographique
candidat obtenu à partir de Wikipédia ou Panoramio. Le traitement de l’information de
Alltheweb permet : l’amélioration de la classification des noms de lieux extraits à partir
de Panoramio, l’élimination des noms candidats non-représentatifs et un raffinement de
la mesure de pertinence obtenue en utilisant Panoramio.
4.2.3
Extraction des noms géographiques
Les objets géographiques contiennent souvent une référence explicite à leur type, par
exemple Eiffel Tower, Cathedral of Learning, Golden Gate Bridge, Versailles Castle. Cela
facilite l’extraction en comparant simplement un vocabulaire de termes géographiques à
des ressources textuelles liées au domaine, comme les titres de photographies de Panoramio. Pour les noms géographiques qui n’incluent aucune référence à leur classe, comme
London Eye ou Parthenon, nous exploitons les articles de Wikipédia correspondants.
Nous constituons un vocabulaire géographique à partir des classes intermédiaires de
Geonames (645 classes). Des adaptations sont nécessaires pour les noms de divisions administratives de Geonames et pour ajouter des classes n’existant pas dans le vocabulaire
initial. Étant donné les différences dans les structures administratives des différents pays,
certaines divisions administratives ne sont pas explicites. Il faut par exemple remplacer
des dénominations comme ADM1, ADM2 par des termes plus explicites comme state, region, departement ou city. Il existe des termes ayant une forte connotation géographique
mais qui ne sont pas inclus parmi les classes intermédiaires de Geonames. Par exemple,
bien que le vocabulaire initial contienne un certain nombre de noms d’organisations
comme university ou academy, un certains nombres d’entre eux sont manquants comme
laboratory, institute, faculty ou club. Après cette adaptation et enrichissement, la version
finale du vocabulaire inclut 675 classes géographiques.
4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE119
Pour Wikipédia, nous extrayons d’abord la totalité des articles contenant des coordonnées géographiques. Les titres de ces articles vont constituer une première liste
de noms géographiques candidats à l’inclusion dans Gazetiki. Un traitement est parfois
nécessaire pour filtrer l’information de désambiguı̈sation également présente dans le titre
(ex. Queensland dans Hampton, Queensland ) et pour ne garder que le nom. Les articles
géo-localisés contiennent souvent des références à d’autres articles qui sont aussi pertinents pour notre application. Par exemple, sur les pages des villes, on trouve souvent
des liens internes « See also », « List of... » ou des sections comme « Mains sights »,
« Touristic attractions » dans lesquels on suit tous les liens pointant vers d’autres articles
de Wikipédia. Ces nouveaux articles extraits peuvent être eux-mêmes géo-localisés mais
dans ce cas leur traitement serait redondant. Dans d’autres cas, les nouveaux articles ne
contiennent pas de coordonnées géographiques et sont considérés comme de nouveaux
éléments.
Dans la liste des liens suivis, il faut faire la différence entre les articles pertinents
pour le domaine géographique et les autres. Pour ce faire nous procédons à un double
filtrage :
– Un premier filtre est constitué par le traitement des liens commençant par une
majuscule : nous ne traitons pas par exemple un lien Wikipédia renvoyant vers
« chemistry ».
– Un deuxième filtre est constitué par la présence dans la première phrase de chaque
nouvel article d’une référence à une classe géographique (voir l’exemple dans la
figure 4.1). Par exemple, nous éliminons ainsi de la liste de candidats les noms des
personnes. Pour les liens n’ayant pas de coordonnées géographiques, nous retenons
comme coordonnées — provisoirement — celles de l’article d’origine.
Fig. 4.1 – Première phrase de l’article décrivant la cathédrale St. George de Timişoara.
Dans Panoramio, les titres des photographies constituent les seules données textuelles
exploitables. Nous utilisons notre vocabulaire géographique pour isoler des noms d’entités géographiques dans les titres. Prenons, par exemple, le titre View of the Carnegie
Museum of Natural History from the top of the Cathedral of Learning. Nous trouvons des
éléments du vocabulaire géographique commençant par une majuscule : Museum et Cathedral. Les noms complets sont obtenus par une recherche, à gauche et à droite de tous
les mots écrits en majuscule en excluant les mots de liaison (of, for, and ) en s’arrêtant
quand un article (the, a, an) ou un signe de ponctuation (’.’, ’ ;’, ’,’) est rencontré. Si
l’on rencontre des mots de liaison, on continue la recherche pour voir si le terme suivant
120
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
commence par une majuscule. À la fin du processus, nous obtenons, à partir du titre
initial, deux noms géographiques : Carnegie Museum of Natural History et Cathedral of
Learning.
Cette méthode d’extraction génère des erreurs mais, comme démontré par les tests
dans la section 4.2.8, leur proportion est assez faible. Notons que, si l’algorithme d’extraction isole seulement un nom de classe géographique (ex. Museum), celui-ci n’est pas
retenu car il ne s’agit pas d’une instance mais d’une catégorie.
Nous avons observé que les titres des images de Panoramio peuvent contenir des
erreurs orthographiques (Eiffle Tower ou Eifel Tower ). Comme la plupart des moteurs,
Alltheweb propose une correction orthographique des requêtes qui produit de bonnes
performances pour les requêtes portant sur des entités connues (comme Eiffel Tower )
permettant de corriger un certain nombre d’erreurs. De plus, nous proposons un filtrage
des noms géographiques candidats basé sur leur fréquence d’apparition sur le Web : si le
candidat a moins de 15 pages de réponses (seuil défini empiriquement) dans Alltheweb,
alors il est éliminé.
4.2.4
Catégorisation des noms géographiques
L’association d’une classe parent est réalisée différemment selon que les candidats
proviennent de Wikipédia ou de Panoramio. Dans le premier cas, nous avons adapté la
méthode de catégorisation proposée dans [70], qui repose sur l’analyse du contenu de
la première phrase de l’article Wikipédia décrivant l’objet géographique. Cette phrase
est habituellement une définition contenant une référence explicite à la classe parent
de l’objet décrit. Prenons par exemple Notre Dame de Paris. La première phrase est
Notre Dame de Paris (...) is a Gothic cathedral on the eastern half of the Île de la Cité.
L’attribution de la classe parent est faite en deux étapes :
Nous cherchons la première apparition du verbe to be et retenons la partie de la
phrase à droite du verbe : a Gothic cathedral on the eastern half of the Île de la Cité.
Toutes les classes du vocabulaire sont comparées au contenu de la partie de phrase
après le verbe to be. Nous retenons comme classe parent celle qui apparaı̂t la première. Si
aucune classe géographique n’est trouvée, l’élément est éliminé de la liste de candidats.
Les noms géographiques candidats extraits de Panoramio contiennent une référence explicite à une classe géographique. On pourrait donc se contenter de désigner cette classe
comme hyperonyme du candidat mais cette catégorisation produit des erreurs pour des
termes comme Cathedral of Learning (qui n’est pas une cathédrale mais un gratte-ciel ),
Palace of Fine Arts (un musée et non pas un palais) ou Squirrel Hill ou Notting Hill
(des quartiers et non pas des collines). Ces erreurs peuvent être corrigées en mettant en
place une méthode de catégorisation basée sur les fragments de texte présents dans les
pages de résultats d’Alltheweb. La méthode, illustrée dans le pseudo-code 4.2, s’inspire
des travaux de [49] et est similaire à celle proposée par [108] pour construire automatiquement des taxonomies. Notons aussi que l’usage des résumés de documents présentés
dans les pages de résultats des moteurs de recherche s’apparente à celui réalisé dans [14]
pour une application de questions-réponses.
4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE121
Fig. 4.2 – Pseudo-code pour la catégorisation à partir d’Alltheweb.
Notations du pseudo-code de l’algorithme de catégorisation des noms géographiques
(nommé CATEGORISATION dans la suite) utilisant les « snippets » :
– candidat : nom géographique à catégoriser ;
– concept : catégorie géographique ;
– GeoVocabulaire : liste des catégories géographiques ;
– CategExplicite : le concept dans le vocabulaire géographique présent dans le nom
candidat ;
– categTemp : variable temporaire pour stocker CategExplicite ;
– FreqSnip : fréquence d’apparition des concepts du vocabulaire géographique dans
les « snippets » ;
– freqMax : valeur maximale de la fréquence d’apparition ;
– CompteurPages : nombre de réponses dans AlltheWeb pour des définitions comme
X is a (an) Y ;
– def1, def2 : variables temporaires pour stocker les valeurs de CompteurPages.
À partir d’Alltheweb, nous récupérons les 50 premières réponses associées à chaque
nom candidat, nous éliminons le nom même de ces textes afin de ne pas biaiser les
résultats et calculons les fréquences d’apparition de chaque classe dans le vocabulaire
géographique. Si la classe associée le plus souvent au nom candidat n’est pas celle apparaissant dans le nom, deux requêtes supplémentaires sont lancées dans Alltheweb afin
de retrouver la classe parent. Supposons que la classe associée le plus fréquemment à
Squirrel Hill soit neighborhood. Nous formons une requête Squirrel Hill is a neighborhood
et récupérons le nombre de pages avec Alltheweb (trois réponses). Ensuite, nous lançons
une requête avec Squirrel Hill is a hill qui ne renvoie aucune page et attribuons donc
Squirrel Hill à la classe neighborhood.
122
4.2.5
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
Localisation des noms géographiques
La localisation des noms géographiques est immédiate pour les candidats ayant des
articles géo-localisés dans Wikipédia puisqu’il suffit d’enregistrer simplement les coordonnées. Nous proposons une recherche du nom dans un rayon de 10 km autour des
coordonnées de l’image la plus populaire parmi les photographies de Panoramio.
Fig. 4.3 – Pseudo-code pour la localisation des entités.
Notations du pseudo-code de l’algorithme de localisation (nommé LOCALISATION
dans la suite) des noms candidats :
– image : élément de Panoramio contenant le nom candidat dans son titre ;
– (lat init, long init) : coordonnées de la première image Panoramio associée à candidat ;
– dist limite : rayon maximal autour des coordonnées initiales à l’intérieur duquel
nous sélectionnons des images représentatives pour candidat ;
– latitude(image) : latitude associée à image ;
– longitude(image) : longitude associée à image ;
– ListeLat : liste contenant toutes les valeurs de latitude(image) ;
– ListeLong : liste contenant toutes les valeurs de longitude(image) ;
– lat : valeur finale de la latitude pour le nom candidat ;
– long : valeur finale de la longitude pour le nom candidat.
Si aucune image n’est associée au candidat, il est éliminé. Dans le cas contraire,
illustré par le pseudo-code de la figure 4.3, nous calculons la moyenne des coordonnées.
Une procédure similaire est mise en place pour les candidats extraits de Panoramio.
Pour les noms géographiques polysémiques, nous mettons en place une procédure de
séparation spatiale. La limitation de l’espace de recherche à une région autour du candidat permet d’éviter les erreurs dues à l’homonymie. Supposons qu’un nom candidat ait
déjà été traité. Toute image distante d’au moins 20 km des coordonnées déjà calculées
sera considérée comme différente. Si un tel élément est trouvé, une recherche dans un
rayon de 10 km autour de ses coordonnées est lancée. Cette méthode de localisation fonc-
4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE123
tionne pour les objets ayant une surface négligeable par rapport à un rayon de 10 km mais
peut naturellement engendrer des doublons pour d’autres entités plus vastes, comme les
parcs naturels. Dans l’application envisagée, l’apparition de doublons peut s’avérer utile
pour les objets ayant une grande surface puisqu’elle permet leur présentation à différents
endroits. Pour d’autres applications, nous pouvons envisager une adaptation du rayon
de recherche par rapport au type d’entité cible.
4.2.6
Mesure de pertinence associée aux noms géographiques
La valeur de pertinence associée à chaque élément de Gazetiki est similaire à celle
calculée pour l’adaptation de Geonames, détaillée dans la sous-section 4.1.2. La mesure
de pertinence est basée sur une combinaison de la popularité du terme candidat dans le
corpus de Panoramio et dans celui d’Alltheweb, avec une priorité pour la valeur obtenue
à partir de Panoramio. L’utilisation de Panoramio plutôt que d’un autre corpus comme
Flickr, s’explique par le fait que ce corpus est dédié aux images géo-référencées et permet
d’obtenir une bonne estimation de la pertinence. On ajoute la fréquence à partir du Web
car le corpus de Panoramio ne contient pas nécessairement suffisamment d’images pour
ordonner toutes les entités géographiques (il y a environ six millions d’images dans
Panoramio et approximativement quatre millions d’entités à ordonner). Une limitation
de l’espace de recherche à 10 km autour des coordonnées moyennes permet d’éliminer le
problème des termes polysémiques. L’algorithme de calcul de la pertinence est illustré
par le pseudo-code de la figure 4.4, il exploite les coordonnées calculées en utilisant
l’algorithme de localisation.
Fig. 4.4 – Pseudo-code pour le calcul de la pertinence.
Notations du pseudo-code de l’algorithme de calcul de la pertinence (nommé PERTINENCE dans la suite) :
– freqPano : nombre d’images contenant candidat dans leur titre ;
– utilDiff : nombre d’utilisateurs différents ayant mis en ligne des photographies de
candidat ;
– pertinPano : mesure de pertinence calculée à partir de Panoramio ;
– pertinWeb : mesure de pertinence calculée sur le Web ;
– pertinFinale : combinaison de pertinPano et pertinWeb.
124
4.2.7
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
Vue globale de l’algorithme
Nous présentons dans le pseudo-code de la figure 4.5 une vue globale de l’algorithme
de création de Gazetiki. L’algorithme parcourt les listes de candidats extraits à partir
de Wikipédia et de Panoramio. Les méthodes de catégorisation, localisation et calcul de
la pertinence renvoient aux descriptions des paragraphes précédents.
Fig. 4.5 – Vue globale de l’algorithme de construction de Gazetiki. En haut, extraction
d’entités géographiques à partir de Wikipédia. En bas, extraction d’entités géographiques
à partir de Panoramio.
Notons que l’algorithme traite séparément les noms candidats provenant des deux
sources de données brutes. Ceci est une conséquence de la structure différente de Wikipédia et de Panoramio. Pour chaque candidat, si les coordonnées et le concept parent
sont déterminés, la valeur de pertinence associée au nom est également calculée. Nous
avons imposé un seuil de 15 réponses sur le Web afin d’éliminer les candidats rares parce
ces derniers représentent souvent des erreurs orthographiques.
4.2.8
Gazetiki — résultats et évaluation
Nous comparons les résultats de notre approche avec ceux obtenus pour l’autre base
de données géographiques constituée automatiquement, décrits dans [110] et [1] et avec
4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE125
Geonames. Des régions d’environ 900 km2 autour de 15 villes de pays différents et de
dimensions variables (voir Table 4.5) ont été choisies manuellement. Nous leur avons
appliqué la méthodologie d’extraction automatique de noms géographiques décrite dans
cette section. Nous avons sélectionné des villes de pays ayant une représentation de
qualité variable dans Geonames. L’algorithme d’extraction a généré environ 6000 candidats et nous avons éliminé ceux dont le nom ne se retrouve pas assez souvent sur
le Web (un seuil de 15 apparitions dans les réponses fournies par Alltheweb a été fixé
empiriquement) filtrant ainsi environ 20% des candidats. Nous avons ensuite testé les
caractéristiques suivantes de Gazetiki :
– le pourcentage d’extractions correctes (évalué manuellement) ;
– la couverture de Gazetiki et celle de la ressource décrite dans [110] ;
– le taux de bonnes catégorisations des éléments extraits dans des classes parents.
L’expérience est basée sur une comparaison des éléments communs entre Gazetiki
et Geonames ;
– la précision de l’algorithme de positionnement des entités ;
– les performances de la procédure d’ordonnancement. L’expérience consiste en une
comparaison des entités les plus représentatives de Gazetiki et de la structure
dans [110] contre la liste des lieux les plus représentatifs de chaque ville selon
TripAdvisor1 ;
4.2.8.1
Extraction de candidats
Nous avons évalué le taux d’extractions correctes pour un total de 424 éléments
générés automatiquement. Pour chacune des 15 villes sélectionnées, nous avons retenu,
de manière aléatoire, un maximum de 30 entités existant aussi sur Panoramio. Notons
que certaines villes, comme Toulouse ou Tunis, ont moins de 30 noms candidats associés. Nous avons considéré comme extractions correctes les noms exacts des candidats
(ex. University of Pittsburgh ou Eiffel Tower ) ainsi que les noms incomplets mais communément employés pour décrire certaines entités (comme Le Louvre à la place de Louvre
Museum). Les résultats du test sont présentés dans le tableau 4.5.
Les résultats du tableau 4.5 montrent que notre algorithme extrait correctement les
noms géographiques dans plus de 90% des cas. Des très bons résultats sont obtenus
pour Sydney et Londres et — de manière générale — pour les villes situées dans des
pays anglophones. Des résultats moins satisfaisants sont à rapporter pour des villes
comme Toulouse ou Paris, mais il peuvent s’expliquer en partie par le fait que beaucoup
d’annotations d’images localisées dans ces villes ne sont pas faites en anglais.
Les erreurs observées sont dues à des imperfections de la méthode d’extraction. Un
premier type inclut des termes communs écrits en majuscules, comme Big House, qui
ont été retrouvés en utilisant nos règles d’extraction. Une solution simple permettant
d’éliminer ce type d’erreurs serait de ne pas retenir les candidats formés d’un adjectif
et d’un élément du vocabulaire géographique. Nous n’avons pas appliqué cette méthode
1
http ://www.tripadivsor.com (leader mondial du e-tourisme) est un site proposant une description
des destinations touristiques, avec leurs attractions, par les utilisateurs.
126
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
Tab. 4.5 – Évaluation du processus d’extraction de candidates de Gazetiki. Le tableau
présente le taux de bonnes extractions sur le nombre total d’éléments testés.
Nom de la ville
Athens (Greece)
Beijing (China)
Bucharest (Romania)
Kiev (Ukraine)
London (UK)
Moscow (Russia)
Paris (France)
Pittsburgh (US)
San Francisco (US)
Singapore
Sydney (Australia)
Timisoara (Romania)
Tokyo (Japan)
Toulouse (France)
Tunis (Tunisia)
Total
Extractions correctes/Total
28/30
26/30
28/30
27/30
29/30
27/30
26/30
28/30
28/30
29/30
30/30
29/30
28/30
7/10
22/24
394/424
car elle filtrerait aussi des noms géographiques correctes comme White Pagoda (Beijing)
ou Red Square (Moscow ). Nous avons également jugé comme des erreurs des termes
vagues, par exemple Athens Theater, considérant qu’ils correspondaient à plusieurs objets
géographiques distincts.
Pour Wikipédia, la précision de l’extraction atteint pratiquement 100% parce qu’il
s’agit de noms géographiques introduits manuellement par des utilisateurs et représentant
le titre de l’article. Comme approximativement un tiers du nombre total d’entités extraites provient de Wikipédia, le taux de bonnes extractions avoisine 95%.
Le dernier résultat est à comparer à la précision de 82% rapportée dans [110], correspondant à l’autre base de données géographiques à large échelle constituée automatiquement dont nous avons connaissance. Nous rappelons au lecteur que notre comparaison
ne porte pas sur la méthode d’extraction ou les corpus de données brutes, mais plutôt
sur les résultats obtenus. La méthode utilisée dans [110] est basée sur une analyse statistique, alors que notre approche pour Gazetiki repose principalement sur l’utilisation de
patrons linguistiques. Si l’on compare les corpus utilisés, celui de base dans [110] contenait environ 30 millions d’annotations d’images géo-référencées à l’époque de l’écriture
de l’article [110] tandis que le corpus de Panoramio contient seulement cinq millions
d’images et d’annotations. La précision de 82% rapportée dans [110] est obtenue en
éliminant 50% des candidats (ceux apparaissant le moins fréquemment), notre seuillage
de Gazetiki ne filtre que 20% des noms candidats, aussi on peut conclure qu’on améliore
4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE127
la précision des résultats tout en retenant un plus grand nombre d’entités.
4.2.8.2
Couverture de Gazetiki
Nous avons réalisé les expériences en sélectionnant une région rectangulaire d’environ
900 km2 autour des 15 villes cibles. Dans [1] et [110], les auteurs n’offrent aucune information concernant la couverture offerte par leur base de données géographiques créée
automatiquement à partir de Flickr. Néanmoins, il est par contre possible d’interroger
TagMaps via un service Web afin d’obtenir le nombre total de tags correspondant à une
région. Nous comparons la couverture de Gazetiki à celle de TagMaps dans le Tableau
4.6.
Tab. 4.6 – Comparaison de la couverture entre TagMaps et Gazetiki.
Nom de la ville
Athens (Greece)
Beijing (China)
Bucharest (Romania)
Kiev (Ukraine)
London (UK)
Moscow (Russia)
Paris (France)
Pittsburgh (US)
San Francisco (US)
Singapore
Sydney (Australia)
Timişoara (Romania)
Tokyo (Japan)
Toulouse (France)
Tunis (Tunisia)
TagMaps
20
64
27
8
580
24
176
113
472
46
186
1
173
18
7
Gazetiki
214
489
129
145
1313
83
321
413
1006
827
534
31
548
10
24
Les résultats du tableau 4.6 montrent que la couverture globale de Gazetiki est
supérieure à celle de TagMaps pour les régions analysées, à une exception près : Toulouse.
Un grand nombre de noms géographiques est extrait pour des villes qui ont une description détaillée dans Wikipédia et qui sont également bien représentées dans Panoramio, notamment pour des villes anglophones comme London (1313 tags), San Francisco
(1006) ou encore Singapore (827). Tokyo (548 tags) et Beijing (489) sont également bien
représentées dans Gazetiki principalement à cause du grand nombre de photographies
de Panoramio annotées en anglais pour ces régions. Les articles Wikipédia pour Tokyo
et Beijing sont moins détaillés que ceux pour London et San Francisco et ceci explique
partiellement les meilleurs résultats obtenus pour ces deux dernières villes.
Même si c’est une destination touristique majeure, le nombre de tags extraits pour
128
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
Paris (321) est inférieur à des villes moins visitées comme Beijing (489) ou Pittsburgh
(413) alors que Paris est naturellement plus représentée dans TagMaps. L’utilisation d’un
vocabulaire anglais explique, au moins partiellement, cette situation et il est probable que
ce rapport soit inversé en utilisant des versions multilingues du vocabulaire géographique.
Cette internationalisation du vocabulaire permettrait une amélioration significative du
nombre d’entités extraites, surtout pour les régions non anglophones, mais soulève des
problèmes d’alignement des termes synonymes qui auront des noms différents dans les
différentes langues utilisées.
Des différences significatives en faveur de Gazetiki sont à noter pour des villes comme
Kiev (145 tags contre 8), Timişoara (31 contre 1) ou Athens (214 contre 20). Ces villes
sont placées dans des pays qui sont trop faiblement représentés dans TagMaps et Geonames. La plus-value apportée par notre méthode est particulièrement importante pour
ces régions.
Si l’on compare Gazetiki à Geonames, la couverture du thesaurus constitué manuellement est supérieure mais, comme le montrent les résultats du tableau 4.7, les deux
ressources sont plutôt complémentaires. Sur environ 4800 instances de Gazetiki, uniquement 543 existent aussi dans Geonames. Les différences sont de deux types et concernent
la distribution des contenus et la couverture de l’espace. Dans le premier cas, il est à
noter que Geonames assure une très bonne couverture des régions administratives (ex.
noms de villes, de régions, de quartiers) alors que notre méthode d’extraction favorise
des entités contenant une référence explicite à une catégorie géographique. Quant à la
couverture, l’intersection serait probablement plus importante si nous utilisions uniquement des villes situées dans des pays bien représentés dans Geonames. La couverture
est quasi nulle dans des pays mal représentés dans ce thésaurus comme la Roumanie ou
Singapour.
4.2.8.3
Catégorisation des noms géographiques
L’héritage conceptuel est une relation de base dans la structure des thésauri géographiques. L’attribution des noms géographiques à des catégories plus générales, que nous
décrivons dans cette section, est l’une des principales composantes de la méthode d’acquisition automatique de connaissances. La qualité de la catégorisation peut être évaluée
semi-automatiquement en utilisant les éléments communs à Gazetiki et Geonames, parce
que tous les noms géographiques inclus dans cette ressource sont rattachés à des classes
parents. Nous rappelons brièvement la procédure de catégorisation utilisée :
– Pour Wikipédia : nous appliquons la méthode initialement décrite dans [70] qui
consiste à analyser la première phrase des articles. Wikipédia étant de plus en
plus normalisée, cette phrase est, dans la très grande majorité des cas, de type
définitoire. Nous retenons comme classe parent du candidat le premier élément du
vocabulaire géographique apparaissant après le verbe « to be ».
– Pour Panoramio : nous utilisons la procédure de catégorisation basée sur l’exploitation des corrélations statistiques entre les noms candidats et les éléments
du vocabulaire géographique afin de vérifier si la catégorie apparaissant explicitement dans le nom est la vraie catégorie parente du candidat. Tout comme pour la
4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE129
procédure d’extraction, si un élément est commun à Wikipédia et Panoramio, nous
retenons la catégorie issue de la première phrase de l’article de Wikipédia. Sur un
nombre total d’environ 4800 noms candidats retenus, 543 sont communs à Gazetiki
et à Geonames, avec 217 termes provenant de Wikipédia et 326 de Panoramio.
Nous considérons qu’un élément a été correctement catégorisé s’il est rattaché au
même concept géographique dans Gazetiki et Geonames ou, s’il s’agit d’un concept
héritant de plusieurs classes parent, si une de ces classes a été trouvée dans Gazetiki.
Ce dernier choix s’explique par le fait que Geonames ne gère pas l’héritage multiple
tandis qu’il existe un nombre significatif de termes héritant de plusieurs catégories (par
exemple, Eiffel Tower est à la fois une tour et un monument).
Tab. 4.7 – Evaluation du processus de catégorisation de Gazetiki.
Nombre d’éléments
Erreurs
Précision
Wikipédia
217
13
94%
Panoramio
326
32
90%
Gazetiki ∩ Geonames
543
45
92%
Les résultats, très encourageants, présentés dans le tableau 4.7 montrent que la
catégorisation est correcte dans 92% des cas, ce qui représente un taux de succès satisfaisant pour une méthode complètement automatique. Les résultats obtenus pour
Wikipédia confirment ceux de [70], l’article qui a inspiré notre démarche.
Les erreurs sont causées principalement par des définitions compliquées. Par exemple,
le verbe « to be » est parfois suivi par une référence à la position géographique de l’objet
et non par sa classe parent : X est situé à l’est de Y et est un Z. Dans ce cas, au lieu
d’extraire Z, il est possible de trouver un élément du vocabulaire géographique dans
Y qui sera extrait par notre algorithme. En perspective, nous ajouterons une analyse
syntaxique destinée à éviter ce type d’erreurs.
Quant à Panoramio, les erreurs interviennent quand la catégorie apparaissant explicitement dans le nom n’est pas la vraie classe parent de l’objet et que la procédure
par un moteur de recherche sur le Web échoue à détecter cette situation. Nous étudions
actuellement des variantes d’amélioration de la procédure de classification utilisée pour
Panoramio, par exemple par l’utilisation de « snippets » en plusieurs langues pour obtenir la classe parent correcte. La préférence donnée à la catégorisation basée sur Wikipédia
est justifiée par les taux de réussite : 94% pour Wikipédia et 90% pour Panoramio.
4.2.8.4
Positionnement spatial des candidats
Similairement à la catégorisation, nous employons l’intersection entre Geonames et
Gazetiki pour évaluer la distance entre la position des éléments de notre structure contre
celle présente dans Geonames. L’évaluation ne peut se faire selon une catégorisation
binaire (résultat pertinent/non pertinent) et nous présentons les résultats (figure 4.6) en
fonction de la répartition des erreurs de distance selon un pas de 200m (les références sont
130
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
les coordonnées données par Geonames). Les différences de plus de 3 km sont regroupées
en une seule classe.
Fig. 4.6 – Distribution des distances entre les coordonnées des éléments de Gazetiki et
ceux de Geonames. 80% des éléments ont une erreur de localisation de moins de 600 m.
Les résultats de la figure 4.6 montrent qu’une large majorité (92%) des coordonnées
calculées avec notre algorithme se trouvent à moins d’un kilomètre de la position des
éléments dans Geonames, 81% pour les moins de 600 mètres. Le premier secteur examiné
(moins de 200 mètres) contient la majorité des résultats (60%). Les imprécisions de la
procédure de localisation sont en relation directe avec le nombre d’images utilisées pour
le calcul et le type d’entité photographiée. Il y a souvent une différence significative entre
l’endroit d’où est prise l’image et la position réelle de l’objet, cela étant accentué pour
des objets « dégagés » (comme la Tour Eiffel ). Pour Panoramio, la procédure étant basée
sur la moyenne des coordonnées des images, plus un objet est photographié, plus cette
estimation s’approchera des vraies coordonnées. Néanmoins, certaines entités ont une
position de prise de vue favorisée (ex. le Sacré Cœur du bas de la colline Montmartre
ou Notre Dame de Paris via le parvis), dans ces cas, la moyenne conservera ce biais de
localisation. Notons que les coordonnées de Wikipédia sont, en moyenne, plus proches
de celles de Geonames que les coordonnées calculées à partir de Panoramio.
Une analyse de la corrélation entre le type de l’objet et l’imprécision de la localisation montre qu’on retrouve souvent parmi les positions correctement localisées des noms
d’objets appartenant à des catégories comme : church, tower ou monument, c’est-à-dire
4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE131
des objets bien localisés, avec une surface relativement restreinte et habituellement photographiés selon différents points de vue. Nous avons également regardé les entités dont
la distance par rapport aux coordonnées de Geonames est supérieure à 1 km. On retrouve
généralement des concepts ayant une surface significative, comme gulf, river, borough,
island, bay ou park. Mais, pour ces objets, une imprécision de l’ordre d’un kilomètre est
homogène avec leurs propres dimensions et n’affecte donc pas significativement la qualité
de leur représentation dans l’espace.
La ressource décrite ici sera exploitée dans une application permettant de visualiser
des tags géographiques sur une carte interactive (voir le chapitre 5). Pour ce type d’application, les imprécisions de positionnement sont partiellement masquées par le fait que
le texte du tag couvre une certaine surface de la carte. La largeur du texte étant significativement supérieure à sa hauteur, les différences de longitude seront mieux masquées
que celles de latitude. Naturellement, l’échelle de visualisation rentre aussi en compte,
l’erreur de localisation étant plus sensible à l’échelle d’un quartier que d’une ville ou
d’une région.
4.2.8.5
Évaluation du classement des éléments de Gazetiki
Cette évaluation vise à comparer les résultats de l’ordonnancement des éléments
dans Gazetiki à ceux de TagMaps. Dans les deux ressources, la pertinence associée
aux lieux est basée sur une mesure statistique, plus précisément sur le nombre total
d’images associées à un tag dans TagMaps, ce nombre étant pondéré, dans Gazetiki, par
le nombre d’utilisateurs. Nous utilisons la vue « standard » des villes testées dans les deux
applications et nous extrayons les dix éléments les plus saillants selon cette mesure pour
les comparer à ceux proposés par TripAdvisor. La représentativité des éléments de cette
ressource est calculée en utilisant les opinions des utilisateurs sur les endroits à visiter
dans chaque ville (« Meilleures Attractions ») et restitue un regard communautaire
sur l’importance des objets. Afin de normaliser notre test, nous ne retenons que les
dix attractions de TripAdvisor après avoir éliminé celles pointant vers des entités en
dehors du domaine géographique, comme « Bike guided tours ». TagMaps et Gazetiki
utilisent des mesures purement statistiques sur deux autres sites communautaires : Flickr
et Panoramio (respectivement). Notre évaluation s’intéresse à l’intersection de ces listes
avec celle de TripAdvisor. Notons que, pour des villes comme Kiev, Timisoara ou Tunis,
TripAdvisor recense un nombre d’objets saillant inférieur à dix, dans ces cas, le calcul
est fait en utilisant ce nombre comme nouvelle référence.
Les résultats du tableau 4.8 montrent que le nombre d’éléments communs à TripAdvisor et TagMaps est inférieur à l’intersection avec Gazetiki (20 contre 36 sur 139).
Si on regarde plus en détail, l’intersection TripAdvisor-Tagmaps est inférieure à celle
avec Gazetiki dans 10 cas sur 15. Dans les quatre cas où l’intersection avec TagMaps
est supérieure à celle avec Gazetiki, la différence est minimale (un seul objet d’écart).
Néanmoins, le classement de TripAdvisor n’est pas toujours représentatif et l’expérience
pourrait être répétée en utilisant un panel « d’experts » des différentes villes pour fournir
d’autres listes de vérités terrain.
132
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
Tab. 4.8 – Comparaison du classement des objets géographiques dans TagMaps et Gazetiki contre TripAdvisor.
Nom de la ville
Athens (Greece)
Beijing (China)
Bucharest (Romania)
Kiev (Ukraine)
London (UK)
Moscow (Russia)
Paris (France)
Pittsburgh (US)
San Francisco (US)
Singapore
Sydney (Australia)
Timisoara (Romania)
Tokyo (Japan)
Toulouse (France)
Tunis (Tunisia)
Total
4.2.9
TagMaps ∩ TripAdvisor
2/10
3/10
1/10
0/7
0/10
2/10
3/10
1/10
1/10
1/10
2/10
0/5
1/10
2/10
1/7
20/139
Gazetiki ∩ TripAdvisor
4/10
5/10
2/10
1/7
3/10
3/10
5/10
1/10
3/10
0/10
5/10
3/5
0/10
1/10
0/7
36/139
Relation entre Gazetiki et TagMaps et Geonames
Nous comparons Gazetiki avec deux autres bases de données géographiques, TagMaps, constituée automatiquement comme notre thésaurus, et Geonames, dont le contenu
est obtenu manuellement.
Les deux bases de données géographiques créées automatiquement dont nous avons
connaissance, TagMaps et Gazetiki, utilisent des données brutes du Web. Les méthodologies
de constitution sont assez différentes : principalement statistiques pour TagMaps et basée
sur une analyse structurale et linguistique pour Gazetiki. Néanmoins, l’objectif affiché
par ces deux bases est clairement le même (améliorer la recherche d’images de notre
monde), une comparaison entre ces deux ressources s’avère donc naturelle :
– La structure de Gazetiki est plus complète que celle de TagMaps car elle contient,
en plus du triplet (nom, position, pertinence), une catégorisation des éléments
extraits automatiquement. Cela permet de proposer à l’utilisateur une recherche
thématique en lui donnant la possibilité de visualiser uniquement des catégories qui
l’intéressent à un moment donné. La présence d’une information de catégorisation
rend également possible l’affichage les résultats d’une requête suivant les différents
types d’images retournées.
– Précision : comme montré par nos expériences, la précision de la méthode d’extraction de noms géographiques est supérieure à celle de TagMaps. L’amélioration est
4.2. CONSTRUCTION AUTOMATIQUE D’UN THÉSAURUS GÉOGRAPHIQUE133
significative car elle permet d’avoir un taux de bruit inférieur à 5% dans Gazetiki
contre 18% dans TagMaps.
– Couverture : bien que nous ignorons le volume total des noms géographiques dans
TagMaps, la comparaison du nombre d’éléments dans des zones centrées autour
de grandes villes indique que le nombre d’éléments dans Gazetiki est supérieur à
celui proposé par TagMaps.
– Le positionnement des éléments : les éléments découverts automatiquement en
utilisant Panoramio sont majoritairement positionnés à moins de 200 m des coordonnées dans Geonames. Des différences de plus de 1 km sont obtenues pour des
objets géographiques ayant une surface significative.
– L’ordonnancement des éléments : le classement proposé dans Gazetiki s’accorde
mieux avec celui proposé par une référence du Web (TripAdvisor) que pour TagMaps.
La comparaison de Gazetiki avec Geonames montre que :
– La catégorisation des éléments dans Gazetiki est satisfaisante pour une procédure
complètement automatique (le taux de fausses classifications étant de 7%).
– L’utilisation d’un modèle du domaine inspiré par celui de Geonames permet une
intégration aisée des deux ressources. Notons aussi que le thésaurus constitué automatiquement contient des catégories avec une forte composante spatiale qui ne
se trouvent pas dans Geonames, enrichissant le modèle de ce dernier.
– L’extraction automatique de noms géographiques est particulièrement utile pour
des régions du monde qui sont mal représentées dans Geonames (des pays comme la
Chine, la Roumanie, la Russie). Toutefois, il faut souligner qu’un nombre tout aussi
important d’éléments supplémentaires est découvert pour des pays bien représentés
dans Geonames, comme les Etats-Unis ou la France.
– Le nombre d’entités découvertes dans Gazetiki reste naturellement plus petit que
le volume de données dans Geonames mais l’intersection entre les deux jeux de
données montre leur grande complémentarité.
Les constats dressés ci-dessus nous permettent d’affirmer que nous avons construit automatiquement un thésaurus géographique à large échelle, d’une qualité supérieure à celui
décrit dans [110]. À ce jour et à notre connaissance, Gazetiki est une ressource unique
en son genre et a rencontré un intérêt certain de la part de communauté scientifique
s’intéressant à ce domaine (notamment lors de présentations à ACM JCDL’08 ou IEEE
CBMI’08). Gazetiki est parfaitement complémentaire à Geonames et l’intégration de ces
deux ressources est relativement facile : nous retenons tous les éléments qui apparaissent
exclusivement dans une des deux ressources et, pour l’intersection, nous privilégions les
éléments de Geonames. La structure résultante sera intégrée dans une application de recherche d’images géo-localisées décrit dans le chapitre suivant, nommée ThemExplorer.
Nous avons concentré des efforts importants sur cette application notamment à cause
de son intérêt pour des systèmes et des applications futurs en lien avec le domaine, en
pleine croissance, du e-tourisme.
134
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
4.3
Construction automatique d’une structure linguistique
pour les personnalités
Nous avons mentionné dans le chapitre 2 que les entités nommées sont faiblement
couvertes par WordNet. Comme pour les noms de lieux, Wikipédia inclut un nombre
considérable d’articles dédiés aux personnalités sous la forme d’informations semi-structurées.
Certes, il existe d’autres sources d’information plus riches que Wikipédia pour les célébrités,
mais elles ne sont pas en libre accès comme IMDB2 , la base de données de référence sur
le cinéma et la télévision (séries télévisées).
Un travail relativement proche est proposé dans [8] avec DBPedia, mais cette base
contient seulement un passage des articles Wikipédia au format SQL ce qui n’est pas
suffisant pour exploiter cette structure en recherche d’information. Dans DBPedia, les
concepts et leurs relations ne sont pas ordonnés et il est donc impossible de proposer
en priorité les concepts plus pertinents. De plus, Auer [8] n’utilise que les tableaux des
articles Wikipédia pour en extraire des informations. Dans l’approche que nous décrivons
dans cette partie, nous exploitons les tableaux de données et le texte des articles. La
stucture linguistique résultante est nommée CelebWiki.
4.3.1
Modélisation du domaine
Pour les célébrités, il est possible de formaliser des connaissances relatives à leur
biographie et leurs activités. Le premier type d’informations, comprenant par exemple
la date et le lieu de naissance, est commun à toutes les catégories. L’activité est une
information plus spécifique et nécessite de définir des relations liant la personne à son
(ses) domaine(s) d’activité. Nous appliquons une méthode d’extraction automatique de
connaissances pour trois types de célébrités :
– les chanteurs et musiciens ;
– les acteurs ;
– les footballeurs.
Nous privilégions à la fois des données d’ordre biographique et des connaissances
spécifiques à leur type d’activité :
– le(s) nom(s) du concept (déf. 1) ;
– la séparation entre les classes et les instances (déf. 2) ;
– une structure basée sur l’héritage conceptuel (déf. 4) ;
– une valeur de pertinence associée aux concepts (autres relations) ;
– des relations spécifiques à chaque type de célébrité (autres relations).
Ces données permettent une identification unique de tous les noms de célébrités inclus
dans la ressource, une structuration de leur voisinage conceptuel et un classement des
concepts et relations en fonction de leur pertinence.
2
http ://imdb.com
4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITÉS
4.3.2
135
Extraction de connaissances pour les personnalités à partir de
Wikipédia
La liste d’articles à analyser est obtenue en utilisant les pages recensant les célébrités
par nationalité3 . On extrait un volume total de 5963 articles pour les chanteurs et musiciens, 13753 pour les acteurs et 25758 pour les footballeurs4 . La structure linguistique
résultante contient 44474 entrées, ce qui est comparable avec le volume total de 70000
pages de personnes extrait à partir de Wikipédia dans DBPedia [8]. La méthode d’extraction décrite par la suite peut être assez facilement adaptée à d’autres types de personnes
afin d’enrichir la base de connaissances.
Pour une brève discussion concernant la qualité des connaissances extraites, nous
renvoyons le lecteur à la discussion de la section 4.2.2. Quant à la complétude des informations, il serait naı̈f d’espérer retrouver une structure complète, la caractérisation des
concepts et de leurs relations étant sujette à une modification continue. Tout au plus,
nous pouvons espérer caractériser les concepts de manière plus utile (à un processus de
recherche d’information) afin de proposer à l’utilisateur une représentation plus adéquate
des informations que celle obtenue par une simple recherche proposée par les moteurs
de recherche classiques.
Nous avons analysé la structure des pages Wikipédia dédiées aux célébrités et isolé
les parties contenant les informations les plus intéressantes à notre application. Une
première information commune à toutes les catégories, la nationalité, est obtenue facilement puisque les articles sont collectés à partir d’une liste par nationalité.
La très grande majorité des articles analysés contient un tableau biographique (dans
Wikipédia, ceci constitue une norme pour les personnalités) dans lequel on trouve des
informations sur le lieu, la date de naissance et — selon le cas — de décès. L’extraction
de ces connaissances est facilitée par le fait qu’elles sont intégrées dans l’encyclopédie
en ligne en suivant un nombre réduit de formats ou de patrons. Par exemple, la date de
naissance est introduite, dans la majorité des cas par « Birthdate » ou « Date of birth
».
Nous constituons une liste contenant tous les noms cités et comparons chaque élément
de cette liste au contenu des pages Wikipédia afin d’obtenir un ensemble de noms proches.
Enfin, nous attribuons une valeur de pertinence à chaque association.
Pour les trois catégories de célébrités, on extrait :
–
–
–
–
3
date de naissance ;
lieu de naissance ;
la date de décès (si pertinent) ;
une liste de célébrités associées.
http ://en.wikipedia.org/wiki/Category :American film actors pour la liste des acteurs américains
Les statistiques présentées correspondent au traitement de la version de Wikipédia en anglais d’octobre 2007.
4
136
4.3.3
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
Catégorie des chanteurs et musiciens
En plus des données biographiques générales, les tableaux biographiques des chanteurs peuvent contenir les informations suivantes (voir la figure 4.7) :
– l’année du début de carrière, souvent introduite par « Years active » ;
– les genres musicaux, introduits par « Genres » ;
– les instruments maı̂trisés, introduits par « Instruments » ;
– les groupes musicaux dans lesquels les chanteurs ont évolué, introduits par « Associated acts ».
L’analyse des ces parties du tableau permet l’extraction des connaissances correspondantes et l’enrichissement de la structure dédiée aux chanteurs avec des informations
spécifiques au domaine. Il serait également possible de traiter la partie du corps du texte
détaillant les noms des albums mais nous considérons que cette information n’est pas
indispensable dans le cas d’une recherche d’images.
Fig. 4.7 – Extrait du tableau biographique de la page Wikipédia anglaise d’Eric Clapton.
4.3.4
Catégorie des acteurs
En plus des données biographiques générales, les tableaux biographiques des acteurs
peuvent contenir les informations suivantes (voir la figure 4.8 et 4.9) :
– le(s) noms(s) des époux ou épouses de l’actrice ou l’acteur, introduit par « Spouse(s) » ;
– la liste de prix accordés, introduite par « Awards » ;
– la filmographie de l’acteur (avec, au maximum le titre du film, l’année de réalisation
et le rôle).
Le corps du texte de l’article contient habituellement une filmographie des acteurs
avec les noms des films, l’année de réalisation et, pour les acteurs les plus connus, le rôle
joué dans chaque film. Dans certains cas, la filmographie constitue un article Wikipédia
4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITÉS
137
Fig. 4.8 – Extrait du tableau biographique de la page Wikipédia anglaise de Robert De
Niro.
Fig. 4.9 – Extrait de la filmographie de Robert De Niro dans l’article Wikipédia de
l’acteur.
138
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
dédié qu’il faut récupérer. Nous avons identifié cinq configurations différentes d’apparition des données relatives à la filmographie (nous en illustrons 3 dans les figures 4.9, 4.10
et 4.11). Il faut adapter notre méthode d’extraction des connaissances à chaque type de
présentation de la filmographie.
Fig. 4.10 – Extrait de la filmographie de Brigitte Bardot dans l’article Wikipédia de
l’actrice.
Fig. 4.11 – Extrait de la filmographie de Jim Carrey dans l’article Wikipédia de l’acteur.
Les informations trouvées dans les sections des articles sont plus difficiles à analyser et à extraire que celles se trouvant dans les tableaux biographiques, mais demeurent néanmoins particulièrement utiles. Les informations sur la filmographie permettent également d’inférer la période correspondant à la carrière de l’acteur. L’analyse
décrite dans cette sous-section permet l’enrichissement de la structure dédiée avec des informations spécifiques au domaine, utilisables pour améliorer l’interactivité en recherche
d’images et pour adapter la présentation des résultats.
4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITÉS
4.3.5
139
Les footballeurs
En plus des données biographiques générales, les tableaux biographiques des footballeurs contiennent les informations suivantes (voir la figure 4.12) :
– les positions de jeu, introduites par « Positions » ou « Playing position » ;
– les club(s) dans lesquels le joueur a évolué, introduit(s) par « Club(s) » ou « Senior
clubs » ;
– le nombre de sélections internationales, introduit par « National team » ;
– le nombre de buts inscrits, introduit par « Gls ».
Fig. 4.12 – Extrait du tableau biographique de la page Wikipédia anglaise de Zinedine
Zidane.
À partir des informations sur les clubs, il est possible d’inférer la période correspondant à la carrière du footballeur. Comme pour les chanteurs et les acteurs, l’analyse
décrite dans cette sous-section permet l’enrichissement de la structure dédiée, améliorant
l’interactivité et la présentation des résultats.
4.3.6
Valeur de pertinence associée aux noms de personnes et aux
relations entre ces noms
Nous ordonnons les informations relatives aux célébrités en exploitant leur fréquence
d’apparitions dans le corpus du Web.
Le classement des noms de chanteurs, acteurs et footballeurs est réalisé en utilisant
140
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
l’équation 4.3 :
pertin(candidat) =
f reqW eb(candidat, classe)2
f reqW eb(candidat)
(4.3)
Où :
– pertin est la valeur de pertinence associée au nom candidat ;
– classe est la classe d’appartenance du candidat (chanteur, acteur ou footballeur) ;
– f reqW eb est la fréquence dans le corpus du Web du couple candidat ;
La combinaison de la fréquence d’apparition conjointe du candidat et de la classe
parente et de la fréquence individuelle est réalisée afin de minimiser les biais liés à l’utilisation des fréquences seules. La fréquence brute des termes risque de favoriser ceux
apparaissant plus fréquemment dans d’autres domaines conceptuels : par exemple, Madonna est plus souvent associée à actor que Robert De Niro. Le classement des relations
entre chaque célébrité et les autres noms associés est réalisé avec une mesure de similarité prenant en compte à la fois des relations spécifiques au type de concept et des
statistiques de cooccurrence sur le Web.
Nous présentons les formules utilisées pour les trois types de personnalités dans les
équations 4.4 (acteurs), 4.5 (chanteurs) et 4.6 (footballeurs). Dans les trois cas, les valeurs
de sortie sont normalisées entre 0 et 1.
relation(A1 , A2 ) = f (f ilms(A1 , A2 ), prix(A1 , A2 ),
f requence(A1 , A2 ), nationalite(A1 , A2 ))
(4.4)
Où :
– A1 , A2 sont les noms des acteurs à mettre en relation ;
– f ilms : désigne le ou les films dans lesquels les deux acteurs ont joué ensemble.
Pour chaque film commun, on ajoute 0,1 au score : la contribution maximale de
cette dimension étant 0,3 ;
– prix : est le ou les prix communs obtenus par les deux acteurs. Pour chaque prix
en commun, on ajoute 0,1 au score final avec une contribution maximale de 0,3 ;
– f requence : si A2 est l’un des trois premiers noms le plus fréquemment associés
à A1 sur le Web, on ajoute 0,2 au score final. S’il s’agit de l’un des trois noms
suivants, on ajoute 0,1 ;
– nationalite : si les deux acteurs ont la même nationalité, on ajoute 0,1 au score.
relation(C1 , C2 ) = f (genres(C1 , C2 ), instruments(C1 , C2 ),
f requence(C1 , C2 ), nationalite(C1 , C2 ), age(C1 , C2 ))
(4.5)
Où :
– C1 , C2 sont les noms des chanteurs à mettre en relation ;
– genres : le ou les genres musicaux communs aux deux chanteurs ou musiciens.
Pour chaque élément commun, on ajoute 0,2 au score final (avec une contribution
maximale de 0,4) ;
4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITÉS
141
– instruments : le ou les instruments joués par C1 et C2 . Pour chaque instrument
commun, on ajoute 0,1 au score final et la contribution maximale est de 0,2 ;
– f requence : idem à 4.4 ;
– nationalite : idem à 4.4 ;
– age : si la différence d’âge entre C1 et C2 est plus petite que cinq ans, on ajoute
0,1 au score final.
relation(F1 , F2 ) = f (clubs(F1 , F2 ), positions(F1 , F2 ),
f requence(F1 , F2 ), nationalite(F1 , F2 ), age(F1 , F2 ))
(4.6)
Où :
– F1 , F2 sont les footballeurs à mettre en relation ;
– clubs : le ou les clubs auxquels les deux footballeurs ont évolué. Pour chaque club
en commun, on ajoute 0,1 au score final, la contribution ne dépassant pas 0,3 ;
– positions est la ou les positions de jeu communes aux deux joueurs. Pour chaque
élément commun, on ajoute 0,1 au score final, avec une contribution plafonnée à
0,3 ;
– nationalite : idem à 4.4 ;
– age : idem à 4.5.
Les poids donnés aux termes des équations 4.4, 4.5 et 4.6 sont établis empiriquement
après l’analyse de plusieurs résultats obtenus dans différentes configurations. Si on reprend l’exemple de Robert De Niro, les cinq premiers noms associés sont : Al Pacino,
Jack Nicholson, Tom Hanks, Joe Pesci, Angelina Jolie.
Dans un premier temps, nous avions essayé d’utiliser une méthode basée strictement
sur des statistiques obtenues à partir du Web mais les résultats obtenus n’étaient pas
convaincants car les noms de célébrités se retrouvent souvent ensemble sur le Web sans
qu’il y ait de vraie relation entre eux. L’inclusion de termes décrivant de façon plus fine
le concept améliore sensiblement les résultats mais nécessite un travail d’analyse des
résultats pour établir le poids de chaque terme.
Le classement d’autres informations associées à chaque nom analysé est réalisé en
appliquant la formule 4.3, dans laquelle le nom de la classe est remplacé par chaque
information découverte. Par exemple, s’il s’agit d’un acteur, nous ordonnons les films
dans lesquels il a joué. Il y a d’autres informations, comme la date ou le lieu de naissance,
pour lesquelles le classement n’a pas de sens.
Nous avons mentionné que certaines informations peuvent être utilisées pour former
des requêtes plus générales à partir de chaque nom de célébrité. Si un utilisateur veut voir
des images de Robert De Niro, on peut lui proposer de voir des images d’autres acteurs
américains ou d’autres acteurs ayant également gagné l’Oscar du meilleur acteur. La
structure obtenue permettant la proposition d’un grand nombre de telles requêtes, il est
indispensable de les ordonner et d’en présenter les plus pertinentes à l’utilisateur.
142
4.3.7
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
Évaluation de CelebWiki
Nous évaluons notre approche en la comparant avec une autre structure linguistique
dédiée aux personnalités accessible via l’interface du moteur de recherche Ask. Nous
effectuons deux types de tests : le premier vise à évaluer la qualité du voisinage conceptuel d’une célébrité dans les deux structures, le second compare la couverture des deux
structures.
4.3.7.1
Voisinage conceptuel
Nous avons sélectionné un total de 20 concepts représentatifs pour les trois types de
personnalités et, pour chaque concept, nous avons extraits un nombre maximal de cinq
noms les plus proches dans CelebWiki et dans Ask. Les concepts et les noms proches ont
été présentés dans une même interface. Le test a été effectué par six utilisateurs auxquels
nous avons demandé d’évaluer chaque proposition de nom proche sur une échelle de 1
(concepts non reliés) à 3 (forte relation entre les deux noms). Certains noms pouvant
être inconnus pour des évaluateurs, nous avons offert la possibilité de marquer ces noms
comme « inconnu ».
Tab. 4.9 – Comparaison entre le module de présentation de requêtes dans Ask et dans
CelebWiki.
Précision moyenne (max. = 3)
Noms connus
Ask
2,21
58%
CelebWiki
2,26
76,4%
Le tableau 4.9 montre que la performance des deux systèmes est quasiment équivalente
(avec une différence de 0,05 sur 3 en faveur de Wikipédia). Nous avons observé que les
utilisateurs sont sensibles aux relations de parenté (ex. Nancy Sinatra — Frank Sinatra)
que nous n’avons pas considérées — à tort — dans notre structure. L’extraction de ce
type de relations à partir de Wikipédia est relativement aisée et permettrait d’améliorer
les performances par rapport à Ask présentés dans le tableau 4.9. La proportion de
noms connus parmi les requêtes proches est significativement plus élevée dans notre
ressource (76% contre 58%). Ce résultat montre que la structure obtenue à partir de
Wikipédia retourne un plus grand nombre de résultats connus et améliore les chances
que ces liens soient suivis par les utilisateurs pour élargir ou focaliser leurs requêtes.
Il y a des écarts significatifs entre les réponses des participants au test dans les deux
évaluations. Toutefois, les moyennes présentées dans le tableau 4.9 (quasi égalité pour
la précision, avantage pour le nombre de noms connus) sont représentatives pour les
résultats de chaque évaluateur pris individuellement.
4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITÉS
4.3.7.2
143
Couverture de CelebWiki
Nous avons testé la couverture des deux structures conceptuelles en utilisant 370
noms (liste obtenue à partir des 20 noms de concepts du test précédent). Pour ce
deuxième jeu de test, nous avons extrait le nombre de propositions de requêtes dans
les deux systèmes.
Tab. 4.10 – Comparaison de la couverture du domaine dans Ask et dans CelebWiki.
Nombre moyen de requêtes proches
Concepts avec aucune requête proche
Ask
5,27
48
CelebWiki
32,6
5
Les résultats du tableau 4.10 montrent clairement que la couverture offerte par Ask
est bien plus réduite que celle offerte par notre structure (5,27 noms contre 32,6 en
moyenne). Les articles Wikipédia pour une célébrité permettent d’inclure un grand
nombre d’autre noms qu’il est possible d’ordonner, comme nous l’avons vu, par rapport au concept initial en utilisant leurs propriétés conceptuelles et des statistiques sur
le Web.
Ask ne propose aucun nom proche pour 48 requêtes sur 370, cela ne se produit
que dans cinq cas pour notre structure. Il serait possible de ramener ce dernier chiffre
au minimum en exploitant des similarités conceptuelles entre les articles (supposer que
deux noms de personnalités sont proches même s’ils n’apparaissent pas ensemble dans
un article). Les métriques de similarité à utiliser dans ce dernier cas seraient identiques
à celles pour les noms apparaissant dans une même page de Wikipédia.
4.3.8
Discussion et conclusions
Nous avons présenté une méthode d’extraction automatique d’une structure conceptuelle pour les célébrités à partir de Wikipédia appliquée à trois sous-domaines conceptuels : les acteurs, les chanteurs et les footballeurs. La structure contient plus de 45000
noms de célébrités pour lesquels nous avons extrait et ordonné différentes informations utiles en recherche d’images. Notre approche se distingue de celle de DBPedia
[8] par un traitement plus détaillé du contenu des articles et par le fait que nous proposons une méthode d’ordonnancement des entités proches découvertes. Cette dernière
caractéristique est fondamentale pour une utilisation en recherche d’information car elle
permet de présenter en priorité l’information la plus pertinente à une requête donnée.
L’ordonnancement des relations entre les concepts prend en compte à la fois des propriétés conceptuelles et des statistiques obtenues à partir du Web.
Nous avons évalué la structure obtenue par rapport à la seule ressource similaire dont
nous avons connaissance : le module de proposition de requêtes d’Ask. Les résultats obtenus montrent une qualité comparable pour les deux méthodes. Toutefois, la couverture du
144
CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES
domaine offerte par la structure basée sur Wikipédia est bien plus élevée que celle d’Ask.
L’évaluation nous a permis de trouver des moyens d’amélioration de la représentativité
des noms proches en incluant aussi des relations de parenté. Une évaluation serait toutefois nécessaire pour d’autres types de relations que celles liant les noms mais cette
évaluation n’est pas aisée car il n’existe pas, à notre connaissance, de ressources comparables. La méthode présentée ici est assez facilement adaptable à d’autres types de
célébrités. Nous souhaitons notamment la généraliser en prenant en compte les résultats
de l’étude du fichier de log (voir section 3.1) pour traiter, par exemple, le cas des politiciens, d’autres sportifs et des scientifiques.
Chapitre 5
Applications de recherche
d’images sur Internet basée sur
des structures linguistiques
Dans ce chapitre, nous reprenons l’architecture générale introduite dans le chapitre 3,
nous y intégrons les ressources linguistiques décrites dans le chapitre 4, afin de proposer
une plateforme de recherche d’images capable de répondre à des requêtes de nos trois
domaines d’application1 :
– Olive traite les noms communs et exploite la version adaptée de WordNet.
– ThemExplorer recherche des images d’entités géographiques et utilise la version
adaptée de Geonames et Gazetiki, notre thésaurus constitué automatiquement.
– Safir recherche des noms de célébrités et exploite CelebWiki, la ressource décrivant
les célébrités extraite à partir de Wikipédia.
Pour chaque application, nous décrivons son architecture, ses principales composantes,
des exemples d’utilisation et des évaluations.
Les applications ont été implémentées en PHP. ThemExplorer inclut également une
composante AJAX pour l’affichage de la carte interactive. Les scripts pour le téléchargement des images ont été écrits en Perl. L’accès aux connaissances stockées dans les
structures linguistiques est réalisé via un script Perl dans Olive et via des requêtes
MySQL dans ThemExplorer et Safir.
5.1
Olive — recherche de noms communs
Dans cette section, nous présentons Olive, une application pour la recherche d’images
de noms communs. Cette application est construite suivant les principes d’exploitation
d’une structure linguistique et de techniques de traitement d’images discutées dans le
chapitre 3. Nous commençons cette section par une analyse du modèle de données uti1
Des vidéos illustrant le fonctionnement des applications sont disponibles à l’adresse : http ://moromete.net/demos.html.
145
146
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
lisé, continuons par une description de l’architecture du système et par un d’exemple
d’utilisation. Finalement, nous décrivons une série d’expériences menées afin d’évaluer
et de valider notre approche.
5.1.1
Modélisation des données
Notre système utilise un modèle formel des données obtenu en se basant sur le contenu
de la ressource linguistique exploitée pour les données textuelles et en utilisant l’indexation du contenu visuel pour les images. Tout concept de la version adaptée de WordNet
est exprimé par le vecteur 5.1 :
Concept = (nom, synset, f euilles, heritiers, parents, siblings, images, pertinence)
(5.1)
Où :
– nom : concept dans la ressource linguistique. Ex. : dog 1 pour le premier sens de
dog).
– synset : les différents synonymes pointant vers la même entité (s’ils existent). Ex. :
dog et Canis familiaris pour dog 1.
– f euilles : nœuds terminaux dans la sous-hiérarchie déterminée par le concept.
Ces termes sont rangés en fonction de leur fréquence dans le corpus d’images du
Web (la même observation est vraie pour les héritiers, les parents, les siblings).
La composante feuille est naturellement vide pour les feuilles. Ex. : doberman,
Newfoundland, basset pour dog 1.
– heritiers : termes héritant du concept, avec une préférence donnée aux synsets
non-feuilles. Ex. : poodle, corgi, hunting dog pour dog 1.
– parents : les concepts plus généraux englobant le terme courant. Ex. : domestic
animal, canine, organism, living thing pour dog 1.
– siblings : les noeuds de la hiérarchie ayant le même parent que le concept courant.
Ex. : wolf, fox, hyena, wild dog pour dog 1.
– images : les images associées à chaque feuille de la hiérarchie. Cette dimension du
vecteur n’est pas renseignée pour les termes ayant des héritiers (ex. dog 1 ) et les
photographies représentant ce type de termes sont obtenues en utilisant la liste
des feuilles.
– pertinence est la mesure basée sur la fréquence jointe du terme et de son parent
immédiat calculée à partir du corpus d’images du Web et sur la structure de la
hiérarchie.
Le vecteur 5.1 décrit plusieurs composantes des concepts dans WordNet, permettant
de relier les concepts à des images représentatives, de décrire leur voisinage conceptuel
et de les situer relativement à la pertinence d’autres concepts dans la hiérarchie. Toutes
ces informations seront exploitées pour proposer un traitement des requêtes textuelles et
pour introduire une forme de recherche d’images par le contenu dirigée par les concepts.
Toute image associée à un terme feuille de WordNet s’exprime par le vecteur 5.2 :
Image = (nomF euille, index, classement)
(5.2)
5.1. OLIVE — RECHERCHE DE NOMS COMMUNS
147
Où :
– nomF euille : nom du concept feuille auquel l’image est associée ;
– index : représentation vectorielle du contenu de l’image utilisant des descripteurs
de bas niveau ;
– classement : la position de chaque photographie dans l’ensemble des réponses
obtenues par le moteur de recherche exploité.
Les informations dans l’équation 5.2 permettent une description à la fois conceptuelle
du contenu de l’image (via le nom du concept représenté) et de ses caractéristiques perceptuelles (via l’index), se conformant à la modélisation de la similarité décrite dans
la sous-section 3.2.1. Le passage des concepts aux images est réalisé à travers les composantes images dans l’équation 5.1 qui est en fait une liste d’éléments décrits dans
l’équation 5.2.
Comme nous l’avons précisé dans la sous-section 2.3, les moteurs de recherche d’information actuels donnent de plus en plus d’importance à l’interactivité de l’application,
sans pour autant modéliser le voisinage conceptuel d’une requête comme c’est la cas avec
Olive. La modélisation des données proposée dans Olive est plus complexe que celle dans
les moteurs de recherche d’images existants, notamment par la description du voisinage
conceptuel de la requête et par la description du contenu visuel des images.
5.1.2
Architecture d’Olive
Fig. 5.1 – Architecture d’un système de recherche d’images pour les noms communs.
Les bases de données sont représentées sous forme de rectangles, les modules logiciels
par des rectangles arrondis et les requêtes par des ellipses.
Nous présentons, dans la figure 5.1, l’architecture d’un système de recherche d’images
148
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
pour les noms communs. L’architecture présentée est un cas particulier de l’architecture
générique de recherche d’images basée sur des ressources linguistiques décrite dans 3.3.3.
WordNet est ici la ressource linguistique exploitée pour traiter les requêtes textuelles
et PIRIA [65] est le moteur de recherche par similarité visuelle développé par le CEA
LIST utilisé dans toutes les applications décrites dans ce travail. Google Images sert de
corpus photographique à partir duquel nous choisissons les images associées aux requêtes
reformulées par le sélecteur de concepts. Google a été préféré à d’autres moteurs pour
des raisons de rapidité et parce qu’il assure une bonne couverture des noms communs.
Néanmoins, l’application fonctionnerait de manière tout à fait similaire avec d’autres
corpus.
5.1.2.1
Fonctionnement d’Olive
L’utilisateur peut formuler des requêtes textuelles classiques et des requêtes par
images exemples, ces dernières venant compléter les demandes textuelles. Une fois les
requêtes textuelles formulées, le sélecteur de concepts vérifie si elles correspondent à des
éléments existant dans la ressource linguistique (si la chaı̂ne de caractères introduite est
identique à un élément de nom dans l’équation 5.1). Si oui, la requête est reformulée
en exploitant le contenu de la composante synset du modèle conceptuel et transmise au
collecteur d’images qui vérifie si les images pour le concept respectif existent déjà dans
le corpus d’images local ou si elles doivent être récupérées à partir de Google Images.
En même temps, le sélecteur de concepts récupère les éléments stockés dans les composantes heritiers, parents et siblings du vecteur de l’équation 5.1 et compose un ensemble
de requêtes proches qui seront affichées dans l’interface. Toutes les images dans le corpus local sont indexées en utilisant le descripteur LEP (Local Edge Pattern) implémenté
dans PIRIA, décrit plus en détail dans la sous-section 2.1.2.2. Les images affichées sont
toutes associées à des termes feuilles de WordNet (par la composante nomFeuille du vecteur dans l’équation 5.2), des concepts couvrant habituellement des entités cohérentes
de point de vue visuel. Toutes les images affichées peuvent initialiser une recherche par
le contenu. Si une telle requête est lancée, le contenu de la photographie est comparé à
la description de bas niveau de toutes les autres images associées au même terme feuille
de WordNet.
Nous présentons, dans la suite, les différentes composantes de l’architecture d’Olive.
5.1.2.2
La ressource linguistique
La structure conceptuelle obtenue par l’adaptation de WordNet pour une utilisation
en recherche d’images constitue la composante principale d’Olive et a été décrite dans
la section 4.1.1. Les relations d’héritage conceptuel et de synonymie sur lesquelles est
construite la hiérarchie lexicale servent à reformuler les requêtes des utilisateurs et à proposer un voisinage conceptuel pour enrichir l’interaction entre l’utilisateur et le système.
Le nombre total de requêtes traitées correspond au nombre total de chaı̂nes uniques de
WordNet, soit 145104.
5.1. OLIVE — RECHERCHE DE NOMS COMMUNS
5.1.2.3
149
Le corpus d’images local
Le corpus local constitue une copie partielle des photographies indexées dans Google
Images. Nous avons opté pour cette copie locale pour limiter le nombre de requêtes
lancées dans Google. Ce moteur permet la récupération de 1000 images maximum par
requête. Afin de réduire le temps d’exécution, nous avons limité le téléchargement à 300
images, ce qui correspond à une douzaine de pages de réponses standard de Google. Le
corpus local s’enrichit au fur et à mesure de l’utilisation du système. Pour refléter le
caractère dynamique du corpus d’images du Web, il serait possible de mettre en place
des procédures de rafraı̂chissement périodique des classes d’images stockées en local.
5.1.2.4
Le sélecteur de concepts
Le sélecteur de concepts reçoit la requête brute de l’utilisateur, interroge la ressource
linguistique et regarde si la requête correspond à un élément de la ressource linguistique.
Dans le cas négatif, la requête est transmise directement au collecteur d’images et les
résultats affichés sont identiques à ceux de Google Images. Les deux fonctionnalités
principales de ce module visent la reformulation de la requête et la proposition de termes
proches.
Comme nous l’avons expliqué dans la sous-section 3.3.2.1, la reformulation consiste
à utiliser des sous-types feuilles du concept courant afin de rechercher des photographies
représentatives. Si besoin, nous utilisons également le regroupement des termes dans des
synsets pour enrichir l’ensemble des réponses. Par exemple, les images d’ours polaires
peuvent être rassemblées en utilisant les synonymes suivants : ice bear, polar bear, Ursus
Arctos Horibilis.
La séparation des sens d’un terme dans WordNet facilite une procédure de désambiguı̈sation des requêtes courtes. Le sélecteur de concepts prend en compte la structure de la
hiérarchie lexicale et, pour les termes ambigus, reformule les requêtes pour chaque sens
d’un terme. La séparation des sens est réalisée via l’utilisation des hyponymes pour les
termes ayant des héritiers et par l’expansion de la requête avec l’hypéronyme immédiat
pour les termes feuille. Par exemple, une requête avec Angora sera reformulée en : Angora
+ rabbit, Angora + domestic goat, Angora + domestic cat.
5.1.2.5
Le collecteur d’images
Le collecteur d’images est un script Perl qui reçoit en entrée les requêtes reformulées
par le sélecteur de concepts et cherche des images correspondant à ces requêtes sur
Internet. Comme nous l’avons expliqué plus haut, la première étape est de vérifier si les
images associées à la requête existent dans le corpus local. Dans ce cas, nous ne lançons
pas de collecte d’images via Google.
S’il s’agit d’une nouvelle requête, le script interroge Google Images pour collecter
un maximum de 300 images pour chaque concept feuille transmis par le sélecteur de
concepts. Pour améliorer la vitesse d’exécution, une première requête vise à récupérer
les images qui vont être affichées sur la première page de réponses. Après cet affichage, le
150
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
script collecte le reste des images. Des contraintes liées à la surcharge du serveur source
conduisent à un temps de collecte total d’environ dix secondes à partir d’une connexion
de 1Mbps. Ces performances sont obtenues en récupérant les vignettes d’images affichées
par Google et non pas les images des sites d’origine. La collecte est bien plus rapide en
utilisant les vignettes et, en plus, nous évitons le risque de suivre des liens cassés associés
aux sites indexés par le moteur de recherche.
5.1.2.6
PIRIA
La fonction de recherche par le contenu est réalisée en intégrant PIRIA. Ce système
permet l’indexation et la recherche d’images en utilisant une indexation de bas niveau
basée sur une série de descripteurs globaux ou locaux du contenu visuel.
Dans Olive, nous avons choisi d’indexer les images en utilisant le Local Edge Pattern (LEP) [20], un descripteur global prenant en compte la texture et la couleur. La
grande variété d’images à indexer nous a incités à utiliser un descripteur combinant ces
deux propriétés qui donne des résultats intéressants sur des corpus d’images variées [99].
Certes, il aurait été possible de comparer plusieurs descripteurs ou d’essayer d’adapter
le descripteur au type de concept représenté. Cela aurait demandé une charge de travail
importante et dépassant le cadre de notre étude. Notre approche vise plutôt à montrer
comment combiner la recherche par mots-clef et celle par le contenu et non pas à fournir
une évaluation comparative des descripteurs de bas niveau.
5.1.2.7
L’interface d’Olive
Nous illustrons l’interface d’Olive (figure 5.2) avec la requête duck.
Les principales composantes de notre interface sont :
– la zone de présentation des images ;
– la barre de recherche textuelle ;
– la zone de présentation d’un voisinage conceptuel ;
– la boı̂te d’aide.
L’interface est conçue afin d’orienter la navigation de l’utilisateur dans la structure
conceptuelle de WordNet. La présentation du voisinage conceptuel permet d’actualiser
les connaissances de l’utilisateur concernant les noms communs et de découvrir des nouveaux concepts de la hiérarchie de WordNet. Nous présentons, à titre de comparaison
les résultats pour duck obtenus dans Ask (figure 5.3) et Google (figure 5.4).
L’interface d’Olive est plus proche de celle d’Ask que de celle de Google notamment à
cause de la proposition d’un ensemble structuré de requêtes proches. Nous avons comparé
les performances du module de génération d’un voisinage conceptuel dans Olive et Ask
et avons conclu que l’utilisation d’une structure conceptuelle construite manuellement
rend des meilleurs résultats que la ressource lingustique utilisée par Ask.
La présentation structurée des résultats constitue une différence importante entre
notre application et les deux moteurs de recherche d’images. L’organisation conceptuelle
des résultats sera comparée à une présentation non-structurée dans la sous-section 5.1.4.
5.1. OLIVE — RECHERCHE DE NOMS COMMUNS
151
Fig. 5.2 – Interface d’Olive présentant le résultat d’une requête avec duck.
WordNet inclut plusieurs types de concepts et nous prenons en compte deux critères de
séparation pour adapter la présentation des résultats dans Olive :
– l’ambiguı̈té : si le terme demandé à plus d’un sens dans la hiérarchie lexicale, on
présente les images associées au premier sens, considéré comme sens de base du
mot. La polysémie est gérée par la proposition d’un lien vers une page incluant
plusieurs sens du terme ou, alternativement, des liens individuels vers les sens
secondaires attachés au concept. Le traitement de l’ambiguı̈té est une autre caractéristique séparant Olive d’autres moteurs de recherche d’images existants. Il
permet à l’utilisateur de sélectionner le sens du mot l’intéressant à un moment
donné.
– l’existence d’héritiers dans la hiérarchie : si le terme demandé possède des héritiers,
il sera représenté par leur intermédiaire. Pour les termes feuille, Olive propose
simplement une reformulation visant à lever l’éventuelle ambiguı̈té du concept.
152
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
Fig. 5.3 – Résultats d’une requête avec duck dans Ask (Mai 2008).
Fig. 5.4 – Résultats d’une requête avec duck dans Google (Mai 2008).
5.1.3
Exemple d’utilisation
Nous illustrons le fonctionnement d’Olive avec un exemple d’utilisation incluant des
requêtes textuelles et une requête image. Gardons notre premier exemple de requête et
5.1. OLIVE — RECHERCHE DE NOMS COMMUNS
153
supposons que l’utilisateur demande de voir des images pour duck. Le système retourne
en première page les résultats de la figure 5.2. La deuxième page de réponses pour duck
(partiellement représentée dans la figure 5.5) contiendra des résultats pour d’autres soustypes.
Fig. 5.5 – Une partie de la deuxième page de réponses pour duck dans Olive.
Notons qu’il y a une différence importante entre la navigation proposée par Olive
réalisée dans l’espace conceptuel de la requête et celle proposée par les moteurs actuels
dans lesquels les réponses sont seulement ordonnées en fonction de leur pertinence par
rapport à la demande initiale (dans le cas de Google par Page Rank et à venir par Visual
Rank [63]).
Si on veut restreindre la requête initiale, on peut demander à ne voir que les images de
teal (teal, le « canard Sarcelle » en français, figure 5.6). Teal a deux sens dans WordNet
(la couleur turquoise et le canard) et le système propose, dans le contexte donné, des
résultats correspondant uniquement au deuxième sens (canard).
Alternativement, à partir de la deuxième page de réponses pour duck, on peut demander de voir des images pour une espèce particulière (feuille de WordNet), comme
154
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
Fig. 5.6 – Page de résultats pour teal dans Olive.
canvasback (figure 5.7) et de lancer une recherche par le contenu parmi les images de
cette classe (figure 5.8).
5.1. OLIVE — RECHERCHE DE NOMS COMMUNS
155
Fig. 5.7 – Page de réponses pour canvasback dans Olive.
Fig. 5.8 – Page de réponses pour une requête CBIR avec une image de canvasback dans
Olive.
156
5.1.4
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
Évaluation d’Olive
Nous évaluons différentes parties d’Olive et le système dans sa globalité par rapport à des systèmes existants. Une première partie de la validation a été présentée dans
la section 4.1.1, où nous avons comparé le module de proposition de requêtes proches
d’Olive à celui d’Ask. Nous évaluons d’abord la précision des résultats obtenus en utilisant notre reformulation des requêtes contre celle de Google Images (choisi comme
système de référence) et une évaluation du module CBIR. Nous présentons ensuite un
test d’utilisation du prototype fonctionnel effectué sur un panel de dix utilisateurs.
5.1.4.1
Précision des résultats
Nous avons effectué deux évaluations de la précision : pour les requêtes textuelles
et pour les requêtes par images exemples. Dans chaque cas, nous avons proposé 20
requêtes couvrant différents domaines conceptuels aux utilisateurs et nous leur avons
demandé de sélectionner les images retournées par le système qui sont représentatives de
la requête. La comparaison entre les résultats d’Olive et ceux de Google a été effectuée
dans une même interface, les testeurs n’ayant aucune information concernant l’identité
des systèmes comparés.
Requêtes textuelles
La représentativité des images est difficile à évaluer en dehors d’un contexte. Afin
d’aider les utilisateurs, nous avons présenté le texte suivant sur la première page du test :
Imaginez que vous êtes en train d’écrire un rapport sur un sujet (par exemple les chevaux) et que vous devez l’illustrer avec des images. Vous trouverez, sur chaque page, le
nom du concept cible (accompagné d’un terme plus général aidant à le désambiguı̈ser) et
des réponses retournées par le moteur de recherche. Cochez la case en dessous de l’image
si vous la considérez comme étant représentative du concept recherché (vous l’utiliseriez
en tant qu’illustration de votre rapport).
Cette tâche est suffisamment générale pour ne pas biaiser les résultats et correspond à
un usage classique des moteurs de recherche d’images [79]. Nous avons évalué la précision
des 20 premiers résultats rendus par Olive et par Google Images. Le nombre d’images
à évaluer est approximativement celui présenté sur la première page de résultats des
moteurs de recherche d’images (la page la plus regardée par les utilisateurs — voir la
section 3.1).
Les concepts à évaluer (voir la figure 5.9) ont été choisis afin de couvrir un spectre
relativement large de domaines. Pour Google, nous avons récupéré les 20 premières
réponses associées à chaque requête. Pour Olive, les résultats présentés sont obtenus
après reformulation en utilisant les concepts proches de WordNet.
Dans la figure 5.9, nous présentons les résultats de la comparaison entre Olive et
Google Images sur un panel de 20 concepts, moyennés sur l’ensemble des utilisateurs.
Les résultats globaux indiquent un meilleur comportement de notre système par rapport
5.1. OLIVE — RECHERCHE DE NOMS COMMUNS
157
Fig. 5.9 – Comparaison de la précision pour 20 requêtes textuelles dans Olive et dans
Google Images — vue par concepts.
à Google Images (12,8/20 contre 11,2/20). Des meilleurs résultats sont obtenus dans 15
cas sur 20 et on observe des différences significatives pour dog, apple, cloud ou car. Inversement, nous trouvons une différence significative en faveur de Google pour rose, cactus
ou bomb. Olive se comporte bien au niveau de classes générales comme les animaux, les
concepts naturels et les artéfacts ; pour les plantes, les résultats sont plus partagés.
Nous avons également étudié les résultats des deux systèmes en considérant séparément
chaque utilisateur (figure 5.10). La précision obtenue dans Olive est supérieure à celle de
Google Images pour tous les testeurs. Des différences significatives sont à signaler pour
U1, U2, U4 et U5 ; la plus petite différence est rencontrée pour l’utilisateur U6. Notons
les différences importantes entre les résultats individuels : pour U1, une précision de 15,7
pour Olive et 13,5 pour Google Images alors que pour U8 nous avons respectivement
6,7 et 6,2. Ces différences soulignent la faible stabilité de la précision et la nécessité de
tester les systèmes sur des panels d’utilisateurs les plus représentatifs possibles.
Les résultats présentés dans cette section indiquent que les performances de notre
système dépassent celles de Google Images sur l’échantillon de concepts utilisé. Ils valident notre approche qui consiste à reformuler automatiquement des requêtes avec certains de leurs sous-concepts.
Requêtes images
Nous avons fait l’hypothèse qu’une recherche par contenu visuel dans des espaces
conceptuellement cohérents est plus efficace qu’une recherche brute basée uniquement
sur les caractéristiques de bas niveau. Pour tester cette hypothèse, nous avons sélectionné
un sous-concept représentatif pour chaque classe de la figure 5.9. Pour chaque sousconcept (figure 5.11), nous avons téléchargé 500 images afin de tester la recherche par le
158
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
Fig. 5.10 – Comparaison de la précision pour 20 requêtes textuelles dans Olive et dans
Google Images — utilisateurs individuels.
contenu dans des régions limitées du corpus d’images. Pour le CBIR classique, la base
d’évaluation contient, en plus de toutes les images pour les feuilles de WordNet testées,
environ 30000 images associées à 300 autres concepts feuilles de la hiérarchie. Toutes les
images ont été indexées par le descripteur LEP (texture, couleur). Nous avons sélectionné
une image de la première page de réponses pour chaque concept feuille et nous avons
recherché les éléments les plus similaires parmi les photographies associées à la même
classe (Olive dans la figure 5.11) et dans toute la base d’évaluation (CBIR classique dans
5.11).
De même, pour se fixer un contexte, nous avons donné la consigne suivante aux utilisateurs :
Imaginez que vous êtes en train d’écrire un rapport sur un sujet (par exemple les
chevaux) et que vous devez l’illustrer avec des images. Vous trouverez, sur chaque page,
une image exemple représentative du sujet de votre rapport et des réponses considérées
comme similaires par le moteur de recherche d’images.
Supposez que vous avez trouvé une image qui vous plaı̂t (l’« image exemple ») pour illustrer votre rapport, mais vous voulez voir si le corpus contient des photographies similaires
à cet exemple. Cochez la case en dessous des images si vous les considérez similaires à
l’image exemple (est-ce qu’elles pourraient la remplacer en tant qu’illustration de votre
rapport ?).
Afin de faciliter la tâche des participants, nous avons étudié la précision des dix
premiers résultats rendus par le moteur de recherche.
5.1. OLIVE — RECHERCHE DE NOMS COMMUNS
159
Fig. 5.11 – Comparaison de la précision pour des résultats pour 20 requêtes images dans
Olive et pour un CBIR classique — vue par concepts.
Les résultats de la figure 5.11, qui sont moyennés sur l’ensemble des participants,
montrent qu’il y a une différence très significative entre les performances d’Olive et celle
d’un système CBIR classique (PIRIA). Globalement, la précision à 10 (P@10) est de
5,2 pour Olive et de 0,6 pour le CBIR classique. La recherche par le contenu visuel est
réalisée sur un échantillon de seulement 40000 images. Pour Olive, la taille du corpus
de test n’affecterait significativement pas les résultats puisque la recherche se réalise à
l’intérieur d’espaces conceptuellement cohérents.
Dans des cas comme doberman, saguaro ou jeep, le CBIR classique ne rend aucun
résultat similaire à la requête. Pour ces mêmes requêtes, la précision dans Olive dépasse
40%. Sur l’ensemble des images et des testeurs (160 pages de réponses présentées), les
participants n’ont trouvé aucune réponse similaire à l’image requête dans seulement six
situations.
Nous présentons, dans la figure 5.12, une vue des performances en fonction de chaque
utilisateur. Similairement à la recherche textuelle, il y a des différences notables entre
les participants, témoignant aussi de la subjectivité naturelle de la tâche. La différence
globale entre les deux méthodes de recherche par le contenu visuel est bien reflétée au
niveau de chaque utilisateur.
La méthode de recherche par images exemples proposée dans Olive est simple et
efficace car elle n’implique qu’une reformulation des requêtes textuelles et une indexation
des images du corpus. Elle constitue une bonne solution pour introduire une recherche par
similarité dans les moteurs de recherche d’images sur Internet car les résultats renvoyés
par le système rendent compte de la notion de similarité propre aux utilisateurs. En
même temps, l’utilisation de l’information textuelle pour limiter l’espace de recherche
résout en partie le problème de mise à l’échelle des systèmes CBIR.
160
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
Fig. 5.12 – Comparaison de la précision pour 20 requêtes images dans Olive et pour un
CBIR classique — vue utilisateurs.
5.1.4.2
Test utilisateurs
[136] montre qu’il y a des différences notables entre les performances des systèmes
estimées par des métriques comme la précision et celles perçues par des utilisateurs. Nous
avons mis en place un test utilisateurs afin de comparer Olive et Google Images. Nous
avons demandé à un panel de dix utilisateurs de tester notre application afin d’évaluer
quelques unes de ses caractéristiques. Chaque participant a commencé par tester une série
de concepts imposés (duck, angora, apple, car, rock ), pour continuer avec une exploration
libre d’Olive. Pour chaque page d’Olive, nous avons demandé aux utilisateurs de regarder
les résultats correspondants dans Google Images. Le test s’achevait par un questionnaire
comprenant une série de questions imposées et une partie où les participants étaient
libres de s’exprimer à propos de leurs expériences en tant qu’utilisateur. Les questions
imposées (tableau 5.1) sont soit générales (QG), soit relatives au module de génération
de requêtes proches (QR). Les questions générales comparent Olive à Google Images et
évaluent des options de notre système n’existant pas dans Google.
Nous avons adapté les réponses en conséquence :
– Pour QG1 et QG2 nous avons utilisé une échelle de 1 à 5 : 1 indiquant une
préférence forte pour Google et 5 pour Olive.
– Pour QG3, QG4 et QG6 nous avons demandé une réponse binaire : Oui ou Non.
– Pour QG5, les utilisateurs avaient à choisir entre une présentation groupée des
images pour les termes ambigus (Non dans le tableau 5.2(b)) ou une présentation
dans des classes différentes (Oui dans le tableau 5.2(b)).
– Pour QR1 — QR4 nous avons proposé une échelle de 1 à 4 : 1 pour un manque de
pertinence et 4 pour une forte pertinence des requêtes proches.
Les réponses à QG1 (tableau 5.2(a)) montrent que les testeurs trouvent que les
réponses présentées dans Olive sont plus pertinentes que celles de Google Images, avec
5.1. OLIVE — RECHERCHE DE NOMS COMMUNS
161
Tab. 5.1 – Questions imposées dans le test d’interactivité.
QG1
QG2
QG3
QG4
QG5
QG6
QR1
QR2
QR3
QR4
Veuillez noter la qualité globale des résultats dans Olive et
Google Images.
Vous avez observé que les résultats d’Olive sont structurés.
Notez votre préférence entre Olive et Google Images.
Trouvez-vous l’utilisation d’Olive intuitive ?
Olive propose une reformulation automatique des requêtes.
Trouvez-vous satisfaisantes les réponses du système dans
cette configuration ?
Il existe des mots ambigus. Veuillez indiquer votre préférence
concernant la présentation des réponses d’un moteur de recherche d’image pour ces mots.
Olive propose certaines possibilités d’interaction.
Considérez-vous utile la mise en place d’une interaction enrichie ?
Notez la pertinence globale des requêtes proches présentées
dans Olive.
Notez la pertinence des termes plus spécifiques proposés
dans Olive.
Notez la pertinence des termes du même niveau proposés
dans Olive.
Notez la pertinence des termes plus généraux proposés dans
Olive.
une préférence assez marquée pour le premier système (4,5/5). Ce résultat, obtenu pour
une exploration combinant des concepts imposés et des requêtes choisies par les utilisateurs, renforce les conclusions de la sous-section 5.1.4.1. Il montre aussi que la procédure
de reformulation automatique des requêtes en utilisant des sous-concepts est bénéfique
en recherche d’images sur Internet.
Les réponses à QG2, concernant la structuration conceptuelle des résultats, indiquent
une préférence pour la présentation structurée et viennent s’ajouter aux réponses à QG1
pour montrer que l’introduction d’une structure conceptuelle en recherche d’images est
utile. Un seul utilisateur sur les dix testeurs a déclaré préférer la présentation des résultats
sous forme de liste non-structurée.
Les résultats obtenus pour les autres questions générales (tableau 5.2(b)) indiquent
de bonnes performances de notre système. L’utilisation d’Olive est jugée intuitive (QG3)
alors qu’aucun des participants n’avait utilisé le système au préalable. À une exception
près, la reformulation automatique est jugée satisfaisante (QG4). Il serait préférable de
présenter les réponses à des requêtes ambiguës dans des classes de réponses séparées (QG5)
et de proposer aux utilisateurs plus de moyens d’interaction avec le système (QG6).
162
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
Tab. 5.2 – Résultats du test utilisateurs évaluant Olive. L’évaluation a été menée avec
dix utilisateurs.
(a)
QG1
QG2
Moyenne
4,5
4
(b)
Ecart type
0,71
0,94
QG3
QG4
QG5
QG6
Oui
10
9
9
10
(c)
Non
0
1
1
0
QR1
QR2
QR2
QR2
Moyenne
3
3,1
2,9
2,9
Ecart type
0
0,74
0,57
0,87
Les performances du module de génération de requêtes proches ont été jugées assez
satisfaisantes (tableau 5.2(c)). Concernant le type de requêtes proches à présenter, les
utilisateurs ont eu une faible préférence pour les requêtes plus spécifiques (QR2) par
rapport à la présentation de termes de même niveau (QR3) ou plus généraux (QR4). Ce
résultat était attendu car les concepts plus spécifiques facilitent une focalisation de la
requête mais nous nous attendions à trouver une préférence plus importante.
Fort heureusement, les utilisateurs ont exprimé un nombre important d’idées concernant l’amélioration d’Olive dans la partie d’expression libre. Nous synthétisons celles qui
sont apparues le plus fréquemment :
– Extension de la hiérarchie afin d’inclure plus de noms propres : WordNet ne
contient qu’un nombre réduit d’instances et les testeurs ont essayé de retrouver
des noms de personnes connues n’appartenant pas à la hiérarchie lexicale. Les
requêtes avec des noms de personnes connues constituent une partie importante
des recherches d’images sur Internet (section 3.1). Nous présentons une application
dédiée dans la section 5.3.
– Représentativité des requêtes proches : l’algorithme de présentation de requêtes
proches obtient des performances généralement bonnes mais il existe des cas où les
utilisateurs jugent que le résumé du voisinage conceptuel n’est pas suffisamment
pertinent.
– Séparation des images suivant le type de représentation (photographie, clipart,
cartes, peintures) : [89] présente une solution intéressante à ce problème basée sur
un apprentissage supervisé (SVM) mais nous n’avons pas encore intégré ce module
dans l’architecture d’Olive (voir la section 5.5).
– Proposition d’une vue type graphe des classes proches : tout comme pour la présentation des images résultats, certains utilisateurs trouvent qu’une présentation structurée hiérarchiquement des requêtes proches serait plus adaptée que la présentation
actuelle comprenant trois grandes classes de termes proches.
5.1.5
Discussion et conclusions
Les résultats présentés dans cette sous-section et dans la précédente confirment la
validité de notre approche de recherche d’images en exploitant une hiérarchie conceptuelle à large échelle. Nous avons évalué les principaux modules du système mis en place
5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES
163
par rapport à un système existant (Google Images). Les tests montrent les très bonnes
performances de notre système. Les résultats présentés sont en accord avec ceux décrits
dans [79] et [142] pour la structuration des résultats et avec les conclusions de [146] et
[140] sur l’utilité d’une structure conceptuelle en recherche d’images.
La précision des réponses sur le panel de concepts retenus est supérieure à Google
Images, chaque utilisateur favorisant Olive. Comme les requêtes appartiennent à des
domaines conceptuels différents, on peut raisonnablement supposer que les résultats
obtenus sont généralisables. Concernant la fonctionnalité de recherche par le contenu,
notre solution, qui restreint l’espace de recherche à des régions délimitées par les mêmes
concepts, s’avère plus adaptée que la recherche classique sans prise en compte du voisinage conceptuel. Parallèlement à une amélioration très nette de la précision des résultats,
la limitation de l’espace de recherche réduit drastiquement les temps de calcul du processus CBIR et permet d’envisager des passages à de plus larges échelles [63].
L’évaluation du système montre que les utilisateurs préfèrent, majoritairement, la
présentation des résultats dans Olive à celle de Google Images. L’amélioration de la
précision des résultats se reflète également dans le jugement global réalisé par les utilisateurs et la structuration conceptuelle des résultats est perçue comme bénéfique. L’enrichissement de l’interactivité, sans que l’utilisateur ressente une perte de contrôle par rapport à Google Images, s’avère utile car il permet une exploration aisée de vastes espaces
conceptuels. La proposition de requêtes proches a été testée de manière plus détaillée
dans la section 4.1.1, où nous avons montré que les résultats obtenus en utilisant WordNet sont de meilleure qualité que ceux obtenus dans Ask, à notre connaissance le seul
moteur actuel de recherche d’images proposant une structuration des requêtes proches.
Une perspective intéressante serait de répéter les expériences à une plus large échelle
mais cela représentait une charge de travail trop importante qui excédait le temps et les
moyens impartis pour cette thèse.
5.2
ThemExplorer — recherche d’entités géographiques
Dans cette section, nous présentons ThemExplorer, une application permettant de
visualiser des photographies associées au domaine géographique. Comme pour Olive,
nous utilisons conjointement une ressource linguistique et des techniques de traitement
d’images pour proposer une méthode efficace de recherche d’images géo-référencées. L’application est construite autour du thésaurus géographique décrit dans la section 4.2 et
de Geonames et propose une recherche thématique parmi les objets géographiques. Nous
commençons la présentation de ThemExplorer par décrire la modélisation des données,
puis nous détaillons l’architecture du système. Nous décrivons un exemple d’utilisation
et, pour finir, nous décrivons une série de tests validant notre approche.
5.2.1
Modélisation des données
Nous présentons ici un modèle formel des données textuelles exploitées dans ThemExplorer, dérivé de celui du thésaurus géographique enrichi automatiquement (section 4.2)
164
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
et un autre modèle pour les images représentant une entité géographique. La définition
d’un objet géographique dans ThemExplorer est donnée par l’équation 5.3 :
ObjetGeographique = (nom, classeP arent, coordonneesObjet, pertinenceObjet)
(5.3)
Où :
– nom : terme désignant l’objet géographique. Par exemple : Louvre ou Cathedral of
Learning.
– classeP arent : membre du vocabulaire géographique, représentant l’hypéronyme
de chaque nom géographique. Pour les exemples précédents : museum et tower.
– coordonneesObjet : elles précisent la position spatiale de l’objet par l’intermédiaire
du couple (latitude, longitude).
– pertinenceObjet : la valeur de pertinence associée à chaque objet géographique.
Elle est extraite en utilisant une mesure statistique sur un corpus spécialisé (Panoramio) et sur un corpus généraliste (Alltheweb) et permet d’ordonner les objets
géographiques.
Le vecteur 5.3 est une extension de la définition minimale d’un concept inclus dans
un thésaurus géographique donnée dans [50] en ajoutant une valeur de pertinence pour
chaque entité. Les différents éléments de la définition d’une entité géographique permettent sa caractérisation unique au sein du thésaurus et offrent la possibilité de bâtir
une application de recherche d’information plus interactive et mieux structurée que les
systèmes existants, comme World Explorer2 [1] ou Flickr Map3 .
Les photographies utilisées dans ThemExplorer sont représentées par 5.4 :
Image = (nom, index, coordonneesImage, pertinenceImage)
(5.4)
Où :
– nom : idem à 5.3.
– index : représentation vectorielle du contenu de l’image utilisant des descripteurs
de bas niveau.
– coordonneesImage : coordonnées géographiques de chaque image.
– pertinenceImage : la position de chaque photographie dans l’ensemble de réponses
hérité du moteur de recherche exploité.
Les informations dans l’équation 5.4 fournissent une description complexe de l’image,
incluant le concept représenté dans l’image par l’intermédiaire de nom, le point de vue
à partir duquel la photographie a été prise (coordonneesImage), la popularité de l’image
parmi les images géo-référencées autour de l’entité cible (pertinenceImage) et une description de bas niveau du contenu (index ). Ahern [1] ou Kennedy [73] ont montré la
pertinence de l’information de localisation pour la recherche d’images géographiques. De
plus, nous faisons une liaison entre chaque image et les thématiques déterminées par les
classes du vocabulaire géographique.
2
3
http ://tagmaps.research.yahoo.com/worldexplorer.php
http ://flickr.com/map
5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES
165
La description du contenu par des caractéristiques de bas niveau (index ) est appliquée
aussi bien aux images d’Olive qu’à celles de ThemExplorer. Cependant, il existe une
différence importante entre les deux vecteurs. Dans le second cas, nous avons jugé utile
d’enrichir la description du contenu des images géo-référencées en ajoutant un descripteur
local basé sur des points d’intérêt et le descripteur SIFT. La fusion des descripteurs
globaux et locaux est validée par l’amélioration des performances (voir 5.2.5 pour des
détails).
Les informations présentées dans les équations 5.3 et 5.4 déterminent un modèle de
données plus riche que celui inclus dans des applications comme World Explorer [1] ou
Panoramio. Elles permettent la proposition d’une architecture de recherche d’images géoréférencées complète et facilitent une interaction riche et plus intuitive entre le système
et les utilisateurs. Outre la richesse du thésaurus, les principales nouveautés par rapport
aux applications existantes viennent de la possibilité d’une navigation thématique et de
la proposition d’une recherche basée sur le contenu visuel des images.
Fig. 5.13 – Architecture d’un système de recherche d’images d’objets géographiques. Les
bases de données sont représentées sous forme de rectangles, les composants actifs par
des rectangles arrondis et les requêtes par des ellipses.
5.2.2
Architecture de ThemExplorer
La figure 5.13 présente l’architecture d’un système de recherche d’images pour les
objets géographiques. Cette architecture est un cas particulier de l’architecture générique
basée sur des ressources linguistiques décrite dans la sous-section 3.3.3.
La ressource linguistique est la version de Geonames enrichie automatiquement avec
les noms géographiques composant Gazetiki et est utilisée pour traiter les requêtes textuelles. Comme pour Olive, nous utilisons PIRIA pour indexer le contenu des images et
réaliser la rechercher par similarité visuelle. Le corpus photographique constitue une co-
166
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
pie locale d’une partie de l’ensemble d’images géo-référencées dans Flickr. Quand un objet n’est pas représenté par un nombre suffisant d’images géo-référencées, nous ajoutons
des images provenant de Flickr non géo-référencées. S’il n’y a toujours pas assez de photographies, nous complétons avec des images de Google Images. L’ordre de présentation
des images (Flickr géo-référencé, Flickr puis Google Images) est justifié par le niveau de
précision de ces corpus.
5.2.2.1
L’interaction dans ThemExplorer
Dans ThemExplorer, l’utilisateur peut formuler des requêtes textuelles et des requêtes
par images exemples, ces dernières étant limitées à des espaces de recherches restreints
par les requêtes textuelles initiales. Une différence importante entre ThemExplorer et
Olive tient dans le fait que la formulation des requêtes textuelles dans ThemExplorer
est réalisée à l’intérieur d’un ensemble fermé, par l’intermédiaire d’une carte affichant
des tags tandis que l’utilisateur d’Olive peut formuler librement sa requête. Le rôle
du sélecteur de concepts de ThemExplorer commence dès qu’une région de la carte et
une série de thèmes de recherche ont été sélectionnées. Quand un tag est choisi par
l’utilisateur, le sélecteur de concepts extrait les informations associées à celui-ci (le nom,
la position géographique et la classe parent) qui sont transmises au collecteur d’images.
Le collecteur d’images vérifie si l’objet géographique est déjà représenté dans le corpus
local. Si ce n’est pas le cas, des photographies représentatives sont recherchées d’abord
sur Flickr puis dans Google Images.
Toutes les images du corpus local sont indexées en fusionnant le descripteur LEP
et celui basé sur les points d’intérêt. Chaque image affichée peut constituer le point
de départ d’une requête visuelle. Si une telle recherche est amorcée, le contenu de la
photographie choisie est comparé à la description de bas niveau de toutes les autres
images associées au même nom géographique du thésaurus.
5.2.2.2
Le thésaurus géographique
Le thésaurus géographique est constitué par la fusion de la version adaptée de Geonames et de Gazetiki (voir les sections 4.1.2 et 4.2 pour des détails). Chaque nom
géographique est renseigné pour être placé précisément sur une carte et être associé à
des concepts plus généraux du domaine géographique. Si un objet géographique apparaı̂t
dans les deux ressources, une préférence est accordé à Geonames puisque ce thésaurus
est constitué manuellement et donc moins sujet aux erreurs. La base de données finale
contient un nombre total d’environ quatre millions d’entités géographiques qu’il est possible d’afficher sur une carte.
5.2.2.3
Le corpus d’images local
La base d’images locale est une copie partielle du corpus de Flickr et de Google
Images. Les images de Flickr sont préférées à celles de Google Images car elles sont
plus représentatives et plus facilement récupérables (et généralement sous des formats de
5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES
167
meilleure qualité). L’addition d’une information de localisation dans les requêtes améliore
la précision des résultats [1], [73]. La formulation des requêtes est expliquée plus en détail
dans la sous-section 5.2.2.5. En théorie, il est possible de récupérer toutes les images de
Flickr correspondant à un tag donné mais, afin d’améliorer le temps d’exécution, nous
limitons la collecte d’images à environ 300 éléments.
Notons qu’il existe d’autres corpus d’images géo-référencées disponibles, comme Panoramio, mais ce dernier se prête mal à une utilisation interactive à partir d’une interrogation par tags. En effet, l’API de Panoramio ne permet pas une limitation de l’espace
de recherche en fonction de l’information textuelle associée aux images. Avec Panoramio,
la récupération des images pour une région et un tag donnés comporte deux étapes :
1. le téléchargement de tous les titres des photographies de la région et
2. la sélection des images avec le tag question.
Ce processus en deux temps devient beaucoup trop fastidieux si l’on considère des régions
autour d’objets bien représentés dans la base. De plus, avec plus de 50 millions d’images
géo-référencées, la couverture du corpus Flickr est significativement plus importante que
celle de Panoramio, qui contient environ cinq millions de photographies.
5.2.2.4
Le sélecteur de concepts
Le rôle du sélecteur de concepts est double puisqu’il intervient aussi bien dans la
sélection des noms géographiques associés à une région et à un thème donnés que dans le
choix d’un tag. La structure du thésaurus géographique permet une double sélection des
noms géographiques : par rapport à leur position dans l’espace (définie par la relation
de méronymie entre un tag et une région de la carte) et par rapport à l’appartenance
à une classe parent du domaine géographique (définie comme une relation d’héritage
conceptuel). Les deux types de limitation de l’espace de recherche se traduisent par la
sélection d’une partie de la carte et d’une série de thèmes d’intérêt. Par exemple, si on se
place sur le centre de Paris et que l’on sélectionne des ponts et des musées, ThemExplorer
affiche des tags comme Pont Alexandre III, Pont des Arts, Pont Neuf, Louvre, Musée
d’Orsay, Centre Georges Pompidou, Musée Rodin etc. (voir la figure 5.14).
5.2.2.5
Le collecteur d’images
Le collecteur d’images reçoit la liste de requêtes reformulées de la part du sélecteur
de concepts et cherche à trouver des images correspondantes. Tout d’abord, le script
vérifie si la requête a déjà été proposée et si des images de cette entité existent déjà dans
le corpus local. Si c’est le cas, elles sont affichées immédiatement dans l’interface. Dans
le cas contraire, il s’agit d’un nouveau concept et le collecteur lance plusieurs requêtes
dans les corpus d’images du Web, selon l’ordre suivant :
– tag + région autour des coordonnées de l’objet, dans Flickr ;
– tag + classe parent, dans Flickr ;
– tag + classe parent, dans Google ;
– tag, dans Flickr ;
168
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
Fig. 5.14 – Ponts et musées au centre de Paris dans ThemExplorer.
– tag, dans Google.
En ne retenant que 300 photographies pour chaque entité, il n’est pas nécessaire
de lancer toutes les requêtes. Pour les objets connus, comme Eiffel Tower, nous obtenons habituellement assez d’images en n’utilisant que le premier type de reformulation. Des études comme [73] ou [72] montrent que la quantité d’images non pertinentes pour les requêtes géographiques atteint 50% dans Flickr. L’utilisation des coordonnées géographiques réduit significativement le niveau de bruit mais beaucoup d’objets
géographiques sont faiblement représentées par des images géo-référencées. Néanmoins,
avec la croissance rapide de Flickr, notamment pour les données géo-référencées, nous
pouvons espérer à une meilleure couverture de l’espace des images géographiques.
Le thésaurus géographique est structuré par la relation d’héritage conceptuel et nous
pouvons reformuler la requête initiale (par exemple Notre Dame) en utilisant la classe
parent (Notre Dame + cathedral ). Ce choix de reformulation se base sur une hypothèse
simple : il y a moins de chances qu’un utilisateur ait annoté de manière erronée une
image avec Notre Dame et cathedral qu’avec Notre Dame seulement. Si on ne trouve pas
assez d’images annotées avec l’objet et son type, nous formulons des requêtes portant
seulement sur le nom de l’entité.
5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES
169
La préférence pour le corpus de Flickr s’explique par sa meilleure précision pour le
type d’images demandées. La plateforme Flickr permet une interrogation en mixant les
tags et les coordonnées géographiques. De plus, elle contient un nombre important de
photographies touristiques qui sont potentiellement très intéressantes pour notre application. Google Images est un corpus plus généraliste (et donc plus bruité) que Flickr
et s’avère utile pour enrichir l’ensemble des résultats pour des entités moins connues et
donc moins bien représentées dans Flickr.
5.2.2.6
PIRIA
L’indexation des images est faite en exploitant des descripteurs globaux et locaux
de PIRIA. La caractérisation globale de la photographie est réalisée en utilisant LEP, le
même descripteur que dans Olive (présenté plus en détail dans 2.1.2.2).
Les objets géographiques sont généralement rigides et peuvent être efficacement
décrits par des approches locales par points d’intérêts. Nous utilisons une approche
dite par « sacs de mots visuels » (« bags of features » ou « bags of visual word ») [26]
(voir aussi 2.1.2.2).
Afin de calculer un vocabulaire de 5000 mots visuels, nous avons utilisé un jeu de
données comprenant 5000 images de Flickr, pour lesquelles nous avons extrait au maximum 1000 points d’intérêts (Harris-Laplace). Une version parallélisée de K-means4 a été
exploitée pour créer le vocabulaire. Nous avons lancé plusieurs K-Means avec différentes
initialisations (aléatoires) et nous avons sélectionné la partition la plus proche d’une
partition optimale selon un critère tenant compte de la distance intra- et inter-clusters.
La distance finale entre deux images dans ThemExplorer est obtenue par la combinaison de celle obtenue en utilisant les descripteurs globaux et celle obtenue en employant
les descripteurs locaux, sans pondération privilégiant l’une ou l’autre des composantes.
5.2.2.7
L’interface de ThemExplorer
La figure 5.15, relie les actions des utilisateurs aux éléments actifs et aux bases de
données de l’architecture du système. Nous illustrons l’interface de ThemExplorer dans
le cas d’une requête avec le Golden Gate Bridge de San Francisco.
Les principales composantes de l’interface de ThemExplorer sont :
– Une carte interactive : cette carte est librement proposée par Yahoo !5 . Sa principale particularité par rapport à d’autres interfaces de ce type est qu’elle permet
l’affichage de tags, une propriété qui la rend très utile pour des tâches de recherche
d’information multimédia. L’affichage de tags s’avère en effet plus efficace que l’affichage, souvent peu visible, de petites vignettes proposé dans d’autres applications
(comme Panoramio ou Google Earth).
– Un arbre de concepts géographiques : les concepts présentés dans la zone centrale
de l’interface reprennent la structure hiérarchique du thésaurus et facilitent une
navigation thématique dans la ressource. Dans la figure 5.15, nous présentons le
4
5
http ://www.ece.northwestern.edu/%7Ewkliao/Kmeans/index.html
http ://tagmaps.research.yahoo.com/
170
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
Fig. 5.15 – Interface de ThemExplorer présentant les résultats d’une requête avec Golden
Gate Bridge, à San Francisco.
cas d’une sélection de plusieurs types d’artéfacts faisant apparaı̂tre sur la carte les
tags les plus représentatifs correspondant aux concepts géographiques d’intérêt.
– La zone d’affichage d’images associées à la requête : les photographies récupérées
à partir de Flickr et Google Images sont affichées dans un format classique de
moteur de recherche d’images.
L’interface est construite afin d’exploiter la structure de données géographiques
décrite dans la sous-section 5.2.1 et de permettre à l’utilisateur d’explorer facilement
le contenu du thésaurus géographique à large échelle inclus dans l’architecture de ThemExplorer. Nous présentons, à titre comparatif, l’interface de World Explorer (5.16),
une application de recherche d’images géographiques développée par Yahoo ! qui nous a
inspiré pour la construction de notre système.
5.2.3
Comparaison de ThemExplorer et World Explorer
Les interfaces de ThemExplorer (figure 5.15) et de World Explorer (figure 5.16)
utilisent la même carte interactive permettant d’afficher des tags géo-localisés. Dans les
deux cas, les images représentatives proviennent de Flickr. Il y a toutefois deux différences
importantes :
– Le degré de structuration de la base de données géographiques est supérieur dans
ThemExplorer puisqu’on ajoute une information liée à la catégorie des entités.
Dans la figure 5.15, la restriction thématique porte sur des classes d’objets artificiels (bridge, building, museum ...). L’utilisateur peut naviguer facilement dans
l’arbre de concepts géographiques et définir ainsi ses centres d’intérêts. Par ailleurs,
5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES
171
Fig. 5.16 – Interface de World Explorer (Yahoo !) présentant les résultats d’une requête
avec Golden Gate Bridge, à San Francisco.
nous avons privilégié la présentation des noms géographiques spécifiques car les
images représentant ces entités forment des classes conceptuellement et visuellement compactes.
– La fonctionnalité de recherche d’images par similarité visuelle n’existe pas dans
World Explorer. Elle est introduite dans notre système et porte sur les photographies d’un même objet géographique. Ce dernier point mérite d’être souligné
puisque nous augmentons la possibilité de retrouver des réponses à la fois visuellement et conceptuellement similaires. Il y a beaucoup plus de chances de retrouver
(par le contenu) des images représentant la Tour Eiffel dans un ensemble d’images
annotées avec ce terme que dans un autre, plus large, correspondant à Paris ou
à France. De plus, la restriction de l’espace de recherche à des objets spécifiques
permet de s’affranchir de certains problèmes de temps de traitement qui handicapent les technologies de recherche par le contenu. Notre seule hypothèse est que
l’utilisateur désire naviguer dans un espace conceptuellement cohérent : nous supposons donc qu’il s’attend à voir des photographies de la Tour Eiffel en réponse à
une requête image avec la Tour Eiffel et non pas d’images d’autres monuments de
Paris.
La comparaison des deux systèmes de recherche d’images géographiques est reprise
dans la section traitant de l’évaluation.
172
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
5.2.4
Exemple d’utilisation
Supposons qu’un utilisateur désire voir des images représentatives pour toutes les
catégories géographiques de Gazetiki, à partir de la carte centrée sur l’Europe (figure
5.17).
Fig. 5.17 – Noms géographiques les plus représentatifs dans ThemExplorer, avec la carte
centrée sur l’Europe. Le tag sélectionné est la Tour Eiffel.
Les tags présentés dans la figure 5.17 sont des entités géographiques généralement
connues et appartiennent à une grande variété de catégories. Il y a des ponts (Tower
Bridge, Ponte Vecchio), des édifices réligieux (Sagrada Familia) ou des ı̂les (Capri, Santorini ).
Dans la figure 5.18, nous avons demandé de voir uniquement les ponts de la région
de San Francisco. Cette requête illustre la double restriction, conceptuelle et spatiale,
de l’espace de recherche. L’image de Golden Gate Bridge encadrée en rouge est l’image
requête pour la recherche par le contenu, les photographies les plus proches étant affichées
à la suite.
5.2.5
Évaluation de ThemExplorer
Nous avons effectué trois expériences :
– La première évaluation compare la limitation de l’espace de recherche en utilisant
uniquement des mots-clef et en ajoutant une restriction spatiale.
– La seconde évalue les descripteurs (et leur fusion) pour la recherche par le contenu.
– La dernière compare ThemExplorer à World Explorer en situation d’utilisation
réelle.
5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES
173
Fig. 5.18 – Présentation de noms géographiques de la catégorie bridge, dans la région
de San Francisco. Une recherche par similarité visuelle est proposée pour une image de
Golden Gate Bridge (encadrée en rouge).
La structure linguistique intégrée dans ThemExplorer a été évaluée en détail dans
la section 4.2 et nous avons montré que la ressource utilisée dans notre système est de
meilleure qualité que celle exploitée par World Explorer.
Des travaux en relation avec le notre ont aussi proposé des évaluations. [1] et [73]
montrent que la qualité des réponses est améliorée quand on utilise conjointement des
mots-clef et des coordonnées spatiales par rapport à la seule utilisation des mots-clef.
Quant à la recherche par le contenu, [99] montre que la restriction spatiale de l’espace
de recherche rend des résultats plus pertinents qu’une simple recherche par le contenu
sur l’intégralité de la base.
5.2.5.1
Restriction de la recherche par le contenu
Dans 5.1.4, nous avons montré que la réduction de l’espace de recherche pour le
CBIR en utilisant des mots-clef améliore grandement les résultats du processus. [99]
arrive à des conclusions similaires pour une limitation spatiale de la recherche d’images
géo-référencées. Nous comparons ici une restriction spatiale de la recherche à une double
limitation, par mots-clef et spatiale, de l’espace de recherche. Toutes les images ont été
indexées avec LEP.
Pour notre évaluation, nous avons demandé à six utilisateurs de tester les réponses
du système sur un panel de 20 images requêtes représentant des monuments connus dans
cinq grandes villes : San Francisco, Londres, Paris, Sydney et New York. Chaque objet
est représenté par un maximum de 500 images obtenues à partir de Flickr et Google
Images, avec une priorité donnée aux images géo-localisées. La métrique d’évaluation
174
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
est la précision à 10 (P@10). La tâche est relativement similaire à l’évaluation du CBIR
dans 5.1.4. Au début de chaque test, nous présentons le texte suivant à l’évaluateur :
Imaginez que vous êtes en train d’écrire un rapport sur un sujet (par exemple la Tour
Eiffel) et que vous devez l’illustrer avec des images. Vous trouverez, sur chaque page,
une image exemple représentative du sujet de votre rapport et des réponses considérées
comme similaires par le moteur de recherche d’images. Supposez que vous avez trouvé
une image qui vous plaı̂t (l’« image exemple ») pour illustrer le rapport, mais vous voulez
voir si le corpus d’images contient des photographies similaires à cet exemple. Cochez
la case en dessous des images si vous les considérez similaires à l’image exemple (est-ce
qu’elles pourraient la remplacer en tant qu’illustration de votre rapport ?).
Fig. 5.19 – Comparaison de la précision du CBIR pour une restriction spatiale de
l’espace de recherche (SPATIAL) et pour une limitation spatiale et par mots-clef
(SPATIAL+MOTS-CLEF).
La restriction spatiale est évaluée en lançant le CBIR uniquement parmi les objets
d’une même ville. Pour évaluer la restriction conceptuelle accompagnée d’une restriction
spatiale, les images similaires sont recherchées uniquement parmi les photographies du
même objet. Les résultats du test sont présentés dans la figure 5.19.
Les résultats de la figure 5.19 montrent que le CBIR contraint avec les mots-clef et la
localisation est plus efficace qu’une recherche par le contenu en n’utilisant que la localisation des images (51% contre 29%). À l’exception du cinquième utilisateur, la différence
entre les deux méthodes est assez nette pour les autres évaluateurs. Pour la restriction
5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES
175
spatiale, nous avons utilisé un cas assez simple car la recherche est réalisée dans un
corpus contenant uniquement cinq objets pour chaque ville. Dans des cas réels d’utilisation, l’écart de précision présenté dans la figure 5.19 serait probablement beaucoup plus
prononcé.
Fig. 5.20 – Précision en utilisant un descripteur global texture-couleur (LEP), un descripteur basé sur les sacs de mots visuels (BAG) et une fusion tardive des deux descripteurs.
5.2.5.2
Fusion des descripteurs en recherche par le contenu
Après avoir étudié la limitation de l’espace de recherche, nous avons fait l’hypothèse
qu’une fusion des descripteurs sera plus efficace que l’utilisation d’un seul descripteur.
Pour tester cette hypothèse, nous avons sélectionné 20 images appartenant aux mêmes
classes que celles de l’expérience précédente. Ces images ont été indexées en utilisant
le descripteur LEP (approche globale) et les sacs de mots visuels (BAG — approche
locale). La fusion des deux descripteurs est réalisée en combinant simplement les résultats
de chaque descripteur. Nous avons demandé à six utilisateurs (U1 — U6) d’évaluer la
précision à dix documents (P@10) pour chaque image de test. Les résultats du test sont
présentés dans la figure 5.20.
Les résultats de la figure 5.20 confirment ceux présentés dans la figure 5.19 et
montrent que la recherche par contenu visuel dans des espaces conceptuellement cohérents
permet d’obtenir de bons niveaux de précisions (0.7 en moyenne pour la fusion). La
différence entre les moyennes obtenues en employant LEP (51% dans 5.19 et 57% dans
5.20) s’explique par le fait que le groupe d’utilisateurs n’était pas le même pour les deux
expériences. Les performances globales des deux descripteurs sont relativement similaires
(57% pour LEP et 60% pour BAG) avec un léger avantage pour BAG qui se retrouve
pour chaque utilisateur. La fusion des deux descripteurs améliore la précision d’environ
176
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
10% par rapport à BAG et 13% par rapport à LEP.
En prenant en compte les utilisateurs individuellement, la différence varie entre 3%
et 15% et demeure plus faible pour les trois testeurs les plus « exigeants ». Si notre
hypothèse initiale semble être vérifiée, cette amélioration des résultats est obtenue au
prix d’une augmentation de la complexité de traitements (notamment par l’utilisation de
BAG). Des solutions algorithmiques basées sur la parrallélisation de certains processus
permettraient de garder une phase d’indexation en temps réel.
5.2.5.3
Test utilisateurs pour ThemExplorer
Nous avons mis en place un test utilisateurs pour comparer ThemExplorer et World
Explorer. Huit évaluateurs ont utilisé ces deux systèmes selon deux étapes :
1. Chaque utilisateur a exploré trois lieux imposés. Nous avons proposé deux villes
très connues (Paris et San Francisco) et une ville moins connue : Timişoara (Roumanie).
2. Les utilisateurs ont été encouragés à explorer librement d’autres régions du monde
(situation d’utilisation réelle).
Au début de l’évaluation, nous avons expliqué brièvement le mode de fonctionnement
des deux systèmes. À la fin, chaque utilisateur devait rédiger un commentaire libre sur
les deux systèmes puis répondre à une série de questions imposées (QCM). Les questions imposées Q1 à Q4 (tableau 5.3) comparent plusieurs caractéristiques communes à
ThemExplorer et World Explorer. Q5 et Q6 s’intéressent à l’utilité des deux principales
fonctionnalités introduites dans ThemExplorer (la sélection thématique et la recherche
par le contenu). Pour les questions Q1 à Q4, nous avons utilisé une échelle de 1 à 5 :
1 représentant une préférence forte pour World Explorer et 5 une préférence forte pour
ThemExplorer. Pour les questions Q5 et Q6, nous avons proposé une échelle de 1 (fonctionnalité inutile) à 5 (fonctionnalité très utile).
Le tableau 5.3 montre que les évaluateurs préfèrent ThemExplorer à World Explorer
sur toutes les caractéristiques testées (Q1 — Q4). Les nouvelles fonctionnalités introduites sont considérées comme étant très utiles (Q5, Q6). Nous avons montré dans la
section 4.2.8 que la base de données géographiques intégrée dans l’architecture de ThemExplorer couvre mieux le domaine géographique que celle de World Explorer. Cette
différence est aussi soulignée par les participants au test. Les réponses à Q1 (moyenne
de 4,5) rendent compte soit d’une préférence forte pour notre système (5/5) dans quatre
cas, soit d’une préférence (4/5) dans les autres cas.
L’évaluation dans la sous-section 4.2.8 nous a permis de conclure que le niveau de
bruit dans Gazetiki est plus faible que celui dans TagMaps, la base de donnée utilisée
par World Explorer. Ce résultat se retrouve bien dans les réponses des utilisateurs à
Q2 (moyenne de 3,88). Un seul participant au test a considéré que les tags affichés
dans World Explorer sont plus pertinents que ceux de ThemExplorer. Les noms des
entités géographiques présentés dans ThemExplorer sont complets dans la plupart des
cas contrairement à ceux proposés dans World Explorer (par exemple, notre système
5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES
177
Tab. 5.3 – Questions imposées pour le test comparant ThemExplorer et World Explorer.
Q1
Q2
Q3
Q4
Q5
Q6
Question
Pour la représentation du domaine
géographique, notez votre préférence
entre ThemExplorer et World Explorer :
Jugez le niveau du bruit (tags incorrects
ou incomplets) entre ThemExplorer et
World Explorer :
Pour les régions explorées, comparez la
qualité des premiers tags présentés par
ThemExplorer et par World Explorer :
Jugez l’enrichissement des modalités d’interaction dans ThemExplorer par rapport
à World Explorer est :
Vous considérez la représentation structurée des catégories géographiques dans
ThemExplorer :
Vous considérez la recherche par similarité
visuelle proposée dans ThemExplorer :
Moyenne
4,5
Ecart type
0,53
3,88
0,83
3,13
1,13
4,38
0,52
4,63
0,52
4,63
0,52
présente les tags Père Lachaise et Tour Eiffel tandis que World Explorer propose Lachaise et Eiffel ). Ces différences s’expliquent par les méthodes d’extraction utilisées pour
construire les bases de données géographiques : nous procédons à l’extraction des noms
d’un thésaurus existant, de Wikipédia ou de Panoramio (en utilisant des patrons lexicaux) alors que [110] proposent une méthode purement statistique pour obtenir des tags
représentant des noms de lieux.
Pour une région donnée, les tags affichés dans notre système sont considérés comme
étant légèrement plus représentatifs que ceux de World Explorer (moyenne de 3,13 pour
Q3). Le résultat obtenu pour Q3 confirme celui décrit dans la sous-section 4.2.8, où
nous comparons les premiers noms affichés par rapport à l’ordonnancement des éléments
proposés par TripAdvisor. C’est la plus petite différence entre les deux systèmes et elle
s’explique principalement par le fait que ThemExplorer propose des noms géographiques
spécifiques à tous les niveaux alors que World Explorer adapte les tags présentés en
fonction de l’échelle. Par exemple, si on se positionne à l’échelle de la France, notre
système affiche des tags comme Louvre ou Tour Eiffel alors que World Explorer présente
des noms de villes comme Paris ou Nantes.
La prise en compte de l’échelle dans World Explorer est, en effet, une caractéristique
très intelligente et représente un axe intéressant d’amélioration de notre système. Notons
que, dans la version actuelle, nous ne présentons pas les noms de divisions administratives (communes, départements, régions), même si ces dernières existent dans Geonames,
178
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
puisque nous avons essentiellement axé notre travail sur une recherche (et une navigation
au sein) d’entités spécifiques.
L’enrichissement de l’interactivité dans notre système par rapport à World Explorer
est évalué positivement par tous les participants au test (moyenne 4,38 pour Q4). Cet
enrichissement est réalisé de manière à ne pas compliquer l’interaction avec l’application
et rend ThemExplorer aussi facile à utiliser que World Explorer, mais plus flexible.
L’introduction d’une restriction thématique (Q5) est considérée comme étant « très
utile » par cinq participants au test et « utile » par trois évaluateurs. La sélection
thématique est une différence fondamentale entre ThemExplorer et World Explorer puisqu’elle symbolise l’intérêt d’utiliser des ressources structurées pour une application de
recherche d’images. Les résultats à cette cinquième question valident donc notre choix.
La recherche par le contenu à l’intérieur d’un espace conceptuel restreint (Q6) est
considérée comme étant « très utile » par cinq testeurs et « utile » par les trois autres.
Le CBIR s’avère utile dans les cas où un utilisateur trouve une image intéressante et
veut voir si le corpus photographique contient d’autres images similaires. Plus particulièrement, cette fonctionnalité est très pertinente pour les objets connus, comme la
Tour Eiffel ou le Golden Gate Bridge, qui possèdent beaucoup de représentations très
différentes.
Heureusement, les participants au test ont exprimé un grand nombre d’idées concernant les points forts et les points faibles des deux applications. Les commentaires ont
précédé les questions guidées et ne sont pas, par conséquent, influencés par les réponses
à ces questions. Nous synthétisons et commentons brièvement ici les idées apparues le
plus fréquemment pour ThemExplorer et pour World Explorer.
Points forts de ThemExplorer :
– Organisation conceptuelle de la base de données géographiques. Cette observation
est celle qui apparaı̂t la plus fréquemment parmi l’ensemble des commentaires.
– Bonne couverture du domaine géographique. Commentaire lié aux réponses de Q1.
– Lisibilité de l’interface (affichage des photographies) : Nous avons fait le choix
de présenter les images de manière similaire à la représentation classique des moteurs de recherche, contrairement à la représentation plus « moderne » mais plus
« brouillonne » de World Explorer (superposition des images).
– Bonne précision des résultats images : le choix d’afficher des tags spécifiques et
la collecte de photographies en combinant les noms de l’objet et ses coordonnées
permettent de proposer des photographies très pertinentes.
Point faibles de ThemExplorer
– Présence de tags en double : certains noms géographiques sont retrouvés à partir
de plusieurs sources distinctes. Nous n’avons pas encore procédé à l’élimination
des doublons.
– Absence d’images pour certaines entités : nous avons utilisé deux types de sources
différentes (elles ne coı̈ncident pas) : (1) Geonames, Wikipédia et Panoramio pour
construire Gazetiki et (2) Flickr et Google Images pour rechercher des photographies. Gazetiki contient environ quatre millions de noms géographiques et Flickr
5.2. THEMEXPLORER — RECHERCHE D’ENTITÉS GÉOGRAPHIQUES
179
contient environ 50 millions d’images géo-référencées. Ce ratio de dix est faible
et montre que Gazetiki est plus « riche » que Flickr. Il est donc normal que des
entités (notamment celles ne représentant pas un « intérêt » important) dans Gazetiki n’aient pas (encore. . .) de représentation dans Flickr. Néanmoins, nous n’en
sommes qu’au début de l’essor des données géo-référencées et la croissance du corpus de Flickr ou de Google Images ne peut que réduire le nombre d’entités n’ayant
pas d’images associées.
– Les tags s’affichent trop lentement : ThemExplorer utilise un service Web d’affichage de cartes proposé par Yahoo ! qui doit se connecter à un troisième serveur.
Celui-ci stocke le thésaurus géographique utilisé par ThemExplorer.
Points forts de World Explorer
– Bonne corrélation entre les tags présentés et les nombre d’images affichés : les
noms géographiques contenus dans TagMaps sont obtenus après une analyse des
informations textuelles associées aux images de Flickr, le même corpus utilisé pour
présenter des photographies.
Points faibles de World Explorer
– Interface de présentation des photographies peu lisible : dans World Explorer, les
images se superposent. Cette présentation est certes « à la mode » mais reste
néanmoins un choix assez étrange de la part de Yahoo !, un acteur pourtant
expérimenté des interfaces web.
– Informations présentées de manière non-structurée : cette observation est soulignée par contraste avec ThemExplorer.
– Tags trop génériques : Malgré l’intérêt d’une analyse de l’échelle, il n’y a pas assez
de noms géographiques spécifiques dans TagMaps. Or, les utilisateurs naviguent
rapidement dans des régions assez spécifiques de la carte (par exemple à l’échelle
des villes ou des quartiers).
– Des régions entières ne contiennent aucun tag : nous touchons ici le problème de
couverture de World Explorer. L’algorithme de sélection de tags géographiques de
TagMaps est probablement trop restrictif et ne trouve pas d’entités pour un nombre
important de régions. Une amélioration de la couverture demeure difficile car [110]
conclut qu’avec une relaxation des contraintes de sélection de noms géographiques,
le niveau du bruit parmi les tags obtenus devient vite trop important.
Les commentaires des utilisateurs permettent de dégager quelques directions de
développement pour notre application :
– Analyse du corpus de Flickr afin d’améliorer la couverture du domaine géographique
de Gazetiki.
– Calcul de la mesure de pertinence à partir du corpus de Flickr afin d’obtenir une
meilleure corrélation entre les tags et les photographies affichées.
– Elimination des doublons : cette opération est réalisable si on compare entre eux
les noms géographiques spatialement proches.
Les résultats du test utilisateurs confirment les évaluations des différentes composantes de ThemExplorer et valident le système dans sa globalité. De plus, la comparaison avec World Explorer est favorable à notre système et nous permet de considérer
180
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
ThemExplorer comme un système de recherche d’images géographiques compétitif.
5.3
Safir — recherche de noms de personnalités
De façon similaire aux deux autres domaines d’application, Safir exploite conjointement une ressource linguistique et des techniques de traitement d’images. L’application
est construite autour de la structure conceptuelle décrite dans la section 4.3 et propose
une navigation enrichie parmi les noms de personnalités, avec notamment la présentation
de requêtes proches et l’adaptation de l’affichage des résultats au domaine. Dans un premier temps, nous décrivons le modèle de données exploité dans Safir, puis nous offrons
un aperçu de l’architecture du système et de ses composantes principales. Enfin, nous
présentons un exemple d’utilisation du système et évaluons notre approche.
5.3.1
Modélisation des données
Nous décrivons un modèle formel des données textuelles exploitées dans Safir, dérivé
de la ressource linguistique représentant le domaine conceptuel (section 4.3) ainsi qu’un
autre modèle pour les images. L’étude du fichier de log de la section 3.1 montre que la plupart des requêtes de ce domaine porte sur des noms précis de personnalités. Les connaissances relatives à une personnalité exploitées dans Safir sont résumées dans l’équation
5.5.
P ersonnalite = (nom, classeP arent, nationalite,
(5.5)
personnalitesAssociees, activite, pertinence)
Où :
– nom : nom de la personne.
– classeP arent : hypéronyme de chaque nom. Dans notre cas : acteur, chanteur/musicien,
footballeur.
– nationalite : nationalité de la célébrité.
– personnalitesAssociees : une liste ordonnée de noms de personnalités ayant un lien
avec la personnalité cible, extraite à partir de l’article Wikipédia sur la célébrité.
– activite : ensemble d’informations décrivant le profil « professionnel » de la personne. Nous détaillons ces informations dans les trois cas dans les équations 5.6,
5.7 et 5.8.
– pertinence : valeur de pertinence associée à chaque nom de la structure. Elle
est déterminée en combinant des propriétés conceptuelles de la personne et des
statistiques du Web.
L’équation 5.5 contient des informations relatives à toute personnalité décrite dans
la structure conceptuelle qui constituent autant de critères pour enrichir simplement
et efficacement l’interaction entre l’utilisateur et Safir. Les différentes composantes de
l’équation 5.5 permettent une caractérisation unique de chaque élément de la ressource
5.3. SAFIR — RECHERCHE DE NOMS DE PERSONNALITÉS
181
ainsi que sa mise en relation avec d’autres concepts. Une valeur de pertinence est associée à tout concept et à toute relation inter-conceptuelle de la structure permettant
un ordonnancement des éléments et donc une meilleure présentation des résultats.
Les informations relatives à l’activité des acteurs, des musiciens et footballeurs sont
structurées de la façon suivante :
ActiviteActeur = (f ilms, roles, prix)
(5.6)
Où :
– f ilms : liste ordonnée des films dans lesquels l’acteur a joué.
– roles : liste ordonnée (en suivant le même ordre que pour les films) des rôles de
l’acteur.
– prix : liste des prix obtenus par la personne.
ActiviteChanteur = (genres, groupes, instruments, prix, albums)
(5.7)
Où :
– genres : liste ordonnée des genres musicaux du musicien.
– groupes : liste ordonnée des groupes auxquels a appartenu la personnalité.
– instruments : liste ordonnée des instruments joués.
– prix : liste des prix obtenus.
– albums : la liste ordonnée des albums.
ActiviteF ootballeur = (postes, clubs)
(5.8)
Où :
– postes : liste ordonnée des postes occupés par le joueur.
– clubs : liste ordonnée des clubs dans lesquels a joué le joueur.
Les vecteurs des équations 5.6, 5.7 et 5.8 contiennent les principales informations
concernant le parcours professionnel des personnalités incluses dans la structure conceptuelle. Avec les informations communes à toutes les catégories (éq. 5.5), ces connaissances
facilitent une représentation adéquate des personnalités cible.
Les photographies présentées dans Safir sont représentées par le vecteur suivant :
Image = (nom, index, pertinenceImage)
(5.9)
Où :
– nom : le nom de la personne représentée dans l’image.
– index : le vecteur des caractéristiques de bas niveau représentant l’image.
– pertinenceImage : la position de la photographie dans l’ensemble des réponses.
La pertinence est héritée du moteur de recherche d’images utilisé comme source.
Les informations dans l’équation 5.9 forment une description complexe de l’image,
alliant le concept représenté, la représentation de bas niveau du contenu et la popularité
de l’image dans le corpus de référence. La combinaison de ces trois types d’informations
facilite une recherche à la fois conceptuelle et par le contenu. Notons que, étant donné
182
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
la structure incomplète de Wikipédia, des champs sont non renseignés parmi les descripteurs d’un concept. Toutefois, comme l’ont montré les expériences menées pour valider
la procédure de construction de la ressource (section 4.3.7), la couverture du domaine
est significativement plus importante par rapport à Ask.
Les équations 5.5, 5.6, 5.7 et 5.8 et 5.9 décrivent un modèle de données plus riche et
plus structuré que celui d’Ask (à notre connaissance la seule application comparable).
Notre application repose sur une modélisation de domaines conceptuels qui permet de
proposer une interaction plus riche et intuitive, aidant l’utilisateur à se repérer dans des
espaces conceptuels vastes. De plus, la recherche par le contenu facilite un accès rapide à
des photographies proches d’une image question dans des espaces conceptuels cohérents.
Fig. 5.21 – Architecture d’un système de recherche d’images de noms de célébrités. Les
bases de données sont représentées sous forme de rectangles, les composants actifs par
des rectangles arrondis et les requêtes par des ellipses.
5.3.2
Architecture de Safir
L’architecture de Safir (figure 5.21) est un cas particulier de l’architecture générique
décrite dans la section 3.3.3. Dans cette application, la ressource linguistique est représentée
par CelebWiki (section 4.3) et PIRIA est le moteur de recherche par similarité visuelle.
La ressource linguistique sert à traiter les requêtes textuelles apparentées au domaine
tandis que PIRIA est utilisé pour répondre aux requêtes par images exemples. Comme
pour Olive, nous avons choisi de récupérer les images à inclure dans le corpus local à
partir de Google Images. Ce moteur assure une bonne couverture des noms propres et
permet d’effectuer beaucoup de requêtes dans un temps limité. L’application fonctionnerait de manière tout à fait similaire en utilisant des corpus extraits d’autres moteurs.
5.3. SAFIR — RECHERCHE DE NOMS DE PERSONNALITÉS
5.3.2.1
183
Fonctionnement de Safir
L’utilisateur peut formuler deux types de requêtes : textuelles et par images exemples.
Dans le premier cas, les requêtes sont transmises au sélecteur de concepts qui vérifie si
elles correspondent à des éléments de la structure. Si oui, les requêtes sont reformulées en
utilisant des informations relatives à l’activité de la personne et transmises au collecteur
d’images. Ce dernier vérifie si les images associées à la requête courante existent déjà dans
le corpus local ou si elles sont à télécharger à partir de Google Images. En parallèle, le
sélecteur de concept analyse le voisinage conceptuel de la requête initiale afin de formuler
des requêtes proches. La nationalité, la liste de personnalités associées ou l’activité (voir
éq. 5.5) sont utilisées pendant ce processus. Le voisinage conceptuel inclut les noms des
personnalités considérés comme les plus proches et des requêtes plus générales, portant
sur des caractéristiques comme la nationalité, le classe parent de la célébrité ou son
activité.
Similairement à Olive, les photographies incluses dans le corpus local d’images sont
indexées en utilisant le descripteur LEP de PIRIA (voir la section 2.1.2.2 pour plus de
détails). Les images sont toutes associées à des requêtes contenant les noms de personnalités et quelques-unes de leurs caractéristiques (par exemple, les films et les rôles les
plus connus pour les acteurs). Toutes les images affichées peuvent constituer le point
de départ d’une recherche par le contenu. Le processus CBIR est limité à un espace
conceptuellement cohérent, incluant les photographies associées à la même célébrité.
5.3.2.2
La ressource linguistique
Safir exploite CelebWiki, la structure conceptuelle pour le domaine des personnalités
créée à partir de Wikipédia, décrite en détail dans la section 4.3. La ressource linguistique
contient environ 13000 entrées pour les acteurs, 6000 pour les chanteurs et 26000 pour
les footballeurs et est implémentée en utilisant le modèle de données décrit en 5.3.1. Afin
d’améliorer la vitesse de traitement, il est nécessaire de réaliser un certain nombre de
prétraitements, comme l’ordonnancement des concepts et de leurs relations. La ressource
est exploitée afin de reformuler automatiquement les requêtes des utilisateurs portant sur
son contenu et de proposer un résumé pertinent du voisinage conceptuel de la requête.
5.3.2.3
Le corpus local d’images
Le téléchargement et l’indexation de bas niveau des images demandent un temps de
traitement significatif. Afin d’améliorer la vitesse d’exécution, nous utilisons un corpus
local d’images contenant des photographies des requêtes qui ont déjà été formulées par
les utilisateurs. Ce cache est une copie locale et partielle du corpus Google Images, que
l’on utilise comme source de données pour notre application.
5.3.2.4
Le sélecteur de concepts
Le sélecteur de concepts est un script Perl qui prend en entrée la requête de l’utilisateur et la compare au contenu de la ressource linguistique. Si la requête peut être traitée
184
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
en utilisant CelebWiki, deux opérations principales sont réalisées : sa reformulation et
un processus destiné à extraire un résumé conceptuel de la requête.
La reformulation implique l’exploitation des connaissances relatives à chaque type
de concept. Elle vise à améliorer la précision des résultats et à les présenter de manière
structurée. L’étude des fichiers de log (section 3.1) montre que la grande majorité des
requêtes pour des images de célébrités porte sur leurs noms précis et nous nous sommes
concentrés ici sur ce type de reformulation. L’opération est adaptée à chaque type de
célébrité et comporte une expansion de la requête initiale en utilisant des informations
relatives à l’activité de chaque personne :
– Pour les acteurs, une requête sera enrichie en nom + titre film et nom + rôle.
Les films (avec les rôles correspondants) les plus représentatifs pour un acteur sont
présentés en priorité.
– Pour les chanteurs, la reformulation implique l’expansion avec des noms de groupes
(nom + album) et des instruments (nom + instrument).
– Pour les footballeurs, on ajoute les noms des clubs (nom + club).
Rappelons que les informations nécessaires au processus de reformulation des requêtes
ne sont pas disponibles pour tous les concepts de la ressource. Afin de gérer ces manques,
le sélecteur de concepts transmet également la requête initiale brute au collecteur d’images.
L’expansion des requêtes est réalisée afin de réduire le risque de trouver des images non
pertinentes, partant du principe que la probabilité d’attacher deux annotations textuelles
erronées à une image est plus faible que celle d’en associer une seule. Le premier résultat
souhaité est une augmentation de la précision des réponses. Le second est la possibilité
de présenter les images de manière structurée. Par exemple, la première page de réponses
pour Jack Nicholson peut contenir des images de l’acteur dans quelques-uns de ses films
les plus représentatifs : Chinatown, One Flew over the Cuckoo’s Nest, The Shining, As
Good as it Gets ou The Departed.
Un second rôle du sélecteur de concepts est de produire un résumé du voisinage
conceptuel de la requête utilisé pour afficher des requêtes proches. La ressource conceptuelle facilite une présentation structurée de ces requêtes associées selon deux catégories :
noms proches et requêtes plus générales. Le premier groupe est une liste de cinq noms
(au maximum) liés à la requête courante et ordonnés en utilisant aussi bien leur proximité conceptuelle que leur degré de cooccurrence dans le corpus du Web. La deuxième
catégorie contient des requêtes plus générales, formulées à partir des différentes caractéristiques du modèle de données utilisées, comme l’activité ou la nationalité. Reprenons l’exemple de Jack Nicholson, la liste des célébrités proches contient : Robert
de Niro, Al Pacino ou Leonardo di Caprio. Les requêtes plus générales incluent : Actors from The Shining, Actors from As Good as it Gets, Actors on the Hollywood Walk
of Fame, Best Actor Academy Award Winners, Best Supporting Actor Academy Award
Winner.
5.3.2.5
Le collecteur d’images
La requête reformulée est transmise au collecteur d’images qui vérifie s’il s’agit d’un
élément déjà présent dans le corpus local. S’il s’agit d’un nouveau concept, le script
5.3. SAFIR — RECHERCHE DE NOMS DE PERSONNALITÉS
185
utilisera la liste des reformulations pour récupérer des images à partir de Google Images.
Nous retenons au maximum 60 images pour chaque reformulation. Ces images sont
stockées dans le corpus local, dans des répertoires dédiés à chaque concept.
5.3.2.6
PIRIA
Le moteur d’indexation et de recherche par similarité visuelle est utilisé de manière similaire à Olive et nous renvoyons le lecteur à la sous-section 5.1.2.6 pour une présentation
plus détaillée du module. Le descripteur utilisé ici est LEP (couleur et texture).
5.3.2.7
L’interface de Safir
La figure 5.22 présente l’interface de SAFIR dans le cas d’une requête sur l’acteur
Robert De Niro.
Fig. 5.22 – Interface de Safir présentant le résultat d’une requête avec Robert de Niro.
Les principales composantes de l’interface sont :
– une barre de recherche textuelle ;
– une zone de présentation des images ;
186
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
– une zone de présentation du voisinage conceptuel.
La présentation d’un voisinage conceptuel permet d’actualiser les connaissances de
l’utilisateur concernant le nom de l’acteur demandé et de naviguer utilisant des requêtes
proches. Les termes associés à une requête sont séparés en deux catégories, l’une présentant
des noms d’acteurs proches et l’autre proposant une série de requêtes plus générales.
5.3.2.8
Exemple d’utilisation
Supposons qu’un utilisateur cherche des images pour Robert De Niro. Le système
retourne en première page les résultats de la figure 5.22. Cette structuration des réponses
pour Robert De Niro permet à l’utilisateur d’avoir une vue temporellement ordonnée des
images de l’acteur.
Toutes les images présentées sur une page de réponses de Safir peuvent constituer
le point de départ d’une recherche par le contenu parmi les images de la même classe.
Nous présentons un exemple de recherche par le contenu pour une image représentative
pour le film Goodfellas (de Martin Scorsese) avec Robert de Niro dans la figure 5.23.
Fig. 5.23 – Page de réponses pour Robert De Niro dans Goodfellas.
L’image requête est encadrée en rouge et les images visuellement similaires à la
requête sont présentées de manière ordonnée. La recherche par similarité visuelle est proposée uniquement à l’intérieur de groupes d’images représentant des requêtes spécifiques
5.3. SAFIR — RECHERCHE DE NOMS DE PERSONNALITÉS
187
(ici Robert de Niro dans Goodfellas).
5.3.3
Évaluation de Safir
Le mode de fonctionnement de Safir est similaire à celui d’Olive donc nous n’avons
pas répété le test utilisateurs. Nous avons uniquement mesuré la précision des résultats
pour les requêtes textuelles dans Safir et Google Images afin d’évaluer l’utilité de la
reformulation automatique. Comme pour nos précédents tests, nous avons présenté le
texte explicatif suivant en début de chaque évaluation :
Imaginez que vous êtes en train d’écrire un rapport sur l’activité d’une personne
connue (par exemple, Jack Nicholson) et que vous devez l’illustrer avec des images. Vous
trouverez, sur chaque page, le nom de la requête et des réponses retournées par le moteur
de recherche. Cochez la case en dessous de l’image si vous la considérez comme étant
représentative du concept recherché (est que vous l’utiliseriez en tant qu’illustration de
votre rapport ?).
Nous avons évalué la précision des 20 premiers résultats (P@20) rendus par Safir et
Google Images pour 20 noms de footballeurs, acteurs et chanteurs. Le nombre d’images
à évaluer est approximativement celui présenté sur la première page de réponses des
moteurs de recherche d’images.
Fig. 5.24 – Comparaison de la précision des résultats pour Safir et Google Images pour
chaque utilisateur et en moyenne.
Les résultats de la figure 5.24 indiquent que la reformulation automatique n’améliore
pas la qualité des résultats. Les réponses de Google Images sont plus précises que celles
proposées par Safir (68% contre 60%) et, à l’exception du premier utilisateur U1, la
précision moyenne est plus importante pour Google Images. Des différences significatives
sont à signaler entre la précision évaluée par chaque utilisateur. Par exemple pour le
cinquième participant, la précision atteint 0,29 pour Safir et 0,35 pour Google Images
188
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
tandis que pour le troisième évaluateur les valeurs correspondantes sont 0,75 et 0,84.
Nous avons calculé les moyennes par type de célébrité. Pour les footballeurs, la
précision des résultats (MOYENNE FOOT) dans Safir dépasse celle de Googles Images
de 4%. Pour les acteurs (MOYENNE ACT) et les chanteurs ((MOYENNE MUS)) les
précisions des résultats dans Google Images sont nettement supérieures (respectivement
une différence de 12% et15%).
Les résultats présentés dans cette section indiquent que la reformulation automatique
des requêtes n’est pas efficace dans le cas des célébrités. Ce résultat peut s’expliquer par
le fait qu’une image de célébrité est souvent entourée d’un grand nombre de noms.
La reformulation choisie peut également expliquer ce résultat. Pour les chanteurs, nous
avons utilisé les noms d’albums pour compléter les requêtes et il semble que ce choix
n’est pas approprié. Il reste donc à trouver d’autres informations pouvant améliorer les
performances actuelles de Safir.
Il est par conséquent préférable d’utiliser les images fournies par Google Images
pour illustrer les requêtes avec des noms de célébrités. Par rapport à Google Images,
les principales contributions de Safir sont la proposition d’un voisinage conceptuel de la
requête permettant à l’utilisateur du système d’affiner ou de généraliser sa recherche et
l’introduction d’une fonctionnalité CBIR.
5.4
Participation à la campagne d’évaluation ImageCLEF
ImageCLEF6 est une campagne d’évaluation internationale sur la recherche d’images
dans des documents multilingues, proposant plusieurs tâches d’évaluation, comme la
recherche d’images médicales, l’annotation de concepts visuels ou la recherche d’images
dans un corpus d’images de tourisme. En 2008, les organisateurs ont introduit une tâche
de recherche d’images de Wikipédia7 en se basant sur la campagne d’évaluation INEX
Multimedia (2005-2006).
Le but de cette évaluation est de tester des méthodes de recherche d’images sur
un corpus hétérogène, avec des requêtes diversifiées. Le corpus contient environ 150000
images de l’encyclopédie, ainsi que les informations textuelles leurs étant associées dans
Wikipédia (titre et description textuelle). Les requêtes ont été proposées par les équipes
participantes et contenaient obligatoirement une partie textuelle. Ces requêtes pouvaient contenir une image exemple illustrative et/ou des concepts visuels aidant la recherche (par exemple : scène d’intérieur/extérieur, présence d’un visage dans l’image).
La requête présentée dans la figure 5.25 (cities by night) contient deux concepts, city et
night, un concept visuel(building) et une image exemple. Pour aider l’évaluation, l’auteur décrit plus en détail sa requête dans le champ intitulé narrative. Cette description
détaillée n’était pas disponible pour les participants. Elle est disponible seulement lors
de l’évaluation.
6
ImageCLEF — http ://imageclef.org/ — a débuté en 2003 comme campagne spécifique de CLEF
(Cross Language Evaluation Forum). La campagne est annuelle.
7
http ://imageclef.org/2008/wikipedia
5.4. PARTICIPATION À LA CAMPAGNE D’ÉVALUATION IMAGECLEF
189
Fig. 5.25 – Exemple de la requête « cities by night » pour la tâche Wikipédia d’ImageCLEF 2008.
Les participants pouvaient soumettre un nombre illimité de « runs » en combinant
les paramètres suivants :
– run automatique ou manuel : Pour les approches automatiques, aucune intervention humaine n’est tolérée dans le processus de recherche ;
– utilisation de l’expansion des requêtes et du retour de pertinence ;
– type de recherche : CBIR, textuelle, par concepts visuels ;
Nous avons soumis deux deux runs (nommés ceaTxt et ceaTxtCon) à partir d’approches automatiques et en utilisant une expansion des requêtes. La différence entre les
deux soumissions est que, dans la première (ceaTxt), la recherche était purement textuelle
alors que, dans la deuxième (ceaTxtCon), nous avons combiné une recherche textuelle
et une recherche basée sur des concepts visuels. Pour ceaTxtCon, nous avons utilisé le
système de détection de concepts visuels décrit dans [89] permettant de classer les images
en fonction des attributs intérieur/extérieur, image/dessin/carte ou présence/absence de
visage.
Les requêtes contenaient un ou plusieurs concepts, avec toutefois une forte représentation des requêtes mono-conceptuelles, par exemple : Eiffel Tower, Golden Gate Bridge,
hunting dog ou beach volley. Des exemples de requêtes plus complexes étaient : red
Ferrari, portrait of Hu Jintao, bridges by night ou female beachvolley players.
L’élément clé de notre approche est l’expansion des requêtes. Nous avons isolé les
noms dans les requêtes afin d’extraire un voisinage conceptuel exploitable pour reformuler les requêtes. Pour certains noms propres, comme Eiffel Tower, nous avons extrait
les traductions dans d’autres langues (Tour Eiffel, Eiffelturm etc.). Pour les termes plus
généraux, comme hunting dog, Ferrari ou bridge, nous avons construit des listes d’hyponymes à partir de Wikipédia et de WordNet. Les éléments du voisinage conceptuel
ont ensuite été ordonnés en utilisant une mesure de pertinence qui combine le poids
de l’élément dans Wikipédia et la fréquence d’apparition sur le Web. Le poids dans
Wikipédia est déterminé par la longueur de l’article afin de favoriser les éléments correctement décrits de manière détaillée dans l’encyclopédie (supposés importants). La
fréquence sur le Web est obtenue en lançant une requête avec le terme initial et chaque
hyponyme. Nous avons aussi établi une liste de concepts visuels, contenant des termes
comme portrait, night, map, sky etc. qui n’ont pas été reformulés mais qui ont été utilisés
190
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
pour réordonner les éléments dans la recherche combinant le texte et les concepts visuels
(ceaTxtCon).
Notre stratégie de recherche est focalisée sur le traitement des noms inclus dans les
requêtes, pour lesquels, nous avons défini des voisinages conceptuels à partir de Wikipédia
et de WordNet. Dans le cas des requêtes contenant un seul concept, l’expansion est
similaire à celle décrite dans Olive et est basée sur l’utilisation des hyponymes pour les
concepts généraux et des synonymes pour les concepts spécifiques. Par exemple, une
requête avec hunting dog sera reformulée en hunting dog + afghan hound mais aussi en
afghan hound.
Dans le cas des requêtes plus complexes, la stratégie de reformulation dépend du
contenu de la requête. D’une manière générale, on favorise respectivement :
1. les requêtes contenant tous les termes initiaux et des hyponymes,
2. les requêtes initiales,
3. des parties de la requête initiale et des hyponymes,
4. uniquement des hyponymes.
Dans le cas où un adjectif est rattaché à un nom, comme dans red Ferrari, l’expansion
de la requête est centrée sur le deuxième terme. Nous obtenons alors : red + Ferrari +
250 GTO, red + Ferrari, red + 250 GTO et 250 GTO. Si un concept visuel apparaı̂t
dans la requête, comme dans bridges by night, nous reformulons la requête en bridge(s)
+ night + Golden Gate Bridge, bridge(s) + night, night + Golden Gate Bridge, Golden
Gate Bridge.
La figure 5.26 présente la première partie du classement de la tâche Wikipédia de
ImageCLEF 2008.
Fig. 5.26 – Classement des « runs » de la tâche Wikipédia d’ImageCLEF en fonction
de la MAP (mean average precision). Les soumissions du CEA se situent à la deuxième
et quatrième place (sur 77 runs soumis par 12 équipes).
5.5. COMMENTAIRES
191
Les deux stratégies de recherche mises en place se sont avérées très compétitives. La
recherche combinant le texte et les concepts visuels (ceaTxtCon) a été classée seconde et
la recherche purement textuelle (ceaTxt) a été classée quatrième (sur 77 runs soumis par
12 équipes). Les résultats obtenus montrent que l’utilisation d’une expansion des requêtes
basée sur l’utilisation de voisinages conceptuels permet d’améliorer les performances des
systèmes de recherche d’images. L’ajout d’une détection de concepts visuels, en plus de
l’expansion des requêtes, améliore les résultats. Pour cette campagne, nous nous sommes
focalisés sur l’obtention d’une bonne précision des résultats et nos deux soumissions
arrivent en deuxième et troisième positions en se basant sur la P@5 et la P@10 (0,5467
et 0,4653 pour ceaTxtCon et 0,5200 et 0,4427 pour ceaTxt).
Les résultats obtenus prouvent que notre approche est efficace et qu’elle peut être
étendue à d’autres domaines que ceux traités dans le cadre de cette thèse, à condition
de créer ou d’adapter des structures linguistiques appropriées. Une autre conclusion
importante de la campagne ImageCLEF 2008 est que notre approche s’applique aussi
à des requêtes contenant plus d’un concept et permet donc d’assurer une couverture
importante des requêtes exprimées par les utilisateurs.
5.5
Commentaires sur l’utilisation d’autres techniques par
le contenu
Pour chacun des trois systèmes (Olive, ThemExplorer et Safir) nous avons présenté
une approche utilisant des techniques classiques d’indexation et de recherche par le
contenu. Nous avons néanmoins eu l’occasion d’expérimenter d’autres techniques faisant
intervenir une analyse du contenu des images.
5.5.1
Filtrage et classification de la nature des images par apprentissage supervisé
Le module PIRIA offre la possibilité de classer les images selon plusieurs attributs
liés à la nature de l’image (clipart, photographie couleur, photographie noir et blanc,
reproduction artistique) ou à son contexte (image intérieure/extérieure, jour/nuit, environnement urbain/naturel ). Cette classification [89] est basée sur un apprentissage
supervisé utilisant des Support Vector Machine (SVM, via la librairie en ligne LibSVM)
et un ensemble de descripteurs de bas niveau (couleur, texture, forme). Cette approche a
obtenu de bons résultats à la campagne d’évaluation ImagEVAL8 . PIRIA propose aussi
un filtrage des images à partir de la détection et la localisation de visages basées sur la
technique AdaBoost [138].
Dans un premier temps, nous avions utilisé la classification des images selon leur
nature pour filtrer et éliminer les cliparts des résultats du système Olive. Les résultats
sont pertinents mais nous n’avons pas pu intégrer dans les temps cette fonctionnalité dans
le système opérationnel final, pour des raisons de temps de traitement. Ceci représente
néanmoins une perspective d’amélioration à court terme très intéressante.
8
ImagEVAL — http ://www.imageval.org/e publications.html
192
CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES
La classification des images en fonction de leur contexte est une fonctionnalité qui
peut se révéler importante pour le système ThemExplorer pour différencier et donc structurer les images représentant l’extérieur ou l’intérieur d’un monument ou d’un musée
(par exemple Notre Dame de Paris ou Le Louvre), d’autant que les niveaux de performance de la classification intérieur/extérieur sont particulièrement élevés (généralement
supérieur à 90% de bonnes classifications dans l’état de l’art). Le temps nous a manqué
pour dépasser le stade de simples tests et intégrer complètement cette fonctionnalité au
système ThemExplorer.
Enfin, la détection de visages par AdaBoost permettrait un filtrage efficace des
résultats de Safir. Rappelons que cette fonctionnalité est devenue relativement classique
dans les moteurs de recherche actuels comme Exalead, Google Images ou Microsoft Live.
5.5.2
Classification non-supervisée d’images (clustering)
Le clustering d’images nous apparaı̂t comme une alternative très pertinente — ou
tout du moins fortement complémentaire — à la recherche par le contenu à partir d’une
image exemple. En effet, le fonctionnement classique d’une recherche CBIR part du principe que l’utilisateur trouve assez rapidement une « image requête ». Or, dans beaucoup
de cas, l’utilisateur souhaite simplement découvrir rapidement les différents types de
représentations de sa requête, sans connaı̂tre et donc favoriser a priori une représentation
bien précise. Le clustering d’images permet d’offrir à l’utilisateur un ensemble restreint
mais représentatif de la diversité des images répondant à sa requête (on parle dans
certains articles récents d’un ensemble d’images canoniques).
Nous avons essayé une technique de clustering d’images développée au CEA LIST,
basée sur les Shared Nearest Neighbors (SNN) et testée en 2008 sur trois sous-corpus
de Flickr [92]. Les résultats sont particulièrement prometteurs mais le niveau de maturité de la technologie (notamment l’optimisation des paramètres en fonction du type de
requête et l’amélioration des temps de traitement via une parallélisation du SNN) ne
nous ont pas permis d’intégrer ce type de fonctionnalité dans Olive et ThemExplorer.
Néanmoins, les retours utilisateurs et les travaux récents de la communauté sur cette
question [73] nous ont persuadés qu’une représentation sous forme de clusters visuellement homogènes, associée à notre représentation conceptuellement structurée dans Olive
ou ThemExplorer, serait particulièrement bénéfique à l’amélioration des systèmes.
Dans le cas de ThemExplorer, la majorité de ces pistes complémentaires de recherche
sera implémentée et évaluée dans le cadre du projet ANR (Contenu et Interactions)
GEORAMA regroupant le CEA LIST, Exalead et Telecom Bretagne.
Chapitre 6
Conclusions et perspectives
Nous avons présenté une nouvelle approche de la recherche d’images sur Internet
en alliant une réflexion théorique et en proposant un ensemble d’applications concrètes.
Dans le chapitre 2, nous avons décrit les principaux travaux actuels relatifs à notre
approche. Puis, dans le chapitre 3, nous avons détaillé les principales notions théoriques
appuyant notre démarche comme les études utilisateurs, les structures linguistiques,
la figurabilité et la similarité entre les images. Le quatrième chapitre a été dédié à
l’introduction de méthodes d’adaptation et de construction de structures linguistiques à
large échelle pour la recherche d’images. Dans le cinquième chapitre, nous avons décrit
une application de l’approche proposée à trois domaines conceptuels d’intérêt : les noms
communs, les noms géographiques et les noms de personnalités. Avant de conclure, nous
détaillons les principales contributions apportées par notre travail, les limites de notre
approche et les perspectives ouvertes par cette thèse.
6.1
Contributions
Le travail proposé dans cette thèse se situe à l’intersection de plusieurs domaines
d’étude comme l’extraction et la structuration de connaissances, les études des usages
et la recherche d’images.
6.1.1
Structuration automatique de connaissances
La mise en place de systèmes de recherche d’information sémantiques telle qu’envisagée dans cette thèse s’appuie sur l’exploitation de ressources conceptuelles à grande
échelle, dont la construction manuelle est une opération laborieuse. Comme nous l’avons
montré, il existe sur Internet une masse importante de connaissances déjà structurées
ou semi-structurées mais elles doivent être adaptées et enrichies pour être utilisables
par les applications de recherche d’images. Pour augmenter la couverture des ressources
existantes ou en créer des nouvelles, nous avons implémenté des méthodes d’extraction
automatique de connaissances à partir du Web.
193
194
CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES
Le principal défi relevé est de constituer des ressources avec une bonne couverture et
assurant une bonne qualité des informations structurées. Afin d’atteindre ce but, nous
privilégions l’utilisation de sources de données semi-structurées, comme Wikipédia ou
Panoramio, dont l’exploitation est plus aisée que celle des corpus textuels non-structurés.
Les sources semi-structurées ne contiennent pas toute l’information nécessaire et nous
avons également exploité les réponses des moteurs de recherche d’information du Web
pour compléter les structures créées.
– Pour les noms communs, nous avons augmenté le contenu de WordNet, proposant
un classement des synsets basé sur les propriétés des concepts et sur des statistiques
issues du Web. Le classement des concepts facilite l’utilisation du réseau lexical en
recherche d’images, permettant de classer les termes en fonction de leur pertinence.
La structure résultante a été comparée à celle exploitée dans le moteur Ask en
analysant les requêtes considérées comme proches du concept initial dans les deux
systèmes. Les résultats de l’expérience montrent que WordNet permet de proposer
des requêtes plus adaptées que celles issues de la base de connaissance d’Ask.
– Dans le cas des noms géographiques, nous avons mis en place une méthodologie
plus complexe, permettant aussi bien l’adaptation d’une ressource existante que
son enrichissement automatique. Nous avons étendu le modèle minimal des gazetteers [50], proposant en plus du nom de l’objet, de sa classe parent et de son
positionnement, un classement par ordre de pertinence. La méthode mise en place
permet d’acquérir automatiquement ces quatre informations essentielles à partir de
sources hétérogènes d’information. Comme pour WordNet, l’ajout d’un ordonnancement par pertinence ouvre la voie à une utilisation efficace des bases de données
géographiques en recherche d’images. La ressource constituée a été comparée à
Tagmaps [110], une autre tentative de structuration automatique de connaissances
géographiques à partir du Web dont nous avons connaissance. Les résultats obtenus montrent que notre structure est plus riche et assure une meilleure qualité des
connaissances incluses.
– Pour les noms de personnalités, nous avons analysé les pages Wikipédia correspondantes et nous avons extrait des informations utiles en recherche d’images, comme
une liste de noms associés, des données biographiques et des informations relatives
à l’activité publique de la personne. Un classement par ordre d’importance des
concepts et de leurs relations est également proposé. Similairement à WordNet, la
structure obtenue a été comparée avec celle utilisée dans Ask et les résultats de
la comparaison montrent que la qualité des requêtes proches est similaire dans les
deux structures mais que la couverture de notre ressource est meilleure.
6.1.2
Recherche d’images conceptuelle
Pour la recherche d’images sur Internet, les moteurs de recherche d’images actuels
s’appuient sur l’utilisation classique d’un alignement de chaı̂nes de caractères. Aucun
des grands moteurs actuels n’utilise le contenu des images à l’exception notable et très
récente (annoncé en avril 2008) de Google Images pour l’amélioration du tri des réponses
(Visual Rank) [63]. Nous proposons une approche basée sur l’exploitation de structures
6.1. CONTRIBUTIONS
195
linguistiques à large échelle et sur l’utilisation d’une recherche par le contenu. Une architecture générique, intégrant des ressources sémantiques et un moteur de recherche par
similarité visuelle, est d’abord décrite puis appliquée aux trois domaines considérés. Les
aspects suivants de la recherche d’images sont améliorés par l’introduction de ressources
sémantiques dans les architectures dédiées :
– L’interactivité — les relations conceptuelles servent à proposer plus de choix à
l’utilisateur. Dans les cas des noms communs et des personnalités, cet enrichissement se traduit par la proposition d’un résumé pertinent du voisinage conceptuel
de la requête. Pour les noms géographiques, nous introduisons la possibilité de
restreindre la recherche à des régions conceptuelles du corpus intéressantes pour
l’utilisateur.
– La structuration des résultats — les résultats présentés par les moteurs actuels
de recherche d’images sont organisés en se basant sur un l’alignement entre la
requête introduite par l’utilisateur et l’index textuel associé à l’image, ainsi que
sur un retour de pertinence implicite. Les relations contenues dans les structures
linguistiques facilitent une présentation conceptuelle des résultats, qui s’ajoute à
la méthode actuelle de classement des images dans les moteurs de recherche. Dans
le cas des noms communs, la structuration se traduit par une présentation des
résultats en utilisant des sous-concepts. Pour les personnalités, nous introduisons
présentation chronologique des images. Nous avons fait le choix de présenter la
structure des résultats de manière explicite mais il est également envisageable de
ne pas renseigner l’utilisateur sur l’appartenance des réponses à des classes plus
précises que la requête initiale.
– La précision des résultats — la reformulation automatique des requêtes en ajoutant leurs sous-concepts associés, détermine une amélioration de la pertinence des
réponses du système. Ceci s’explique par le fait que la probabilité d’annoter une
image avec deux termes non-pertinents est plus faible que celle de lui attribuer un
seul mot non-pertinent.
Certes, l’introduction des structures linguistiques rend l’architecture du système plus
complexe mais cela n’a aucune incidence quant à l’interaction entre l’utilisateur et le
système. Au contraire, les tests utilisateurs montrent que l’interaction avec les applications présentées dans cette thèse reste intuitive et permet une meilleure exploration de
l’espace de recherche comparé aux systèmes existants.
6.1.3
Recherche d’images par le contenu visuel
Malgré des efforts de recherche soutenus [82], les techniques de traitement d’images
sont peu ou pas utilisées par les moteurs actuels de recherche d’images. Deux facteurs
principaux expliquent cela :
– La recherche par le contenu visuel rend des résultats inadaptés aux attentes des
utilisateurs quand elle est appliquée à des corpus diversifiés, comme les images
d’Internet.
– Les temps de calcul nécessaires à la recherche par le contenu visuel sont significativement plus importants que ceux associés à la recherche par mots-clef.
196
CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES
Nous avons présenté une solution simple et efficace pour introduire une fonctionnalité
de recherche par le contenu dans les systèmes de recherche d’images en limitant l’espace
de recherche à des régions conceptuellement cohérentes du corpus. Dans le cas des noms
communs, la reformulation automatique restreint la recherche à des concepts spécifiques.
Pour les noms géographiques et les noms de personnalités, les utilisateurs visualisent
uniquement des concepts précis. Les termes spécifiques ont une apparence généralement
stable et la comparaison entre les images représentatives met en valeur les avantages de
la similarité des caractéristiques de bas niveau.
Aussi, la première difficulté citée ci-dessus est résolue par une meilleure prise en
compte de la notion de similarité entre les images, avec une description simultanée des
concepts représentés et des caractéristiques de bas niveau de l’image. La restriction de
l’espace de recherche par le contenu s’accompagne d’une réduction du temps de traitement à un niveau acceptable par l’utilisateur (quelques secondes).
Dans le cadre de cette thèse, nous avons essayé à chaque fois d’appliquer nos hypothèses théoriques par l’intermédiaire de systèmes opérationnels (modules logiciels et
interfaces). Cette approche s’est traduite par la création de ressources linguistiques
adaptées à la recherche d’images mais utilisables dans le cadre d’autres applications
et par la création d’une plateforme de recherche d’images fonctionnelle, capable de gérer
des requêtes portant sur les noms communs, les noms géographiques et les noms de
personnalités.
6.2
Limites et perspectives
Suite à ce travail doctoral, il existe à notre sens plusieurs directions qu’il serait
possible de suivre, combinant, tout comme la thèse, une dimension théorique et une
dimension applicative. Nous présentons ici quelques limitations de notre travail, ainsi
que des solutions envisagées pour dépasser ces limitations. Précisons que le domaine
d’application le plus prommeteur parmi les trois analysés dans le cadre de notre thèse
nous semble être celui des objets géographiques. Tout naturellement, il sera au centre
de nos préoccupations futures.
6.2.1
Incomplétude des structures conceptuelles
Les structures linguistiques sont intrinsèquement incomplètes car elles contiennent un
nombre limité de concepts et de relations entre ces concepts. Cela étant, nous avons essayé de modéliser les domaines conceptuels traités de manière à inclure les connaissances
les plus utiles pour les utilisateurs.
Une étude initiale des pratiques associées aux moteurs de recherche d’images permet
de déceler les domaines conceptuels les plus demandés et d’orienter le travail de recherche.
Nous avons suivi cette démarche et proposé une plateforme de recherche d’images traitant
des requêtes appartenant à des régions conceptuelles bien représentées dans l’ensemble
des requêtes. Il serait cependant nécessaire de continuer à développer des structures
similaires pour d’autres domaines bien représentés dans les fichiers de log, comme les
6.2. LIMITES ET PERSPECTIVES
197
noms de véhicules ou les personnages d’oeuvres artistiques. Pour chaque domaine, nous
devons sélectionner les propriétés les plus représentatives, aussi bien conceptuellement
que visuellement, et nous devons essayer de les renseigner de la manière la plus complète
possible.
Une autre voie intéressante à suivre concerne la création de structures conceptuelles
multilingues. Nous avons travaillé sur des ressources en anglais mais les requêtes exprimées sur le Web appartiennent à une grande variété de langues. Dans le cas de
la construction de ressources alignées, il est possible d’enrichir les réponses du moteur avec des résultats en d’autres langues car les représentations photographiques sont
généralement indépendantes de la langue de la requête.
L’Internet est un environnement hautement dynamique dans lequel les requêtes des
utilisateurs et les informations à indexer et à organiser évoluent considérablement au fil
du temps. Aussi, les structures conceptuelles doivent être remises à jour périodiquement
pour suivre au mieux l’évolution des pratiques et des connaissances.
6.2.2
Traitement des requêtes complexes
Dans le cadre de cette thèse, nous traitons principalement des requêtes mono-conceptuelles qui constituent une partie importante de l’espace de requêtes sur Internet. Un traitement des requêtes plus complexes, dans le cadre (limité) d’ImageCLEF, est également
mis en place. Il nous parait important de continuer cet effort en explorant les modalités
d’extension de notre approche à des requêtes plus complexes dans un cas général. La
reformulation des requêtes formées de plusieurs termes pourrait enrichir les résultats,
mais la tâche n’est pas triviale puisqu’il n’est pas aisé de déterminer quels concepts
doivent être reformulés et comment. Avec la croissance de la complexité d’une requête,
le nombre de reformulations possibles devient vite très important et il faut ordonner ces
reformulations.
Pour les requêtes complexes, nous nous limitons simplement à proposer une amélioration simple à mettre en œuvre dans ces cas : la proposition d’une recherche par le contenu
parmi les réponses à ces requêtes. L’utilisation de plusieurs termes dans une requête
détermine souvent des classes de réponses visuellement cohérentes (prenons l’exemple de
black dog ou de cactus in the desert) et rend la recherche par similarité visuelle utile.
6.2.3
Qualité des résultats
Nous avons décrit plusieurs tests évaluant la qualité des résultats fournis par les
moteurs actuels de recherche d’images et les résultats issus d’une reformulation automatique des requêtes. Nous avons montré que les performances varient en fonction
du domaine conceptuel. Pour améliorer la qualité des réponses, il faudrait étudier des
méthodes d’amélioration de la précision en tenant compte d’indices de confiances appliqués aux sites en fonction du domaine conceptuel de la requête. Par exemple, dans le
cas des célébrités, il serait utile de mettre en avant les photographies provenant de sites
198
CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES
spécialisés comme IMDB1 ou ViewImages2 dont on connaı̂t la qualité des images.
Dans cette thèse, nous favorisons une présentation conceptuellement structurée des
réponses par rapport à une présentation non-structurée mais sans que cela soit appliqué
au niveau du contenu visuel des images. Aussi, il faudrait aller plus loin et ajouter
par exemple des méthodes de clustering d’images afin de proposer des résultats plus
diversifiés à l’utilisateur.
6.2.4
Structuration automatique d’une ressource géographique
La structure conceptuelle décrivant le domaine géographique est actuellement basée
sur l’exploitation de trois sources principales d’information : Geonames, Wikipédia en
anglais et Panoramio. Le processus d’extraction peut assez facilement être adapté à
d’autres sources d’information, comme des versions de Wikipédia en d’autres langues ou
Flickr. Il existe un nombre important d’objets qui ne sont pas pas géo-référencés dans
la version anglaise de Wikipédia mais qui le sont dans d’autres langues. L’utilisation de
ces nouvelles sources d’information engendrera une meilleure couverture de la ressource
obtenue. Flickr contient environ dix fois plus d’images géo-référencées que Panoramio
et son inclusion parmi les sources d’information déterminera également une meilleure
couverture de la ressource, ainsi qu’un classement amélioré des objets géographiques.
Nous extrayons actuellement uniquement le nom, les coordonnées et le type des objets décrits par des pages Wikipédia géo-localisées. Certaines de ces pages contiennent
également d’autres informations intéressantes comme : les régions englobant l’objet
décrit, la population et la surface dans le cas des entités administratives, des photographies illustratives. Toutes ces informations peuvent être extraites afin d’enrichir la
structure du thésaurus.
6.2.5
Annotation automatique d’images géo-référencées
Nous avons décrit l’utilisation d’un thésaurus géographique en recherche d’images
géo-localisées. Il est également possible d’exploiter ce type de ressource pour l’annotation
automatique des photographies du même type et nous explorons actuellement cette piste
de recherche. La principale difficulté en annotation automatique des images de corpus
variés regarde la grande diversité du contenu. Il n’existe pas actuellement des méthodes
de classification automatique rendant des résultats raisonnables si on s’attaque à des
espaces contenant des milliers (ou plus) d’objets. Il est donc obligatoire de proposer
une réduction de la région du corpus recherchée avant de procéder à une classification.
Dans le cas des images géo-référencées, cette réduction est envisageable en utilisant les
coordonnées de la photographie (il ne sert pas à grande chose de comparer une image prise
près de la Tour Eiffel à des objets de New York ou Tokyo pour tenter une classification).
La localisation de l’espace de recherche réduit drastiquement la complexité du problème,
le rendant traitable avec des méthodes de classification existantes.
1
2
http ://imdb.com
http ://viewimages.com
6.2. LIMITES ET PERSPECTIVES
199
Il est certes nécessaire de se constituer des bases de référence afin de pouvoir classifier
des nouvelles photographies. Des corpus comme Panoramio et Flickr sont aussi bien
utilisables comme base de référence pour la classification que pour la recherche d’images
à condition que l’objet en question soit assez bien représenté dans le corpus. De plus, la
procédure de vérification manuelle des images de Panoramio permet d’enlever la plupart
du bruit et on peut utiliser ces photographies afin d’enrichir la base de référence avec
des images obtenues à partir de moteurs de recherche d’images généralistes.
Deux cas d’utilisation sont envisagés : celui des appareils photographies permettant
une localisation directe des images et celui des appareils n’incorporant pas cette fonction. Dans le premier cas, le problème est plus facile car l’image est bien localisée. Par
conséquent, nous pouvons savoir assez précisément quels sont les objets connus autour
de ses coordonnées et donc les annotations possibles. Dans la seconde situation, on peut
imaginer une interface permettant à l’utilisateur de situer sur une carte des répertoires
comme « Photographies de vacances de Paris ». Ensuite le système comparera ces images
aux objets saillants dans Paris, essayant d’attribuer des étiquettes aux images dans le
répertoire.
6.2.6
Plateforme de tourisme virtuel interactive
Les applications de e-tourisme existantes, comme TripAdivsor, Schmap3 ou encore
Google Earth, structurent bien la partie commerciale de leur offre mais proposent, au
mieux, une organisation assez rudimentaire des lieux d’intérêt, prenant assez peu en
compte les préférences de l’utilisateur. Il est par exemple impossible actuellement d’introduire les requêtes suivantes :
– J’aimerais aller en Roumanie, y rester pendant une semaine et visiter des endroits
représentatifs pour l’architecture réligieuse du pays, ainsi que des musées d’histoire
et des châteaux.
– J’aimerais visiter les églises baroques de Paris en une journée. Proposez moi un
itinéraire sachant que je veux manger marocain à midi et indien le soir. Je ne veux
pas dépenser plus de 20 euros par repas.
– Je suis à Augsburg, j’ai trois heures avant de partir à l’aéroport — proposez moi
un circuit incluant les principales attractions touristiques de la ville.
L’utilisation d’un thésaurus géographique, enrichi avec des informations commerciales, associée à un système de cartes permettrait de répondre à ce type de questions
et de proposer des itinéraires adaptés aux préférences exprimées par l’utilisateur. Avec
l’essor des appareils géo-localisés, il est également possible de guider l’utilisateur pendant
son excursion et de modifier les itinéraires en temps réel. Le système peut intégrer un
outil comme ThemExplorer afin de proposer des « previews » des itinéraires suggérés,
permettant à l’utilisateur de définir plus précisément ce qu’il veut vraiment visiter. Cet
outil de tourisme virtuel interactif peut être vu comme un service autonome ou comme
un module intégré à un service plus large, proposant aussi des vols et des hébergements.
Nous pensons qu’il sera plus utile dans le dernier cas et permettra à la plateforme
3
http ://schmap.com
200
CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES
l’intégrant de se démarquer par rapport à d’autres applications existantes.
Comme indiqué à la fin du chapitre précédent, l’acceptation du projet ANR GEORAMA nous permet de centrer notre recherche future sur le domaine géographique.
Les principaux objectifs du projet sont : l’amélioration de la qualité et de la couverture du thésaurus géographique mis en place, l’achévement du travail sur l’annotation
automatique d’images d’objets géographiques et l’implémentation d’un prototype de la
plateforme de tourisme virtuel décrite ci-dessus.
Chapitre 7
Liste des publications
Voici la liste des publications présentées au cours de cette thèse.
7.1
Chapitres d’ouvrages
– Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic. Improving Image Retrieval Using Semantic Resources, Dans Advances in Semantic Media Adaptation
and Personalization, Springer Series in Computational Intelligence, 2008.
7.2
7.2.1
7.2.1.1
Conférences
Conférences internationales
Présentations orales
– Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic. Gazetiki : Automatic
Creation of a Geographical Gazetteer, Proceedings of JCDL 2008 , June 16 - 20,
Pittsburgh, USA.
– Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos. A Conceptual Approach
to Web Image Retrieval, LREC 2008, May 28 - 30, 2008, Marrakech, Maroc.
– Adrian Popescu, Ioannis Kanellos. Multilingual and content based access to Flickr,
ICTTA 2008, April 7 - 11, 2008, Damas, Syrie.
– Davide Picca, Adrian Popescu. Using Wikipedia and supersense tagging for semiautomatic complex taxonomy construction, CALP workshop, in conjunction with
RANLP 2007, September 30, 2007, Borovets, Bulgarie.
– Adrian Popescu. Large Scale Semantic Structures for Image Retrieval, ACM Multimedia 2007 - doctoral symposium, September 24 - 29, Augsburg, Allemagne.
– Christophe Millet, Isabelle Bloch, Adrian Popescu. Using the Knowledge of Object
Colors to Segment Images and Improve Web Image Search, RIAO 2007, 30 mai 1 juin, 2007, Pittsburg, États-Unis.
201
202
CHAPITRE 7. LISTE DES PUBLICATIONS
– Adrian Popescu. Image Retrieval Using a Multilingual Ontology, RIAO 2007, May
30 - June 1, 2007, Pittsburgh, États-Unis.
– Christian Fluhr, Gregory Grefenstette, Adrian Popescu. Toward a common semantics between Media and Languages, Proceedings of IWRIDL, December 12-15,
2006, Kolkata, Inde
– Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic. Using Semantic Commonsense Resources in Image Retrieval, Proceedings of SMAP 2006, December 4
- 5, 2006, Athènes, Grèce.
– Adrian Popescu, Christophe Millet, Pierre-Alain Moëllic, Patrick Hède, Gregory
Grefenstette. Automatic Construction of a Grounded Multimedia Ontology of Objects to Illustrate Concepts in a Learning Process, Proceedings of the 10th NETTIES Conference, 6-9 septembre, 2006, Timisoara, Roumanie.
7.2.1.2
Posters et démonstrations
– Adrian Popescu, Sofiane Souidi, Pierre-Alain Moëllic. See the World with ThemExplorer, JCDL 2008 - demos session, June 16 - 20, Pittsburgh, Etats-Unis.
– Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos. ThemExplorer : Finding
and Browsing Geo-referenced Images, Proceedings of CBMI 2008 - posters session,
June 18 - 20, London, Grande Bretagne.
– Adrian Popescu, Pierre-Alain Moëllic. Olive - A Conceptual Web Image Search
Engine, ACM Multimedia 2007 - demos session, September 24 - 29, Augsburg,
Allemagne.
– Adrian Popescu, Christophe Millet, Pierre-Alain Moëllic. Ontology Driven Content
Based Image Retrieval, CIVR 2007 - posters session, 9-11 juillet, 2007, Amsterdam,
Pays-Bas.
– Adrian Popescu, Pierre-Alain Moëllic, Christophe Millet. SemRetriev – an Ontology Driven Image Retrieval System, CIVR 2007 - demo session, 9-11 juillet, 2007,
Amsterdam, Pays-Bas.
– Adrian Popescu, Christophe Millet, Gregory Grefenstette, Pierre-Alain Moëllic,
Patrick Hède. Imaging Word - Wording Images, SAMT 2006 - poster session, 6-9
décembre, 2006, Athènes, Grèce.
7.2.2
Conférences nationales
– Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos. Utilisation de structures
sémantiques pour la recherche d’images sur Internet, ECOI Workshop, in conjunction with EGC 2008, January 29, 2008, Nice, France.
Bibliographie
[1] S. Ahern, M. Naaman, R. Nair, J. Yang. “World explorer : visualizing aggregate
data from unstructured text in geo-referenced collections”. In JCDL ’07 : Proceedings of the 7th ACM/IEEE-CS joint conference on Digital libraries, pages 1–10,
New York, NY, USA, (2007). ACM.
[2] A. Al-Maskari, M. Sanderson, P. Clough. “The good and the bad system : Does the
test collection predict users’ effectiveness ?”. In Proceedings of the ACM SIGIR
Conference on Research and Development in Information Retrieval, Singapore,
(2008).
[3] F.-X. Alario, L. Ferrand. “A set of 400 pictures standardized for french : Norms for
name agreement, image agreement, familiarity, visual complexity, image variability,
and age of acquisition”, Behavior research methods, instruments & computers,
31(3), pp. 531–552, (1999).
[4] Aristote. Catégories. Seuil, (2000).
[5] J. Ashley, M. Flickner, J. Hafner, D. Lee, W. Niblack, D. Petkovic. “The query
by image content (qbic) system”, SIGMOD Rec., 24(2), pp. 475, (1995).
[6] Y. A. Aslandogan, C. Thier, C. T. Yu, J. Zou, N. Rishe. “Using semantic contents
and wordnet in image retrieval”. In Proceedings of the 20th annual international
ACM SIGIR conference on Research and development in information retrieval,
pages 286–295, New York, NY, USA, (1997). ACM.
[7] J. Atserias, H. Zaragoza, M. Ciaramita, G. Attardi. “Semantically annotated snapshot of the english wikipedia”. In Proceedings of the Sixth International Language
Resources and Evaluation (LREC’08), Marrakech, Morroco, (2008).
[8] S. Auer, C. Bizer, G. Kobilarov, J. Lehmann, R. Cyganiak, Z. Ives. “Dbpedia : A
nucleus for a web of open data”. In Proceedings of the 6th International Semantic
Web Conference (ISWC), Volume 4825 of Lecture Notes in Computer Science,
pages 722–735. Springer, (2008).
[9] M. Berland, E. Charniak. “Finding parts in very large corpora”. Technical report,
Providence, RI, USA, (1999).
[10] T. Berners-Lee, J. Hendler, O. Lassila. “The semantic web”. (May 2001).
[11] R. Besançon, C. Millet. “Merging resultes from different media : experiments at
imageclef 2005”. In Working Notes for the ImageCLEF 2005 Workshop, (2005).
203
204
BIBLIOGRAPHIE
[12] T. Bittner, M. Donnelly, B. Smith. “Endurants and perdurants in directly depicting
ontologies”, AI Commun., 17(4), pp. 247–258, (2004).
[13] O. Bodenreider. “The unified medical language system (umls) : integrating biomedical terminology.”, Nucleic Acids Res, 32(Database issue), (January 2004).
[14] E. Brill, J. J. Lin, M. Banko, S. T. Dumais, A. Y. Ng. “Data-intensive question
answering”. In TREC, (2001).
[15] A. Broder. “A taxonomy of web search”, SIGIR Forum, 36(2), pp. 3–10, (2002).
[16] P. Bryan-Heidorn. Natural Language Understanding for Image Retrieval : Botanical texts. PhD thesis, University of Pittsburgh, (1997).
[17] P. Buitelaar, P. Cimiano, editors. Ontology Learning and Population : Bridging the
Gap between Text and Knowledge, Volume 167 of Frontiers in Artificial Intelligence
and Applications. IOS Press, Amsterdam, (2008).
[18] R. C. Bunescu, M. Pasca. “Using encyclopedic knowledge for named entity disambiguation”. In Proceedings of 11st Conference of the European Chapter of the
Association for Computational Linguistics, (2006).
[19] D. Cai, X. He, Z. Li, W.-Y. Ma, J.-R. Wen. “Hierarchical clustering of www image
search results using visual, textual and link information”. In Proceedings of the
12th annual ACM international conference on Multimedia, pages 952–959, New
York, USA, (2004).
[20] Y.-C. Cheng, S.-Y. Chen. “Image classification using color, texture and regions”,
Image Vision Comput., 21(9), pp. 759–776, (2003).
[21] P. Cimiano, S. Handschuh, S. Staab. “Towards the self-annotating web”. In
Proceedings of the 13th WWW Conference, pages 462–471, New York, USA, (May
2004).
[22] P. Cimiano, S. Staab. “Learning concept hierarchies from text with a guided
hierarchical clustering algorithm”. In Proceedings of the ICML 2005 Workshop
on Learning and Extending Lexical Ontologies with Machine Learning Methods,
(2005).
[23] P. Clough, H. Joho, M. Sanderson. “Automatically organizing images using concept
hierarchies”. In Proceedings of the Multimedia Information Retrieval, 28th Annual
International ACM SIGIR Conference on Research and Development in Information Retrieval, Salvador, Brazil, (August 2005).
[24] P. Clough, M. Sanderson, X. M. Shou. “Searching and organizing images across
languages”. In Proceedings of Electronic Imaging, the Visual Arts and Beyond,
Moscow, Russia, (2005).
[25] I. J. Cox, M. L. Miller, S. M. Omohundro, P. N. Yianilos. “Pichunter : Bayesian
relevance feedback for image retrieval”. In ICPR ’96 : Proceedings of the International Conference on Pattern Recognition (ICPR ’96) Volume III-Volume 7276,
Washington, DC, USA, (1996). IEEE Computer Society.
BIBLIOGRAPHIE
205
[26] G. Csurka, C. R. Dance, J. W. L. Fan, C. Bray. “Visual categorization with bags of
keypoints.”. In In Proc. of ECCV Workshop on Statistical Learning in Computer
Vision, pages 1–22, (2004).
[27] C. Dorai, S. Venkatesh. “Guest editors’ introduction : Bridging the semantic gap
with computational media aesthetics”, IEEE MultiMedia, 10(2), pp. 15–17, (2003).
[28] K. Eckert, H. Stuckenschmidt, M. Pfeffer. “Semtinel : interactive supervision of
automatic indexing”. In JCDL ’08 : Proceedings of the 8th ACM/IEEE-CS joint
conference on Digital libraries, pages 425–425, New York, NY, USA, (2008). ACM.
[29] U. Eco. A Theory of Semiotics. Indiana University Press, Bloomington, Indiana,
(1976).
[30] U. Eco. The Search for the Perfect Language. Wiley-Blackwell, Bloomington,
Indiana, (1995).
[31] P. G. B. Enser, C. J. Sandom, P. H. Lewis, J. S. Hare. “The reality of the semantic
gap in image retrieval”. In Proceedings of the 1st International Conference on
Semantic and Digital Media Technologiess, (2006).
[32] O. Etzioni, K. Reiter, S. Soderland, M. Sammer. “Lexical translation with application to image search on the web”. In Proceedings of the 11th Machine Translation
Summit, (September 2007).
[33] C. Fellbaum, editor. WordNet : an electronic lexical database. MIT Press, (1998).
[34] M. Ferecatu, N. Boujemaa, M. Crucianu. “Semantic interactive image retrieval
combining visual and conceptual content description”, Multimedia Syst., 13(5-6),
pp. 309–322, (2008).
[35] J. Fournier. Indexation d’images par le contenu et recherche interactive dans les
bases généralistes. PhD thesis, Université de Cergy-Pontoise, (octobre 2002).
[36] B. Froba, A. Ernst. “Face detection with the modified census transform”. In
Proceedings. Sixth IEEE International Conference on Automatic Face and Gesture
Recognition, (2004).
[37] F. Gandon. “Ontology engineering : a survey and a return on experience”. Technical Report 4396, INRIA - Sophia Antipolis, (mars 2002).
[38] T. Gevers, A. W. M. Smeulders. Emerging Topics in Computer Vision, chapter
Content-based Image Retrieval : An Overview. Prentice Hall, (2004).
[39] J. Giles. “Internet encyclopaedias go head to head”, Nature, 438, pp. 900–901,
(2005).
[40] E. H. Gombrich. Histoire de l’art. Phaidon, (2002).
[41] A. Goodrum, A. Spink. “Image searching on the excite web search engine”, Inf.
Process. Manage., 37(2), pp. 295–311, (2001).
[42] P.-H. Gosselin, M. Cord. “Active learning methods for interactive image retrieval”,
IEEE Transactions on Image Processing, 17(7), pp. 1200–1211, (2008).
[43] G. Grefenstette. Explorations in Automatic Thesaurus Discovery. Kluwer, (1994).
206
BIBLIOGRAPHIE
[44] G. Grefenstette. “Conquering language : Using nlp on a massive scale to build high
dimensional language models from the web”. In Proceedings of the 8th International
Conference on Computational Linguistics and Intelligent Text Processing, pages
35–49, (2007).
[45] C. Grimes, D. Tang, D. M. Russel. “Query logs alone are not enough”. In Proceedings of the Query Log Analysis : Social and Technological Challenges Workshop,
held in conjunction with WWW 2007, (2007).
[46] W. I. Group.
“Image annotation on the semantic web”.
http ://www.w3.org/2005/Incubator/mmsem/XGR-image-annotation-20070814/.
[47] R. V. Guha, D. B. Lenat. “Cyc : a mid-term report”, Appl. Artif. Intell., 5(1), pp.
45–86, (1991).
[48] E. Hargittai. “Beyond logs and surveys : in-depth measures of people’s web use
skills”, J. Am. Soc. Inf. Sci. Technol., 53(14), pp. 1239–1244, (2002).
[49] M. A. Hearst. “Automatic acquisition of hyponyms from large text corpora”. In
Proceedings of the 14th conference on Computational linguistics, pages 539–545,
Morristown, NJ, USA, (1992). Association for Computational Linguistics.
[50] L. Hill, J. Frew, Q. Zheng. “Geographic names : The implementation of a gazetteer
in a georeferenced digital library”, D-Lib Magazine, (January 1999).
[51] E. Hörster, R. Lienhart, M. Slaney. “Image retrieval on large-scale image databases”. In CIVR ’07 : Proceedings of the 6th ACM international conference on
Image and video retrieval, pages 17–24, New York, NY, USA, (2007). ACM.
[52] M.-H. Hsu, H.-H. Chen. “Information retrieval with commonsense knowledge”. In
SIGIR ’06 : Proceedings of the 29th annual international ACM SIGIR conference
on Research and development in information retrieval, pages 651–652, New York,
NY, USA, (2006). ACM.
[53] M.-H. Hsu, M.-F. Tsai, H.-H. Chen. “Query expansion with conceptnet and wordnet : An intrinsic comparison”. In Proceedings of the Third Asia Information
Retrieval Symposium Information Retrieval Technology, pages 1–13, (2006).
[54] E. Hyvönen, S. Saarela, K. Viljanen. “Application of ontology techniques to viewbased semantic search and browsing”. In Proceedings of The Semantic Web : Research and Applications, First European Semantic Web Symposium, ESWS 2004,
pages 92–106, (2004).
[55] A. Iftene, A. Balahur-Dobrescu. “Named entity relation mining using wikipedia”.
In Proceedings of the 6th Language Resources and Evaluation Conference, (2008).
[56] J. B. Ilan. “Access to query logs — an academic researcher’s point of view”. In
E. Amitay, C. G. Murray, J. Teevan, editors, Query Log Analysis : Social And
Technological Challenges. A workshop at the 16th International World Wide Web
Conference (WWW 2007), (May 2007).
[57] E. J. M. Martı́nez. “Mpeg7 standard”. http ://www.chiariglione.org/mpeg/standards
/mpeg-7/mpeg-7.htm.
BIBLIOGRAPHIE
207
[58] A. Jaimes, S.-F. Chang. “A conceptual framework for indexing visual information
at multiple levels”. In Proceedings of the IST/SPIE Internet Imaging 2000, (2000).
[59] B. J. Jansen, D. L. Booth, A. Spink. “Determining the informational, navigational,
and transactional intent of web queries”, Inf. Process. Manage., 44(3), pp. 1251–
1266, (2008).
[60] B. J. Jansen, A. Goodrum, A. Spink. “Searching for multimedia : analysis of audio,
video and image web queries”, World Wide Web, 3(4), pp. 249–254, (2000).
[61] B. J. Jansen, A. Spink, T. Saracevic. “Real life, real users, and real needs : a
study and analysis of user queries on the web”, Inf. Process. Manage., 36(2), pp.
207–227, (2000).
[62] B. J. Jansen. “Search log analysis : What it is, what’s been done, how to do it”,
Library & Information Science Research, 28(3), pp. 407–432, (2006).
[63] Y. Jing, S. Baluja. “Pagerank for product image search”. In WWW ’08 : Proceeding
of the 17th international conference on World Wide Web, pages 307–316, New
York, NY, USA, (2008). ACM.
[64] Y. Jing, S. Baluja, H. Rowley. “Canonical image selection from the web”. In
CIVR ’07 : Proceedings of the 6th ACM international conference on Image and
video retrieval, pages 280–287, New York, NY, USA, (2007). ACM.
[65] M. Joint, P.-A. Moellic, P. Hede, P. Adam. “Piria : a general tool for indexing,
search, and retrieval of multimedia content”. In Proceedings of SPIE Image Processing : Algorithms and Systems III, (2004).
[66] D. Joshi, R. Datta, Z. Zhuang, W. P. Weiss, M. Friedenberg, J. Li, J. Z. Wang.
“Paragrab : a comprehensive architecture for web image management and multimodal querying”. In VLDB ’06 : Proceedings of the 32nd international conference
on Very large data bases, pages 1163–1166. VLDB Endowment, (2006).
[67] X. J.Wang, W. Y. Ma, X. Li. “Data-driven approach for bridging the cognitive gap
in image retrieval”. In Proceedings of the 2004 IEEE International Conference on
Multimedia and Expo, Volume 3, pages 2231–2234, Taipei, Taiwan, (June 2004).
IEEE.
[68] I. Kanellos, T. L. Bras, F. Miras, I. Suciu. “Le concept de genre comme point de
départ pour une modélisation sémantique du document électronique”. In Actes
du huitième colloque international sur le document électronique (CIDE.8) : Le
Multilinguisme, (2005).
[69] L. Karoui, M. Aufaure, N. Bennacer. “Ontology discovery from web pages : Application to tourism”. In Proceedings of the ECML/PKDD Workshop on Knowledge
Discovery and Ontologies, (2004).
[70] J. Kazama, K. Torisawa. “Exploiting wikipedia as external knowledge for named
entity recognition”. In Proceedings of the Joint Conference on Empirical Methods
in Natural Language Processing and Computational Natural Language Learning,
pages 698–707, (2007).
208
BIBLIOGRAPHIE
[71] F. C. Keil. Concepts, Kinds, and Cognitive Development. MIT Press, Cambridge,
Massachusetts, (1989).
[72] L. Kennedy, M. Naaman, S. Ahern, R. Nair, T. Rattenbury. “How flickr helps us
make sense of the world : context and content in community-contributed media collections”. In MULTIMEDIA ’07 : Proceedings of the 15th international conference
on Multimedia, pages 631–640, New York, NY, USA, (2007). ACM.
[73] L. S. Kennedy, M. Naaman. “Generating diverse and representative image search
results for landmarks”. In WWW ’08 : Proceeding of the 17th international conference on World Wide Web, pages 297–306, New York, NY, USA, (2008). ACM.
[74] J. Klavans, T. Sidhu, C. Sheffield, D. Soergel, J. Lin, E. Abels, R. Passonneau.
“Computational linguistics for metadata building (climb) text mining for the automatic extraction of subject terms for image metadata”. In Proceedings of the
VISAPP Workshop Metadata Mining for Image Understanding, (2008).
[75] H. Kong, M. Hwang, P. Kim. “The study on the semantic image retrieval based
on the personalized ontology”, International Journal of Information Technology,
12(2), (2006).
[76] C.-H. Kuo. “Building semantic indexing for image retrieval systems”. In Proceedings of the International Computer Symposium, ICS 2004, (2004).
[77] A. Kutics, A. Nakagawa, S. Arai, H. Tanaka, S. Ohtsuka. “Relating words and
image segments on multiple layers for effective browsing and retrieval”. In Proceedings of the International Conference on Image Processing, ICIP 2004, pages
2203–2206, (2004).
[78] J. Li, J. Z. Wang. “Real-time computerized annotation of pictures”. In MULTIMEDIA ’06 : Proceedings of the 14th annual ACM international conference on
Multimedia, pages 911–920, New York, NY, USA, (2006). ACM.
[79] S. P. Liao, P. J. Cheng, R. C. Chen, L. F. Chien. “Liveimage : Organizing web
images by relevant concepts”. In Proc. of the Workshop on the Science of the
Artificial 2004, pages 210–220, (2005).
[80] H. Liu, P. Singh. “Conceptnet — a practical commonsense reasoning tool-kit”,
BT Technology Journal, 22(4), pp. 211–226, (2004).
[81] H. Liu, X. Xie, X. Tang, Z.-W. Li, W.-Y. Ma. “Effective browsing of web image
search results”. In MIR ’04 : Proceedings of the 6th ACM SIGMM international
workshop on Multimedia information retrieval, pages 84–90, New York, NY, USA,
(2004). ACM.
[82] Y. Liu, D. Zhang, G. Lu, W.-Y. Ma. “A survey of content-based image retrieval
with high-level semantics”, Pattern Recogn., 40(1), pp. 262–282, (2007).
[83] D. Lowe. “Distinctive image features from scale-invariant keypoints”, International
Journal of Computer Vision, 20, pp. 91–110, (2003).
[84] A. Maedche, S. Staab. “Discovering conceptual relations from text”. In Proceedings
of the 14th European Conference on Artificial Intelligence (ECAI), pages 321–325,
(2000).
BIBLIOGRAPHIE
209
[85] N. Maillot, M. Thonnat, A. Boucher. “Towards ontology based cognitive vision”.
In International Conference on Computer Vision Systems, ICVS, pages 44–53,
(avril 2003).
[86] V. Mezaris, I. Kompatsiaris, M. Strintzis. “An ontology approach to object-based
image retrieval”. In Proceedings of the IEEE International Conference on Image
Processing, ICIP03, Volume 2, pages 511–514, (September 2003).
[87] K. Mikolajczyk, C. Schmid. “A performance evaluation of local descriptors”, IEEE
Trans. Pattern Anal. Mach. Intell., 27(10), pp. 1615–1630, (2005).
[88] G. A. Miller. “Nouns in wordnet : A lexical inheritance system”, Int J Lexicography,
3(4), pp. 245–264, (January 1990).
[89] C. Millet. Annotation automatique d’images : annotation cohérente et création
automatique d’une base d’apprentissage. PhD thesis, ENST Paris, (2007).
[90] M. Minsky. “Framework for representing knowledge”. Technical report, (1974).
[91] M. Missikof, R. Navigli, P. Velardi. “Integrated approach to web ontology learning
and engineering”, Computer, 35(11), pp. 60–63, (2002).
[92] P.-A. Moëllic, J. E. Haugeard, G. Pitel. “Image clustering based on a shared
nearest neighbors approach for tagged collections”. In Proceedings of the ACM
International Conference on Image and Video Retrieval 2008, (July 2008).
[93] M. Naaman, , Y. J. Song, A. Paepcke, H. Garcia-Molina. “Automatic organization
for digital photographs with geographic coordinates”. In Proceedings of the 4th
ACM/IEEE-CS joint conference on Digital libraries, pages 53–62. ACM Press,
(2004).
[94] M. Naaman, , Y. J. Song, A. Paepcke, H. Garcia-Molina. “Assigning textual names
to sets of geographic coordinates”, Computers, Environment and Urban Systems,
30(4), pp. 418–435, (July 2006).
[95] A. Nakagawa, A. Kutics, K. Tanaka, M. Nakajima. “Combining words and objectbased visual features in image retrieval”. In ICIAP ’03 : Proceedings of the 12th
International Conference on Image Analysis and Processing, page 354, Washington, DC, USA, (2003). IEEE Computer Society.
[96] M. Naphade, J. R. Smith, J. Tesic, S.-F. Chang, W. Hsu, L. Kennedy, A. Hauptmann, J. Curtis. “Large-scale concept ontology for multimedia”, IEEE MultiMedia,
13(3), pp. 86–91, (2006).
[97] Neon. “Neon project website”. http ://www.neon-project.org/web-content/.
[98] B. V. Nguyen, M.-Y. Kan. “Functional faceted web query analysis”. In Query Log
Analysis : Social And Technological Challenges. A workshop at the 16th International World Wide Web Conference (WWW 2007), (May 2007).
[99] N. O’Hare, C. Gurrin, A. F. Smeaton, G. Jones. “Combination of content analysis
and context features for digital photograph retrieval”. In Proceedings of EWIMT
2005, (2005).
210
BIBLIOGRAPHIE
[100] T. Ojala, M. Pietikainen, D. Harwood. “A comparative study of texture measures
with classification based on feature distributions”, Computers, Environment and
Urban Systems, 29(1), pp. 51–59, (1996).
[101] A. Oltramari, A. Gangemi, N. Guarino, C. Masolo. “Restructuring wordnet’s toplevel : The ontoclean approach”. In Proceedings of 2nd International Workshop on
Evaluation of Ontology-based Tools, (2002).
[102] ONERA. “Etat de l’art des travaux sur les méthodes actuelles de recherche par le
contenu dans les bases de données images”. Technical report, (2006).
[103] L. Page. “Method for node ranking in a linked database”. U.S. Patent 6285999.
[104] Z. Pan. “Benchmarking dl reasoners using realistic ontologies”. In Proceedings of
the Workshop on OWL : Experiences and Directions (OED’05), (2005).
[105] E. Panofsky. Meaning in the Visual Arts. The University of Chicago Press, Chicago, Illinois, (1955).
[106] G. Pass, A. Chowdhury, C. Torgeson. “A picture of search”. In InfoScale ’06 :
Proceedings of the 1st international conference on Scalable information systems,
New York, NY, USA, (2006). ACM.
[107] S. P. Ponzetto, M. Strube. “Deriving a large scale taxonomy from wikipedia”.
In Proceedings of the Twenty-Second AAAI Conference on Artificial Intelligence,
(2007).
[108] A. Potrich, E. Pianta. “L-isa : Learning domain specific isa-relations from the
web”. In Proceedings of LREC 2008, (2008).
[109] T. Quack, U. Mönich, L. Thiele, B. S. Manjunath. “Cortina : a system for largescale, content-based web image retrieval”. In MULTIMEDIA ’04 : Proceedings
of the 12th annual ACM international conference on Multimedia, pages 508–511,
New York, NY, USA, (2004). ACM.
[110] T. Rattenbury, N. Good, M. Naaman. “Towards automatic extraction of event and
place semantics from flickr tags”. In SIGIR ’07 : Proceedings of the 30th annual
international ACM SIGIR conference on Research and development in information
retrieval, pages 103–110, New York, NY, USA, (2007). ACM.
[111] K. Rodden, W. Basalaj, D. Sinclair, K. Wood. “Does organisation by similarity
assist image browsing ?”. In CHI ’01 : Proceedings of the SIGCHI conference on
Human factors in computing systems, pages 190–197, New York, NY, USA, (2001).
ACM.
[112] E. Rosch, C. B. Mervis, W. D. Gray, D. M. Johnson, P. Boyes-Braem. “Basic
objects in natural categories”, Cognitive Psychology, 8, pp. 382–439, (1976).
[113] D. E. Rose, D. Levinson. “Understanding user goals in web search”. In WWW
’04 : Proceedings of the 13th international conference on World Wide Web, pages
13–19, New York, NY, USA, (2004). ACM.
[114] M. Ruiz-Casado, E. Alfonseca, P. Castells. “Automatic assignment of wikipedia
encyclopedic entries to wordnet synsets”, Advances in Web Intelligence, pages 380–
386, (2005).
BIBLIOGRAPHIE
211
[115] M. Ruiz-Casado, E. Alfonseca, P. Castells. “Automatising the learning of lexical
patterns : An application to the enrichment of wordnet by extracting semantic
relationships from wikipedia”, Data Knowl. Eng., 61(3), pp. 484–499, (2007).
[116] D. M. Russell, C. Grimes. “Assigned tasks are not the same as self-chosen web
search tasks”. In HICSS ’07 : Proceedings of the 40th Annual Hawaii International
Conference on System Sciences, page 83, Washington, DC, USA, (2007). IEEE
Computer Society.
[117] M. Sanderson. “Ambiguous queries : Test collections need more sense”. In Proceedings of the 31nd annual international ACM SIGIR conference on Research and
development in information retrieval, New York, NY, USA, (2008). ACM.
[118] M. Sanderson, B. Croft. “Deriving concept hierarchies from text”. In SIGIR ’99 :
Proceedings of the 22nd annual international ACM SIGIR conference on Research
and development in information retrieval, pages 206–213, New York, NY, USA,
(1999). ACM.
[119] M. Sanderson, Y. Han. “Search words and geography”. In GIR ’07 : Proceedings
of the 4th ACM workshop on Geographical information retrieval, pages 13–14, New
York, NY, USA, (2007). ACM.
[120] M. Sanderson, J. Tian, P. Clough. “Testing an automatic organisation of retrieved images into a hierarchy”. In Proceedings of International Workshop OntoImage’2006 Language Resources for Content-Based Image Retrieval, held in conjuction
with LREC’06, pages 44–49, (2006).
[121] S. Santini. “Summa contra ontologiam.”. In Lecture Notes in Computer Science,
Volume 4254, pages 483–496. Springer, (2006).
[122] S. Santini, A. Gupta, R. Jain. “Emergent semantics through interaction in image
databases”, IEEE Trans. on Knowl. and Data Eng., 13(3), pp. 337–351, (2001).
[123] C. Schlenoff, E. Messina. “A robot ontology for urban search and rescue”. In
KRAS ’05 : Proceedings of the 2005 ACM workshop on Research in knowledge
representation for autonomous systems, pages 27–34, New York, NY, USA, (2005).
ACM.
[124] S. Shatford-Layne. “Some issues in the indexing of images”, J. Am. Soc. Inf. Sci.,
45(8), pp. 583–588, (1994).
[125] P. Singh, B. Barry. “Collecting commonsense experiences”. In K-CAP ’03 : Proceedings of the 2nd international conference on Knowledge capture, pages 154–161,
New York, NY, USA, (2003). ACM.
[126] A. W. M. Smeulders, M. Worring, S. Santini, A. Gupta, R. Jain. “Content-based
image retrieval at the end of the early years”, IEEE Transactions on Pattern
Analysis and Machine Intelligence, 22(12), pp. 1349–1380, (2000).
[127] J. R. Smith, S.-F. Chang. “Visualseek : a fully automated content-based image
query system”. In MULTIMEDIA ’96 : Proceedings of the fourth ACM international conference on Multimedia, pages 87–98, New York, NY, USA, (1996). ACM.
212
BIBLIOGRAPHIE
[128] J. Sowa. Knowledge Representation : Logical, Philosophical, and Computational
Foundations. Brooks/Cole Publishing Co., Pacific Grove, CA, (2000).
[129] K. Spärck-Jones, S. E. Robertson, M. Sanderson. “Ambiguous requests : implications for retrieval tests, systems and theories”, SIGIR Forum, 41(2), pp. 8–17,
(2007).
[130] A. Spink, B. J. Jansen, C. Blakely, S. Koshman. “A study of results overlap and
uniqueness among major web search engines”, Inf. Process. Manage., 42(5), pp.
1379–1391, (2006).
[131] R. O. Stehling, M. A. Nascimento, A. X. Falcão. “A compact and efficient image
retrieval approach based on border/interior pixel classification”. In Proceedings of
the eleventh international conference on Information and knowledge management,
CIKM, pages 102–109, New York, NY, USA, (2002). ACM Press.
[132] TASI.
“A
review
of
image
http ://www.tasi.ac.uk/resources/searchengines.html.
search
engines”.
[133] A. Toral, R. Muñoz. “A proposal to automatically build and maintain gazetteers
for named entity recognition by using wikipedia”. In NEW TEXT - Wikis and
blogs and other dynamic text sources, Trento, (2006).
[134] M. Trautwein, P. Grenon. “Roles : One dead armadillo on wordnet’s speedway to
ontology”. In Proceedings of the 2nd International Global WordNet Conference,
pages 341–346, (2004).
[135] P. D. Turney. “Mining the web for synonyms : Pmi-ir versus lsa on toefl”. In
EMCL ’01 : Proceedings of the 12th European Conference on Machine Learning,
pages 491–502, London, UK, (2001). Springer-Verlag.
[136] A. Turpin, F. Scholer. “User performance versus precision measures for simple
search tasks”. In SIGIR ’06 : Proceedings of the 29th annual international ACM
SIGIR conference on Research and development in information retrieval, pages
11–18, New York, NY, USA, (2006). ACM.
[137] P. Vincent, R. Bruskiewich, E. C. Jr, P. Jaiswal, S. McCouch, M. Schaeffer,
L. Stein, D. Ware. “The plant ontology consortium and plant ontologies”, Comparative and Functional Genomics, 3(2), pp. 137–142, (2002).
[138] P. Viola, M. Jones. “Robust real-time object detection”, International Journal of
Computer Vision, ICVR, (2002).
[139] V. Haarslev, R. Möller. “Racer : A core inference engine for the semantic web”. In
Proceedings of 2nd International Workshop on Evaluation of Ontology-based Tools,
(2002).
[140] H. Wang, S. Liu, L.-T. Chia. “Does ontology help in image retrieval ? - a comparison between keyword, text ontology and multi-modality ontology approaches”. In
MULTIMEDIA ’06 : Proceedings of the 14th annual ACM international conference
on Multimedia, pages 109–112, New York, NY, USA, (2006). ACM.
BIBLIOGRAPHIE
213
[141] J. Wang, N. Ge. “Automatic feature thesaurus enrichment : extracting generic
terms from digital gazetteer”. In Proceedings of the 6th ACM/IEEE-CS joint
conference on Digital libraries, pages 326–333, New York, NY, USA, (2006). ACM.
[142] S. Wang, F. Jing, J. He, Q. Du, L. Zhang. “Igroup : presenting web image search
results in semantic clusters”. In CHI ’07 : Proceedings of the SIGCHI conference
on Human factors in computing systems, pages 587–596, New York, NY, USA,
(2007). ACM.
[143] C. Welty, N. Guarino. “Supporting ontological analysis of taxonomic relationships”, Data Knowl. Eng., 39(1), pp. 51–74, (2001).
[144] S.-H. Wu, T.-H. Tsai, W.-L. Hsu. “Domain event extraction and representation
with domain ontology”. In Proceedings of IJCAI-03 Workshop on Information
Integration on the Web (IIWeb-03), August, pages 33–38, (2003).
[145] J. Yang, A. Hauptmann. “Annotating news video with locations”. In Proceedings
of International Conference on Image and Video Retrieval (CIVR), (2006).
[146] J. Yang, L. Wenyin, H. Zhang, Y. Zhuang. “Thesaurus-aided approach for image
browsing and retrieval”, Proceedings of ICME 2001, (2001).
[147] K.-P. Yee, K. Swearingen, K. Li, M. Hearst. “Faceted metadata for image search
and browsing”. In CHI ’03 : Proceedings of the SIGCHI conference on Human
factors in computing systems, pages 401–408, New York, NY, USA, (2003). ACM.
[148] H. Zaragoza, H. Rode, P. Mika, J. Atserias, M. Ciaramita, G. Attardi. “Ranking
very many typed entities on wikipedia”. In CIKM ’07 : Proceedings of the sixteenth
ACM conference on Conference on information and knowledge management, pages
1015–1018, New York, NY, USA, (2007). ACM.
[149] R. Zhao, W. Grosky. “Bridging the semantic gap in image retrieval”, Distributed
Multimedia Databases : Techniques and Applications, (2001).
[150] Y. Zhuang, X. Liu, Y. Pan. “Apply semantic template to support content-based
image retrieval”. In Proc. SPIE Vol. 3972, p. 442-449, Storage and Retrieval for
Media Databases 2000, (2000).
[151] H. Zhuge. “Retrieve images by understanding semantic links and clustering image
fragments”, J. Syst. Softw., 73(3), pp. 455–466, (2004).
[152] S. Zinger, C. Millet, B. Mathieu, G. Grefenstette, P. Hède, P.-A. Moëllic. “Clustering and semantically filtering web images to create a large scale image ontology”.
In Proceedings of the IS&T/SPIE 18th Symposium Electronic Imaging, pages 89–
97, San Jose, Californie, USA, (janvier 2006).
[153] C. Zirn, V. Nastase, M. Strube. “Distinguishing between instances and classes in
the wikipedia taxonomy”. In M. Hauswirth, M. Koubarakis, S. Bechhofer, editors, Proceedings of the 5th European Semantic Web Conference, LNCS. Springer
Verlag, (June 2008).