Initiation au langage CQL - CID

Transcription

Initiation au langage CQL - CID
Initiation au langage CQL
Frédéric Weiss (CID, ENS de Lyon)
Les exemples présentés dans ce document peuvent être testés dans les romans "Atala" et "René" de
Chateaubriand (fichiers atala.txt et rene.txt).
Saisie de requêtes .................................................................................................................................... 1
Recherche de formes ............................................................................................................................... 1
Recherche de mots autrement que par leurs formes ............................................................................... 2
Recherche de séquences de mots ........................................................................................................... 3
Annexe 1 : expressions régulières ........................................................................................................... 4
Annexe 2 : catégories TreeTagger pour le français ................................................................................. 5
Saisie de requêtes
Un corpus étant sélectionné dans TXM, l'outil Concordances renvoie la concordance des mots décrits par
une requête CQL :
Lancer la commande Outils/Concordances.
Taper la formule CQL dans la ligne de saisie Requête.
Cliquer sur le bouton Chercher.
Le bouton Ouvrir l'assistant de requêtes, à gauche de la ligne de saisie, permet de construire des requêtes
sans avoir à les taper, mais la syntaxe est limitée, ce qui restreint les possibilités de recherche.
Des outils comme Index ou Cooccurrences suivent le même principe.
Recherche de formes
Principes généraux
Une chaîne de caractères représente un mot du corpus :
indien
Trouve indien en tant que forme reconnue dans le corpus.
Différence avec un éditeur de texte tel que LibreOffice Writer :
aujourd'hui
Ne trouve pas aujourd'hui car il y a deux formes distinctes aujourd' et hui.
La formule indien est un raccourci pour la formule complète [word="indien"] – et aussi "indien".
AVERTISSEMENT : on écrit dorénavant les formules complètes pour une meilleure compréhension.
Utilisation d'expressions régulières
Les expressions régulières sont autorisées.
1/5
[word="indiens?"]
Trouve indien et indiens.
La casse des caractères compte, mais on peut la neutraliser :
[word="indiens?"%c]
Trouve indien, indiens, Indien et Indiens.
Il faut placer le commutateur %c derrière le guillemet fermant.
Les caractères réservés peuvent être neutralisés à l'aide du caractère antislash (ou backslash) :
[word="\?"]
Cherche la ponctuation "?". Rappelons que les ponctuations sont des formes pour TXM.
Exercice 1
Chercher toutes les formes du mot "indien" (nom ou adjectif).
Exercice 2
Chercher les formes composées de 1 à 2 caractères.
Recherche de mots autrement que par leurs formes
La syntaxe précédente s'étend aux autres propriétés de mot comme le lemme et la catégorie grammaticale.
Une seule propriété
Recherche d'un lemme :
[frlemma="beau"]
Trouve beau, Beau, beaux, belle, etc.
Recherche d'une catégorie particulière (cf. Annexe 2) :
[frpos="INT"]
Trouve les interjections ô, Hélas, Ah, etc.
Les expressions régulières s'appliquent comme précédemment :
[frpos="VER.*"]
Trouve les formes correspondant à toutes les catégories de verbes.
Exercice 3
Chercher les verbes au subjonctif.
Négation d'une propriété
On peut procéder par négation d'une propriété en utilisant != au lieu de = :
[frpos!="VER.*"]
Trouve les formes ne correspondant à aucun verbe.
Plusieurs propriétés
On peut combiner différents critères portant sur plusieurs propriétés à l'aide des opérateurs & (ET) et | (OU).
Par exemple, pour lever l'ambiguïté d'un lemme :
[frlemma="être" & frpos="NOM"]
2/5
Trouve les formes du nom "être", pas du verbe "être".
Autre exemple :
[frpos="ADV" & word=".*ment"]
Trouve les adverbes se terminant par "ment".
Exercice 4
Chercher les adverbes se terminant par "ment", mais pas ceux qui se terminent par "amment".
Exercice 5
Construire un lexique de mots signifiants (par opposition aux mots outils) : noms, adjectifs qualificatifs,
adverbes, verbes – sauf les verbes "être" et "avoir".
Exercice 6
Chercher les adjectifs au masculin singulier.
Recherche de séquences de mots
En CQL, une paire de crochets représente un mot. Il reste à combiner les formules précédentes pour
représenter plusieurs mots.
Séquences simples
Mot composé particulier :
[word="rendez"][word="-"][word="vous"]
Trouve rendez-vous.
Noter la forme abrégée "rendez" "-" "vous" mais pas rendez-vous.
La notation [ ] est un raccourci pour [word=".+"], c'est-à-dire une forme quelconque.
Exercice 7
Chercher les expressions de la forme "faire" + verbe, le verbe "faire" étant conjugué.
Exercice 8
Chercher les expressions telles que "au milieu de", "au bord du", etc. ("au" + mot + préposition "de").
Séquences avec expressions régulières
On peut former des expressions régulières au niveau de la séquence elle-même.
[frpos="ADJ"] ([word=","][frpos="ADJ"])* [word="et"][frpos="ADJ"]
Série d'adjectifs telle que "tendre et sauvage" ou "joyeux, silencieux et triste".
On peut utiliser les opérateurs ?, *, +, { }, | ainsi que les parenthèses.
Les opérateurs de répétition sont avides sauf en fin de formule. Comparer la formule précédente avec :
[frpos="ADJ"] ([word=","][frpos="ADJ"])*
Exercice 9
Chercher les expressions telles que "père" ou "P." suivi d'un nom propre.
3/5
Annexe 1 : expressions régulières
Principaux opérateurs en bref
Syntaxe
déjà
.
Signification
Un mot représente lui-même (sauf présence de caractères réservés).
Le point représente n'importe quel caractère.
[aeiouy] Les crochets indiquent un ensemble de caractères au choix.
[^aeiouy] Un accent circonflexe au début indique l'ensemble complémentaire.
[A-Z]
Un trait d'union indique une plage de caractères.
exp?
Point d'interrogation : 0 ou 1 fois.
exp*
Astérisque : 0, 1 ou plusieurs fois.
exp+
Signe plus : 1 ou plusieurs fois.
exp{N}
Accolades : N fois.
exp{N,P} … entre N et P fois.
exp{N,} … N fois ou plus.
exp1|exp2 Barre verticale : choix entre deux expressions.
(ma)+
Les parenthèses modifient la portée des opérateurs : ma, mama, …
\?
L'antislash neutralise tout caractère réservé.
Rappel : les opérateurs de répétitions ?, *, +, {} sont avides.
4/5
Annexe 2 : catégories TreeTagger pour le français
Catégories grammaticales
Code
Valeur
ABR
abréviation
ADJ
adjectif
ADV
adverbe
DET:ART
article
DET:POS déterminant possessif (ma, ta, …)
INT
interjection
KON
conjonction
NAM
nom propre
NOM
nom commun
NUM
nombre (cardinal, ordinal) littéral ou chiffré (arabe, romain)
PRO
pronom
PRO:DEM pronom démonstratif (inclut les adjectifs)
PRO:IND
pronom indéfini (inclut les adjectifs)
PRO:PER pronom personnel
PRO:POS pronom possessif (mien, tien, …)
PRO:REL pronom relatif
PRP
préposition
PRP:det
préposition plus article (au, du, aux, des)
PUN
ponctuation
PUN:cit
ponctuation de type guillemet
SENT
ponctuation de fin de phrase
SYM
symbole
VER:cond verbe au conditionnel
VER:futu
verbe au futur
VER:impe verbe à l'impératif
VER:impf
verbe à l'imparfait
VER:infi
verbe à l'infinitif
VER:pper verbe au participe passé
VER:ppre verbe au participe présent
VER:pres
verbe au présent
VER:simp verbe au passé simple
VER:subi
verbe subjonctif imparfait
VER:subp verbe subjonctif présent
5/5