Initiation au langage CQL - CID
Transcription
Initiation au langage CQL - CID
Initiation au langage CQL Frédéric Weiss (CID, ENS de Lyon) Les exemples présentés dans ce document peuvent être testés dans les romans "Atala" et "René" de Chateaubriand (fichiers atala.txt et rene.txt). Saisie de requêtes .................................................................................................................................... 1 Recherche de formes ............................................................................................................................... 1 Recherche de mots autrement que par leurs formes ............................................................................... 2 Recherche de séquences de mots ........................................................................................................... 3 Annexe 1 : expressions régulières ........................................................................................................... 4 Annexe 2 : catégories TreeTagger pour le français ................................................................................. 5 Saisie de requêtes Un corpus étant sélectionné dans TXM, l'outil Concordances renvoie la concordance des mots décrits par une requête CQL : Lancer la commande Outils/Concordances. Taper la formule CQL dans la ligne de saisie Requête. Cliquer sur le bouton Chercher. Le bouton Ouvrir l'assistant de requêtes, à gauche de la ligne de saisie, permet de construire des requêtes sans avoir à les taper, mais la syntaxe est limitée, ce qui restreint les possibilités de recherche. Des outils comme Index ou Cooccurrences suivent le même principe. Recherche de formes Principes généraux Une chaîne de caractères représente un mot du corpus : indien Trouve indien en tant que forme reconnue dans le corpus. Différence avec un éditeur de texte tel que LibreOffice Writer : aujourd'hui Ne trouve pas aujourd'hui car il y a deux formes distinctes aujourd' et hui. La formule indien est un raccourci pour la formule complète [word="indien"] – et aussi "indien". AVERTISSEMENT : on écrit dorénavant les formules complètes pour une meilleure compréhension. Utilisation d'expressions régulières Les expressions régulières sont autorisées. 1/5 [word="indiens?"] Trouve indien et indiens. La casse des caractères compte, mais on peut la neutraliser : [word="indiens?"%c] Trouve indien, indiens, Indien et Indiens. Il faut placer le commutateur %c derrière le guillemet fermant. Les caractères réservés peuvent être neutralisés à l'aide du caractère antislash (ou backslash) : [word="\?"] Cherche la ponctuation "?". Rappelons que les ponctuations sont des formes pour TXM. Exercice 1 Chercher toutes les formes du mot "indien" (nom ou adjectif). Exercice 2 Chercher les formes composées de 1 à 2 caractères. Recherche de mots autrement que par leurs formes La syntaxe précédente s'étend aux autres propriétés de mot comme le lemme et la catégorie grammaticale. Une seule propriété Recherche d'un lemme : [frlemma="beau"] Trouve beau, Beau, beaux, belle, etc. Recherche d'une catégorie particulière (cf. Annexe 2) : [frpos="INT"] Trouve les interjections ô, Hélas, Ah, etc. Les expressions régulières s'appliquent comme précédemment : [frpos="VER.*"] Trouve les formes correspondant à toutes les catégories de verbes. Exercice 3 Chercher les verbes au subjonctif. Négation d'une propriété On peut procéder par négation d'une propriété en utilisant != au lieu de = : [frpos!="VER.*"] Trouve les formes ne correspondant à aucun verbe. Plusieurs propriétés On peut combiner différents critères portant sur plusieurs propriétés à l'aide des opérateurs & (ET) et | (OU). Par exemple, pour lever l'ambiguïté d'un lemme : [frlemma="être" & frpos="NOM"] 2/5 Trouve les formes du nom "être", pas du verbe "être". Autre exemple : [frpos="ADV" & word=".*ment"] Trouve les adverbes se terminant par "ment". Exercice 4 Chercher les adverbes se terminant par "ment", mais pas ceux qui se terminent par "amment". Exercice 5 Construire un lexique de mots signifiants (par opposition aux mots outils) : noms, adjectifs qualificatifs, adverbes, verbes – sauf les verbes "être" et "avoir". Exercice 6 Chercher les adjectifs au masculin singulier. Recherche de séquences de mots En CQL, une paire de crochets représente un mot. Il reste à combiner les formules précédentes pour représenter plusieurs mots. Séquences simples Mot composé particulier : [word="rendez"][word="-"][word="vous"] Trouve rendez-vous. Noter la forme abrégée "rendez" "-" "vous" mais pas rendez-vous. La notation [ ] est un raccourci pour [word=".+"], c'est-à-dire une forme quelconque. Exercice 7 Chercher les expressions de la forme "faire" + verbe, le verbe "faire" étant conjugué. Exercice 8 Chercher les expressions telles que "au milieu de", "au bord du", etc. ("au" + mot + préposition "de"). Séquences avec expressions régulières On peut former des expressions régulières au niveau de la séquence elle-même. [frpos="ADJ"] ([word=","][frpos="ADJ"])* [word="et"][frpos="ADJ"] Série d'adjectifs telle que "tendre et sauvage" ou "joyeux, silencieux et triste". On peut utiliser les opérateurs ?, *, +, { }, | ainsi que les parenthèses. Les opérateurs de répétition sont avides sauf en fin de formule. Comparer la formule précédente avec : [frpos="ADJ"] ([word=","][frpos="ADJ"])* Exercice 9 Chercher les expressions telles que "père" ou "P." suivi d'un nom propre. 3/5 Annexe 1 : expressions régulières Principaux opérateurs en bref Syntaxe déjà . Signification Un mot représente lui-même (sauf présence de caractères réservés). Le point représente n'importe quel caractère. [aeiouy] Les crochets indiquent un ensemble de caractères au choix. [^aeiouy] Un accent circonflexe au début indique l'ensemble complémentaire. [A-Z] Un trait d'union indique une plage de caractères. exp? Point d'interrogation : 0 ou 1 fois. exp* Astérisque : 0, 1 ou plusieurs fois. exp+ Signe plus : 1 ou plusieurs fois. exp{N} Accolades : N fois. exp{N,P} … entre N et P fois. exp{N,} … N fois ou plus. exp1|exp2 Barre verticale : choix entre deux expressions. (ma)+ Les parenthèses modifient la portée des opérateurs : ma, mama, … \? L'antislash neutralise tout caractère réservé. Rappel : les opérateurs de répétitions ?, *, +, {} sont avides. 4/5 Annexe 2 : catégories TreeTagger pour le français Catégories grammaticales Code Valeur ABR abréviation ADJ adjectif ADV adverbe DET:ART article DET:POS déterminant possessif (ma, ta, …) INT interjection KON conjonction NAM nom propre NOM nom commun NUM nombre (cardinal, ordinal) littéral ou chiffré (arabe, romain) PRO pronom PRO:DEM pronom démonstratif (inclut les adjectifs) PRO:IND pronom indéfini (inclut les adjectifs) PRO:PER pronom personnel PRO:POS pronom possessif (mien, tien, …) PRO:REL pronom relatif PRP préposition PRP:det préposition plus article (au, du, aux, des) PUN ponctuation PUN:cit ponctuation de type guillemet SENT ponctuation de fin de phrase SYM symbole VER:cond verbe au conditionnel VER:futu verbe au futur VER:impe verbe à l'impératif VER:impf verbe à l'imparfait VER:infi verbe à l'infinitif VER:pper verbe au participe passé VER:ppre verbe au participe présent VER:pres verbe au présent VER:simp verbe au passé simple VER:subi verbe subjonctif imparfait VER:subp verbe subjonctif présent 5/5