Traitement Automatique Des Langues

2y ago
7 Views
3 Downloads
9.02 MB
100 Pages
Last View : 25d ago
Last Download : 3m ago
Upload by : Giovanna Wyche
Transcription

Traitement automatique des languesManipulation de textes - motivation

MANIPULATION DE TEXTESSujets: manipulation de textes Avant d’appliquer une méthode statistique, on doit définirla forme que doit prendre nos données‣la forme désirée va souvent varier selon l’application‣le choix de la forme peut avoir un impact significatif sur les résultats Transformer nos données sous la forme désiréenécessitera de définir certaines règles de transformation‣2ces règles seront inspirées par des connaissances linguistiquesHUGO LAROCHELLE

MANIPULATION DE TEXTESSujets: document On va voir différents outils/algorithmes de base, qui sontutiles pour manipuler du texte et le transformer On va souvent supposer que nos données sont déjà dansun format électronique purement textuel (par ex. ASCII)3‣un document sera une longue chaîne de caractères (parex. sur une seule ligne)‣on supposera aussi que les balises d’un langage de balisage (HTML,XML, etc.) ont été enlevées(bien qu’elles peuvent parfois être utiles)HUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - expressions régulières

EXPRESSIONS RÉGULIÈRESSujets: expressions régulières Une expression régulière (ER) est une façon simplede caractériser un ensemble de chaînes de caractères,de façon compacte‣toute chaîne de caractères correspondant à un montant en argent( 199, 25, 24.99, etc.)‣toute abréviation (LNH, TVA, etc.) C’est un formalisme utile pour faire de l’extractiond’information (simple) dans des données textuelles5‣l’outil Unix grep -E retourne toutes les lignes contenant une ER‣l’outil Unix perl -p -e permet d’appliquer des remplacementsHUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: expressions régulières L’expression régulière la plus simple consiste à préciserune seule chaîne de caractères6‣une correspondance (match) est obtenue pour chaque sous-chaînetrouvée‣la casse (minuscule ou majuscule) est respectéeHUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: expressions régulières L’expression régulière la plus simple consiste à préciserune seule chaîne de caractères6‣une correspondance (match) est obtenue pour chaque sous-chaînetrouvée‣la casse (minuscule ou majuscule) est respectéeHUGO LAROCHELLEl’utilisation des barresobliques (/./) estun convention du Perlet ne fait pas partie dulangage des ER

Traitement automatique des languesManipulation de textes - disjonction, négation, répétition

EXPRESSIONS RÉGULIÈRESSujets: disjonction Pour correspondre à plus d’une chaîne, on peut utiliser desdisjonctions de caractères à l’aide des crochets ([ et ]) L’utilisation d’intervalles est aussi permise8HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: négation, début et fin de ligne Le symbole permet de formuler une négation‣il doit être à l’intérieur de crochets et être le premier symbole S’il se trouve au début de l’ER, il correspond à un début deligne ( pour une fin de ligne)9HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: caractère optionnel, répétitions Le symbole ? permet d’identifier un caractère qui estfacultativement présent‣le caractère optionnel est celui qui précède le ? Les symboles * et permet d’exprimer un nombrearbitraire (possiblement 0 pour *) de répétitions10‣/a*/ correspond à a, aa, aaa, . , ainsi que la chaîne vide‣pour ne pas inclure la chaîne vide : /aa*/ ou /a /HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: disjonction de chaînes Les crochets permettent les disjonctions de caractèresindividuels Pour faire une disjonction sur des chaînes decaractères, on utilise le symbole ‣/cat dog/ correspondra avec la présence du mot cat ou du motdog Peut appliquer à une sous-chaîne de l’ER, à l’aide deparenthèses‣11/gupp(y ies)/ correspondra à guppy et guppies(plutôt qu’à guppy et ies)HUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - combinaison d’opérations

EXPRESSIONS RÉGULIÈRESSujets: combinaison, priorité des opérations Il est possible de combiner les différents opérateurs vusprécédemment‣priorité des opérations (plus haute priorité vers la plus basse) Exemple : entête de tableau telle Column 1‣13Column 2 ./(Column [0-9] ) /HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: correspondance vorace La priorité des opérations règle les ambiguïtésd’interprétation Une ER régulière peut être ambiguë d’une autre façon‣/[a-z] / : correspond à un mot en minuscule et tous ses préfixes Ces ambiguïtés sont résolues en faisant la correspondancela plus longue possible à chaque fois, de façon vorace14HUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - caractères spéciaux et alias

EXPRESSIONS RÉGULIÈRESSujets: caractères spéciaux Certains caractères servent d’’opérateurs (*, [, etc.) D’autres ont une signification spéciale (. pour toutcaractère) Une barre oblique inverse \ est utilisée pour faireréférence au caractère plutôt qu’à l’opérateur(\. , \* , \[ , \\ , etc.)16HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: alias Certains alias existent afin de faire facilement référence àdes ensembles communs de caractères17HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: symboles de répétitions En plus des symboles *, , ?, il existe d’autres façons plusprécises de spécifier un nombre de répétitions{18HUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - substitution

EXPRESSIONS RÉGULIÈRESSujets: substitutions L’outil Unix perl (avec paramètres -p-e) permetd’appliquer des substitutions avec des ERcat *.txt perl -p -e "s/colour/color/g"‣le s au début spécifie qu’une substitution est appliquée‣le g à la fin spécifie qu’une substitution est appliquée à chaquecorrespondance trouvée (pas seulement la première)- les correspondances sont trouvées de façon vorace, sans chevauchement20HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: références, registre Il est possible de faire référence à l’expression régulièrereconnue dans la substitution, à l’aide de parenthèses‣exemple : remplacer le point par une virgule comme symbole devirgule flottantecat *.txt perl -p -e "s/([0-9] )\.([0-9] )/\1,\2/g"21‣chaque expression entre parenthèse est placée dans un registre‣l’expression \# fait référence au #ième registre‣pour utiliser les caractères ( et ), on doit précéder de \HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: références Une référence peut même être appelée à l’intérieur de l’ER/the (.*)er they (.*), the \1er we \2/22‣correspondance avec the faster they ran, the faster we ran‣mais pas avec the faster they ran, the faster we ateHUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: extraction d’information Les ER permettent d’extraire rapidement des statistiquessimples à partir de données textuelles‣exemple : indicatifs régionaux utilisés dans une collection de textescat *.txt perl -p -e "s/\(([0-9]{3})\)[0-9]{3}-[0-9]{4}/\nIND \1\n/g" grep -E "IND [0-9]{3}" perl -p -e "s/IND ([0-9]{3})/\1/g" sort uniq -c sort -n -r23HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: extraction d’information Les ER permettent d’extraire rapidement des statistiquessimples à partir de données textuelles‣exemple : indicatifs régionaux utilisés dans une collection de textescat *.txt perl -p -e "s/\(([0-9]{3})\)[0-9]{3}-[0-9]{4}/\nIND \1\n/g" grep -E "IND [0-9]{3}" perl -p -e "s/IND ([0-9]{3})/\1/g" sort uniq -c sort -n -r23HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: extraction d’information Les ER permettent d’extraire rapidement des statistiquessimples à partir de données textuelles‣exemple : indicatifs régionaux utilisés dans une collection de textescat *.txt perl -p -e "s/\(([0-9]{3})\)[0-9]{3}-[0-9]{4}/\nIND \1\n/g" grep -E "IND [0-9]{3}" perl -p -e "s/IND ([0-9]{3})/\1/g" sort uniq -c sort -n -r23HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: extraction d’information Les ER permettent d’extraire rapidement des statistiquessimples à partir de données textuelles‣exemple : indicatifs régionaux utilisés dans une collection de textescat *.txt perl -p -e "s/\(([0-9]{3})\)[0-9]{3}-[0-9]{4}/\nIND \1\n/g" grep -E "IND [0-9]{3}" perl -p -e "s/IND ([0-9]{3})/\1/g" sort uniq -c sort -n -r23HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: extraction d’information Les ER permettent d’extraire rapidement des statistiquessimples à partir de données textuelles‣exemple : indicatifs régionaux utilisés dans une collection de textescat *.txt perl -p -e "s/\(([0-9]{3})\)[0-9]{3}-[0-9]{4}/\nIND \1\n/g" grep -E "IND [0-9]{3}" perl -p -e "s/IND ([0-9]{3})/\1/g" sort uniq -c sort -n -r23HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: extraction d’information Les ER permettent d’extraire rapidement des statistiquessimples à partir de données textuelles‣exemple : indicatifs régionaux utilisés dans une collection de textescat *.txt perl -p -e "s/\(([0-9]{3})\)[0-9]{3}-[0-9]{4}/\nIND \1\n/g" grep -E "IND [0-9]{3}" perl -p -e "s/IND ([0-9]{3})/\1/g" sort uniq -c sort -n -r23HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: extraction d’information Les ER permettent d’extraire rapidement des statistiquessimples à partir de données textuelles‣exemple : indicatifs régionaux utilisés dans une collection de textescat *.txt perl -p -e "s/\(([0-9]{3})\)[0-9]{3}-[0-9]{4}/\nIND \1\n/g" grep -E "IND [0-9]{3}" perl -p -e "s/IND ([0-9]{3})/\1/g" sort uniq -c sort -n -r23HUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - ELIZA

EXPRESSIONS RÉGULIÈRESSujets: ELIZA À partir d’ER, on peut même implémenter des programmessimples de dialogues‣25ELIZA : simule une conversation avec un psychologueHUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: ELIZA ELIZA est implémentée à partir d’une série d’ER et desubstitutions, appliquées en cascade‣chaque occurence de my est substituée par YOUR‣chaque occurence de I’m est substituée par YOU ARE‣etc. Exemple d’ER dans ELIZA :26HUGO LAROCHELLE

EXPRESSIONS RÉGULIÈRESSujets: ELIZA Le résultat n’est pas parfait .‣aucune mémoire de la conversation‣aucune représentation du sens de ce qui est dit‣le programme n’a pas de connaissance générale . mais peut parfois surprendre!http://nlp-addiction.com/eliza/27HUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - morphologie

MORPHOLOGIESujets: morphologie La morphologie étudie la façon dont les mots sontconstruits‣exemple : on obtient le pluriel de voiture en ajoutant un s à la fin Des connaissances de base en morphologie sont souventnécessaires29‣écrire des ER qui couvrent plusieurs formes d’un mot‣important dans un engin de recherche de documentsHUGO LAROCHELLE

MORPHOLOGIESujets: morphème Le morphème est l’unité de base dans le constructiond’un mot en morphologie‣ce sont les sous-chaînes les plus petites d’un mot, telles que chacunede ces sous-chaînes porte quand même une partie de la significationd’un mot (contrairement aux lettres) Exemple : chanteurs30‣chant (chant)‣-eur (celui qui fait)‣-s (pluriel)HUGO LAROCHELLE

MORPHOLOGIESujets: radical/racine (stem), affixe On distingue deux types de morphèmes‣radical ou racine (stem) : le morphème «principal»‣affixes : morphèmes ajoutant à la signification de la racine Exemple : chanteurs‣-eur (celui qui fait)‣-s (pluriel){chant (chant){31‣radicalaffixesHUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - types d’affixes

MORPHOLOGIESujets: préfixe, suffixe, infixe, circonfixe On distingue différents types d’affixes‣préfixe : se place avant le radical‣suffixe : se place près le radical‣circonfixe : peut se placer avant ou après le radical‣infixe : se place à l’intérieur de le radical Les circonfixes et infixes sont peu nombreux en anglais eten français33HUGO LAROCHELLE

MORPHOLOGIESujets: affixe, langue agglutinante Un mot a normalement un seul radical mais peut avoirplusieurs affixes‣rewrites : 1 radical (write), 1 préfixe (re-) et 1 suffixe (-s)‣unbelievably : 1 radical (believe), 1 préfixe (un-) et 2 suffixes (-able, -ly) Certaines langues (Turque) ont des mots avec jusqu’à 9 ou10 affixes‣34on appelle de telles langues des langues agglutinantesHUGO LAROCHELLE

MORPHOLOGIESujets: préfixe, suffixe, infixe, circonfixe On remarque que l’ajout d’un suffixe peut modifier les lettressur la frontière entre le radical et le suffixe35‣ajout de lettres : begging, begged‣modification du radical : triesHUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - flexion

MORPHOLOGIESujets: types de combinaisons de morphèmes Il existe différentes façons de combiner des morphèmes endes mots37‣flexion (inflection)‣dérivation‣formation d’un mot composé (compounding)‣cliticisation (cliticization)HUGO LAROCHELLE

MORPHOLOGIESujets: types de combinaisons de morphèmes Il existe différentes façons de combiner des morphèmes endes mots37‣flexion (inflection)‣dérivation‣formation d’un mot composé (compounding)‣cliticisation (cliticization)HUGO LAROCHELLE

MORPHOLOGIESujets: flexion (inflection), déclinaison La flexion modifie un radical afin de modifier sa formelinguistique (genre, nombre, temps, etc.) Exemple : noms (déclinaison)38‣accord de nombre : on distingue les noms réguliers et irréguliers‣noms réguliers : ajouter -s, ou bien -es si termine par -s/-z/-sh/-ch/-x,ou -ies si termine par une consonne yHUGO LAROCHELLE

MORPHOLOGIESujets: flexion (inflection), déclinaison La flexion modifie un radical afin de modifier sa formelinguistique (genre, nombre, temps, etc.) Exemple : noms (déclinaison)39‣forme possessive : children’s, llamas’‣accord de genre (en français)HUGO LAROCHELLE

MORPHOLOGIESujets: flexion (inflection), déclinaison La flexion modifie un radical afin de modifier sa formelinguistique (genre, nombre, temps, etc.) Exemple : verbes (conjugaison)40‣on distingue aussi les verbes réguliers des irréguliers‣dans le cas régulier, les accords sont simplesHUGO LAROCHELLE

MORPHOLOGIESujets: classe productive La flexion modifie un radical afin de modifier sa formelinguistique (genre, nombre, temps, etc.) Exemple : verbes (conjugaison)41‣la classe des verbes réguliers est dite productive, puisqu’elle peutfacilement inclure de nouveaux mots‣exemple : fax (faxes, faxing, faxed)HUGO LAROCHELLE

MORPHOLOGIESujets: flexion (inflection), conjugaison La flexion modifie un radical afin de modifier sa formelinguistique (genre, nombre, temps, etc.) Exemple : verbes (conjugaison)‣42pour les verbes irréguliers, il n’y a pas de règles aussi générales quis’appliquentHUGO LAROCHELLE

MORPHOLOGIESujets: flexion (inflection), gerund La flexion a tendance à ne pas changer la classe (nom,verbe, etc.) du mot Exception : le suffixe -ing, permettant d’utiliser un verbecomme un nom43‣on appelle le nom résultat un gerund‣exemple : Fishing is fine if you live near waterHUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - dérivation

MORPHOLOGIESujets: types de combinaisons de morphèmes Il existe différentes façons de combiner des morphèmes endes mots45‣flexion (inflection)‣dérivation‣formation d’un mot composé (compounding)‣cliticisation (cliticization)HUGO LAROCHELLERAPPEL

MORPHOLOGIESujets: types de combinaisons de morphèmes Il existe différentes façons de combiner des morphèmes endes mots45‣flexion (inflection)‣dérivation‣formation d’un mot composé (compounding)‣cliticisation (cliticization)HUGO LAROCHELLERAPPEL

MORPHOLOGIESujets: dérivation La dérivation va plutôt créer de «nouveau» mots, souventd’une classe (nom, verbe, etc.) différente Exemple : happy46happiness, unhappyHUGO LAROCHELLE

MORPHOLOGIESujets: dérivation La dérivation va plutôt créer de «nouveau» mots, souventd’une classe (nom, verbe, etc.) différente Exemple : nominalization‣47création d’un nom à partir d’un verbe ou d’un adjectifHUGO LAROCHELLE

MORPHOLOGIESujets: dérivation La dérivation va plutôt créer de «nouveau» mots, souventd’une classe (nom, verbe, etc.) différente Exemple :‣48on peut également créer des adjectifs à partir de noms ou de verbesHUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - mots composés et clitiques

MORPHOLOGIESujets: types de combinaisons de morphèmes Il existe différentes façons de combiner des morphèmes endes mots50‣flexion (inflection)‣dérivation‣formation d’un mot composé (compounding)‣cliticisation (cliticization)HUGO LAROCHELLE

MORPHOLOGIESujets: types de combinaisons de morphèmes Il existe différentes façons de combiner des morphèmes endes mots50‣flexion (inflection)‣dérivation‣formation d’un mot composé (compounding)‣cliticisation (cliticization)HUGO LAROCHELLE

MORPHOLOGIESujets: formation de mots composés (compounding) Des mots composés peuvent également être formés parla concaténation de plusieurs radicaux (racines)‣51exemple : doghouseHUGO LAROCHELLE

MORPHOLOGIESujets: cliticisation, clitique Un clitique est une unité à mi-chemin entre un mot et unaffixe La cliticisation est l’ajout en affixe d’un clitique52HUGO LAROCHELLE

MORPHOLOGIESujets: proclitique, enclitique Les proclitiques précèdent le mot‣exemples : l’opéra, je t’aime Les enclitiques suivent le mot‣exemples : he’d, she’s À noter que leur utilisation peut être ambiguë‣53en anglais, she’s peut être she is ou she hasHUGO LAROCHELLE

MORPHOLOGIESujets: morphologie Certaines langues permettent des combinaisons demorphèmes plus complexes (autre que la concaténation)‣exemple : Arabe, Hébreux Pour en apprendre plus, voir le livre de Jurafsky et Martin,section 3.154HUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - segmentation des mots et des phrases

MANIPULATION DE TEXTESSujets: document On va voir différents outils/algorithmes de base, qui sontutiles pour manipuler du texte et le transformer On va souvent supposer que nos données sont déjà dansun format électronique purement textuel (par ex. ASCII)56‣un document sera une longue chaîne de caractères (parex. sur une seule ligne)‣on supposera aussi que les balises d’un langage de balisage (HTML,XML, etc.) ont été enlevées(bien qu’elles peuvent parfois être utiles)HUGO LAROCHELLERAPPEL

SEGMENTATION DE MOTSSujets: segmentation (tokenization), unité lexicale (token) Un premier prétraitement souvent utilisé consiste àcouper chaque document en une liste d’occurences(token)‣cette étape est appelée segmentation (tokenization)‣chaque unité lexicale correspond normalement à un mot Même pour l’anglais ou le français, simplement séparer lesmots en fonction des espaces ne suffit pas57HUGO LAROCHELLE

nal Linguistics, and Speech Recognition, Second Edition. No part of any book may be reproduced or transmitted iny any means without the publisher's prior written permission. Use (other than pursuant to the qualified fair useviolation of the law or these Terms of Service is prohibited. Violators will be prosecuted to the full extent of the law.SEGMENTATION DE MOTSSujets: segmentation (tokenization) Exemple : Segmenter à partir des espaces donnerait les mots :58HUGO LAROCHELLE

SEGMENTATION DE MOTSSujets: segmentation (tokenization) En traitant chaque ponctuation comme une unité lexicale(«mot») séparée, on règle en partie le problème Mais il y a des 500.50‣555 500,50HUGO LAROCHELLE

SEGMENTATION DE MOTSSujets: segmentation (tokenization) Parfois on peut vouloir convertir les clitiques dans leurforme originale :‣j’aime : je et aime‣he’s : he et is Parfois on veut qu’un token puisse être une collocation :‣New York‣rock ‘n’ roll Le choix des règles de segmentation vont varier d’uneapplication à l’autre60HUGO LAROCHELLE

SEGMENTATION DE MOTSUsername: Hugo LarochelleBook: Speech and Language Processing: An Introduction to Natural Language Processing,Computational Linguistics, and Speech Recognition, Second Edition. No part of any book may be reproduced or transmitted inany form by any means without the publisher's prior written permission. Use (other than pursuant to the qualified fair useprivilege) in violation of the law or these Terms of Service is prohibited. Violators will be prosecuted to the full extent of the law.Sujets: segmentation (tokenization) Exemple de script de segmentation.Figure 3.22Jurafsky et Martin61HUGO LAROCHELLE

SEGMENTATION DE MOTSSujets: segmentation (tokenization) Exemple de script de segmentation.Figure 3.22Jurafsky et Martin62HUGO LAROCHELLE

SEGMENTATION DE MOTSSujets: segmentation (tokenization) Certaines langues n’utilisent pas d’espaces pour séparerdifférents mots‣63voir section 3.9.1 pour le cas du chinoisHUGO LAROCHELLE

SEGMENTATION DE PHRASESSujets: segmentation de phrase Parfois, il est aussi utile d’identifier les phrases d’undocument Une heuristique simple est de segmenter à partir desponctuations de fin de phrases (. ! ?)‣ne fonctionne pas pour les abbréviations (Mr., Inc.) Les meilleures méthodes sont basées sur l’apprentissageautomatique‣64entraîne un classifieur décidant si un . est une fin de phrase ou pasHUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - racinisation (stemming) et Porter Stemmer

NORMALISATIONSujets: normalisation Dans certaines applications, les variations morphologiquesd’un mot ne sont pas utiles, voire même nuisent Exemple : recherche d’information‣si je cherche le mot «exemple», j’aimerais que les documentscontenant le mot «exemples» me soient aussi retournés On aimerait normaliser la forme prise par les mots, afind’éliminer ces variations parasites66HUGO LAROCHELLE

RACINISATIONSujets: racinisation (stemming) Racinisation (stemming) : retirer des affixes d’un motpour obtenir une forme plus proche du radical / racine Souvent, on se limite au retrait des suffixes‣on pourrait ne pas enlever le «un» de unbuckle, pour nepas confondre les deux formes Le résultat n’est pas nécessairement un mot‣67Porter Stemmer : unbucklesunbucklHUGO LAROCHELLE

RACINISATIONSujets: Porter Stemmer Le Porter Stemmer est souvent utilisé pour la racinisation68‣correspond à une collection de règles, appliquées en différentes étapeset selon certaines priorités d’application‣n’est pas sans erreurHUGO LAROCHELLE

RACINISATIONSujets: Porter Stemmer Malgré cela, le Porter Stemmer est utile en pratique etsouvent utilisé‣plusieurs implémentations (Java, Python, ssayez-le pour voir!http://9ol.es/porter js demo.html69HUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - lemmatisation

NORMALISATIONSujets: normalisation Dans certaines applications, les variations morphologiquesd’un mot ne sont pas utiles, voire même nuisent Exemple : recherche d’information‣si je cherche le mot «exemple», j’aimerais que les documentscontenant le mot «exemples» me soient aussi retournés On aimerait normaliser la forme prise par les mots, afind’éliminer ces variations parasites71HUGO LAROCHELLERAPPEL

LEMMATISATIONSujets: lemmatisation Lemmatisation : obtenir l’entrée de dictionnaire(lemme) associée à un mot‣exemple : sangsing Contrairement à la racinisation, le résultat doit être unmot‣72exemple : unbucklesunbuckleHUGO LAROCHELLE

LEMMATISATIONSujets: désambiguïsation La lemmatisation peut varier en fonction du contexte‣found dans le sens trouver : foundfind‣found dans le sens fonder : foundfound La lemmatisation est une tâche plus difficile‣elle nécessite entre autre la désambiguïsation sémantique du mot‣l’utilisation d’apprentissage automatique est alors très utile Voir chapitre 19 pour plus de détails73HUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - distance d’édition

DISTANCE D’ÉDITIONSujets: correction d’erreurs typographiques Les corpus avec lesquels on a à travailler peuvent parfoiscontenir des erreurs typographiques (coquilles)‣particulièrement le cas avec du texte qui n’est pas écrit par unprofessionnel‣la numérisation de livres peut aussi introduire des erreurs Une façon simple (parfois trop) est, pour chaque mot, de75‣vérifier si le mot se trouve dans un dictionnaire‣si n’est pas présent, remplacer ce mot par le mot «le plus proche»HUGO LAROCHELLE

DISTANCE D’ÉDITIONSujets: distance d’édition La distance d’édition est une distance générale entredeux séquences (p. ex. de caractères)‣dépend de la liste d’opérations minimales liant les deux séquences‣normalement, on permet les insertions, suppressions et substitutions Exemple : intention vs. execution76HUGO LAROCHELLE

DISTANCE D’ÉDITIONSujets: distance d’édition, Levenshtein On associe aussi un poids à chaque opération‣Levenshtein : poids de 1 à chaque opération La distance d’édition est la somme des poids Exemple : intention vs. execution77HUGO LAROCHELLE

DISTANCE D’ÉDITIONSujets: programme dynamique On peut définir la distance d’édition de façon récursive‣distance[i,j] est la distance entre les sous-chaînes des i et jpremiers caractères des deux chaînes target et source à comparertarget[i]source[j], target[i]),source[j] Peut calculer à l’aide d’un programme dynamique78‣commence par les sous-chaînes plus petites‣insère les résultats dans un tableau, par ordre de précédenceHUGO LAROCHELLE

o LarochelleBook: Speech and Language Processing: An Introduction to Natural Language Processing,nguistics, and Speech Recognition, Second Edition. No part of any book may be reproduced or transmitted inmeans without the publisher's prior written permission. Use (other than pursuant to the qualified fair useion of the law or these Terms of Service is prohibited. Violators will be prosecuted to the full extent of the law.DISTANCE D’ÉDITIONSujets: pseudocodetarget[i]source[j], target[i]),source[j]79HUGO LAROCHELLE

DISTANCE D’ÉDITIONSource (j)Sujets: exempleTarget (i)80HUGO LAROCHELLE

DISTANCE D’ÉDITIONSource (j)Sujets: exempleTarget (i)80HUGO LAROCHELLE

DISTANCE D’ÉDITIONSujets: correction d’erreurs typographiques Reste plus qu’à définir les poids d’insertion, suppression etsubstitution‣pour les substitutions, pourraient avoir un poids lié à la distanceentre les touches des caractères sur un clavier‣pour les insertions et suppressions, un poids constant (indépendantdu caractères) serait raisonnable Trouver un bon choix de pondération des opérations doitse faire par essai et erreur81HUGO LAROCHELLE

Traitement automatique des languesManipulation de textes - alignement

DISTANCE D’ÉDITIONSujets: distance d’édition La distance d’édition (minimale) est une distancegénérale entre deux séquences (p. ex. de caractères)‣dépend de la liste d’opérations minimale liant les deux séquences‣normalement, on permet les insertions, suppressions et substitutions Exemple : intention vs. execution83HUGO LAROCHELLERAPPEL

DISTANCE D’ÉDITIONSujets: alignement En plus de la distance, on s’intéresse parfois à la séried’opérations minimales associée‣cette information est souvent représentée sous la forme d’unalignement entre les deux chaînes Exemple : intention vs. execution84HUGO LAROCHELLE

DISTANCE D’ÉDITIONSujets: alignement Pour l’obtenir, on modifie l’algorithme en‣conservant les pointeurs vers la case minimisante‣une fois la calcul de la distance terminé, on suit les pointeurs «àreculons» Exemple : intention vs. execution85HUGO LAROCHELLE

o LarochelleBook: Speech and Language Processing: An Introduction to Natural Language Processing,nguistics, and Speech Recognition, Second Edition. No part of any book may be reproduced or transmitted inmeans without the publisher's prior written permission. Use (other than pursuant to the qualified fair useion of the law or these Terms of Service is prohibited. Violators will be prosecuted to the full extent of the law.DISTANCE D’ÉDITIONSujets: pseudocodetarget[i-1])source[j-1])target[i -1])source[j -1], target[i -1]),source[j -1]) )86HUGO LAROCHELLE

o LarochelleBook: Speech and Language Processing: An Introduction to Natural Language Processing,nguistics, and Speech Recognition, Second Edition. No part of any book may be reproduced or transmitted inmeans without the publisher's prior written permission. Use (other than pursuant to the qualified fair useion of the law or these Terms of Service is prohibited. Violators will be prosecuted to the full extent of the law.DISTANCE D’ÉDITIONSujets: pseudocodeajout d’une étapede stockage de pointeurstarget[i-1])source[j-1])target[i -1])source[j -1], target[i -1]),source[j -1]) )86HUGO LAROCHELLE

DISTANCE D’ÉDITIONSource (j)Sujets: exempleTarget (i)87HUGO LAROCHELLE

DISTANCE D’ÉDITIONSujets: exemplesuppressionsubstitutionSource (j)insertionTarget (i)87HUGO LAROCHELLE

Sujets: HUGO LAROCHELLE Une expression régulière (ER) est une façon simple de caractériser un ensemble de chaînes de caractères, de façon compacte ‣ toute chaîne de caractères correspondant à un montant en argent ( 199, 25, 24.99, etc.)‣ toute abréviation (LNH, TVA, etc.) C’est un formalisme utile pour

Related Documents:

3 les langues et cultures de l’antiquitÉ 5 l’apport des langues et cultures de l’antiquitÉ au franÇais 6 l’apport des langues et cultures de l’antiquitÉ aux langues vivantes 8 l’apport des langues et cultures de l’antiquitÉ aux mathÉmatiques 10 l’apport des

Langues anciennes / langues modernes LCA – Langues vivantes Fondements - Mieux maîtriser les langues vivantes grâce à l’étude du Latin et / ou du Grec En superposant en filigrane une carte de l'empire romain du IIe siècle après Jésus-Christ, etFile Size: 738KB

Le latin aux origines des langues européennes Le latin est l’ancêtre de plusieurs langues européennes. Apprendre le latin aide à comprendre plus facilement les langues vivantes étudiées au collège. Lisez le texte suivant, écrit p

LCA : Langues et cultures de l’Antiquité . En langues vivantes : français espagnol italien portugais latin nuit noche notte noite nocte langue lengua lingua lingua lingua chanter cantar cantare cantar cantare . langues anciennes et des civilisat

L'AFCP (Association Francophone de la Communication Parlée 3) se réjouit de s'associer de nouveau à l'ATALA (Association pour le Traitement Automatique des Langues) pour l'organisation de cet événement commun que sont les JEP-TALN-RECITAL. Rappelons que depuis 2002, les communautés du traitement de la langue, orale comme écrite,

C’est une démarche d’observation réfléchie des langues du monde. Les activités d’écoute, de recherche, de comparaison et d’analyse du fonctionnement des langues s’adaptent à tous les cycles. Elles s’appuient sur des contes, des comptines, des chansons, des alphabets, des nombres, des calendriers Pour en savoir plus

Le syst me prtsent6 ici a pour but la reprtsentation, rextraction et rexploitation des connaissances dans le contexte du traitement automatique des langues. On salt [Berrendonner 89] que les raisonnements reprtsent s duns des "discours" en langue naturelle ne sont que rarement

Traitement de l’image : de l’equation de la chaleur aux ondelettes Jean-Pierre Antoine* et Laurent Jacques§ *professeur, resp. §assistant, a l’Universite Catholique de Louvain I. Gen eralit es sur le traitement num erique des images Avant de discuter du traitement d’images, il convient de pr eciser l’objet de notre e .