Скачать презентацию Analyse syntaxique et systèmes de questionsréponses Présentation Master Скачать презентацию Analyse syntaxique et systèmes de questionsréponses Présentation Master

4b695c6a04d27d0d5dc0aab4fd0537d1.ppt

  • Количество слайдов: 84

Analyse syntaxique et systèmes de questionsréponses Présentation Master Recherche Informatique d'Orsay Analyse syntaxique et systèmes de questionsréponses Présentation Master Recherche Informatique d'Orsay

Objectifs du cours n Présenter les systèmes de questions- réponses n Montrer un cadre Objectifs du cours n Présenter les systèmes de questions- réponses n Montrer un cadre d’application des différents domaines du TAL présentés: morphologie, syntaxe, sémantique et multilinguisme – En particulier, utilisation de connaissances syntaxiques pour la recherche d’informations précises 2

Plan de la présentation Ø XIP, un analyseur robuste o o Les systèmes de Plan de la présentation Ø XIP, un analyseur robuste o o Les systèmes de questions-réponses Etude du système QALC Exemple d’appariement syntaxique Evolution du domaine et perspectives 3

XIP : un analyseur robuste o Robustesse = capacité d'un analyseur à fournir des XIP : un analyseur robuste o Robustesse = capacité d'un analyseur à fournir des analyses correctes pour des corpus tout venant o Produire une analyse même minimale pour toute entrée o Limiter le nombre d’analyses produites ou donner des indications sur les préférences 4

Présentation de XIP o o XIP = Xerox Incremental Parser Développé par XRCE, Centre Présentation de XIP o o XIP = Xerox Incremental Parser Développé par XRCE, Centre de Recherche Européen de Xerox [Aït-Mokhtar, Chanod and Roux 2002] o Analyseur partiel : sortie pas forcément complète (mais robustesse) o Sorties : o Etiquetage morpho-syntaxique o Constituants ou chunks o Relations de dépendance (entre les têtes de 2 syntagmes) 5

Syntaxe = étude de l’organisation des mots en phrases n Structure syntagmatique – Arbre Syntaxe = étude de l’organisation des mots en phrases n Structure syntagmatique – Arbre de constituants – Catégories et frontières des constituants n Fonctions ou relations de dépendance – Arbre de dépendance P GV GN NP Marie aime GN V Det N chocolat le aime sujet objet chocolat Marie det le 6

Caractéristiques de XIP Incrémental grâce à des paquets ordonnés de règles o Sortie unique Caractéristiques de XIP Incrémental grâce à des paquets ordonnés de règles o Sortie unique mais o Déterministe pour la segmentation en constituants o Non déterministe pour l'extraction des dépendances o o Souple : grammaires facilement modifiables 7

Sorties de XIP Le chat de la voisine - au demeurant peu aimable – Sorties de XIP Le chat de la voisine - au demeurant peu aimable – est parti en miaulant capturer une souris qui traînait là. Segmentation en constituants { SC {NP {Le chat} PP {de NP {la voisine} } INS {- AP {au demeurant peu aimable} -} FV {est parti} } GV {en miaulant} IV {capturer} NP {une souris} SC { BG {qui} FV {traînait} } là. } 8

Sorties de XIP GROUPE(1) + | SC +-----------------------+--------------+ | | | NP PP INS Sorties de XIP GROUPE(1) + | SC +-----------------------+--------------+ | | | NP PP INS FV +-----+ +---------+--------+ +------+ | | | DET NOUN PREP NP PUNCT AP PUNCT VERB + +------+ + +-----+-------+ + | | | | Le chat de DET NOUN - ADV ADJ - est parti + + + | | | la voisine au demeurant peu aimable (…) 9

Sorties de XIP + Relations de dépendance SUBJ_NOUN(parti, chat) SUBJ_REL_COREF_NOUN(traînait, souris) SUBJ(capturer, chat) VARG_NOUN_DIR(capturer, Sorties de XIP + Relations de dépendance SUBJ_NOUN(parti, chat) SUBJ_REL_COREF_NOUN(traînait, souris) SUBJ(capturer, chat) VARG_NOUN_DIR(capturer, souris) VARG_INF_DIR(parti, capturer) COREF_POSIT 1_REL(souris, qui) VMOD_POSIT 1_ADV(traînait, là) NMOD_POSIT 1_RIGHT_ADJ(voisine, aimable) NMOD_POSIT 1_NOUN_INDIR(chat, de, voisine) PREPOBJ_CLOSED(de, voisine) DETERM_DEF_NOUN_DET(Le, chat) 10

Architecture de XIP Pré-traitement Contrôle des entrées Règles de Désambiguïsation Texte en entrée Texte Architecture de XIP Pré-traitement Contrôle des entrées Règles de Désambiguïsation Texte en entrée Texte analysé morphologiquement Désambiguïsation Texte désambiguïsé (pos) Règles de segmentation Segmentation Règles de dépendance Analyse des dépendances Ressources Modules Texte annoté syntaxiquement Texte analysé Textes traités 11

Fonctionnement 3 étapes principales : – Désambiguïsation des parties du discours (pos) – Segmentation Fonctionnement 3 étapes principales : – Désambiguïsation des parties du discours (pos) – Segmentation – Dépendances 12

Désambiguïsation o 292 règles ~ o Choix de l'interprétation la plus probable d'un mot Désambiguïsation o 292 règles ~ o Choix de l'interprétation la plus probable d'un mot en fonction de son contexte o Désambiguïsation de certains traits o Règles de la forme : interprétations = | Contexte-G | choix | Contexte-D| /*** REGLE DESAMB 68 *** / même lui 1> adj, adv = adv |pron[noun: ~]| 13

Segmentation o 121 règles ~ Groupement des mots en segments (chunks) o Règles organisées Segmentation o 121 règles ~ Groupement des mots en segments (chunks) o Règles organisées par niveaux, pas de retour arrière, pas de récursivité o o Règles de la forme : nœud non lexical -> | Ctxte| suite de nœuds |Ctxte| / très grand 1> AP -> (adv+[last: ~]), adj[verb: ~]. 14

o 22 règles ~ Dépendances o Création de relations de dépendance entre les mots o 22 règles ~ Dépendances o Création de relations de dépendance entre les mots o Deux types de règles : o Création de dépendances o Ajout de nouvelles caractéristiques TOP o Règles de la forme : SC |pattern| if | SC { NP}, VP, NP} | if (~Subj(#, #2)) Subj (#1, #2) , Obj (#2, #3) NP NP VP Det Nom Verbe la Le chat mange #1 Nom souris #3 #2 Subj(chat, manger) Obj(manger, souris) 15

XIP, un analyseur robuste Ø Les systèmes de questions-réponses o Etude du système QALC XIP, un analyseur robuste Ø Les systèmes de questions-réponses o Etude du système QALC o Exemple d’appariement syntaxique o Evolution du domaine et perspectives o 16

Recherche d’informations précises n Type d’informations – Accès aux informations externes – Veille scientifique, Recherche d’informations précises n Type d’informations – Accès aux informations externes – Veille scientifique, technique, commerciale, … – Gestion des informations internes n Besoin informationnel – Large : constitution d’un dossier § Sangatte – Précis : question précise § Date de création de Sangatte 17

Différentes applications pour différents besoins n Recherche de documents liés au thème Résumé Visualisation Différentes applications pour différents besoins n Recherche de documents liés au thème Résumé Visualisation § Les camps de réfugiés : Sangatte n Recherche de réponses à des questions précises § Quand Sangatte a-t-il été créé ? 24 septembre 1999 18

Recherche d’informations précises … là), marche à pied (on a déjà surpris des étrangers Recherche d’informations précises … là), marche à pied (on a déjà surpris des étrangers marchant dans le tunnel). Les tentatives de traversées de la Manche sont à peine moins surveillées que les baignades. Quand le temps n'est pas mauvais, on perçoit les côtes anglaises distantes d'une quinzaine de kilomètres. Sur la mer, naviguent en permanence d'énormes ferries. Le camp ouvert à Sangatte — on dira ici plutôt « camp » que « centre » , à cause des conditions de vie qui y prévalent (voir ci-dessous) et de l'improbable statut juridique de cette « chose » sans précédent, sauf les camps des Républicains espagnols à la fin des années 30 — a été inauguré le 24 septembre 1999 dans un hangar où était installée, pendant le forage du tunnel sous la Manche, la logistique technique française. L'ouvrage, qui appartenait à la société du tunnel, a été réquisitionné in extremis par les pouvoirs publics pour le transformer en lieu d'accueil, alors qu'il allait être vendu. Il a la … 19

Questions-réponses o Objectif: répondre de façon exacte à des questions en langue naturelle o Questions-réponses o Objectif: répondre de façon exacte à des questions en langue naturelle o Recherche d’Information + Traitement Automatique des Langues When did Alaska become a state? GOOGLE • ALASKA. com|FAQ: How can I become a state park volunteer ? … How can I become a state park volunteer ? . . . • Alaska Elections – State Division of Elections Home Page • Alaska State Legislature Homepage… When did Alaska become a state? QALC* in 1959 *QALC : système de Question-Réponse du LIMSI 20

Caractéristiques des systèmes de questions-réponses (SQR) o Questions en domaine ouvert o Systèmes actuels Caractéristiques des systèmes de questions-réponses (SQR) o Questions en domaine ouvert o Systèmes actuels : o Questions factuelles ou encyclopédiques : o Vs domaine fermé (météo, voyages) o Qui a conçu l’ordinateur Macintosh ? o Quel métal a le plus haut point de fusion ? o Qui a été le premier gouverneur de l’Alaska ? o Qu’est-ce que l’homéopathie ? o Réponses courtes 21

Exemples de questions n Questions de définition § Acronymes: What is the ESA? § Exemples de questions n Questions de définition § Acronymes: What is the ESA? § Personnes: Who is Goodwill Zwelithini? § Objet ou organisation: What is the Civic Alliance? n Questions factuelles Instances: Name a university in Berlin. Personnes: What is the Serbian President's name? Caractéristique: How old is Jacques Chirac? Evénementielles: What did astronomers from Alabama University discover? § Descriptives: Which genes regulate the immune system? § § 22

Evaluations n Venues de la communauté de la RI n Internationales n Francophone n Evaluations n Venues de la communauté de la RI n Internationales n Francophone n Caractéristiques – TREC pour l’anglais – CLEF : nombreuses langues + multilingue – EQue. R – Corpus = grandes collections majoritairement journalistiques – Jugement sur la réponse + sur sa fiabilité 23

Evaluation des réponses (1/2) Critères inspirés du dialogue (maximes de Grice) n Evaluation des Evaluation des réponses (1/2) Critères inspirés du dialogue (maximes de Grice) n Evaluation des réponses en fonction de leur : n – Pertinence § La réponse doit répondre à la question ! § Quelle est la taille de la statue de la Liberté ? – Précision § Niveau de granularité adéquat § Où est né Harry Truman ? aux Etats-Unis/Lamar, Missouri – Concision § La réponse ne doit pas contenir d’information inutile § Quel fleuve des Etats-Unis est surnommé le « Big Muddy » ? « Le Mississippi, connu aussi sous le nom de « Big Muddy » , est la plus » 24

Evaluation des réponses (2/2) – Complétude § La réponse doit être complète § 500 Evaluation des réponses (2/2) – Complétude § La réponse doit être complète § 500 au lieu de 500€ – Simplicité § L’utilisateur doit pouvoir lire la réponse facilement – Justification § La réponse doit être fournie avec un contexte qui permet de comprendre pourquoi la réponse a été choisie § Qui était le 16ème Président des Etats-Unis ? le texte doit préciser que Lincoln était le 16ème – Contexte § Contexte de validité de la réponse § Qui est le Premier Ministre Français ? date 25

Etat de l’art n Actuellement, les meilleurs systèmes à TREC répondent à environ 70% Etat de l’art n Actuellement, les meilleurs systèmes à TREC répondent à environ 70% des questions n Approches variées : – Méthodes s’appuyant sur des bases de connaissances et des techniques de TAL – Méthodes utilisant des techniques de surface 26

Architecture d'un SQR Question ou mots-clefs Traitement des questions Informations pertinentes Moteur de recherche Architecture d'un SQR Question ou mots-clefs Traitement des questions Informations pertinentes Moteur de recherche Documents pertinents Traitement des documents Phrases candidates Recherche de la réponse Réponse 27

XIP, un analyseur robuste o Les systèmes de questions-réponses Ø Etude du système QALC XIP, un analyseur robuste o Les systèmes de questions-réponses Ø Etude du système QALC o Ø Analyse des questions o o o Sélection et traitement des documents Analyse des phrases candidates Résultats Exemple d’appariement syntaxique o Evolution du domaine et perspectives o 28

Caractérisation des questions n Quelles informations ? – Sur le type de la réponse Caractérisation des questions n Quelles informations ? – Sur le type de la réponse attendue § Entité nommée § Type général – Sur le contexte de la réponse § Lexical – Mots de la question § Syntaxique – Forme syntaxique de la question Formulation de la réponse § Sémantique – Objet (focus, thème? ) de la question Entité présente dans la réponse – Catégorie de la question 29

Exemple d’analyse de la question What currency does Argentina use? Type attendu de la Exemple d’analyse de la question What currency does Argentina use? Type attendu de la réponse Objet de la question : Type général : currency Entité présente dans la phrase réponse : Argentina / currency ? Forme de la question Forme syntaxique de la question What GN GV Formulation de réponse : GNRéponse , GNObjet The austral, Argentina 's currency 30

Module d’analyse de la question Question Etiquetage morpho-syntaxique Analyse de la question Reconnaissance du Module d’analyse de la question Question Etiquetage morpho-syntaxique Analyse de la question Reconnaissance du type attendu Lexiques Reconnaissance de la catégorie Patrons + Lexiques Caractéristiques de la question (XML) 31

Performances sur l’analyse des questions o Module d'analyse des questions fiable (TREC 10) Forme Performances sur l’analyse des questions o Module d'analyse des questions fiable (TREC 10) Forme de la question 97 % o Type de la réponse 90 % Objet de la question 85 % Performances variables selon le type de la question : o Meilleure reconnaissance des questions attendant une EN o Mauvaise reconnaissance de l’objet de la question sur certaines catégories o Pertinence de l’objet de la question (TREC 9) o 90 % des questions ont une phrase réponse contenant l'objet o 57 % des phrases réponses contiennent l’objet 32

Analyse syntaxique des questions o Analyseurs syntaxiques non appropriés pour les questions : – Analyse syntaxique des questions o Analyseurs syntaxiques non appropriés pour les questions : – Verbe non reconnu : What year did the Titanic sink? – Superlatif non reconnu : What metal has the highest melting point? Remaniement des sorties 33

Caractérisation des questions o Objet de la question : pas toujours l'entité sur laquelle Caractérisation des questions o Objet de la question : pas toujours l'entité sur laquelle il faut se focaliser Question : What is one national park in Indiana ? Réponse : The study examine haze and visitor statistics at Acadia National Park in Maine ; Big bend national park in Texas ; … Indiana Dunes National Lakeshore in Indiana ; Mount Rainier National Park in Washington … => Focalisation sur « national park » donne «Rainier National Park » au lieu de «Indiana Dunes National Lakeshore » 34

XIP, un analyseur robuste o Les systèmes de questions-réponses Ø Etude du système QALC XIP, un analyseur robuste o Les systèmes de questions-réponses Ø Etude du système QALC o o Analyse des questions Ø Sélection et traitement des documents o Analyse des phrases candidates o Résultats Exemple d’appariement syntaxique o Evolution du domaine et perspectives o 35

Sélection et traitement des documents n Dans QALC – Moteur de recherche § Passages Sélection et traitement des documents n Dans QALC – Moteur de recherche § Passages de texte de la taille d’un paragraphe en sortie § Etiquetage morpho-syntaxique – Traitement des documents § § § Ré-indexation et pondération en utilisant Fastr Sélection Etiquetage des entités nommées n Pré ou post-traitement ? 36

Variation linguistique (1/2) Question Phrase réponse How many scandals While boss at Marseille, Tapie Variation linguistique (1/2) Question Phrase réponse How many scandals While boss at Marseille, Tapie was Tapie implicated said : I have been implicated in in, four scandals in seven years. while boss at Marseille? Commentaires Tous les mots (pleins) de la question se retrouvent dans le passage réponse, mais il y a une référence. What is Alexander Solzhenitsyn's wife's name? However his wife Natalya Le prénom de suggested Solzhenitsyn's Solzhenitsyn n'est criticism of the government (…). pas donné. Who is the Norwegian king? Even Crown Prince Harald, who is now Norway's king, called it a wild idea. king est dans la phrase réponse, mais Norwegian devient Norway's 37

Variation linguistique (2/2) Question Phrase réponse Commentaires When will the Human Genome Project be Variation linguistique (2/2) Question Phrase réponse Commentaires When will the Human Genome Project be completed? The Human Genome Project, a will be completed 15 -year, $3 -billion effort, is set for devient is set completion in 2005. for completion Which space probe set off Clementine, which will map the for the Moon on 25 moon and fly by an asteroid while January 1994 ? testing military sensors, had been in a circular orbit around Earth since it was launched Jan. 25 from Vandenberg Air Force Base. space probe disparaît, set off devient launched, January est abrégé en Jan. When was the safety zone in southern Lebanon created? zone devient strip, southern devient south, safety devient to protect itself, created devient since. . . Israel has held to an occupation strip in south Lebanon since 1978 (. . . ) in order to protect itself from Crossborder guerrilla attacks. 38

Fastr pour re-indexer (1/2) (Christian Jacquemin) n Regroupement de termes multi-mots : les variantes Fastr pour re-indexer (1/2) (Christian Jacquemin) n Regroupement de termes multi-mots : les variantes linguistiques d'un concept – genetic diseases disease is genetic hereditary disease genetically determined forms of the disease is familial transmissible neurodegenerative diseases genetic risk factors for artery disease Flexion Syntaxe Sémantique Morphologie Sémantique + Syntaxe Variante incorrecte 39

Fastr pour re-indexer (2/2) n Ressources – Famille sémantique d'un mot (à partir du Fastr pour re-indexer (2/2) n Ressources – Famille sémantique d'un mot (à partir du thésaurus Word. Net), par exemple, manufacturer, shaper pour le nom maker – Famille morphologique d'un mot (à partir de la base CELEX), par exemple, maker, make, remake, to make et to remake pour le nom maker n Application de patrons : … making many automobiles… -> variante de car maker 40

Etiquetage des entités nommées (EN) n Entités nommées = éléments qu’il est intéressant de Etiquetage des entités nommées (EN) n Entités nommées = éléments qu’il est intéressant de n Pour tous les documents retenus : pouvoir distinguer du reste du texte § Entités : personnes, organisations, lieux § Dates : dates, heures § Quantités : montants financiers, pourcentages – Par utilisation de listes : § Pour les prénoms, les villes, … – Par application de règles (grammaires locales) § Organisation -> Nom. Org SP – Ministère des Affaires Étrangères § Personne -> Prénom NPropre – Jacques Chirac 41

Hiérarchie des entités nommées Entité nommée Nom propre Entité numérique Organisation Lieu Nombre Personne Hiérarchie des entités nommées Entité nommée Nom propre Entité numérique Organisation Lieu Nombre Personne Poids Vitesse Expression temporelle Pourcentage Volume Physique Longueur Montant financier Date Age Température Durée Jour Période 42

Exemple de document When will the Human Genome Project be completed ? The DT Exemple de document When will the Human Genome Project be completed ? The DT the Human NP Human Genome NN genome Project NP Project , , , a DT a $ $ $ 3 -billion CD 3 -billion effort NN effort , , , is VBZ be set VVN set for IN for completion NN completion in IN in 2005 CD @[email protected] . SENT. Variantes Fastr: human genome project Human Genome Project 43

Des documents aux phrases… n Poids pour toutes les phrases : – Lemmes de Des documents aux phrases… n Poids pour toutes les phrases : – Lemmes de la question et leurs variantes poids de référence – + si mots exacts et proximité de ces mots – – + si entité nommée du type attendu X phrases par question : dépend des évaluations! 44

XIP, un analyseur robuste o Les systèmes de questions-réponses Ø Etude du système QALC XIP, un analyseur robuste o Les systèmes de questions-réponses Ø Etude du système QALC o o Analyse des questions o Sélection et traitement des documents Ø Analyse des phrases candidates o Résultats Exemple d’appariement syntaxique o Evolution du domaine et perspectives o 45

Stratégie fondée sur les EN n Sélection de l’EN du bon type la plus Stratégie fondée sur les EN n Sélection de l’EN du bon type la plus proche des mots de la question n En quelle année a été achetée l’Alaska? Type EN attendu : année « En 1867, lorsque W. H. Seward a négocié l’achat de l’Alaska… » 46

Recherche des EN En quelle année a été achetée l’Alaska ? Traitement des questions Recherche des EN En quelle année a été achetée l’Alaska ? Traitement des questions EN Date attendue Traitement des documents En 1867, lorsque W. H. Seward a négocié l’achat de l’Alaska… Moteur de recherche (…) En 1867, lorsque W. H. Seward a négocié l’achat de l’Alaska… (…) Recherche de la réponse 1867 47

Stratégie insuffisante (1/3) o Très bonne reconnaissances des EN mais : Difficultés de délimitation Stratégie insuffisante (1/3) o Très bonne reconnaissances des EN mais : Difficultés de délimitation des EN o Certaines EN ne sont pas reconnues (incomplétude des listes d’EN, de déclencheurs, de règles…) o o Ambiguïté du type attendu de la réponse o Qui a gagné la dernière coupe du monde de foot ? o o Organisation (équipe) attendue et non pas personne Où la bile est-elle produite ? o Partie du corps attendue et non pas lieu 48

Stratégie insuffisante (2/3) o Ambiguïté des phrases candidates – Présence de plusieurs EN du Stratégie insuffisante (2/3) o Ambiguïté des phrases candidates – Présence de plusieurs EN du type attendu o Question : How late is Disneyland open? Phrase réponse : During the summer, the park is open from 8 a. m. until midnight – Présence d’une EN du bon type, mais qui ne correspond pas du tout à la réponse o Question : What is Marilyn Monroe's real name? Type attendu de la réponse : Personne Phrase candidate : "the rumors about J. F. Kennedy and Marilyn Monroe … « 49

Stratégie insuffisante (3/3) o Certaines questions n’attendent pas une réponse EN o De quel Stratégie insuffisante (3/3) o Certaines questions n’attendent pas une réponse EN o De quel instrument Mozart jouait-il ? o Comment est mort Micky Mantel ? o Nécessité de connaissances linguistiques Recherche plus précise de la réponse o Analyse de questions non EN o 50

Utilisation de l’analyse de la question o On dispose des informations suivantes : – Utilisation de l’analyse de la question o On dispose des informations suivantes : – Objet + autres mots de la question – Type attendu de la réponse - EN ou type général – Forme de la question et donc formulations possibles de la réponse o Stratégies adoptées : – Recherche de reformulations de la question o Patrons syntaxiques 51

Utilisation des informations lors de la recherche de la réponse o Patrons syntaxiques Question Utilisation des informations lors de la recherche de la réponse o Patrons syntaxiques Question : What does Knight Ridder publish? Forme de la question : What. Do. GNverbe Formulation : GN verbe GNréponse « Knight Ridder published 30 daily newspapers … » o Stratégie efficace mais – écriture manuelle fastidieuse – pas toujours fiables : patrons de proximité – mettre en place des règles de vérification 52

XIP, un analyseur robuste o Les systèmes de questions-réponses Ø Etude du système QALC XIP, un analyseur robuste o Les systèmes de questions-réponses Ø Etude du système QALC o o Analyse des questions o Analyse des phrases candidates ØRésultats Exemple d’appariement syntaxique o Evolution du domaine et perspectives o 53

Résultats du système QALC n Sur les questions anglaises de la campagne d’évaluation CLEF Résultats du système QALC n Sur les questions anglaises de la campagne d’évaluation CLEF 2005 54

Outils externes principaux de QALC (et autres) n Moteurs de recherche – MG en Outils externes principaux de QALC (et autres) n Moteurs de recherche – MG en anglais, Lucene en français n Etiqueteurs morpho-syntaxiques – Tree. Tagger en anglais, Tree. Tagger+XIP en français n Analyseurs syntaxiques – Cass en anglais, XIP en français n Ressources terminologiques – Fastr pour variations – Word. Net pour synonymes en anglais 55

o XIP, un analyseur robuste o Les systèmes de questions-réponses o Etude du système o XIP, un analyseur robuste o Les systèmes de questions-réponses o Etude du système QALC Ø Exemple d’appariement syntaxique o Evolution du domaine et perspectives 56

Pourquoi analyser les phrases réponses ? n Question : Who killed Lee Harvey Oswald? Pourquoi analyser les phrases réponses ? n Question : Who killed Lee Harvey Oswald? Phrase réponse : Jack Ruby, who killed JFK’s assassin Lee Harvey Oswald …. Stratégies actuelles inefficaces n Utilisation de relations syntaxiques : Question: sujet (? , kill) et objet (kill, L. H. O. ) Réponse: sujet (Jack Ruby, kill) et objet (kill, L. H. O. ) 57

Principe de l'appariement o Analyse syntaxique ® Who is the evil H. R. Director Principe de l'appariement o Analyse syntaxique ® Who is the evil H. R. Director in Dilbert ? sujet (? , be) et attribut (Director, be) o Recherche des relations de la question ou de reformulations → Catbert is the evil H. R. Director in Dilbert… sujet (Catbert, be) et attribut (Director, be) ® Catbert, the evil H. R. Director in Dilbert, … apposition (Catbert, Director) 58

Méthodes pour l’appariement o Appariement à partir des relations de dépendance – Quel formalisme Méthodes pour l’appariement o Appariement à partir des relations de dépendance – Quel formalisme de représentation pour les questions et les phrases candidates ? – Quel mécanisme d’appariement ? o Quelques possibilités – Graphes + algorithme de relaxation de contraintes – Réseaux sémantiques + règles d’inférence – Représentation logique + démonstrateur 59

Un exemple d’appariement fondé sur les relations syntaxiques o LCC (Language Computer Corporation) [Moldovan Un exemple d’appariement fondé sur les relations syntaxiques o LCC (Language Computer Corporation) [Moldovan et al. , 2002] – Analyse syntaxique des questions et des phrases candidates – Passage à une forme logique – Appariement question-réponse grâce à : o Ressources sémantiques o Démonstrateur logique – Extraction de la réponse 60

Architecture du système Traitement de la question Traitement des documents Extraction de la réponse Architecture du système Traitement de la question Traitement des documents Extraction de la réponse Passages Recherche de passages Index de documents Extraction de la réponse Justification Classement Démonstrateur Base de connaissances Question Analyse syntaxique Transformation sémantique Reconnaissance du type attendu de la réponse Extraction de mots-clefs Reconnaissance des EN Hiérarchie des types de réponses Réponse Collection de documents Harabagiu et al. , 2004 (schéma simplifié, valable uniquement pour les questions factuelles) 61

Formes logiques Représentation intermédiaire entre l’analyse syntaxique et une forme sémantique profonde n Utilisation Formes logiques Représentation intermédiaire entre l’analyse syntaxique et une forme sémantique profonde n Utilisation de relations de dépendance : sujets, objets, rattachements prépositionnels… n n Exemple – Phrase : Heavy selling of Standard & Poor ‘s 500 -stock index futures in Chicago relentlessly beat stocks downward. – Forme logique : heavy_JJ(x 1) & selling_NN(x 1) & of_IN(x 1, x 6) & Standard_NN(x 2) & &_CC(x 13, x 2, x 3) & Poor_NN(x 3) & ‘s_POS(x 6, x 13) & 500 -stock_JJ(x 6) & index_NN(x 4) & future_NN(x 5) & nn_NNC(x 6, x 4, x 5) & in_IN(x 1, x 8) & Chicago_NN(x 8) & relentlessly_RB(e 12) & beat_VB(e 12, x 1, x 9) & stocks_NN(x 9) & downward_RB(e 12) x : variables, e : prédicats 62

Extended Word. Net o Enrichissement sémantique : – Wordnet : § § Base de Extended Word. Net o Enrichissement sémantique : – Wordnet : § § Base de données lexicale Organisation : concepts (ensemble de synonymes) Catégories de mots : noms, verbes, adjectifs et adverbes Relations entre ces concepts : hyponymie, hyperonymie, méronymie – Extended Word. Net : Transcription sous forme logique de toutes les informations de Word. Net o Exemples d’utilisation d’Extended Word. Net par LCC : – Q : How many chromosomes does a human zygote have ? – A : 46 chromosomes that lie in the nucleus of every normal human cell – Chaîne lexicale formée : zygote: n#1 -> HYPERNYM -> cell: n#1 -> HAS_PART -> nucleus: n#1 – – – Q : What Spanish explorer discovered the Mississipi River ? A : Spanish explorer Hernando de Soto reached the Mississipi River Chaîne lexicale : Discover: v#7 -> GLOSS -> reach: v#1 63

Exemple d’appariement Question Which company created the Internet Browser Mosaic? o Forme logique de Exemple d’appariement Question Which company created the Internet Browser Mosaic? o Forme logique de la question o organization AT(x 2) & company NN(x 2) & create VB(e 1, x 2, x 6) & Internet NN(x 3) & browser NN(x 4) & Mosaic NN(x 5) & nn NNC(x 6, x 3, x 4, x 5) o Phrase réponse (…) a program called Mosaic , developed by the National Center for Supercomputing Applications… o Exemple de chaînes extraites de Word. Net – Develop make et make create 64

Exemples de difficultés (1/2) o Reconnaissance du texte brut, avec erreurs de frappe ou Exemples de difficultés (1/2) o Reconnaissance du texte brut, avec erreurs de frappe ou d’orthographe o Niagra « Niagara » non reconnu o Erreur d’étiquetage morpho-syntaxique o Where did the Maya people live? « live » étiqueté comme un nom o Mauvais type de réponse attendu o In what area of the world was the Six day War fought? type Quantity attendu au lieu de Location o What is the average life span of an agouti? type Average attendu au lieu de Number 65

Exemples de difficultés (2/2) o Mauvais mots-clefs dans la requête au moteur de recherche Exemples de difficultés (2/2) o Mauvais mots-clefs dans la requête au moteur de recherche o « Where did the Battle of the Bulge take place ? » place conservé o Expansion de requête incomplète o « What is the murder rate in Windsor, Ontario ? » phrase réponse contient «homicide» o Requêtes trop larges o « Who was the first president of the U. S. ? » la réponse n’est pas dans les 500 premiers documents o EN non reconnues 66

Résultats TREC 2002 o Tâche principale CWS = Confidence-Weighted Score : scores pondérés par Résultats TREC 2002 o Tâche principale CWS = Confidence-Weighted Score : scores pondérés par la confiance que les systèmes donnent à leurs réponses 67

o XIP, un analyseur robuste o Les systèmes de questions-réponses o Etude du système o XIP, un analyseur robuste o Les systèmes de questions-réponses o Etude du système QALC o Exemple d’appariement syntaxique Ø Evolution du domaine et perspectives 68

Evolution du domaine n Evolution des réponses depuis 1 er TREC : chaîne de Evolution du domaine n Evolution des réponses depuis 1 er TREC : chaîne de 250 caractères à réponse précise n Evolution des types de questions dans les évaluations – Questions « à thème » (TREC 2004) – Questions temporelles (CLEF 2005) 69

Catégories classiques de questions n Questions factuelles générales – How many people live in Catégories classiques de questions n Questions factuelles générales – How many people live in Iceland? n Questions de définition – définir une personne : Who is Antonia Coello Novello? ‘ – un groupe de personnes : What is Destiny's Child? – ou un objet quelconque : What is Bollywood? , What is a quasar? n Questions ``listes'' qui attendent un ensemble de réponses – Who are professional female boxers? , List the names of casinos owned by Native Americans. 70

Extensions : Questions « à thème » (1/3) n Plusieurs questions portant sur un Extensions : Questions « à thème » (1/3) n Plusieurs questions portant sur un même thème Who founded the Black Panthers organization? è Bobby Seale When was it founded? è 1966 71

Where" src="http://present5.com/presentation/4b695c6a04d27d0d5dc0aab4fd0537d1/image-72.jpg" alt="Questions « à thème » (2/3) Where" /> Questions « à thème » (2/3) Where was it founded? è Oakland, California Who have been members of the organization? è Mumia Abu-Jamal, Jamil Abdullah Al-Amin, Bill Brent, Elaine Brown, Rap Brown, Tony Bryant, Stokeley Carmichael, Mark Clark, Eldridge Cleaver, Fred Hampton, David Hilliard, Ericka Huggins, Lonnie Mc. Lucas, Huey Newton, Elmer "Geronimo" Pratt, Alex Rackley, Bobby Rush, Bobby Seale 72

Other" src="http://present5.com/presentation/4b695c6a04d27d0d5dc0aab4fd0537d1/image-73.jpg" alt="Questions « à thème » (3/3) Other" /> Questions « à thème » (3/3) Other è 8. 5 1 vital Black militant group. 8. 5 2 vital Radical chic heroes of the 60's. 8. 5 3 okay Emphasized multiculturalism. 8. 5 4 okay Emphasized community empowerment. 8. 5 5 okay Hilliard later ran for Oakland City Council. 8. 5 6 okay Seale later ran for Oakland mayor. 8. 5 7 okay Rush later became congressperson. 8. 5 8 okay Infiltrated by FBI COINTELPRO. 8. 5 9 okay Provided health care to poor. 73

Questions « temporelles » (1/2) n CLEF 2005 : introduction des questions temporelles : Questions « temporelles » (1/2) n CLEF 2005 : introduction des questions temporelles : – What newspaper was founded in Kiev in 1994? – Who played the role of Superman before being paralyzed? – Who was the President of the United States of America between 1976 and 1980? 74

Questions « temporelles » (2/2) n Who praised Indurain for his « capacity for Questions « temporelles » (2/2) n Who praised Indurain for his « capacity for sacrifice, class and healthy spirit of competition » , when he won the Tour de France for the fourth time? n Who continued to be supplied with contaminated blood products six months after an American blood-screening test and heat-treatment process were available in other countries? n Whose government broke off negotiations with the Tamil rebels, following Dissanayake's murder? 75

D’une langue à plusieurs… n CLEF : – Question dans une langue, documents dans D’une langue à plusieurs… n CLEF : – Question dans une langue, documents dans une autre – CLEF 2006 § Monolingue : bulgare, allemand, espagnol, français, italien, néerlandais et portugais § Autres langues sources : anglais, indonésien, roumain § Autre langue cible : anglais n Contexte de recherche : RI interlingue et multilingue 76

Architecture du système bilingue Collection de documents Question en français Analyse de la question Architecture du système bilingue Collection de documents Question en français Analyse de la question Moteur de recherche Traitement des documents Fusion Réponses en anglais Traduction vers l’anglais Questions en anglais Termes en anglais 77

Stratégies possibles n Traduction de la question – – Avantages : une seule traduction Stratégies possibles n Traduction de la question – – Avantages : une seule traduction assez fiable Inconvénients : questions non grammaticales n Traduction des termes – Traductions mot à mot et validation des multitermes en corpus – Avantages : analyse de la question sur une question bien formée – Inconvénients : bruit des traductions 78

Résultats des systèmes bilingues n Système du LIMSI, sur les questions de la tâche Résultats des systèmes bilingues n Système du LIMSI, sur les questions de la tâche français vers anglais de CLEF 2005 – Traduction des questions 79

Difficultés de traduction n Forme syntaxique – Quand est mort Gengis Khan ? When Difficultés de traduction n Forme syntaxique – Quand est mort Gengis Khan ? When died Gengis Khan? – Qu'est-ce que le GATT ? What the GATT? – Depuis quand Israël et la Jordanie sont-ils en guerre ? Since when Israel and Jordan they are at war? n Choix lexicaux de traduction – Dans combien de scandales fut impliqué Tapie, lorsqu'il était patron de Marseille ? In how many scandals was involved Hidden, when he was a boss of Marseille? – Quel montant Selten, Nash et Harsanyi ont-ils reçu pour le prix Nobel d'économie ? What going up Selten, Nash and Harsanyi did they receive for the Nobel prize of economy? 80

Quelques limitations des systèmes de QR actuels o o o Questions factuelles ou encyclopédiques Quelques limitations des systèmes de QR actuels o o o Questions factuelles ou encyclopédiques Pas de traitement de l’ambiguïté dans les questions Réponses extraites d’un seul document Peu de raisonnement nécessaire Architecture des systèmes influencée par les évaluations Pas de modélisation de l’utilisateur 81

Extensions possibles o Interactivité – Q : Quelle est la longueur d’un Boeing 747 Extensions possibles o Interactivité – Q : Quelle est la longueur d’un Boeing 747 ? Et sa hauteur ? o Méthodes de raisonnement simples – Q : Comment est mort Socrate ? – R : En buvant du vin empoisonné o Fusion d’information – Q : Comment fabriquer une bicyclette ? o Capacités spéculatives, récapitulatives… – Q : Les Etats-Unis sont-ils sortis de la récession ? 82

En conclusion… Analyse syntaxique robuste = atout pour les systèmes de Question-Réponse o Questions En conclusion… Analyse syntaxique robuste = atout pour les systèmes de Question-Réponse o Questions : o – Détermination des informations nécessaires à la recherche de la réponse o Phrases candidates : – Possibilité de passage à un formalisme plus profond – Possibilité de lien avec des connaissances sémantiques 83

Références Quelques références… o XIP o o QALC ou autres systèmes du LIMSI o Références Quelques références… o XIP o o QALC ou autres systèmes du LIMSI o o http: //www. limsi. fr/Scientifique/lir/ L'extraction des réponses dans un système de question-réponse; A. -L. Ligozat, B. Grau, I. Robba, A. Vilnat, TALN 2006, Louvain, Belgique. Evaluation and Improvement of Cross-Lingual Question Answering Strategies; A. -L. Ligozat, B. Grau, I. Robba, A. Vilnat, Workshop MLQA d'EACL, Trente, 2006. LCC o o o Aït-Mokhtar S. , Chanod J. -P. , Roux C. (2002), Robustness beyond shallowness: incremental deep parsing, Journal of Natural Language Enginerring, Vol. 8 (3 -2). http: //www. languagecomputer. com Dan I. Moldovan, Marius Pasca, Sanda M. Harabagiu, Mihai Surdeanu: Performance Issues and Error Analysis in an Open-Domain Question Answering System. ACL 2002: 33 -40 Evaluations Question-Réponse o o o TREC : http: //trec. nist. gov/data/qa. html CLEF : http: //clef-qa. itc. it/ Equer : http: //www. technolangue. net/article 61. html 84