c2 ii05

Uploaded from authorPOINTLite
Views:
 
Category: Entertainment
     
 

Presentation Description

No description available.

Comments

Presentation Transcript

Fouille de données dans les corpus de textes: 

Fouille de données dans les corpus de textes SYSTEME DE QUESTION-REPONSE Michèle Jardino jardino@limsi.fr

Système de Question-Réponse: 

Système de Question-Réponse Intérêt : obtenir automatiquement la réponse cherchée dans un corpus de documents Coopération entre recherche d'information et traitement automatique de la langue Évaluation TREC (Text REtrieval Conference) (1999-2004) CLEF (Cross Language Evaluation Forum) (2003-2004) EQUER (Evaluation des Systèmes de Question-Réponse) (2004)

Recherche d’information précise: 

Recherche d’information précise Quand Sangatte a-t-il été créé ?

Fouiller un texte: 

Fouiller un texte … là), marche à pied (on a déjà surpris des étrangers marchant dans le tunnel). Les tentatives de traversées de la Manche sont à peine moins surveillées que les baignades. Quand le temps n'est pas mauvais, on perçoit les côtes anglaises distantes d'une quinzaine de kilomètres. Sur la mer, naviguent en permanence d'énormes ferries. Le camp ouvert à Sangatte — on dira ici plutôt « camp » que « centre », à cause des conditions de vie qui y prévalent (voir ci-dessous) et de l'improbable statut juridique de cette « chose » sans précédent, sauf les camps des Républicains espagnols à la fin des années 30 — a été inauguré le 24 septembre 1999 dans un hangar où était installée, pendant le forage du tunnel sous la Manche, la logistique technique française. L'ouvrage, qui appartenait à la société du tunnel, a été réquisitionné in extremis par les pouvoirs publics pour le transformer en lieu d'accueil, alors qu'il allait être vendu. Il a la … le 24 septembre 1999

Exemples de question (1/2): 

Exemples de question (1/2) Question simple (1 réponse) : Questions factuelles When was the telegraph invented? Who is Tom Cruise married to? What year was Alaska purchased? Question encyclopédique How many chromosomes does a human zygote have? How many ounces are in a gallon? What is the chemical formula for sulphur dioxide? 

Exemples de question (2/2): 

Exemples de question (2/2) Question complexe (plusieurs réponses) : Name 22 cities that have a subway system. What are 5 books written by Mary Higgens Clark? Une suite de questions (se rapportant à un même événement) : Which museum in Florence was damaged by a major bomb explosion in 1993? How many people were killed?

TREC (//trec.nist.gov/) : 

TREC (//trec.nist.gov/) Première conférence : 1992 Contenu : évaluation sur une grande échelle des méthodes de recherche d ’information Buts: amélioration de l ’état de l ’art transfert de technologie disponibilité de méthodes d ’évaluation Soutiens : NIST et DARPA National Institute of Standards and Technology Defense Advanced Research Projects Agency

Historique de la tâche QA: 

Historique de la tâche QA Début de la tâche : 1999 (TREC 8) Encourager les systèmes qui tentent de répondre directement plutôt que donner la liste des documents But : trouver la réponse à une question de type factuel ou encyclopédique dans une collection de documents

TREC : les tâches: 

TREC : les tâches Evolutivité des tâches : celle de moteur de recherche sur documents a disparu, la tâche question-réponse est récente Les tâches actuelles : filtrage (filtrage thématique d’un flux de documents) langage croisé (thème dans une langue, documents dans une autre langue) interactivité (études d’utilisateurs réels sur une même collection et les mêmes requêtes) question-réponse (la réponse précise) vidéo (recherche sur le contenu de vidéos) web (recherche sur une partie du web, information et navigation) nouveauté (recherche d’informations nouvelles)

Evolution de la tâche: 

Evolution de la tâche TREC 1999 – 2000 : Trouver de 1 à 5 réponses en 250 caractères TREC 2001: 3 tâches : Trouver de 1 à 5 réponses en 50 caractères QA Principal : Who is Picasso? QA Liste : What are 9 novels written by John Updike? QA Contexte : Which Museum In Florence was damaged by a major bomb explosion in 1993? On what day did this happen? Which galleries were involved? TREC 2002 : 2 tâches : Trouver 1 réponse, nombre de caractères varie QA Principal (34 participants) QA Liste (5 participants)

Similarités entre ces tâches (1/2): 

Similarités entre ces tâches (1/2) Type de question : Domaine ouvert Questions courtes de type factuel ou encyclopédique Collection de documents : 3 gigas de documents Wall Street Journal, San Jose Mercury News, Financial Times, Los Angeles Time, AP newswire, …

Similarités entre ces tâches (2/2): 

Similarités entre ces tâches (2/2) Unité de la réponse : Numéro du document, réponse (chaîne de caractères) Jugements humains sur la réponse: correcte, chaîne est la réponse exacte incorrecte injustifiée, réponse correcte mais le document ne justifie pas la réponse inexacte, contient plus que la réponse exacte ou une partie de celle-ci

QA Principal : 

QA Principal Retourner une réponse pour chaque des 500 questions Réponses ordonnées suivant score de confiance Depuis 2001 : réponse peut être NIL (en 2002, 46 questions sans réponse) Score = i Nombre de réponses correctes dans les i premiers rangs/i 500 Toutes les réponses sont justes : score = 1 Les 100 premières réponses sont justes : score = 0,2

Architecture générale des systèmes de question-réponse: 

Architecture générale des systèmes de question-réponse Analyse de la question Traitement des documents : sélection de passages dans les documents ou sélection de documents, puis de phrases étiquetage des entités nommées Recherche de la réponse

Architecture du système: 

Architecture du système

Analyse de la question: 

Analyse de la question But : déterminer des informations pour sélectionner la bonne réponse Généralement : Prédiction du type de la réponse Détermination des mots importants de la question qui pourront être présents dans la réponse Recherche du « focus »

Les mots de la question (1/3): 

Les mots de la question (1/3) Mots significatifs / mots non significatifs liste de mots vides liste pondérée des mots du corpus Mots importants / mots secondaires importants : portent le sens de la question => doivent se trouver dans la réponse secondaires : peuvent être supprimés sans changer l’essentiel du sens de la question

Mots importants / secondaires (2/3): 

Mots importants / secondaires (2/3) Q 454 : What is the Islamic counterpart of the Red Cross? (trouvée rang 1) Q 830 : What is the equivalent of the Red Cross in the Middle East? (pas trouvée) Q 833 : What is the Islamic equivalent of the Red Cross? (trouvée rang 1) Réponses : « Red Cross; the Red Crescent, its Islamic counterpart » « Red Crescent Society, the Islamic equivalent of the Red Cross »

Mots importants / secondaires (3/3): 

Mots importants / secondaires (3/3) Q 411 : What tourist attractions are there in Reims? (pas trouvée) Q 712 : What do most tourists visit in Reims? (trouvée rang 4) Réponses : « the champagne company’s museum in Reims » « Reims cathedral »

Type de réponse attendu (1/4): 

Type de réponse attendu (1/4)

Type attendu de la réponse (2/4): 

Type attendu de la réponse (2/4) Entités nommées ou numériques personnes, organisations, villes, pays, montants financiers, grandeurs physiques, dates .., souvent organisées en une hiérarchie sous des types génériques (nom propre, nombre) Exemple : What is the capital of Bahamas ? Type EN = LOCATION-CITY

Type attendu de la réponse (3/4): 

Entités Entités nommées Entités numériques Nom Propre Fonction Organisation Personne Lieu Ville Endroit Expression Temps Date Période Durée Age Nombre Physique Poids Volume Financier Type attendu de la réponse (3/4)

Type attendu de la réponse (4/4): 

Type attendu de la réponse (4/4) Autres Types Type plus général What metal has the highest melting point ? Type GENERAL = metal Autres Entités : animaux, évènements, métiers ...

Focus de la question (1/4): 

Focus de la question (1/4) But : déterminer le GN ou plus précisément le terme qui pourra être présent dans la réponse Exemple : What is the first Russian astronaut to do a spacewalk ? Focus : the First Russian astronaut Tête-Focus : astronaut

Focus de la question (2/4) Patrons syntaxiques d’extraction: 

Focus de la question (2/4) Patrons syntaxiques d’extraction Prennent en compte : Le groupe nominal de la tête du focus dans la phrase candidate Un séparateur : Verbe Ponctuation (virgule, tiret ..) Préposition Le groupe nominal, candidat à la réponse, qui suit (ou précède) le séparateur, ou est dans le groupe nominal du focus Listes de patrons par catégorie de question

Focus de la question (3/4) Patrons syntaxiques : exemples: 

Focus de la question (3/4) Patrons syntaxiques : exemples What is Hawaii’s state flower? Réponse : « Yellow hibiscus is the state flower of Hawaii » Patron d’extraction : GNréponse be Gnfocus What currency does Argentina use? Réponse : « The austral, Argentina’s currency » Patron d’extraction : Gnréponse , Gnfocus

Focus de la question (4/4) Patrons d’extraction de chaînes de caractères: 

Focus de la question (4/4) Patrons d’extraction de chaînes de caractères Patron pour Where : City name;comma;country name Exemple : Q: Where is Milan ? R: Milan, Italy Patron pour What-is : A;is/are;a/an/the;X A: mot de la question, X: réponse Exemple : Q: What is the state flower of Michigan ? R: « Michigan’s state flower is the apple blossom »

Sélection des documents pertinents Différentes stratégies: 

Sélection des documents pertinents Différentes stratégies Formulation de la requête => sélection des mots de la question et élargissement Sélection de passages (InsightSoft-M, LCC, Waterloo, SUN, IBM-Franz, IBM-Prager, Microsoft) Sélection de documents (Oracle, ISI, Queens Coll.) Boucle de réaction : re-formulation de la requête => fiabilité du critère de pertinence des résultats de la requête (LCC) Raffinement de la sélection : ré-indexation par Fastr et sélection suivant la courbe de pondération des documents (LIMSI)

Indexation sur termes et variantes (1/5): 

Indexation sur termes et variantes (1/5) Extraction des termes contenus dans les questions 1. Chaque question est étiquetée par le TreeTagger 2. Au moyen d'un filtre catégoriel, des termes sont extraits des questions (((((JJ|NN|NP|VBG)) ? (JJ|NN|NP|VBG) (NP|NN))) | (VBD) | (NN) | (NP) | (CD)) Exemple : What is the name of the US helicopter pilot shot down? WDT VBZ DT NN IN DT NP NN NN VBD RP Termes extraits : US helicopter pilot helicopter pilot pilot shoot

Indexation sur termes et variantes (2/5): 

Indexation sur termes et variantes (2/5) Regroupement de termes multi-mots : les variantes linguistiques d'un concept genetic disease genetic diseases Flexion disease is genetic Syntaxe hereditary disease Sémantique genetically determined forms of the disease Morphologie disease is familial Sémantique + Syntaxe transmissible neurodegenerative diseases Sémantique + Syntaxe genetic risk factors for artery disease Variante incorrecte

Indexation sur termes et variantes (3/5): 

3 niveaux de variation terminologique Syntaxe processing of cardiac image ® Image processing Morphologie image converter ® Image conversion Sémantique speech development ® Language development Indexation sur termes et variantes (3/5)

Indexation sur termes et variantes (4/5): 

Pour extraire les variantes on s'appuie sur la famille morphologique d'un mot (à partir de la base CELEX), par exemple, maker, make, remake, to make et to remake pour le nom maker la famille sémantique d'un mot (à partir du thésaurus WordNet), par exemple, manufacturer, shaper pour le nom maker Ressources pour l'extraction des variantes Indexation sur termes et variantes (4/5)

Indexation sur termes et variantes (5/5): 

Le patron suivant extrait making many automobiles comme une variante de car maker: V_M('maker') RP? PREP? (ART (NN|NP)? PREP)? ART? (JJ,|,NN,|,NP,|,VBD,|,VBG)0-3 N_S('car') V_M('maker') est tout verbe de la famille morphologique de maker et N_S('car') est tout nom de la famille sémantique de car. Extraction des variantes de termes au moyen de FASTR Indexation sur termes et variantes (5/5)

Filtrage des documents (1/2): 

Pondération des termes Filtrage des documents (1/2) Chaque document est associé à un vecteur de poids. Les poids sont calculés en fonction du type d'index : les index non variants ont un poids de 3, les variantes morphologiques et morpho-syntaxiques ont un poids de 2, les variantes sémantiques ont un poids de 1. Les termes avec des noms propres et les termes longs sont plus fortement pondérés.

Filtrage des documents (2/2): 

Filtrage des documents (2/2) Utilisation de la pondération pour le filtrage des documents

Reconnaissance des Entités Nommées (1/5): 

Reconnaissance des Entités Nommées (1/5) Chaîne de traitement

Reconnaissance des Entités Nommées (2/5): 

Ressources lexicales Reconnaissance des Entités Nommées (2/5) CELEX : base morphologique Nom Propres (CLR/NMSU) Noms Propres étendus (CLR/NMSU) Prénoms (Univ. Amsterdam) Prénoms étendus (CLR/NMSU) Dictionnaires spécialisés (acq. Autom.)

Reconnaissance des Entités Nommées (3/5): 

Reconnaissance des Entités Nommées (3/5) Reconnaissance des noms d'organisation hors dictionnaire Catégories élémentaires : Celles de CELEX. Têtes : Noms. Pré- et post-modifieurs : Prémodifieurs adjectivaux et post-modifieurs syntagmes prépositionnels. Têtes connues : Têtes appartenant préférentiellement à une organisation : academy, administration, association, bank, bureau... Modifieurs connus : Modifieurs appartenant préférentiellement à une organisation : christian, democratic, federal, republican.

Reconnaissance des Entités Nommées (4/5): 

Reconnaissance des Entités Nommées (4/5) Grammaire des organisations 1. Acronyme agglutiné (e.g. C.N.N.) 2. Grammaire des organisations : ( PréMod (Tête-connue ) PostMod ) ( PréMod (Tête-connue ) ) ( ( Tête-connue ) PostMod ) ( ( Modifieur-connu ) ( PréMod )? ( HeadWord ) PostMod ) ( ( Modifieur-connu ) ( PréMod )? ( HeadWord ) CoordHead ) ( ( Modifieur-connu ) ( PréMod )? ( HeadWord ) )

Reconnaissance des Entités Nommées (5/5): 

Reconnaissance des Entités Nommées (5/5) Exemples d'organisations reconnues Academy of Recording Arts and Sciences Ok Accident Prevention Services - Active Young Communist League Ok Adams - Administration of Justice sur-reconnu (Justice) Advisory Commission - Agriculture Department Ok Air Force Ok Air Force Academy - Airtran sous-reconnu (Airtran Airways)

Sélection des phrases pertinentes: 

Sélection des phrases pertinentes Critères tenant compte : des mots de la question des mots d ’élargissement de la requête des mots dont le type est le type attendu de la réponse ou un sur-type (entité nommée ou type général répertorié) Pondération des mots, filtrage par le type attendu de la réponse Moins utilisée que la sélection de passages (trois parmi les 10 premiers l ’utilisent)

Appariement (1/ 2): 

Appariement (1/ 2) L'appariement utilise les informations fournies par : L'analyse de la question : le typage de la question (type de réponse attendue), les entités nommées présentes dans la question, L'indexation des documents : les entités nommées, les termes et leurs variantes. Ces informations sont combinées en une mesure de similarité globale. Méthode de calcul de l'appariement

Appariement (2/2): 

Appariement (2/2) <length> 28-power telescope see moon 250,000 miles away (0.5) (2.66) (1.0) <length> moon away (0.5) (2.66) (1.0)

Résultats TREC 2002: 

Résultats TREC 2002 Protocole Envoi des 500 questions Réponses renvoyées une semaine plus tard Evaluation par des juges humains score Conférence, trois mois plus tard, rassemble les participants et montre les résultats. Évaluation du système du LIMSI : Score 0,497 (8ème sur 34) 23% de réponses correctes très bien classées Renforcement des réponses par interrogation du Web.

Evolution: 

Evolution Question-Réponse en français EQUER Question-Réponse multilingue CLEF Question en français/Réponse en anglais Question en anglais/Réponse en français 7 langues Filtrage de documents par classification automatique