logging in or signing up tel 00010398 Ethan Download Post to : URL : Related Presentations : Share Add to Flag Embed Email Send to Blogs and Networks Add to Channel Uploaded from authorPOINTLite Insert YouTube videos in PowerPont slides with aS Desktop Copy embed code: Embed: Flash iPad Dynamic Copy Does not support media & animations Automatically changes to Flash or non-Flash embed WordPress Embed Customize Embed URL: Copy Thumbnail: Copy The presentation is successfully added In Your Favorites. Views: 29 Category: Entertainment License: All Rights Reserved Like it (0) Dislike it (0) Added: December 04, 2007 This Presentation is Public Favorites: 0 Presentation Description No description available. Comments Posting comment... Premium member Presentation Transcript Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies: Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree TEERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse, 27 septembre 2005Bases lexicales multilingues (BDLM): Bases lexicales multilingues (BDLM) 3 catégories principales Structure en fourche 1 langue source n langues cibles ex. JMDict, FeMBases lexicales multilingues (BDLM): Bases lexicales multilingues (BDLM) Structure pivot naturel n langues sources n langues cibles une langue naturelle comme pivot ex. Projet EuroWordNet Problème : phénomène contrastifBases lexicales multilingues (BDLM): Bases lexicales multilingues (BDLM) Structure pivot artificiel n langues sources n langues cibles un langage artificiel comme pivot ex. Projet Papillon river (en) fleuve (fr) rivière (fr) Avantage Phénomènes contrastifs correctement traitésBases lexicales multilingues (BDLM): Bases lexicales multilingues (BDLM) Structure pivot artificiel n langues sources n langues cibles un langage artificiel comme pivot ex. Projet Papillon Problème Comment définir le pivot ? Peut-on construire automatiquement une base à pivot artificielle à partir d'informations existantesPapillon : Base lexicale multilingue: Papillon : Base lexicale multilingue But : Construction collaborative d’une grande BDLMSlide7: Papillon : construction des données 1 Phase d’amorçage 2 Phase de contribution Modifications/ Ajouts/ Suppressions Validation Contributions IntégrationSlide8: Papillon : construction des données 1 Phase d’amorçage 2 Phase de contributionSlide9: Papillon : construction des données 1 Phase d’amorçage 2 Phase de contributionSlide10: Papillon : construction des données Modifications/ Ajouts/ Suppressions Validation Contributions Intégration 1 Phase d’amorçage 2 Phase de contributionSlide11: Papillon : construction des données 1 Phase d’amorçage Modifications/ Ajouts/ Suppressions Validation Contributions Intégration 2 Phase de contribution Objectif de la thèse: Objectif de la thèse Amorçage automatique d’une BDLM à pivot Qualité raisonnable Utilisable par humain ou machine Correspond aux objectifs du lexicologue et aux ressources disponibles ressources existantes BDLM à pivotPlan: Plan Bases lexicales multilingues Structuration d’une base d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation Évaluation de la qualité d’une base d’axies Proposition des mesures ExpérimentationProblèmes de la construction des BDLM: Problèmes de la construction des BDLM Manque de ressources disponibles Non cohérence des ressources disponibles : format de données, richesse des informations, etc. Mise en correspondance de lexies de différentes langues Nécessité pour lexicologue de faire des compromis entre les ressources existantes et la qualité de BDLM créée Trois volets de problèmes d’amorçage des BDLM: Trois volets de problèmes d’amorçage des BDLM Construction initiale des lexies et des axies Récupération de données existantes Intégration des données Création des lexies et des axies à partir des données récupérées Amélioration incrémentale par humain Évaluation de la qualité de BDLM produiteTrois volets de problèmes d’amorçage des BDLM: Trois volets de problèmes d’amorçage des BDLM Construction initiale des lexies et des axies Récupération de données existantes Récupdic [Haï, 1998] Intégration des données Création des lexies et des axies à partir des données récupérées Amélioration incrémentale par humain Évaluation de la qualité de BDLM produiteExemples des travaux existants pour la structuration des lexies & axies: Exemples des travaux existants pour la structuration des lexies & axies Méthode de transfert et consultation inverse de dictionnaires bilingues [Tanaka & Umemura,1994] Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]Méthode de transfert et consultation inverse de dictionnaires bilingues (1/5): Méthode de transfert et consultation inverse de dictionnaires bilingues (1/5) But : Construire des liens traductionnels entre trois langues Ressources nécessaires : BDLM 1-2-3 Résultat Monolingue langue 1 Monolingue langue 3 Monolingue langue 2 Bilingue L 3-> L 2 Bilingue L 2-> L 1 Bilingue L 2-> L 3 Bilingue L1-> L 2 [Tanaka & Umemura,1994]Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5): Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert kyousou JP EN FR [Tanaka & Umemura,1994]Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5): Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert competition contest race kyousou JP EN FR [Tanaka & Umemura,1994] Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5): Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert competition contest race compétition concours course race hâte kyousou JP EN FR [Tanaka & Umemura,1994] On obtient toutes les relations traductionnelles possibles pour chaque entrée de la langue sourceMéthode de transfert et consultation inverse de dictionnaires bilingues (3/5): Méthode de transfert et consultation inverse de dictionnaires bilingues (3/5) Méthode de consultation inverse 1 fois match competition contest race ancestry haste compétition concours course race hâte kyousou JP EN FR ? ? On garde : mot dont la traduction est en commun avec mot source On enlève : mot dont aucune traduction n’est en commun avec mot source [Tanaka & Umemura,1994]Méthode de transfert et consultation inverse de dictionnaires bilingues (4/5): Méthode de transfert et consultation inverse de dictionnaires bilingues (4/5) Méthode de consultation inverse 2 fois match competition contest race ancestry compétition concours course race kyougi kyousou jinshu senzo JP EN FR [Tanaka & Umemura,1994] Slide24: Avantage Facile à construire Limitations Nécessite plusieurs dicos bilingues Ne fonctionne pas au niveau des lexies Méthode de transfert et consultation inverse de dictionnaires bilingues (5/5)Slide25: Exemples des travaux existants pour la structuration des lexies & axies Méthode de transfert et consultation inverse de dictionnaires bilingues [Tanaka & Umemura,1994] Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]Méthode de comparaison de vecteurs conceptuels (1/5): Méthode de comparaison de vecteurs conceptuels (1/5) [Chauché 1990, Lafourcade, 2002] Idée : associer un vecteur à chaque lexie, qui code le sens donné par la définition Vecteur : combinaison des vecteurs d’un ensemble de concepts de base (V(Ci)) Ci = un concept feuille d’un thésaurus P.ex : 873 concepts feuilles du thésaurus Larousse V(Ci) = <0, 0, …, 0 , 1 , 0, …, 0>Méthode de comparaison de vecteurs conceptuels (2/5): Méthode de comparaison de vecteurs conceptuels (2/5) Calcul récursif des vecteurs des lexies { V(Ci) } , { mot-concepts} Ensemble initial de VC pour les mots indexés « bootstrap » : combinaison linéaire des concepts, selon l'index VC associés aux lexies 1ère itération VC associés aux mots-vedettes combinaison linéaire des vecteurs des lexies pour chaque mot-vedette n-ième itérationMéthode de comparaison de vecteurs conceptuels (3/5): Méthode de comparaison de vecteurs conceptuels (3/5) Comment calculer le vecteur pour une lexie ? P. ex. lexie de « ranger » Définition : « disposer à sa place dans l'ordre » Mots importants : « disposer », « place », « ordre » analyse morpho-syntaxique BD : VC pour les mots « disposer », « place », « ordre », ... VC pour la lexie combinaison linéaire des vecteurs des mots de la définitionMéthode de comparaison de vecteurs conceptuels (4/5): Méthode de comparaison de vecteurs conceptuels (4/5) [Chauché 1990, Lafourcade, 2002] DA ("profit" , "profit" ) = 0 DA ("profit" , "benefit" ) = 10 DA ("profit" , "joy" ) = 39 DA ("profit" , "sadness" ) = 65 Comparer la distance thématique entre lexies Distance angulaire entre 2 vecteurs (DA ) DA (X,Y) = angle (X,Y) ; 0 DA (X,Y) 90 Méthode de comparaison de vecteurs conceptuels (5/5): Méthode de comparaison de vecteurs conceptuels (5/5) Avantages Fonctionne au niveau lexie Relativement efficace Limitations Nécessite analyseur morpho-syntaxique Besoin d’un index mot-concepts pour initialiser des VC Les VC doivent utiliser les mêmes ensembles de concepts pour pouvoir comparerDiscussion : Discussion Chaque méthode nécessite des ressources lexicales spécifiques Chaque méthode a des avantages et des limitations différents Des méthodes peuvent être complémentaires Il est préférable de pouvoir réutiliser ces méthodes existantesNotre proposition: Notre proposition Avantages dépasser limitations d’utilisation de méthode adaptabilité à de nombreuses situations possibles 1 N 3 2 algorithmes de structuration d’axies existantes … Composer arbitrairement les algorithmes de structuration d’axies pour créer un BDLM de meilleure qualité possible selon les ressources disponibles Notre contribution: Notre contribution Idée : appliquer des techniques de génie logiciel Réalisation : Jeminie : canevas logiciel (framework) modulaire et adaptableJeminie: Jeminie Trois fonctions principales Préparation des données Production et filtrage d’axies Évaluation de la qualité de la base d’axies produites Trois types d’utilisateur Linguiste Programmeur Utilisateur de base de donnéesJeminie : architecture globale: Jeminie : architecture globale linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus de structuration Persistance O/R Base de données utilisateur programmeurJeminie : architecture globale: Jeminie : architecture globale linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus / mesure de qualtié Persistance O/R Base de données utilisateur Interpréteur de mesure de qualité programmeur - Modèle de données - Outils de base, p. ex. Connexion à l’analyseur morpho-syntaxique Connexion à la base de données Importation de dictionnairesJeminie : architecture globale: Jeminie : architecture globale linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus de structuration Persistance O/R Base de données utilisateur programmeur Module est une implémentation d’un algorithme de structuration d’axiesJeminie : architecture globale: Jeminie : architecture globale linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus de structuration Persistance O/R Base de données utilisateur programmeur Module est une implémentation d’un algorithme de structuration d’axies Jeminie peut être étendu en développant de nouveaux modulesModule de structuration d’axie: Module de structuration d’axie Public interface AxieCreator { void updateAxieDatabase(AxieDatabaseContext context, List parameters) boolean checkAxieCreatorParameters (List parameters) } updateAxieDatabase : implémente un nouvel algorithme AxieDatabaseContext : indique la base lexicale à modifier Parameters : indique les ressources utilisées par l’algorithme, ou les informations supplémentaires selon l’algorithmeJeminie : comment ça marche: Jeminie : comment ça marche Processus entrée Base de données lexies & axies entrée / sortie Jeminie M1 Noyau de programme M2 M3 Mn Interpréteur de processus exécuter Processus est une séquence d’exécutions de modules de structuration d’axiesJeminie : comment ça marche: Jeminie : comment ça marche Processus entrée Base de données lexies & axies entrée / sortie Jeminie M1 Noyau de programme M2 M3 Mn Interpréteur de processus exécuterJeminie : comment ça marche: Jeminie : comment ça marche Base de données lexies & axies entrée / sortie Jeminie M1 Noyau de programme M2 M3 Mn Interpréteur de processus exécuterExemple de modules implémentés (1/3): kyousou competition Exemple de modules implémentés (1/3) Nom : BlingTransfertAxieCreator Paramètres : Dico L1L2, Dico L2L3, Base d’axies (BDa ) Résultat : de nouvelles axies créées par la méthode de transfert ajoutées dans BDa race concours course Exemple de modules implémentés (2/3): Exemple de modules implémentés (2/3) Nom : BlingTransfertInverseAxieCreator Paramètres : Dico L1L2, Dico L2L3, Dico L3L2, Dico L2L1, Base d’axie (BDa ) Résultat : de nouvelles axies créées par la méthode de transfert et consultation inverse ajoutées dans BDa kyousou competition concours course Exemple de modules implémentés (3/3): Exemple de modules implémentés (3/3) Nom : VCAxieFilter Paramètres : Base d’axie (BDa ) , seuil pour la distance angulaire maximale Résultat : base BDa modifiée par la méthode de comparaison de vecteurs conceptuels 2 lexies X Y On enlève l’axie où DA (X,Y) > un seuil > 2 lexies X Y On enlève l’axie où la distance angulaire moyenne > un seuil ZSlide46: Plan Bases lexicales multilingues Structuration d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation Évaluation de la qualité d’axies Proposition des mesures ExpérimentationExpérimentation : données: Expérimentation : données Données monolingues <HTML><HEAD><TITLE>Pisang generated page for GETDEF</TITLE></HEAD><link rel="stylesheet" href="http://www.lirmm.fr/~lafourca/style.css" type="text/css"><BODY bgcolor="#fffffe"><b>Warning : server learning since the 7/8/2002 at 11:20:10 </b><p><SERVICE-RESULT> <B><VED>inexpiable</VED></B> <BR><I> with 5 parts </I><blockquote> <B><SUBVED>inexpiable.3</SUBVED></B> <I>as</I> <def>#s=2# Que rien n'apaise. ( Haine inexpiable ) .</def> <font color="#888888" size="3"><code>[<src>HDL</src> <i>the 3/12/2001 at 20:55:51</i>]</code></font> <BR> 100015787,artifact,n 100015787,artefact,n 100016679,article,n 100016840,psychological feature,n 100016993,abstraction,n 100017218,cognition,n 100017218,knowledge,n 100015787,a man-made object taken as a whole 100016679,one of a class of artifacts 100016840,a feature of the mental life of a living organism 100016993,a general concept formed by extracting common features from specific examples 100017218,the psychological result of perception and learning and reasoning Donnée de Lirmm Royal Institute WordNetExpérimentation : données: Expérimentation : données Données monolingues html texte <lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <more-info> <resource name= "LAR"> </resource> </more-info> </lexie> xml PapillonExpérimentation : données: Expérimentation : données Données bilingues xml html <volume name="oxford_mini" source-language="fra" target-language="eng"> <dict-entry> <entry>absent</entry> <pos>a.</pos> <translation>absent</translation> </dict-entry> </volume> xmlJeminie : Préparation des données: Jeminie : Préparation des données InitLexieSimple(Dico.xml, BDa, fr) <lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern> <more-info> <resource name= "LAR"> </resource> </more-info> </lexie> Créer une lexie avec information minimale Mot-vedette Partie de discours Définition Ressource Langue Base BDaJeminie : Préparation des données: Jeminie : Préparation des données Créer des vecteurs conceptuels associés à chaque lexie Indexation entre mots et concepts BD VC Base de vecteurs initiaux BD lexies Analyser la définition de chaque lexie InitLexieVC(BD-VC, BDa, fr) Liste des mots dans la définition de chaque lexie Calculer d’un VC associé à cette lexie BDa lexie +vecteur Analyseur morpho-syntaxiqueJeminie : Préparation des données: Jeminie : Préparation des données Créer des vecteurs conceptuels associés à chaque lexie Indexation entre mots et concepts BD VC Base de vecteurs initiaux BD lexies Analyser la définition de chaque lexie InitLexieVC(BD-VC, BDa, fr) Liste des mots dans la définition de chaque lexie Calculer d’un VC associé à cette lexie BDa lexie +vecteur Analyseur morpho-syntaxiqueJeminie : Préparation des données: Jeminie : Préparation des données Créer des vecteurs conceptuels associés à chaque lexie Indexation entre mots et concepts BD VC Base de vecteurs initiaux BD lexies Analyser la définition de chaque lexie InitLexieVC(BD-VC, BDa, fr) Liste des mots dans la définition de chaque lexie Calculer d’un VC associé à cette lexie BDa lexie +vecteur Analyseur morpho-syntaxiqueJeminie : Préparation des données: Jeminie : Préparation des données Créer des vecteurs conceptuels associés à chaque lexie Indexation entre mots et concepts BD VC Base de vecteurs initiaux BD lexies Analyser la définition de chaque lexie InitLexieVC(BD-VC, BDa, fr) Liste des mots dans la définition de chaque lexie Calculer d’un VC associé à cette lexie BDa lexie +vecteur Analyseur morpho-syntaxique Nécessite Expérimentation : méthodes: Expérimentation : méthodes Structuration d’une BDLM de 3 langues : FR,EN,TH 3 méthodes Création : méthode de transfert Création : méthode de transfert et consultation inverse Filtrage : méthode de comparaison des VC 4 processus : Transfert BDLM 1 TransfertInverse BDLM 2 Transfert+FVC BDLM 3 TransfertInverse+FVC BDLM 4Exemples des BDLM: Exemples des BDLM Une lexie du mot l’anglais : transfer Slide57: Plan Bases lexicales multilingues Structuration d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation Évaluation de la qualité d’axies Proposition des mesures ExpérimentationProposition des critères d’évaluation la qualité d’une BDLM produite: Proposition des critères d’évaluation la qualité d’une BDLM produite Critère basé sur une référence Critère structural Critère vectoriel Critère basé sur une référence: Critère basé sur une référence [ Hovy et al. 2002 ; Papineni et al. 2002 ] Qualité Q-rappel Q-précision Critère structural: Critère structural [Teeraparbseree, 2004] Qualité Q-lexiecorrecte Critère vectoriel : Critère vectoriel La distance moyenne entre les vecteurs conceptuels des lexies liées à une même axie Mesure Qualité distance [Teeraparbseree, 2004]Slide62: linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus de structuration / d’évaluation Persistance O/R Base de données utilisateur Q1 Q2 Qn Interpréteur de Stratégie d’évaluation programmeur Ajouter la partie d’évaluation dans JeminieSlide63: Chaque critère = un module logiciel Chaque module retourne une valeur numérique Qi Base de données lexies & axies public interface AxieEvaluation { boolean checkAxieEvaluationParameters (List parameters); float getQualityValue(AxieDatabaseContext context, List parameters); } Approche similaire à celle de la structurationDiscussion: Discussion Chaque critère évalue une dimension différente d’une BDLM Il est très difficile (impossible ?) de maximiser simultanément tous les critères, avec les méthodes de structuration d’axies disponibles P. ex. TraInverse augmente la précision, mais diminue le rappel Donc il est nécessaire au lexicologue de faire un choix : Des critères qui l’intéressent De l’importance relative qu’il accorde aux critères Critère global: Critère global Notre proposition Q n’est pas une mesure absolue (pas d’unité..) Mais est utile pour comparer la qualité de 2 BDLMExemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple Exemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple Exemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple La précision et la qualité de la structure des axies, du point de vue des lexies FR, EN et TH Exemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple Exemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple les processus 1 et 2 ont une structure d’axies assez mauvaise, car les méthodes fonctionnent au niveau des mots, et pas au niveau des lexies. Précision avec transfert-inverse > transfert simple Exemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (Fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple Processus 3 et 4 : utilisent FVC en plus la précision est améliorée la structure est très significativement améliorée car FVC fonctione au niveau des lexies Exemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (Fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple Combiner les techniques de structuration et de filtrage permet d’améliorer significativement la qualité des bases produites Remarques: Remarques Q-precision choisi comme critère important Il vaut mieux utiliser la traduction inverse, que la traduction simple Si on avait pu mesurer le rappel et le choisi comme critère important Prédiction : la traduction simple aurait eu une meilleure mesure de rappel que la traduction bilingue inverse La mesure de la qualité d’une BDLM est subjective, dépend des objectifs d’un lexicolgue exprimé sous la forme du choix des critères, et des poids. Intérêt de notre approche modulaire et extensible pour la mesure de qualitéConclusion: Conclusion Problématique Problème : automatisation de structuration et d’évaluation des lexies et axies Proposition Conception d’un système de structuration et d’évaluation des lexies et axies Réalisation de la plate-forme Jeminie Composition flexible des techniques Similarité entre la structuration et l’évaluation Expérimentation Création des BDLM de 3 langues : FR, EN, THRecherches futures: Recherches futures Trouver des nouvelles techniques pour la structuration qui fonctionnent au niveau des lexies Intégrer au système une IHM pour manipuler des données (lexies et axies) Offrir plus de possibilité aux linguistes pour s’exprimer sur la façon de manipuler le système Étude sur les méthodes de décision multicritères pour assister le lexicographe dans le choix des techniques de construction et d’évaluation, et pour guider leur compositionSlide76: MerciSlide77: FINSlide78: Composition de modules de création d’axies pour créer ou filtrer des axies Composition de modules de critères pour évaluer la qualité des axies Processus itératif pour l’amorçage Fin de l’amorçagePRODUCDIC : Opérations de base (1/4): [Hai, 1998] PRODUCDIC : Opérations de base (1/4) Sélection Extraction Regroupement Inverse Enchaînement Combinaison parallèle Combinaison en étoilePRODUCDIC : Opérations de base (2/4): PRODUCDIC : Opérations de base (2/4) sélection extraction love(n) amour love(v) aimer love(n) amour love(v) aimer regroupement inverse [Hai, 1998]PRODUCDIC : Opérations de base (3/4): PRODUCDIC : Opérations de base (3/4) enchaînement paquet : (A1) packet, parcel; bundle (A2) packet, pack; bag, parcel combinaison parallèle combinaison en étoile [Hai, 1998]Slide82: PRODUCDIC : Opérations de base (4/4) Avantage Facile à construire Limitations Ne fonctionne pas au niveau des lexies Certaines opérations sont plus préférables dans l’étape de la préparation des données par.ex. la sélection, l’extraction, le regroupement, et l’inversionExemples des BDLM (2/2): Exemples des BDLM (2/2) Une lexie de mot l’anglais : arrest You do not have the permission to view this presentation. In order to view it, please contact the author of the presentation.
tel 00010398 Ethan Download Post to : URL : Related Presentations : Share Add to Flag Embed Email Send to Blogs and Networks Add to Channel Uploaded from authorPOINTLite Insert YouTube videos in PowerPont slides with aS Desktop Copy embed code: Embed: Flash iPad Dynamic Copy Does not support media & animations Automatically changes to Flash or non-Flash embed WordPress Embed Customize Embed URL: Copy Thumbnail: Copy The presentation is successfully added In Your Favorites. Views: 29 Category: Entertainment License: All Rights Reserved Like it (0) Dislike it (0) Added: December 04, 2007 This Presentation is Public Favorites: 0 Presentation Description No description available. Comments Posting comment... Premium member Presentation Transcript Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies: Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree TEERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse, 27 septembre 2005Bases lexicales multilingues (BDLM): Bases lexicales multilingues (BDLM) 3 catégories principales Structure en fourche 1 langue source n langues cibles ex. JMDict, FeMBases lexicales multilingues (BDLM): Bases lexicales multilingues (BDLM) Structure pivot naturel n langues sources n langues cibles une langue naturelle comme pivot ex. Projet EuroWordNet Problème : phénomène contrastifBases lexicales multilingues (BDLM): Bases lexicales multilingues (BDLM) Structure pivot artificiel n langues sources n langues cibles un langage artificiel comme pivot ex. Projet Papillon river (en) fleuve (fr) rivière (fr) Avantage Phénomènes contrastifs correctement traitésBases lexicales multilingues (BDLM): Bases lexicales multilingues (BDLM) Structure pivot artificiel n langues sources n langues cibles un langage artificiel comme pivot ex. Projet Papillon Problème Comment définir le pivot ? Peut-on construire automatiquement une base à pivot artificielle à partir d'informations existantesPapillon : Base lexicale multilingue: Papillon : Base lexicale multilingue But : Construction collaborative d’une grande BDLMSlide7: Papillon : construction des données 1 Phase d’amorçage 2 Phase de contribution Modifications/ Ajouts/ Suppressions Validation Contributions IntégrationSlide8: Papillon : construction des données 1 Phase d’amorçage 2 Phase de contributionSlide9: Papillon : construction des données 1 Phase d’amorçage 2 Phase de contributionSlide10: Papillon : construction des données Modifications/ Ajouts/ Suppressions Validation Contributions Intégration 1 Phase d’amorçage 2 Phase de contributionSlide11: Papillon : construction des données 1 Phase d’amorçage Modifications/ Ajouts/ Suppressions Validation Contributions Intégration 2 Phase de contribution Objectif de la thèse: Objectif de la thèse Amorçage automatique d’une BDLM à pivot Qualité raisonnable Utilisable par humain ou machine Correspond aux objectifs du lexicologue et aux ressources disponibles ressources existantes BDLM à pivotPlan: Plan Bases lexicales multilingues Structuration d’une base d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation Évaluation de la qualité d’une base d’axies Proposition des mesures ExpérimentationProblèmes de la construction des BDLM: Problèmes de la construction des BDLM Manque de ressources disponibles Non cohérence des ressources disponibles : format de données, richesse des informations, etc. Mise en correspondance de lexies de différentes langues Nécessité pour lexicologue de faire des compromis entre les ressources existantes et la qualité de BDLM créée Trois volets de problèmes d’amorçage des BDLM: Trois volets de problèmes d’amorçage des BDLM Construction initiale des lexies et des axies Récupération de données existantes Intégration des données Création des lexies et des axies à partir des données récupérées Amélioration incrémentale par humain Évaluation de la qualité de BDLM produiteTrois volets de problèmes d’amorçage des BDLM: Trois volets de problèmes d’amorçage des BDLM Construction initiale des lexies et des axies Récupération de données existantes Récupdic [Haï, 1998] Intégration des données Création des lexies et des axies à partir des données récupérées Amélioration incrémentale par humain Évaluation de la qualité de BDLM produiteExemples des travaux existants pour la structuration des lexies & axies: Exemples des travaux existants pour la structuration des lexies & axies Méthode de transfert et consultation inverse de dictionnaires bilingues [Tanaka & Umemura,1994] Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]Méthode de transfert et consultation inverse de dictionnaires bilingues (1/5): Méthode de transfert et consultation inverse de dictionnaires bilingues (1/5) But : Construire des liens traductionnels entre trois langues Ressources nécessaires : BDLM 1-2-3 Résultat Monolingue langue 1 Monolingue langue 3 Monolingue langue 2 Bilingue L 3-> L 2 Bilingue L 2-> L 1 Bilingue L 2-> L 3 Bilingue L1-> L 2 [Tanaka & Umemura,1994]Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5): Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert kyousou JP EN FR [Tanaka & Umemura,1994]Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5): Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert competition contest race kyousou JP EN FR [Tanaka & Umemura,1994] Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5): Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert competition contest race compétition concours course race hâte kyousou JP EN FR [Tanaka & Umemura,1994] On obtient toutes les relations traductionnelles possibles pour chaque entrée de la langue sourceMéthode de transfert et consultation inverse de dictionnaires bilingues (3/5): Méthode de transfert et consultation inverse de dictionnaires bilingues (3/5) Méthode de consultation inverse 1 fois match competition contest race ancestry haste compétition concours course race hâte kyousou JP EN FR ? ? On garde : mot dont la traduction est en commun avec mot source On enlève : mot dont aucune traduction n’est en commun avec mot source [Tanaka & Umemura,1994]Méthode de transfert et consultation inverse de dictionnaires bilingues (4/5): Méthode de transfert et consultation inverse de dictionnaires bilingues (4/5) Méthode de consultation inverse 2 fois match competition contest race ancestry compétition concours course race kyougi kyousou jinshu senzo JP EN FR [Tanaka & Umemura,1994] Slide24: Avantage Facile à construire Limitations Nécessite plusieurs dicos bilingues Ne fonctionne pas au niveau des lexies Méthode de transfert et consultation inverse de dictionnaires bilingues (5/5)Slide25: Exemples des travaux existants pour la structuration des lexies & axies Méthode de transfert et consultation inverse de dictionnaires bilingues [Tanaka & Umemura,1994] Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]Méthode de comparaison de vecteurs conceptuels (1/5): Méthode de comparaison de vecteurs conceptuels (1/5) [Chauché 1990, Lafourcade, 2002] Idée : associer un vecteur à chaque lexie, qui code le sens donné par la définition Vecteur : combinaison des vecteurs d’un ensemble de concepts de base (V(Ci)) Ci = un concept feuille d’un thésaurus P.ex : 873 concepts feuilles du thésaurus Larousse V(Ci) = <0, 0, …, 0 , 1 , 0, …, 0>Méthode de comparaison de vecteurs conceptuels (2/5): Méthode de comparaison de vecteurs conceptuels (2/5) Calcul récursif des vecteurs des lexies { V(Ci) } , { mot-concepts} Ensemble initial de VC pour les mots indexés « bootstrap » : combinaison linéaire des concepts, selon l'index VC associés aux lexies 1ère itération VC associés aux mots-vedettes combinaison linéaire des vecteurs des lexies pour chaque mot-vedette n-ième itérationMéthode de comparaison de vecteurs conceptuels (3/5): Méthode de comparaison de vecteurs conceptuels (3/5) Comment calculer le vecteur pour une lexie ? P. ex. lexie de « ranger » Définition : « disposer à sa place dans l'ordre » Mots importants : « disposer », « place », « ordre » analyse morpho-syntaxique BD : VC pour les mots « disposer », « place », « ordre », ... VC pour la lexie combinaison linéaire des vecteurs des mots de la définitionMéthode de comparaison de vecteurs conceptuels (4/5): Méthode de comparaison de vecteurs conceptuels (4/5) [Chauché 1990, Lafourcade, 2002] DA ("profit" , "profit" ) = 0 DA ("profit" , "benefit" ) = 10 DA ("profit" , "joy" ) = 39 DA ("profit" , "sadness" ) = 65 Comparer la distance thématique entre lexies Distance angulaire entre 2 vecteurs (DA ) DA (X,Y) = angle (X,Y) ; 0 DA (X,Y) 90 Méthode de comparaison de vecteurs conceptuels (5/5): Méthode de comparaison de vecteurs conceptuels (5/5) Avantages Fonctionne au niveau lexie Relativement efficace Limitations Nécessite analyseur morpho-syntaxique Besoin d’un index mot-concepts pour initialiser des VC Les VC doivent utiliser les mêmes ensembles de concepts pour pouvoir comparerDiscussion : Discussion Chaque méthode nécessite des ressources lexicales spécifiques Chaque méthode a des avantages et des limitations différents Des méthodes peuvent être complémentaires Il est préférable de pouvoir réutiliser ces méthodes existantesNotre proposition: Notre proposition Avantages dépasser limitations d’utilisation de méthode adaptabilité à de nombreuses situations possibles 1 N 3 2 algorithmes de structuration d’axies existantes … Composer arbitrairement les algorithmes de structuration d’axies pour créer un BDLM de meilleure qualité possible selon les ressources disponibles Notre contribution: Notre contribution Idée : appliquer des techniques de génie logiciel Réalisation : Jeminie : canevas logiciel (framework) modulaire et adaptableJeminie: Jeminie Trois fonctions principales Préparation des données Production et filtrage d’axies Évaluation de la qualité de la base d’axies produites Trois types d’utilisateur Linguiste Programmeur Utilisateur de base de donnéesJeminie : architecture globale: Jeminie : architecture globale linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus de structuration Persistance O/R Base de données utilisateur programmeurJeminie : architecture globale: Jeminie : architecture globale linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus / mesure de qualtié Persistance O/R Base de données utilisateur Interpréteur de mesure de qualité programmeur - Modèle de données - Outils de base, p. ex. Connexion à l’analyseur morpho-syntaxique Connexion à la base de données Importation de dictionnairesJeminie : architecture globale: Jeminie : architecture globale linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus de structuration Persistance O/R Base de données utilisateur programmeur Module est une implémentation d’un algorithme de structuration d’axiesJeminie : architecture globale: Jeminie : architecture globale linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus de structuration Persistance O/R Base de données utilisateur programmeur Module est une implémentation d’un algorithme de structuration d’axies Jeminie peut être étendu en développant de nouveaux modulesModule de structuration d’axie: Module de structuration d’axie Public interface AxieCreator { void updateAxieDatabase(AxieDatabaseContext context, List parameters) boolean checkAxieCreatorParameters (List parameters) } updateAxieDatabase : implémente un nouvel algorithme AxieDatabaseContext : indique la base lexicale à modifier Parameters : indique les ressources utilisées par l’algorithme, ou les informations supplémentaires selon l’algorithmeJeminie : comment ça marche: Jeminie : comment ça marche Processus entrée Base de données lexies & axies entrée / sortie Jeminie M1 Noyau de programme M2 M3 Mn Interpréteur de processus exécuter Processus est une séquence d’exécutions de modules de structuration d’axiesJeminie : comment ça marche: Jeminie : comment ça marche Processus entrée Base de données lexies & axies entrée / sortie Jeminie M1 Noyau de programme M2 M3 Mn Interpréteur de processus exécuterJeminie : comment ça marche: Jeminie : comment ça marche Base de données lexies & axies entrée / sortie Jeminie M1 Noyau de programme M2 M3 Mn Interpréteur de processus exécuterExemple de modules implémentés (1/3): kyousou competition Exemple de modules implémentés (1/3) Nom : BlingTransfertAxieCreator Paramètres : Dico L1L2, Dico L2L3, Base d’axies (BDa ) Résultat : de nouvelles axies créées par la méthode de transfert ajoutées dans BDa race concours course Exemple de modules implémentés (2/3): Exemple de modules implémentés (2/3) Nom : BlingTransfertInverseAxieCreator Paramètres : Dico L1L2, Dico L2L3, Dico L3L2, Dico L2L1, Base d’axie (BDa ) Résultat : de nouvelles axies créées par la méthode de transfert et consultation inverse ajoutées dans BDa kyousou competition concours course Exemple de modules implémentés (3/3): Exemple de modules implémentés (3/3) Nom : VCAxieFilter Paramètres : Base d’axie (BDa ) , seuil pour la distance angulaire maximale Résultat : base BDa modifiée par la méthode de comparaison de vecteurs conceptuels 2 lexies X Y On enlève l’axie où DA (X,Y) > un seuil > 2 lexies X Y On enlève l’axie où la distance angulaire moyenne > un seuil ZSlide46: Plan Bases lexicales multilingues Structuration d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation Évaluation de la qualité d’axies Proposition des mesures ExpérimentationExpérimentation : données: Expérimentation : données Données monolingues <HTML><HEAD><TITLE>Pisang generated page for GETDEF</TITLE></HEAD><link rel="stylesheet" href="http://www.lirmm.fr/~lafourca/style.css" type="text/css"><BODY bgcolor="#fffffe"><b>Warning : server learning since the 7/8/2002 at 11:20:10 </b><p><SERVICE-RESULT> <B><VED>inexpiable</VED></B> <BR><I> with 5 parts </I><blockquote> <B><SUBVED>inexpiable.3</SUBVED></B> <I>as</I> <def>#s=2# Que rien n'apaise. ( Haine inexpiable ) .</def> <font color="#888888" size="3"><code>[<src>HDL</src> <i>the 3/12/2001 at 20:55:51</i>]</code></font> <BR> 100015787,artifact,n 100015787,artefact,n 100016679,article,n 100016840,psychological feature,n 100016993,abstraction,n 100017218,cognition,n 100017218,knowledge,n 100015787,a man-made object taken as a whole 100016679,one of a class of artifacts 100016840,a feature of the mental life of a living organism 100016993,a general concept formed by extracting common features from specific examples 100017218,the psychological result of perception and learning and reasoning Donnée de Lirmm Royal Institute WordNetExpérimentation : données: Expérimentation : données Données monolingues html texte <lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <more-info> <resource name= "LAR"> </resource> </more-info> </lexie> xml PapillonExpérimentation : données: Expérimentation : données Données bilingues xml html <volume name="oxford_mini" source-language="fra" target-language="eng"> <dict-entry> <entry>absent</entry> <pos>a.</pos> <translation>absent</translation> </dict-entry> </volume> xmlJeminie : Préparation des données: Jeminie : Préparation des données InitLexieSimple(Dico.xml, BDa, fr) <lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern> <more-info> <resource name= "LAR"> </resource> </more-info> </lexie> Créer une lexie avec information minimale Mot-vedette Partie de discours Définition Ressource Langue Base BDaJeminie : Préparation des données: Jeminie : Préparation des données Créer des vecteurs conceptuels associés à chaque lexie Indexation entre mots et concepts BD VC Base de vecteurs initiaux BD lexies Analyser la définition de chaque lexie InitLexieVC(BD-VC, BDa, fr) Liste des mots dans la définition de chaque lexie Calculer d’un VC associé à cette lexie BDa lexie +vecteur Analyseur morpho-syntaxiqueJeminie : Préparation des données: Jeminie : Préparation des données Créer des vecteurs conceptuels associés à chaque lexie Indexation entre mots et concepts BD VC Base de vecteurs initiaux BD lexies Analyser la définition de chaque lexie InitLexieVC(BD-VC, BDa, fr) Liste des mots dans la définition de chaque lexie Calculer d’un VC associé à cette lexie BDa lexie +vecteur Analyseur morpho-syntaxiqueJeminie : Préparation des données: Jeminie : Préparation des données Créer des vecteurs conceptuels associés à chaque lexie Indexation entre mots et concepts BD VC Base de vecteurs initiaux BD lexies Analyser la définition de chaque lexie InitLexieVC(BD-VC, BDa, fr) Liste des mots dans la définition de chaque lexie Calculer d’un VC associé à cette lexie BDa lexie +vecteur Analyseur morpho-syntaxiqueJeminie : Préparation des données: Jeminie : Préparation des données Créer des vecteurs conceptuels associés à chaque lexie Indexation entre mots et concepts BD VC Base de vecteurs initiaux BD lexies Analyser la définition de chaque lexie InitLexieVC(BD-VC, BDa, fr) Liste des mots dans la définition de chaque lexie Calculer d’un VC associé à cette lexie BDa lexie +vecteur Analyseur morpho-syntaxique Nécessite Expérimentation : méthodes: Expérimentation : méthodes Structuration d’une BDLM de 3 langues : FR,EN,TH 3 méthodes Création : méthode de transfert Création : méthode de transfert et consultation inverse Filtrage : méthode de comparaison des VC 4 processus : Transfert BDLM 1 TransfertInverse BDLM 2 Transfert+FVC BDLM 3 TransfertInverse+FVC BDLM 4Exemples des BDLM: Exemples des BDLM Une lexie du mot l’anglais : transfer Slide57: Plan Bases lexicales multilingues Structuration d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation Évaluation de la qualité d’axies Proposition des mesures ExpérimentationProposition des critères d’évaluation la qualité d’une BDLM produite: Proposition des critères d’évaluation la qualité d’une BDLM produite Critère basé sur une référence Critère structural Critère vectoriel Critère basé sur une référence: Critère basé sur une référence [ Hovy et al. 2002 ; Papineni et al. 2002 ] Qualité Q-rappel Q-précision Critère structural: Critère structural [Teeraparbseree, 2004] Qualité Q-lexiecorrecte Critère vectoriel : Critère vectoriel La distance moyenne entre les vecteurs conceptuels des lexies liées à une même axie Mesure Qualité distance [Teeraparbseree, 2004]Slide62: linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus de structuration / d’évaluation Persistance O/R Base de données utilisateur Q1 Q2 Qn Interpréteur de Stratégie d’évaluation programmeur Ajouter la partie d’évaluation dans JeminieSlide63: Chaque critère = un module logiciel Chaque module retourne une valeur numérique Qi Base de données lexies & axies public interface AxieEvaluation { boolean checkAxieEvaluationParameters (List parameters); float getQualityValue(AxieDatabaseContext context, List parameters); } Approche similaire à celle de la structurationDiscussion: Discussion Chaque critère évalue une dimension différente d’une BDLM Il est très difficile (impossible ?) de maximiser simultanément tous les critères, avec les méthodes de structuration d’axies disponibles P. ex. TraInverse augmente la précision, mais diminue le rappel Donc il est nécessaire au lexicologue de faire un choix : Des critères qui l’intéressent De l’importance relative qu’il accorde aux critères Critère global: Critère global Notre proposition Q n’est pas une mesure absolue (pas d’unité..) Mais est utile pour comparer la qualité de 2 BDLMExemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple Exemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple Exemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple La précision et la qualité de la structure des axies, du point de vue des lexies FR, EN et TH Exemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple Exemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple les processus 1 et 2 ont une structure d’axies assez mauvaise, car les méthodes fonctionnent au niveau des mots, et pas au niveau des lexies. Précision avec transfert-inverse > transfert simple Exemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (Fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple Processus 3 et 4 : utilisent FVC en plus la précision est améliorée la structure est très significativement améliorée car FVC fonctione au niveau des lexies Exemple d’évaluation: Exemple d’évaluation BDLM 1 BDLM 4 BDLM 3 BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (Fr), Royal Institute (th) Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas d’évaluation Q-rappel pour cet exemple Combiner les techniques de structuration et de filtrage permet d’améliorer significativement la qualité des bases produites Remarques: Remarques Q-precision choisi comme critère important Il vaut mieux utiliser la traduction inverse, que la traduction simple Si on avait pu mesurer le rappel et le choisi comme critère important Prédiction : la traduction simple aurait eu une meilleure mesure de rappel que la traduction bilingue inverse La mesure de la qualité d’une BDLM est subjective, dépend des objectifs d’un lexicolgue exprimé sous la forme du choix des critères, et des poids. Intérêt de notre approche modulaire et extensible pour la mesure de qualitéConclusion: Conclusion Problématique Problème : automatisation de structuration et d’évaluation des lexies et axies Proposition Conception d’un système de structuration et d’évaluation des lexies et axies Réalisation de la plate-forme Jeminie Composition flexible des techniques Similarité entre la structuration et l’évaluation Expérimentation Création des BDLM de 3 langues : FR, EN, THRecherches futures: Recherches futures Trouver des nouvelles techniques pour la structuration qui fonctionnent au niveau des lexies Intégrer au système une IHM pour manipuler des données (lexies et axies) Offrir plus de possibilité aux linguistes pour s’exprimer sur la façon de manipuler le système Étude sur les méthodes de décision multicritères pour assister le lexicographe dans le choix des techniques de construction et d’évaluation, et pour guider leur compositionSlide76: MerciSlide77: FINSlide78: Composition de modules de création d’axies pour créer ou filtrer des axies Composition de modules de critères pour évaluer la qualité des axies Processus itératif pour l’amorçage Fin de l’amorçagePRODUCDIC : Opérations de base (1/4): [Hai, 1998] PRODUCDIC : Opérations de base (1/4) Sélection Extraction Regroupement Inverse Enchaînement Combinaison parallèle Combinaison en étoilePRODUCDIC : Opérations de base (2/4): PRODUCDIC : Opérations de base (2/4) sélection extraction love(n) amour love(v) aimer love(n) amour love(v) aimer regroupement inverse [Hai, 1998]PRODUCDIC : Opérations de base (3/4): PRODUCDIC : Opérations de base (3/4) enchaînement paquet : (A1) packet, parcel; bundle (A2) packet, pack; bag, parcel combinaison parallèle combinaison en étoile [Hai, 1998]Slide82: PRODUCDIC : Opérations de base (4/4) Avantage Facile à construire Limitations Ne fonctionne pas au niveau des lexies Certaines opérations sont plus préférables dans l’étape de la préparation des données par.ex. la sélection, l’extraction, le regroupement, et l’inversionExemples des BDLM (2/2): Exemples des BDLM (2/2) Une lexie de mot l’anglais : arrest