Blog d'un jeune chercheur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

02fév. 2010

UIMA & Wikipédia (2) : Chargement d'un dump Wikipedia

Wikipedia est une incroyable source d'information, de données et plus généralement d'actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d'observer de très nombreux exemples d'utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d'utilisation du langage sous forme de corpus.

La création de composants UIMA permettant d'accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l'encyclopédie libre. Je compte m'atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le second billet qui discute du chargement d'un dump XML de l'encyclopédie libre et la distribution du contenu sous forme de CAS.

Lire la suite

01fév. 2010

UIMA & Wikipédia (1) : Proposition de Type System

Wikipedia est une incroyable source d'information, de données et plus généralement d'actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d'observer de très nombreux exemples d'utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d'utilisation du langage sous forme de corpus.

La création de composants UIMA permettant d'accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l'encyclopédie libre. Je compte m'atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le premier billet qui discute de la création d'un Type System approprié pour représenter les pages de Wikipedia.

Lire la suite

29janv. 2010

Sortie d'Apache UIMA 2.3

L'annonce est parue hier sur les listes concernées, la nouvelle version du framework Apache UIMA (Unstructured Information Management Architecture) est sortie, estampillée 2.3 !

Lire la suite

19déc. 2009

Quel est le mot français pour "workflow" ? "mail" ? "camping-car" ?

Vous trouvez que bon nombre de vos amis, vous compris, utilisez un nombre important d'anglicismes et autres mots importés de langues étrangères bien que vous soupçonniez l'existence d'un mot équivalent en Français. Vous aimeriez un outil intégré à votre traitement de texte favori du type du correcteur orthographique ? Le correcteur terminologique français est fait pour vous !

Lire la suite

18nov. 2009

Insérer plusieurs copies locales de Wikipedia dans une base PostgreSQL

Dans ce billet, j'avais décrit une méthode permettant de créer un miroir local de Wikipédia dans une base PostgreSQL. Plus précisément, la démarche fonctionnait pour Wikinews en tant que super-utilisateur postgres, mais je ne pouvais pas aller plus en avant étant donné que mon serveur ne possédait pas assez d'espace pour accueillir un miroir Wikipédia.

Heureuse nouvelle, mon laboratoire a fait l'acquisition d'un énorme serveur (24 cœurs Xeon à 2,6GHz, 200Go de RAM, et 1,5To d'espace disque) sur lequel j'ai pu expérimenter la création d'un réel miroir Wikipédia qui plus est sur un serveur sur lequel je ne suis pas administrateur... impossible donc de passer super-administrateur de la base !

Lire la suite

12nov. 2009

TP sur la catégorisation de textes

L'enseignement du TALN a, à mon avis, un réel potentiel d'attraction des étudiants. C'est à mon avis une matière qui peut être facilement attrayante (voir sexy) si l'on s'efforce de renouveler les exercices tout en employant des ressources récentes et des outils qui facilitent les tâches ingrates. Pour ma part, j'ai un souvenir assez mauvais de mes cours de TALN : CM et TD ennuyeux au contenu recyclé depuis l'avènement de l'IA des années 1980 ! Maintenant que c'est à mon tour de m'essayer à l'enseignement de cette matière qui est devenue, assez bizarrement d'ailleurs, ma spécialité, j'essaie de proposer le côté sexy du TALN que j'aurais bien aimé qu'on m'enseigne... est-ce que ça marche ? Il faudrait demander à mes étudiants :)

Un des sujets qui me paraît désormais primordial c'est celui de l'apprentissage ! Alors pour mes étudiants adorés, j'ai concocté un petit sujet aux oignons : Apache UIMA et Weka pour les outils ; Wikinews pour le corpus !

Lire la suite

09nov. 2009

Construction de la communauté UIMA-Fr

Depuis le début de ma thèse, nous (un sous-ensemble dynamique de mon équipe de recherche) avons mis l'accent sur la nécessité de développer nos outils autour d'une plateforme unifiée afin que chacun tire parti du travail des autres. Nous avons alors proposé la solution du framework Apache UIMA, proposé des formations autour de ce dernier et entamé une migration des outils existant. L'initiative est aujourd'hui un succès: nous sommes monté en compétence sur UIMA et les nouveaux doctorants travaillent tous autour de cette plateforme !

Les bénéfices d'une plateforme unifiée au sein d'une équipe seraient à notre avis amplifiés si cette initiative était étendue à toute la communauté francophone ! Chacun pourrait alors profiter directement des développements et ressources développées par les autres équipes. C'est sur la base de cette hypothèse que nous prenons l'initiative d'initier la construction d'une communauté UIMA francophone.

Lire la suite

08nov. 2009

Corpus des discours de Nicolas Sarkozy

Dans le cadre d'un de mes enseignements du TAL, j'ai proposé comme projet à mes étudiants de mettre au point une chaîne de traitement permettant de rapprocher des documents similaires sur le fond ou la forme, ces deux notions étant elles-même à définir (par les étudiants). Pour coller avec l'actualité, je leur ai proposé de travailler sur les discours prononcé par notre président de la République.

Lire la suite

30sept. 2009

UIMA : Comment utiliser un type dont un attribut est un tableau de types ?

L'un des avantages indéniable de UIMA est de pouvoir définir son propre TypeSystem, ie l'ensemble des éléments que l'on va manipuler. De plus, ce TypeSystem est un arbre d'objets, ce qui permet de construire des structures de données enchevêtrées complexes.

Cet article illustre la construction et l'utilisation d'un type dont un attribut est un tableau d'un autre type.

Lire la suite

24sept. 2009

Faire fonctionner la Macbook Remote Control sous Ubuntu

Si comme moi vous av(i)ez choisi un Macbook pour la qualité du matériel et viré Mac OS X pour mettre un Linux, alors vous aimeriez peut-être également utiliser votre télécommande Macbook pour contrôler vos applications ?

Lire la suite

24sept. 2009

Marre des .doc en pièce-jointe ? Pointez le RGI !

Si comme moi vous en avez marre de recevoir des .doc en pièce-jointe de vos courriels, n'hésitez plus à répondre à l'expéditeur en lui indiquant qu'il n'est pas en accord avec le ''Référentiel Général d'Interopérabilité'' (RGI) !

Lire la suite

24sept. 2009

Instancier une classe à partir de son nom

La chose que je préfère dans le paradigme objet, c'est la capacité d'introspection (apparemment le terme réflexion est plus apprécié en français). Dans ce billet je présente une astuce Java que j'avais déjà utilisé dans ce billet pour instancier une classe dont on ne connaît que le nom.

Lire la suite

23sept. 2009

Compilation de ressources autour d'Apache UIMA

Un court billet qui compile différents pointeurs web concernant Apache UIMA.

Lire la suite

23sept. 2009

Nettoyage et améliorations du cpeGui

Depuis le temps que je peste après le manque d'ergonomie du cpeGui (org.apache.uima.tools.cpm.CpmFrame pour les intimes), j'ai voulu profiter d'un peu de temps durant une surveillance de TP pour jeter un coup d'œil au code et essayer d'obtenir quelque chose de plus intuitif. J'ai pu profiter des premiers pointeurs posés par mon collègue Matthieu pour m'introduire dans les méandre de la bête !

Au final j'ai à peu près tout cassé pour obtenir quelque chose d'assez proche de l'original en terme d'ergonomie... mais qui ne fonctionne plus !

Lire la suite

19sept. 2009

Tutoriel et Environnement UIMA des RMLL

Lors de l'édition 2009 des RMLL à Nantes, notre équipe de recherche du LINA a organisé un colloque parallèle sur le cadriciel Apache UIMA.

Lire la suite

09sept. 2009

UIMA : Écriture d'un composant stemmeur (racinisateur)

La racinisation (ou lexèmisation) est l'opération consistant à retrouver le radical d'un mot à partir de sa forme déclinée. Ceci passe souvent par le remplacement des suffixes ou des préfixes.

L'algorithme le plus connu pour la racinisation est celui de M. Porter. Snowball est une implémentation de racinisateur pour plusieurs langues dont le français. Je vais me baser sur la librairie java libstemmer de Snowball, placée sous licence BSD, pour développer un composant UIMA de racinisation.

Lire la suite

25juil. 2009

Revue du développement d'Apache UIMA (Juin 2009)

Revue synthétique des développements liés à Apache UIMA pour la période de Juin 2009. Avec presque un mois de retard :/

Lire la suite

21juil. 2009

Créer une copie locale de Wikipedia dans une base PostgreSQL

Wikipédia est une ressource formidable en termes de connaissances ! La connaissance du monde bien sûr par son rôle d'encycolpédie, mais également une connaissance du langage : il s'agit très certainement du plus grand corpus libre de textes récents et variés. Qu'il s'agisse des articles plus ou moins spécialisés de l'encyclopédie, des ressources lexicales du Wiktionary ou encore des ressources journalistiques de Wikinews.

Si l'on veut tirer profit de ces ressources pour faire de la recherche, il est très rapidement intéressant d'avoir une copie locale de Wikipédia. Ceci économise les serveurs de la fondation et offre des performances bien supérieures.

Cette article expose pas à pas les étapes nécessaires à la création d'un miroir Wikipédia en local dans une base PostgreSQL. L'opération est presque triviale pour un miroir MySQL mais PostgreSQL offre à mon avis plus de flexibilité pour de meilleures performances.

Lire la suite

25mai 2009

Revue du développement d'Apache UIMA (Mai 2009)

Au sein de mon équipe de recherche nous nous intéressons de très près à l'avancement du développement d'Apache UIMA. Étant donné que je fais de la veille sur la liste de développement de UIMA et que j'en fais une synthèse une fois par mois pour ceux de mon équipe qui ne suivent pas trop, je me suis dit que ça pourrait intéresser d'autres... alors je le poste ici.

Lire la suite

07mai 2009

Réalisation de paquets Ubuntu/Debian pour Apache UIMA

Apache UIMA est l'implémentation Apache de la (presque) norme d'architecture pour la gestion des données non structurées. J'ai réalisé des paquets pour Ubuntu/Debian de cette implémentation afin de me faciliter la vie, mais les paquets ne respectent certainement pas la charte de qualité... besoin d'un coup de main :)

Lire la suite

- page 2 de 5 -