Blog d'un jeune chercheur en TAL

To content | To menu | To search

03/09/2010

Utiliser Bazaar au travers de Web DAV

Dans le cadre de mon cours sur les outils pour le travail collaboratif, je fais travailler tous mes étudiants ensembles sur un même projet. Ces derniers sont alors invités (fortement) à utiliser plusieurs outils dans le cadre de leur collaboration : messagerie instantanée (IRC), wiki et gestionnaire de tickets (Trac) et un gestionnaire de version décentralisé (bazaar).

Avant je leur faisais utiliser subversion qui a un module Apache dédié et qui est pris en charge par défaut dans Trac. La nouveauté de cette année c’est l’utilisation de Bazaar...

Continue reading...

03/06/2010

Utilisation du CAS Editor

Il y a quelques temps j’avais écrit une documentation en interne dans mon laboratoire sur l’utilisation du ’’CAS Editor’’. À l’époque c’était assez éprouvant car ce dernier se présentait sous la forme d’une application RCP Eclipse.

Depuis la version 2.3.0, le CAS Editor a été intégré sous la forme d’un plugin Eclipse. L’occasion de remettre la doc au goût du jour et de la partager avec le reste du monde.

Continue reading...

03/04/2010

Release of the Wikipedia collection reader v.0.4

Wikipedia is an incredible source of information, data and more generally of language acts (uses of language). It is a unique resource for researchers in natural language processing (NLP).

The MediaWiki UIMA Loader is a UIMA component, a collection reader to be more specific, that is able of making use of Wikipedia to build corpora. The 0.4 version is the first release publicly announced for this component.

Continue reading...

02/21/2010

UIMA & Wikipédia (5) : Gestion du projet avec Maven

La création de composants UIMA permettant d’accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l’encyclopédie libre. Je compte m’atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le cinquième billet, plus orienté technique de développement, qui discute de la gestion du projet avec Maven, permettant notamment de gérer automatiquement les dépendances à MWDumper et à Wikimodel.

Continue reading...

02/19/2010

Un peu de sécurité : renforcer SSH

Après les annonces récentes concernant la sécurité des systèmes informatiques (ici ou ), je me suis dit que ce serait pas mal de m’intéresser un peu à la sécurité de mon serveur.

Je vais commencer par SSH étant donné qu’il s’agit du moyen le plus classique pour entrer sur le serveur.

Continue reading...

02/14/2010

UIMA & Wikipédia (4) : Analyse de la syntaxe MediaWiki

Wikipedia est une incroyable source d’information, de données et plus généralement d’actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d’observer de très nombreux exemples d’utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d’utilisation du langage sous forme de corpus.

La création de composants UIMA permettant d’accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l’encyclopédie libre. Je compte m’atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le quatrième billet qui discute de l’analyse syntaxique du contenu des pages wiki pour la suppression des balises Wiki.

Continue reading...

02/12/2010

UIMA & Wikipédia (3) : Filtrage des données à charger

Wikipedia est une incroyable source d’information, de données et plus généralement d’actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d’observer de très nombreux exemples d’utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d’utilisation du langage sous forme de corpus.

La création de composants UIMA permettant d’accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l’encyclopédie libre. Je compte m’atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le troisième billet qui discute du filtrage des données à charger : articles, révision, ...

Continue reading...

02/02/2010

UIMA & Wikipédia (2) : Chargement d'un dump Wikipedia

Wikipedia est une incroyable source d’information, de données et plus généralement d’actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d’observer de très nombreux exemples d’utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d’utilisation du langage sous forme de corpus.

La création de composants UIMA permettant d’accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l’encyclopédie libre. Je compte m’atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le second billet qui discute du chargement d’un dump XML de l’encyclopédie libre et la distribution du contenu sous forme de CAS.

Continue reading...

02/01/2010

UIMA & Wikipédia (1) : Proposition de Type System

Wikipedia est une incroyable source d’information, de données et plus généralement d’actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d’observer de très nombreux exemples d’utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d’utilisation du langage sous forme de corpus.

La création de composants UIMA permettant d’accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l’encyclopédie libre. Je compte m’atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le premier billet qui discute de la création d’un Type System approprié pour représenter les pages de Wikipedia.

Continue reading...

01/29/2010

Sortie d'Apache UIMA 2.3

L’annonce est parue hier sur les listes concernées, la nouvelle version du framework Apache UIMA (Unstructured Information Management Architecture) est sortie, estampillée 2.3 !

Continue reading...

12/19/2009

Quel est le mot français pour "workflow" ? "mail" ? "camping-car" ?

Vous trouvez que bon nombre de vos amis, vous compris, utilisez un nombre important d’anglicismes et autres mots importés de langues étrangères bien que vous soupçonniez l’existence d’un mot équivalent en Français. Vous aimeriez un outil intégré à votre traitement de texte favori du type du correcteur orthographique ? Le correcteur terminologique français est fait pour vous !

Continue reading...

11/18/2009

Insérer plusieurs copies locales de Wikipedia dans une base PostgreSQL

Dans ce billet, j’avais décrit une méthode permettant de créer un miroir local de Wikipédia dans une base PostgreSQL. Plus précisément, la démarche fonctionnait pour Wikinews en tant que super-utilisateur postgres, mais je ne pouvais pas aller plus en avant étant donné que mon serveur ne possédait pas assez d’espace pour accueillir un miroir Wikipédia.

Heureuse nouvelle, mon laboratoire a fait l’acquisition d’un énorme serveur (24 cœurs Xeon à 2,6GHz, 200Go de RAM, et 1,5To d’espace disque) sur lequel j’ai pu expérimenter la création d’un réel miroir Wikipédia qui plus est sur un serveur sur lequel je ne suis pas administrateur... impossible donc de passer super-administrateur de la base !

Continue reading...

11/12/2009

TP sur la catégorisation de textes

L’enseignement du TALN a, à mon avis, un réel potentiel d’attraction des étudiants. C’est à mon avis une matière qui peut être facilement attrayante (voir sexy) si l’on s’efforce de renouveler les exercices tout en employant des ressources récentes et des outils qui facilitent les tâches ingrates. Pour ma part, j’ai un souvenir assez mauvais de mes cours de TALN : CM et TD ennuyeux au contenu recyclé depuis l’avènement de l’IA des années 1980 ! Maintenant que c’est à mon tour de m’essayer à l’enseignement de cette matière qui est devenue, assez bizarrement d’ailleurs, ma spécialité, j’essaie de proposer le côté sexy du TALN que j’aurais bien aimé qu’on m’enseigne... est-ce que ça marche ? Il faudrait demander à mes étudiants :)

Un des sujets qui me paraît désormais primordial c’est celui de l’apprentissage ! Alors pour mes étudiants adorés, j’ai concocté un petit sujet aux oignons : Apache UIMA et Weka pour les outils ; Wikinews pour le corpus !

Continue reading...

11/09/2009

Construction de la communauté UIMA-Fr

Depuis le début de ma thèse, nous (un sous-ensemble dynamique de mon équipe de recherche) avons mis l’accent sur la nécessité de développer nos outils autour d’une plateforme unifiée afin que chacun tire parti du travail des autres. Nous avons alors proposé la solution du framework Apache UIMA, proposé des formations autour de ce dernier et entamé une migration des outils existant. L’initiative est aujourd’hui un succès: nous sommes monté en compétence sur UIMA et les nouveaux doctorants travaillent tous autour de cette plateforme !

Les bénéfices d’une plateforme unifiée au sein d’une équipe seraient à notre avis amplifiés si cette initiative était étendue à toute la communauté francophone ! Chacun pourrait alors profiter directement des développements et ressources développées par les autres équipes. C’est sur la base de cette hypothèse que nous prenons l’initiative d’initier la construction d’une communauté UIMA francophone.

Continue reading...

11/08/2009

Corpus des discours de Nicolas Sarkozy

Dans le cadre d’un de mes enseignements du TAL, j’ai proposé comme projet à mes étudiants de mettre au point une chaîne de traitement permettant de rapprocher des documents similaires sur le fond ou la forme, ces deux notions étant elles-même à définir (par les étudiants). Pour coller avec l’actualité, je leur ai proposé de travailler sur les discours prononcé par notre président de la République.

Continue reading...

09/30/2009

UIMA : Comment utiliser un type dont un attribut est un tableau de types ?

L’un des avantages indéniable de UIMA est de pouvoir définir son propre TypeSystem, ie l’ensemble des éléments que l’on va manipuler. De plus, ce TypeSystem est un arbre d’objets, ce qui permet de construire des structures de données enchevêtrées complexes.

Cet article illustre la construction et l’utilisation d’un type dont un attribut est un tableau d’un autre type.

Continue reading...

09/24/2009

Faire fonctionner la Macbook Remote Control sous Ubuntu

Si comme moi vous av(i)ez choisi un Macbook pour la qualité du matériel et viré Mac OS X pour mettre un Linux, alors vous aimeriez peut-être également utiliser votre télécommande Macbook pour contrôler vos applications ?

Continue reading...

Marre des .doc en pièce-jointe ? Pointez le RGI !

Si comme moi vous en avez marre de recevoir des .doc en pièce-jointe de vos courriels, n’hésitez plus à répondre à l’expéditeur en lui indiquant qu’il n’est pas en accord avec le ’’Référentiel Général d’Interopérabilité’’ (RGI) !

Continue reading...

Instancier une classe à partir de son nom

La chose que je préfère dans le paradigme objet, c’est la capacité d’introspection (apparemment le terme réflexion est plus apprécié en français). Dans ce billet je présente une astuce Java que j’avais déjà utilisé dans ce billet pour instancier une classe dont on ne connaît que le nom.

Continue reading...

09/23/2009

Compilation de ressources autour d'Apache UIMA

Un court billet qui compile différents pointeurs web concernant Apache UIMA.

Continue reading...

- page 1 of 3