03/09/2010
By Fabien Poulard on 03/09/2010, 14:42 - Enseignement
Dans le cadre de mon cours sur les outils pour le travail collaboratif, je fais travailler tous mes étudiants ensembles sur un même projet. Ces derniers sont alors invités (fortement) à utiliser plusieurs outils dans le cadre de leur collaboration : messagerie instantanée (IRC), wiki et gestionnaire de tickets (Trac) et un gestionnaire de version décentralisé (bazaar).
Avant je leur faisais utiliser subversion qui a un module Apache dédié et qui est pris en charge par défaut dans Trac. La nouveauté de cette année c’est l’utilisation de Bazaar...
Continue reading...
no trackback
03/06/2010
By Fabien Poulard on 03/06/2010, 19:21 - Recherche
Il y a quelques temps j’avais écrit une documentation en interne dans mon laboratoire sur l’utilisation du ’’CAS Editor’’. À l’époque c’était assez éprouvant car ce dernier se présentait sous la forme d’une application RCP Eclipse.
Depuis la version 2.3.0, le CAS Editor a été intégré sous la forme d’un plugin Eclipse. L’occasion de remettre la doc au goût du jour et de la partager avec le reste du monde.
Continue reading...
no trackback
03/04/2010
By Fabien Poulard on 03/04/2010, 13:39 - Recherche
Wikipedia is an incredible source of information, data and more generally of language acts (uses of language). It is a unique resource for researchers in natural language processing (NLP).
The MediaWiki UIMA Loader is a UIMA component, a collection reader to be more specific, that is able of making use of Wikipedia to build corpora. The 0.4 version is the first release publicly announced for this component.
Continue reading...
no trackback
02/21/2010
By Fabien Poulard on 02/21/2010, 17:56 - Recherche
La création de composants UIMA permettant d’accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l’encyclopédie libre. Je compte m’atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.
Voici le cinquième billet, plus orienté technique de développement, qui discute de la gestion du projet avec Maven, permettant notamment de gérer automatiquement les dépendances à MWDumper et à Wikimodel.
Continue reading...
no trackback
02/19/2010
By Fabien Poulard on 02/19/2010, 15:11 - Pratique
Après les annonces récentes concernant la sécurité des systèmes informatiques (ici ou là), je me suis dit que ce serait pas mal de m’intéresser un peu à la sécurité de mon serveur.
Je vais commencer par SSH étant donné qu’il s’agit du moyen le plus classique pour entrer sur le serveur.
Continue reading...
no trackback
02/14/2010
By Fabien Poulard on 02/14/2010, 14:35 - Recherche
Wikipedia est une incroyable source d’information, de données et plus généralement d’actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d’observer de très nombreux exemples d’utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d’utilisation du langage sous forme de corpus.
La création de composants UIMA permettant d’accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l’encyclopédie libre. Je compte m’atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.
Voici le quatrième billet qui discute de l’analyse syntaxique du contenu des pages wiki pour la suppression des balises Wiki.
Continue reading...
no trackback
02/12/2010
By Fabien Poulard on 02/12/2010, 14:56 - Recherche
Wikipedia est une incroyable source d’information, de données et plus généralement d’actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d’observer de très nombreux exemples d’utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d’utilisation du langage sous forme de corpus.
La création de composants UIMA permettant d’accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l’encyclopédie libre. Je compte m’atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.
Voici le troisième billet qui discute du filtrage des données à charger : articles, révision, ...
Continue reading...
no trackback
02/02/2010
By Fabien Poulard on 02/02/2010, 14:05 - Recherche
Wikipedia est une incroyable source d’information, de données et plus généralement d’actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d’observer de très nombreux exemples d’utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d’utilisation du langage sous forme de corpus.
La création de composants UIMA permettant d’accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l’encyclopédie libre. Je compte m’atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.
Voici le second billet qui discute du chargement d’un dump XML de l’encyclopédie libre et la distribution du contenu sous forme de CAS.
Continue reading...
no trackback
02/01/2010
By Fabien Poulard on 02/01/2010, 02:15 - Recherche
Wikipedia est une incroyable source d’information, de données et plus généralement d’actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d’observer de très nombreux exemples d’utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d’utilisation du langage sous forme de corpus.
La création de composants UIMA permettant d’accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l’encyclopédie libre. Je compte m’atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.
Voici le premier billet qui discute de la création d’un Type System approprié pour représenter les pages de Wikipedia.
Continue reading...
no trackback
01/29/2010
By Fabien Poulard on 01/29/2010, 10:48 - Recherche
L’annonce est parue hier sur les listes concernées, la nouvelle version du framework Apache UIMA (Unstructured Information Management
Architecture) est sortie, estampillée 2.3 !
Continue reading...
no trackback
12/19/2009
By Fabien Poulard on 12/19/2009, 22:00 - Pratique
Vous trouvez que bon nombre de vos amis, vous compris, utilisez un nombre important d’anglicismes et autres mots importés de langues étrangères bien que vous soupçonniez l’existence d’un mot équivalent en Français. Vous aimeriez un outil intégré à votre traitement de texte favori du type du correcteur orthographique ? Le correcteur terminologique français est fait pour vous !
Continue reading...
no trackback
11/18/2009
By Fabien Poulard on 11/18/2009, 13:28 - Recherche
Dans ce billet, j’avais décrit une méthode permettant de créer un miroir local de Wikipédia dans une base PostgreSQL. Plus précisément, la démarche fonctionnait pour Wikinews en tant que super-utilisateur postgres, mais je ne pouvais pas aller plus en avant étant donné que mon serveur ne possédait pas assez d’espace pour accueillir un miroir Wikipédia.
Heureuse nouvelle, mon laboratoire a fait l’acquisition d’un énorme serveur (24 cœurs Xeon à 2,6GHz, 200Go de RAM, et 1,5To d’espace disque) sur lequel j’ai pu expérimenter la création d’un réel miroir Wikipédia qui plus est sur un serveur sur lequel je ne suis pas administrateur... impossible donc de passer super-administrateur de la base !
Continue reading...
no trackback
11/12/2009
By Fabien Poulard on 11/12/2009, 22:32 - Enseignement
L’enseignement du TALN a, à mon avis, un réel potentiel d’attraction des étudiants. C’est à mon avis une matière qui peut être facilement attrayante (voir sexy) si l’on s’efforce de renouveler les exercices tout en employant des ressources récentes et des outils qui facilitent les tâches ingrates. Pour ma part, j’ai un souvenir assez mauvais de mes cours de TALN : CM et TD ennuyeux au contenu recyclé depuis l’avènement de l’IA des années 1980 ! Maintenant que c’est à mon tour de m’essayer à l’enseignement de cette matière qui est devenue, assez bizarrement d’ailleurs, ma spécialité, j’essaie de proposer le côté sexy du TALN que j’aurais bien aimé qu’on m’enseigne... est-ce que ça marche ? Il faudrait demander à mes étudiants :)
Un des sujets qui me paraît désormais primordial c’est celui de l’apprentissage ! Alors pour mes étudiants adorés, j’ai concocté un petit sujet aux oignons : Apache UIMA et Weka pour les outils ; Wikinews pour le corpus !
Continue reading...
no trackback
11/09/2009
By Fabien Poulard on 11/09/2009, 10:18 - Recherche
Depuis le début de ma thèse, nous (un sous-ensemble dynamique de mon équipe de recherche) avons mis l’accent sur la nécessité de développer nos outils autour d’une plateforme unifiée afin que chacun tire parti du travail des autres. Nous avons alors proposé la solution du framework Apache UIMA, proposé des formations autour de ce dernier et entamé une migration des outils existant. L’initiative est aujourd’hui un succès: nous sommes monté en compétence sur UIMA et les nouveaux doctorants travaillent tous autour de cette plateforme !
Les bénéfices d’une plateforme unifiée au sein d’une équipe seraient à notre avis amplifiés si cette initiative était étendue à toute la communauté francophone ! Chacun pourrait alors profiter directement des développements et ressources développées par les autres équipes. C’est sur la base de cette hypothèse que nous prenons l’initiative d’initier la construction d’une communauté UIMA francophone.
Continue reading...
no trackback
11/08/2009
By Fabien Poulard on 11/08/2009, 03:11 - Enseignement
Dans le cadre d’un de mes enseignements du TAL, j’ai proposé comme projet à mes étudiants de mettre au point une chaîne de traitement permettant de rapprocher des documents similaires sur le fond ou la forme, ces deux notions étant elles-même à définir (par les étudiants). Pour coller avec l’actualité, je leur ai proposé de travailler sur les discours prononcé par notre président de la République.
Continue reading...
no trackback
09/30/2009
By Fabien Poulard on 09/30/2009, 15:13 - UIMA FAQ
L’un des avantages indéniable de UIMA est de pouvoir définir son propre TypeSystem, ie l’ensemble des éléments que l’on va manipuler. De plus, ce TypeSystem est un arbre d’objets, ce qui permet de construire des structures de données enchevêtrées complexes.
Cet article illustre la construction et l’utilisation d’un type dont un attribut est un tableau d’un autre type.
Continue reading...
no trackback
09/24/2009
By Fabien Poulard on 09/24/2009, 20:45 - Pratique
Si comme moi vous av(i)ez choisi un Macbook pour la qualité du matériel et viré Mac OS X pour mettre un Linux, alors vous aimeriez peut-être également utiliser votre télécommande Macbook pour contrôler vos applications ?
Continue reading...
no trackback
By Fabien Poulard on 09/24/2009, 17:41 - Politique
Si comme moi vous en avez marre de recevoir des .doc en pièce-jointe de vos courriels, n’hésitez plus à répondre à l’expéditeur en lui indiquant qu’il n’est pas en accord avec le ’’Référentiel Général d’Interopérabilité’’ (RGI) !
Continue reading...
no trackback
By Fabien Poulard on 09/24/2009, 10:54 - Pratique
La chose que je préfère dans le paradigme objet, c’est la capacité d’introspection (apparemment le terme réflexion est plus apprécié en français). Dans ce billet je présente une astuce Java que j’avais déjà utilisé dans ce billet pour instancier une classe dont on ne connaît que le nom.
Continue reading...
no trackback
09/23/2009
By Fabien Poulard on 09/23/2009, 02:09 - Recherche
Un court billet qui compile différents pointeurs web concernant Apache UIMA.
Continue reading...
no trackback