Les séances précédentes ont été consacrées à l'analyse lexicale et morphologique. Il est temps de se détacher de la dimension lexicale des textes pour tendre vers la dimension syntaxique.
Keyword - enseignement
21nov.
Travaux Pratique TALN - Contexte syntaxique
23:42 - Par Fabien Poulard - Sciences & Recherche
14nov.
Travaux Pratique TALN - Morphologie et contexte syntaxique
18:55 - Par Fabien Poulard - Sciences & Recherche
Dans le TP précédent nous nous sommes limité à l'analyse des mots en-dehors de tout contexte. Il s'est alors agi de découper un texte en mots puis de compter ces derniers.
Dans ce second TP, nous allons nous intéresser à la morphologie des mots (leur forme textuelle). Nous explorerons notamment deux procédés de normalisation morphologique : la racinisation et la lemmatisation. Nous découvrirons ensuite que le contexte des mots, combiné à leur morphologie, peut nous apprendre bien des choses.
24oct.
Travaux Pratique TALN - Le lexique
22:38 - Par Fabien Poulard - Sciences & Recherche
Malgré notre projet de création d'entreprise, je tenais à continuer à enseigner le TALN à l'Université. Outre l'intérêt pragmatique du chef d'entreprise qui souhaite ainsi repérer les éléments prometteurs à recruter, l'enseignement est une des meilleures manières de prendre du recul sur un domaine.
Cette année je compte mettre de côté UIMA pour me concentrer sur l'expérimentation. J'ai donc décidé de me tourner vers Python, mon langage de cœur, et les bibliothèques NLTK et scikit-learn.
Pour ce premier TP, je compte faire réfléchir les étudiants sur l'analyse lexicale : découpage d'un texte en mots, calculer une distribution sur un document, puis un corpus, filtrer les mots qui participent peu à l'expression du sens et visualiser un texte à partir de son lexique.
12janv.
Cours de TALN (3) : n-grammes
00:00 - Par Fabien Poulard - Sciences & Recherche
09janv.
Cours de TALN (2) : morphologie et étiquetage des rôles grammaticaux
22:59 - Par Fabien Poulard - Sciences & Recherche
07janv.
Nettoyage des pages Web avec Web-Harvest
00:54 - Par Fabien Poulard - Geek & Technique - 2 commentaires
Dans un projet en cours, j'ai besoin d'un outil de nettoyage des pages Web. Par nettoyage des pages Web, j'entends l'isolement et l'extraction des éléments de la page qui constituent son contenu et le filtrage du reste (menus, publicité, scripts...). J'ai notamment proposé avec mon encadrant un sujet de stage à destination des M1 ALMA de l'Université de Nantes. (Le sujet a été écrit en quelques minutes et je me rends compte de plusieurs fautes, veuillez m'en excuser).
Lors de l'écriture de ce sujet de stage, j'ai découvert Web-Harvest, un outil d'extraction de contenu depuis le Web.
04janv.
Petit script pour découvrir les expressions rationnelles
15:21 - Par Fabien Poulard - Sciences & Recherche - un commentaire
Comme j'en discutais dans mon billet précédent, mon premier cours cette année a principalement porté sur les expressions rationnelles. J'ai tiré deux bilans de ce cours :
- il faut que les étudiants manipulent au maximum
- il faut qu'ils comprennent mieux ce qui se passe dans les moteurs d'expressions rationnelles pour corriger leurs erreurs
J'ai donc écrit un script Python pour les accompagner dans leur découverte des expressions rationnelles.
03janv.
Cours de TALN (1) : expressions rationnelles
16:54 - Par Fabien Poulard - Sciences & Recherche
Voilà, suite à mon précédent billet, je me suis décidé à me lancer dans l'écriture du cours que je dois donner demain.
03janv.
Un cours de TALN parfait ?
00:55 - Par Fabien Poulard - Sciences & Recherche - un commentaire
Depuis le début de mon doctorat j'ai eu la chance de pouvoir dispenser plusieurs enseignements autour du TALN. Malheureusement je n'ai jamais été responsable du module et je n'ai jamais tellement eu la liberté d'enseigner comme je le souhaitais. Personnellement je n'ai pas aimé la façon dont le TALN m'a été enseigné et par conséquent je n'aime pas l'enseigner de la même façon qu'il me l'a été.
Quelle aurait été le cours de TALN que j'aurais aimé avoir ? Certainement quelque chose mieux ancré dans le TALN d'aujourd'hui et orienté vers les méthodes et les applications !
09mar.
Utiliser Bazaar au travers de Web DAV
14:42 - Par Fabien Poulard - Geek & Technique
Dans le cadre de mon cours sur les outils pour le travail collaboratif, je fais travailler tous mes étudiants ensembles sur un même projet. Ces derniers sont alors invités (fortement) à utiliser plusieurs outils dans le cadre de leur collaboration : messagerie instantanée (IRC), wiki et gestionnaire de tickets (Trac) et un gestionnaire de version décentralisé (bazaar).
Avant je leur faisais utiliser subversion qui a un module Apache dédié et qui est pris en charge par défaut dans Trac. La nouveauté de cette année c'est l'utilisation de Bazaar...
08nov.
Corpus des discours de Nicolas Sarkozy
03:11 - Par Fabien Poulard - Sciences & Recherche - 2 commentaires
Dans le cadre d'un de mes enseignements du TAL, j'ai proposé comme projet à mes étudiants de mettre au point une chaîne de traitement permettant de rapprocher des documents similaires sur le fond ou la forme, ces deux notions étant elles-même à définir (par les étudiants). Pour coller avec l'actualité, je leur ai proposé de travailler sur les discours prononcé par notre président de la République.