Les séances précédentes ont été consacrées à l'analyse lexicale et morphologique. Il est temps de se détacher de la dimension lexicale des textes pour tendre vers la dimension syntaxique.
Keyword - corpus
21nov.
Travaux Pratique TALN - Contexte syntaxique
23:42 - Par Fabien Poulard - Sciences & Recherche
14nov.
Travaux Pratique TALN - Morphologie et contexte syntaxique
18:55 - Par Fabien Poulard - Sciences & Recherche
Dans le TP précédent nous nous sommes limité à l'analyse des mots en-dehors de tout contexte. Il s'est alors agi de découper un texte en mots puis de compter ces derniers.
Dans ce second TP, nous allons nous intéresser à la morphologie des mots (leur forme textuelle). Nous explorerons notamment deux procédés de normalisation morphologique : la racinisation et la lemmatisation. Nous découvrirons ensuite que le contexte des mots, combiné à leur morphologie, peut nous apprendre bien des choses.
24oct.
Travaux Pratique TALN - Le lexique
22:38 - Par Fabien Poulard - Sciences & Recherche
Malgré notre projet de création d'entreprise, je tenais à continuer à enseigner le TALN à l'Université. Outre l'intérêt pragmatique du chef d'entreprise qui souhaite ainsi repérer les éléments prometteurs à recruter, l'enseignement est une des meilleures manières de prendre du recul sur un domaine.
Cette année je compte mettre de côté UIMA pour me concentrer sur l'expérimentation. J'ai donc décidé de me tourner vers Python, mon langage de cœur, et les bibliothèques NLTK et scikit-learn.
Pour ce premier TP, je compte faire réfléchir les étudiants sur l'analyse lexicale : découpage d'un texte en mots, calculer une distribution sur un document, puis un corpus, filtrer les mots qui participent peu à l'expression du sens et visualiser un texte à partir de son lexique.
03janv.
Cours de TALN (1) : expressions rationnelles
16:54 - Par Fabien Poulard - Sciences & Recherche
Voilà, suite à mon précédent billet, je me suis décidé à me lancer dans l'écriture du cours que je dois donner demain.
03janv.
Un cours de TALN parfait ?
00:55 - Par Fabien Poulard - Sciences & Recherche - un commentaire
Depuis le début de mon doctorat j'ai eu la chance de pouvoir dispenser plusieurs enseignements autour du TALN. Malheureusement je n'ai jamais été responsable du module et je n'ai jamais tellement eu la liberté d'enseigner comme je le souhaitais. Personnellement je n'ai pas aimé la façon dont le TALN m'a été enseigné et par conséquent je n'aime pas l'enseigner de la même façon qu'il me l'a été.
Quelle aurait été le cours de TALN que j'aurais aimé avoir ? Certainement quelque chose mieux ancré dans le TALN d'aujourd'hui et orienté vers les méthodes et les applications !
13mar.
Corpus des discours de Nicolas Sarkozy (MÀJ)
23:08 - Par Fabien Poulard - Sciences & Recherche - un commentaire
Dans ce billet, j'avais distribué un corpus des discours de Nicolas Sarkozy. Depuis, le président a bien entendu prononcé un certain nombre de nouveaux discours. J'ai complété le corpus constitué à l'époque en conséquence.
06mar.
Utilisation du CAS Editor
19:21 - Par Fabien Poulard - Sciences & Recherche
Il y a quelques temps j'avais écrit une documentation en interne dans mon laboratoire sur l'utilisation du ''CAS Editor''. À l'époque c'était assez éprouvant car ce dernier se présentait sous la forme d'une application RCP Eclipse.
Depuis la version 2.3.0, le CAS Editor a été intégré sous la forme d'un plugin Eclipse. L'occasion de remettre la doc au goût du jour et de la partager avec le reste du monde.
08nov.
Corpus des discours de Nicolas Sarkozy
03:11 - Par Fabien Poulard - Sciences & Recherche - 2 commentaires
Dans le cadre d'un de mes enseignements du TAL, j'ai proposé comme projet à mes étudiants de mettre au point une chaîne de traitement permettant de rapprocher des documents similaires sur le fond ou la forme, ces deux notions étant elles-même à définir (par les étudiants). Pour coller avec l'actualité, je leur ai proposé de travailler sur les discours prononcé par notre président de la République.
21juil.
Créer une copie locale de Wikipedia dans une base PostgreSQL
19:08 - Par Fabien Poulard - Geek & Technique
Wikipédia est une ressource formidable en termes de connaissances ! La connaissance du monde bien sûr par son rôle d'encycolpédie, mais également une connaissance du langage : il s'agit très certainement du plus grand corpus libre de textes récents et variés. Qu'il s'agisse des articles plus ou moins spécialisés de l'encyclopédie, des ressources lexicales du Wiktionary ou encore des ressources journalistiques de Wikinews.
Si l'on veut tirer profit de ces ressources pour faire de la recherche, il est très rapidement intéressant d'avoir une copie locale de Wikipédia. Ceci économise les serveurs de la fondation et offre des performances bien supérieures.
Cette article expose pas à pas les étapes nécessaires à la création d'un miroir Wikipédia en local dans une base PostgreSQL. L'opération est presque triviale pour un miroir MySQL mais PostgreSQL offre à mon avis plus de flexibilité pour de meilleures performances.