12nov. 2009
TP sur la catégorisation de textes
22:32 - Par Fabien Poulard - Sciences & Recherche - aucun commentaire
L'enseignement du TALN a, à mon avis, un réel potentiel d'attraction des étudiants. C'est à mon avis une matière qui peut être facilement attrayante (voir sexy) si l'on s'efforce de renouveler les exercices tout en employant des ressources récentes et des outils qui facilitent les tâches ingrates. Pour ma part, j'ai un souvenir assez mauvais de mes cours de TALN : CM et TD ennuyeux au contenu recyclé depuis l'avènement de l'IA des années 1980 ! Maintenant que c'est à mon tour de m'essayer à l'enseignement de cette matière qui est devenue, assez bizarrement d'ailleurs, ma spécialité, j'essaie de proposer le côté sexy du TALN que j'aurais bien aimé qu'on m'enseigne... est-ce que ça marche ? Il faudrait demander à mes étudiants :)
Un des sujets qui me paraît désormais primordial c'est celui de l'apprentissage ! Alors pour mes étudiants adorés, j'ai concocté un petit sujet aux oignons : Apache UIMA et Weka pour les outils ; Wikinews pour le corpus !
Le TP se découpe en deux parties :
- Une prise en main de Weka
- Une utilisation de l'apprentissage pour le TAL : l'approche sac de mots pour la catégorisation de textes
Voici l'énoncé, et comme je suis vraiment trop sympa, une proposition de correction avec corpus, fichiers intermédiaires (arff), composants UIMA et même un exemple de rapport.
Voilà, comme d'habitude c'est distribué librement (CC-by) dans l'espoir que ça puisse être utile ! Si vous êtes étudiant ou enseignant, n'hésitez pas à me dire ce que vous en pensez, me proposer des améliorations... ou tout simplement à l'utiliser de votre côté !
aucun commentaire