Blog d'un jeune chercheur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

26août

Calculer le recouvrement de deux textes avec NLTK

Mon travail de thèse, sobrement intitulée Approches par calcul de similarité inter-documentaire pour la détection de dérivations de texte, consiste à évaluer la probabilité qu'un texte dérive d'un autre. Une des applications, que je déteste mais qui a l'avantage de parler à la plupart des gens, est la détection de plagiat.

Une approche, naïve mais simple à mettre en œuvre, consiste à calculer le nombre de mots que deux textes partagent. Voici une proposition d'implémentation d'une telle technique tirant partie de la bibliothèque NLTK.

Lire la suite

29déc.

Qtopia : sauvegarder les contacts au format VCF

J'ai fait l'acquisition d'un OpenMoko il y a quelques mois ... plutôt par conviction et pour "participer". Je ne pensais pas réellement utiliser le téléphone comme tel, mais plutôt comme une plateforme de tests. Malheureusement (ou heureusement) le téléphone portable que j'utilisais est mort peu de temps après mon acquisition... j'utilise donc l'OpenMoko tous les jours, avec plus ou moins de "plaisir". Afin de profiter des améliorations, bien souvent nécessaires, je flash et test de nouvelles images régulièrement ... et régulièrement je perds mon carnet d'adresses, mes sms, ...

Lassé, j'ai écrit un script python permettant de générer un fichier vcard contenant tous les contacts enregistrés dans le répertoire Qtopia (Qtextended ou Om2009.xx) à partir des informations du wiki.

Le fonctionnement est assez simple, le script prend deux paramètre :

  • le chemin vers le fichier sqlite de la base de données Qtopia
  • un nom de fichier de sortie (extension vcf pour la future importation)
shell$ ./dbtovcf.py Applications/Qtopia/qtopia_db.sqlite addressbook.vcf

Il suffit alors de charger le dit fichier à l'aide de l'application addressbook sur l'OpenMoko et suivre les indications sur son écran :

root@om-gta02:~# export DISPLAY=:0
root@om-gta02:~# export LD_LIBRARY_PATH=/opt/Trolltech/Qtopia/lib
root@om-gta02:~# /opt/Trolltech/Qtopia/bin/addressbook addressbook.vcf

Pour obtenir le script, cliquer ici !

05mar.

Tokenisation en mots avec NLTK

Le toolkit NLTK intègre plusieurs algorithmes permettant de découper un texte en mots. Ce billet présente plusieurs d'entre eux.

Lire la suite

10fév.

NLTK et la loi de Zipf (Traduction et Reprise de ACM Crossroads)

Ce billet reprend partiellement l'article du journal ACM Crossroads sur NLTK. Il illustre le potentiel du toolkit NLTK (Natural Language Toolkit) pour Python en montrant l'application de la loi de Zipf sur le corpus Gutenberg.

Lire la suite

22fév.

Utiliser tkinter sous Gentoo

Utilisation de l'interface tk pour Python sous Gentoo.

Lire la suite