Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

09janv.

Premiers pas avec UIMA AS

UIMA offre un cadre de développement structurant pour la mise au point de chaînes de traitement de l'information non structurée. S'il permet simplement de déployer des chaînes complexes et tirer parti de la puissance de calcul des processeurs multicœurs, l'ordonnanceur -- le CPM -- a plusieurs limites :

  • Il n'est pas aisé de déployer une chaîne sur plusieurs machines ;
  • L'affectation de ressources se fait au niveau de la chaîne (CPE) et non au niveau des composants alors que le coût d'exécution de ces derniers est fortement variable ;
  • Les chaînes ne peuvent pas directement traiter un flux continu de données.

Le développement d'UIMA AS cherche à répondre à ces limitations.

Lire la suite

05janv.

Installation des plugins UIMA-AS sous Eclipse Indigo

Au sein de Dictanova, nous avons des besoins importants en termes de distribution de la charge de calcul. Le CPM classique d'UIMA (l'organe chargé de l'ordonnancement des traitements) ne répond pas suffisamment à nos besoins et nous nous tournons donc vers UIMA AS (pour UIMA Asynchronous Scaleout) qui offre des possibilités de montées en charge beaucoup plus importantes en permettant notamment de déployer les Analysis Engine dans plusieurs JVM et sur plusieurs machines.

Je décris dans ce billet la procédure que j'ai mise en oeuvre pour installer les plugins UIMA AS sous Eclipse Indigo.

Lire la suite

22nov.

Ouverture des données publiques à Nantes

Ça y est c'est officiel, Nantes a lancée sa plateforme OpenData. Ça s'est passé ce lundi 21 novembre 2011 à la Cantine --- comme tous les évènements cools qui ont lieu sur Nantes, et je ne dis pas ça que parce que je suis fan de la Cantine Nantaise, d'Atlantic 2 et du quatuor de choc Adrien/Magali/Florent/Lucie !

Le nombre de jeu de données est pour l'instant restreint, mais un jeu en particulier a attiré les contributeurs OSM.

Lire la suite

03nov.

Rencontre des contributeurs Nantais à OSM

Les contributeurs Nantais à Open Street Map (OSM pour les intimes) se donnent rendez-vous ce soir (jeudi 3 novembre 2011) au bar le Flesselles à 19h30.

À l'ordre du jour :

  • Boire un verre (ou plusieurs) tous ensemble
  • Discuter de la création récente de l'association OSM nationale
  • Échanger autour de nos pratiques (outils, méthodes, zones couvertes, ...)
  • Réfléchir à de futures cartoparties (accessibilité notamment)
  • Rétablir la route du campus Tertre

Ces rencontres sont ouvertes à toutes les personnes curieuses de découvrir OSM, pas seulement aux contributeurs réguliers (et moins réguliers).

19juil.

Cartopartie OSM sur Nantes le samedi 23 juillet 2011

Les contributeurs nantais à OpenStreetMap (OSM) organisent une cartopartie ce samedi 23 juillet. La journée est placée sous le signe de la circulation douce : l'objectif est de corriger et compléter les infrastructures dédiées à la circulation douce sur l'agglomération nantaise (pistes cyclables, bornes, ...).

Le rendez-vous est donné à 10h30 au Café Flesselles.

Au programme :

  • Présentation de l'état des lieux et identification des zones prioritaires pour la cartopartie avec une intervention de Benoît Grunberg de GéoVélo ;
  • Formation des équipes et affectation des zones à cartographier ;
  • Fusion des données collectées.

L’événement est ouvert à tous, que vous soyez un novice qui n'a même jamais entendu parlé d'OpenStreetMap ou bien un contributeur confirmé. L'objectif de cette rencontre est de faire avancer le projet OSM dans la convivialité.

Pensez à apporter votre matériel de cartographe (bloc-notes, GPS, appareil photo...), et si possible venez en vélo puisque la cartopartie devrait principalement s'effectuer par ce mode de transport.

11juin

Map/Reduce dans MongoDB

L'un des intérêts de la mouvance NoSQL est d'intégrer le paradigme du Map/Reduce qui consiste à partitionner les données afin de les traiter en parallèle. MongoDB ne fait pas exception et intègre directement ces concepts.

J'explique dans ce billet comment compter le nombre de documents associés à chaque valeur d'un attribut.

Lire la suite

05juin

Copier une annotation d'une vue à une autre dans UIMA

Lorsque l'on travaille avec plusieurs vues au sein d'un même CAS, on se retrouve rapidement confronté au besoin de recopier certaines annotations d'une vue vers une autre.

Lire la suite

26mai

MongoDB c'est cool

Je suis récemment tombé amoureux de la base de données MongoDB. Ses avantages sont nombreux mais j'apprécie tout particulièrement l'absence de schéma et le shell. L'absence de schéma permet d'insérer des structures de données différentes dans les collections ou de modifier les structures existantes de manière transparentes sans impact sur les autres entrées (bye bye ALTER). Le shell quant à lui offre une réelle souplesse qui permet de réaliser des opérations complexes qui auraient nécessiter l'écriture de code sur des bases SQL.

Lire la suite

09mai

Firefox 4 en 64 bits

Un rapide billet pour indiquer à ceux qui comme moi veulent utiliser une version 64 bits de Firefox sans devoir utiliser les compilations nocturnes que des releases 64 bits sont disponibles sur le ftp de mozilla :

http://releases.mozilla.org/pub/mozilla.org/firefox/releases/4.0.1/linux-x86_64/fr/

En fait je me sers surtout de ce billet comme un pense-bête pour m'éviter quelques requêtes Google la prochaine fois que je voudrai réinstaller FF :)

26avr.

Rencontre OSM au Flesselles le 27 avril 2011 à 19h30

Quoi ?

Une rencontre informelle entre contributeurs OpenStreetMap ouverte à tout le monde. L'objectif plus particulier de cette rencontre est de discuter de l'organisation d'un atelier OpenStreetMap à la Cantine.

Que vous soyez contributeur, utilisateur ou simple curieux, vous êtes les bienvenus.

Quand ?

Le mercredi 27 avril 2011 à partir de 19h30.

Où ?

Au café Le Flesselles à Nantes (carte)

06fév.

Présentation OpenStreetMap à la médiathèque de Rezé

Ce samedi 6 Février, j'ai rapidement (2h tout de même) présenté OpenStreetMap dans le cadre des Samedi du Net à la médiathèque de Rezé.

Si d'autres personnes sont intéressées pour réaliser le même genre de présentation (il faut évangéliser au maximum ^^), je tiens les supports à disposition sous licence CC-by-sa :

03fév.

Nantes passe à l'OpenData

C'est du tout frais — même si on l'attendait plus ou moins depuis quelques jours — Jean-Marc Ayrault a profité de l'inauguration de la Cantine Numérique à Nantes pour annoncer que la ville de Nantes se lançait dans la libération de ses données et rejoignait par conséquent le mouvement OpenData.

Lire la suite

26janv.

Interroger OpenStreetMap en Python avec OsmApi

Le projet OpenStreetMap permet de générer de très jolies cartes qui illustreront prochainement Wikipédia. Mais l'intérêt du projet ne s'arrête pas à la création des cartes. Il s'agit bel et bien, à l'instar de Wikipédia, de créer une base de données géographique libre de droit.

Ces données sont accessibles au travers d'une API à qui sait où chercher. Je présente dans ce billet l'utilisation d'une bibliothèque Python permettant d'interroger cette API développer par un collègue Nantais.

Lire la suite

25janv.

OpenStreetMap : requêtes avancées avec l'XAPI

OpenStreetMap est à la cartographie ce que Wikipédia est à l'encyclopédie. Le plus souvent les utilisateurs se contentent des cartes générées que ce soit pour imprimer un plan ou bien à des fins de navigation. Lorsque l'on souhaite accéder aux données du projet il faut habituellement utiliser l'API qui est assez limitée en fonctionnalités et en surtout en masse de données accessibles.

L'XAPI permet de récupérer des données plus vastes et filtrées.

Lire la suite

07janv.

Nettoyage des pages Web avec Web-Harvest

Dans un projet en cours, j'ai besoin d'un outil de nettoyage des pages Web. Par nettoyage des pages Web, j'entends l'isolement et l'extraction des éléments de la page qui constituent son contenu et le filtrage du reste (menus, publicité, scripts...). J'ai notamment proposé avec mon encadrant un sujet de stage à destination des M1 ALMA de l'Université de Nantes. (Le sujet a été écrit en quelques minutes et je me rends compte de plusieurs fautes, veuillez m'en excuser).

Lors de l'écriture de ce sujet de stage, j'ai découvert Web-Harvest, un outil d'extraction de contenu depuis le Web.

Lire la suite

17juil.

Du bon usage des ressources dans UIMA

Les ressources sont un aspect de UIMA que j'ai peu abordé et que j'ai très peu utilisé, sauf récemment lorsque l'on a entraîné un modèle français HMM pour le HMM Tagger (il faut que j'écrive un billet à ce sujet d'ailleurs). Pourtant les ressources, et leur rôle, sont assez mal compris au sein d'UIMA.

Lire la suite

13juil.

Installer Subclipse pour Eclipse Helios

Pour Debian Squeeze, Eclipse Helios n'est pas encore packagée. Je métais contenté de Galileo jusqu'à maintenant mais Subclipse a, pour une raison que je n'arrive toujours pas à m'expliquer, cessé de fonctionner. Après multiples vaines tentatives de retrouver un environnement de travail fonctionnel, j'ai aboutit à Eclipse Helios + Subclipse.

Lire la suite

29juin

"Le réseau n'est pas accessible" incongrue dans Eclipse (ou n'importe quelle application Java)

Depuis ma dernière mise-à-jour dans Debian Squeeze, je me suis aperçu qu'Eclipse (ou bien n'importe quelle application Java) n'était plus en mesure de se connecter au réseau. L'application retourne inéluctablement le message "Le réseau n'est pas accessible", quand bien même toutes les autres applications se connectent sans problème.

Apparemment ce comportement est dû à l'utilisation exclusive d'IPv6 dans Java (JVM Sun ou OpenJDK indifféremment)... ce qui sur les réseaux toujours en IPv4 ne mène à rien, et correspond effectivement à un réseau inaccessible.

La solution consiste à passer l'option -Djava.net.preferIPv4Stack=true à la JVM à son lancement. Pour Eclipse, il suffit d'ajouter cette ligne au fichier eclipse.ini (/etc/eclipse.ini) pour Debian.

La discussion concernant ce bug chez Debian : http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=560142

22juin

Debian : échec du lancement des applications graphiques en root

Je viens tout juste de quitter Ubuntu qui commençait sérieusement à m'agacer avec ses versions pas vraiment finies et ses mises-à-jour de version qui plantent tout. Alors je suis revenu sous la distribution reine : Debian.

Le premier petit accroc que je viens de rencontrer concerne le lancement de l'outil update-manager. Lorsque que je le lance à partir de ma zone de notification, il m'invite à taper mon mot de passe afin de passer root et de s'exécuter, puis se crache lamentablement avec un Failed to run update-manager as user root, suivi d'un petit Failed to communicate with gksu-run-helper.

Le problème vient de l'utilisation de su pour l'authentification, il suffit de le remplacer par sudo. Pour ce faire :

  1. Lancez l'outil de configuration gksu-properties (à partir d'une console)
  2. Placez l'entrée Authentication mode sur sudo
  3. Fermez, c'est corrigé :)

Je ne sais pas si c'est un problème dû à quelques fichiers de configurations restant d'Ubuntu dans mon home, mais c'est un peu gênant. Il faudrait peut-être le remonter aux développeurs Debian.

02avr.

51e billet... un peu de fun : mettre en place une fausse webcam sous Ubuntu

Pour mon 51e billet sur ce blog, je me suis dit que j'allais faire quelque chose d'un peu plus détendu que d'habitude. Voici un petit tutoriel pour installer une fausse webcam sous Ubuntu Karmic.

À quoi ça sert une fausse webcam ? Potentiellement à plusieurs choses :

  • Faire passer le flux de votre vraie webcam qui n'est pas reconnue par Flash dans une fausse reconnue elle par Flash (cherchez pas ^^)
  • Balancer votre dernier film de vacance en streaming à votre mamie par la webcam, sans mettre en place de choses compliquées
  • Faire croire à votre rencard internet que vous êtes Bard Pitt (ou Angelina Jolie... c'est selon le rencard)

Lire la suite

- page 1 de 3