Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

07août 2013

Visualiser la distribution d'un attribut Mongo avec R

Les statistiques descriptives ont ceci de formidable qu'elles permettent rapidement de se donner une idée de ce à quoi ressemblent des données... ces fameuses données qui peuplent nos bases de données à Dictanova :)

Ainsi, nous souhaitons parfois savoir quelles sont les valeurs d'un attribut particulier.

Lire la suite

08mai 2013

Piloter Gnumeric depuis Python

Gnumeric est le tableur de l'environnement GNOME. Il a l'avantage d'être beaucoup plus léger que LibreOffice Calc ce qui le rend particulièrement agréable d'utilisation pour travailler sur des tableaux de taille raisonnable.

Habituellement, je travaille dans un premier temps mes données sous Gnumeric, Calc ou Open Refine selon leur complexité et bien sûr lorsqu'elles peuvent tenir en mémoire. Une fois les données nettoyées, j'exporte le tout en CSV pour les analyser avec R ou directement en Python. Cependant je me suis récemment aperçu que Gnumeric offrait une console Python... j'ai donc essayé.

Lire la suite

05mai 2013

Web2Day 2013 : données et analyse prédictive

Les 16 et 17 mai prochains se déroulera la 5ème édition du web2day, le festival du numérique dédié à lʼinnovation et au Web. L'évènement est organisé par lʼassociation Atlantic 2.0, le réseau des acteurs du Web et de lʼinnovation numérique en Pays de la Loire, et prendra place à Stereolux, sur lʼîle de Nantes, pour la deuxième année consécutive.

Lors de cette édition j'aurai l'immense plaisir d'animer la partie du thème sur l'enjeux des données dédiée à l'analyse prédictive, ou «Comment peut-on utiliser les données du moment pour prédire les données à venir ?». L'autre partie du thème sur l'opportunité économique des données est gérée par Claire de Libertic, ultime experte de l'open data.

Lire la suite

23déc. 2012

Extraction de données d'OpenStreetMap hors ligne

Dans ces différents billets, j'avais expliqué comment extraire des données depuis OpenStreetMap en interrogeant directement les serveurs. Dans ce billet, je propose une approche plus classique qui consiste à directement traiter les fichiers OSM à l'aide d'Osmosis.

Pour l'exercice, je propose de réitérer le travail d'extraction des arrêts de bus et de tramway mais sur la ville d'Angers. Pourquoi ? Parce qu'on me l'a demandé et que l'exercice est intéressant :)

Lire la suite

04déc. 2012

Dictanova... un an plus tard

Dans ce billet je partageais avec vous mes premières semaines en tant qu'entrepreneur. Sacré teasing puisque je ne crois pas avoir publié quoi que ce soit depuis sur le sujet ! Mes plus plates excuses à ceux que ça intéresse... mais en réalité on essaie de publier nos aventures directement sur le blog de Dictanova.

Lire la suite

03sept. 2012

Cartopartie Ouganda ce mercredi 5 septembre à Nantes

La Cantine Numérique et les contributeurs OpenStreetMap nantais organisent une session d'initiation aux outils de cartographie et notamment JOSM :

le Mercredi 5 septembre, à 18h , à La Cantine de Nantes

En participant à cet atelier, non seulement vous apprendrez à utiliser JOSM (l'outil ultime du contributeur OSM) mais en plus vous ferez votre BA puisque l'objet de l'atelier est de cartographier une partie de l'Ouganda à partir de cartes satellites afin de faciliter le travail des organisations humanitaires sur place !

Venez nombreux :)

21juil. 2012

Exporter des éléments géoréférencés depuis OSM avec JOSM

La base de données OSM est une formidable source d'information concernant les lieux et autres artefacts composant nos villes et nos campagnes. Malheureusement, les gens perçoivent souvent le projet au travers uniquement des rendus de cartes et passent ainsi à côté de toute cette richesse. Il faut dire qu'interroger la base de données n'est pas chose aisée, les diverses API ne sont pas forcément facile à prendre en main, en particulier lorsque l'on n'est pas développeur. Je me suis moi-même cassé plusieurs fois les dents dessus lors d'hackatons.

Je propose dans ce billet une méthode assez simple et directe pour récupérer des données depuis OSM en utilisant le système de filtres de JOSM.

Lire la suite

03juin 2012

Migrer une partie d'un dépôt subversion vers un autre dépôt

Avec l'expérience, je me rends compte que la structuration d'un dépôt subversion n'est jamais satisfaisante et que l'on se retrouve continuellement à vouloir bouger des choses, fusionner certains projets, en éclater d'autres... Parfois il est préférable de repartir proprement sur un nouveau dépôt, sans perdre l'historique des révisions accumulés dans l'ancien.

Lire la suite

19mai 2012

Plantage de Tomcat : java.lang.OutOfMemoryError: PermGen space

Depuis plusieurs semaines je constate des plantages réguliers de Tomcat avec pour seule trace dans les logs l'abscon message :

java.lang.OutOfMemoryError: PermGen space

Lire la suite

02mar. 2012

Stage OpenStreetMap à Nantes

La Biliothèque de Rezé organise un stage sur 3 jours dédié à la cartographie sur Internet et en particulier OpenStreetMap. Si vous êtes de la région nantaise et que vous avez toujours souhaité vous essayer à OSM sans n'avoir jamais osé, c'est l'occasion !

Le stage est animé par deux contributeurs à OSM et devrait être passionnant. Il se tiendra du 13 au 16 mars 2012 de 19h à 21h à la Médiathèque Diderot.

Attention, l'inscription est obligatoire pour pouvoir participer. Pour en savoir plus : le petit flyer de présentation.

09janv. 2012

Premiers pas avec UIMA AS

UIMA offre un cadre de développement structurant pour la mise au point de chaînes de traitement de l'information non structurée. S'il permet simplement de déployer des chaînes complexes et tirer parti de la puissance de calcul des processeurs multicœurs, l'ordonnanceur -- le CPM -- a plusieurs limites :

  • Il n'est pas aisé de déployer une chaîne sur plusieurs machines ;
  • L'affectation de ressources se fait au niveau de la chaîne (CPE) et non au niveau des composants alors que le coût d'exécution de ces derniers est fortement variable ;
  • Les chaînes ne peuvent pas directement traiter un flux continu de données.

Le développement d'UIMA AS cherche à répondre à ces limitations.

Lire la suite

05janv. 2012

Installation des plugins UIMA-AS sous Eclipse Indigo

Au sein de Dictanova, nous avons des besoins importants en termes de distribution de la charge de calcul. Le CPM classique d'UIMA (l'organe chargé de l'ordonnancement des traitements) ne répond pas suffisamment à nos besoins et nous nous tournons donc vers UIMA AS (pour UIMA Asynchronous Scaleout) qui offre des possibilités de montées en charge beaucoup plus importantes en permettant notamment de déployer les Analysis Engine dans plusieurs JVM et sur plusieurs machines.

Je décris dans ce billet la procédure que j'ai mise en oeuvre pour installer les plugins UIMA AS sous Eclipse Indigo.

Lire la suite

22nov. 2011

Ouverture des données publiques à Nantes

Ça y est c'est officiel, Nantes a lancée sa plateforme OpenData. Ça s'est passé ce lundi 21 novembre 2011 à la Cantine --- comme tous les évènements cools qui ont lieu sur Nantes, et je ne dis pas ça que parce que je suis fan de la Cantine Nantaise, d'Atlantic 2 et du quatuor de choc Adrien/Magali/Florent/Lucie !

Le nombre de jeu de données est pour l'instant restreint, mais un jeu en particulier a attiré les contributeurs OSM.

Lire la suite

21nov. 2011

Travaux Pratique TALN - Contexte syntaxique

Les séances précédentes ont été consacrées à l'analyse lexicale et morphologique. Il est temps de se détacher de la dimension lexicale des textes pour tendre vers la dimension syntaxique.

Lire la suite

14nov. 2011

Travaux Pratique TALN - Morphologie et contexte syntaxique

Dans le TP précédent nous nous sommes limité à l'analyse des mots en-dehors de tout contexte. Il s'est alors agi de découper un texte en mots puis de compter ces derniers.

Dans ce second TP, nous allons nous intéresser à la morphologie des mots (leur forme textuelle). Nous explorerons notamment deux procédés de normalisation morphologique : la racinisation et la lemmatisation. Nous découvrirons ensuite que le contexte des mots, combiné à leur morphologie, peut nous apprendre bien des choses.

Lire la suite

03nov. 2011

Rencontre des contributeurs Nantais à OSM

Les contributeurs Nantais à Open Street Map (OSM pour les intimes) se donnent rendez-vous ce soir (jeudi 3 novembre 2011) au bar le Flesselles à 19h30.

À l'ordre du jour :

  • Boire un verre (ou plusieurs) tous ensemble
  • Discuter de la création récente de l'association OSM nationale
  • Échanger autour de nos pratiques (outils, méthodes, zones couvertes, ...)
  • Réfléchir à de futures cartoparties (accessibilité notamment)
  • Rétablir la route du campus Tertre

Ces rencontres sont ouvertes à toutes les personnes curieuses de découvrir OSM, pas seulement aux contributeurs réguliers (et moins réguliers).

24oct. 2011

Travaux Pratique TALN - Le lexique

Malgré notre projet de création d'entreprise, je tenais à continuer à enseigner le TALN à l'Université. Outre l'intérêt pragmatique du chef d'entreprise qui souhaite ainsi repérer les éléments prometteurs à recruter, l'enseignement est une des meilleures manières de prendre du recul sur un domaine.

Cette année je compte mettre de côté UIMA pour me concentrer sur l'expérimentation. J'ai donc décidé de me tourner vers Python, mon langage de cœur, et les bibliothèques NLTK et scikit-learn.

Pour ce premier TP, je compte faire réfléchir les étudiants sur l'analyse lexicale : découpage d'un texte en mots, calculer une distribution sur un document, puis un corpus, filtrer les mots qui participent peu à l'expression du sens et visualiser un texte à partir de son lexique.

Lire la suite

02sept. 2011

Premières semaines en tant qu'entrepreneur

L'aventure universitaire s'est terminée avec mon contrat d'ingénieur de recherche à l'INRA Nantes-Angers. Je suis désormais entrepreneur, dans l'hypothèse où c'est un statut figé dans le temps ! C'est le début d'une toute nouvelle aventure, extrêmement excitante... C'est aussi l'occasion de légèrement modifier la ligne éditoriale de ce blog (mais pas trop quand même), à commencer par son titre !

Lire la suite

19juil. 2011

Cartopartie OSM sur Nantes le samedi 23 juillet 2011

Les contributeurs nantais à OpenStreetMap (OSM) organisent une cartopartie ce samedi 23 juillet. La journée est placée sous le signe de la circulation douce : l'objectif est de corriger et compléter les infrastructures dédiées à la circulation douce sur l'agglomération nantaise (pistes cyclables, bornes, ...).

Le rendez-vous est donné à 10h30 au Café Flesselles.

Au programme :

  • Présentation de l'état des lieux et identification des zones prioritaires pour la cartopartie avec une intervention de Benoît Grunberg de GéoVélo ;
  • Formation des équipes et affectation des zones à cartographier ;
  • Fusion des données collectées.

L’événement est ouvert à tous, que vous soyez un novice qui n'a même jamais entendu parlé d'OpenStreetMap ou bien un contributeur confirmé. L'objectif de cette rencontre est de faire avancer le projet OSM dans la convivialité.

Pensez à apporter votre matériel de cartographe (bloc-notes, GPS, appareil photo...), et si possible venez en vélo puisque la cartopartie devrait principalement s'effectuer par ce mode de transport.

11juin 2011

Map/Reduce dans MongoDB

L'un des intérêts de la mouvance NoSQL est d'intégrer le paradigme du Map/Reduce qui consiste à partitionner les données afin de les traiter en parallèle. MongoDB ne fait pas exception et intègre directement ces concepts.

J'explique dans ce billet comment compter le nombre de documents associés à chaque valeur d'un attribut.

Lire la suite

- page 1 de 7