Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

09janv. 2012

Premiers pas avec UIMA AS

UIMA offre un cadre de développement structurant pour la mise au point de chaînes de traitement de l'information non structurée. S'il permet simplement de déployer des chaînes complexes et tirer parti de la puissance de calcul des processeurs multicœurs, l'ordonnanceur -- le CPM -- a plusieurs limites :

  • Il n'est pas aisé de déployer une chaîne sur plusieurs machines ;
  • L'affectation de ressources se fait au niveau de la chaîne (CPE) et non au niveau des composants alors que le coût d'exécution de ces derniers est fortement variable ;
  • Les chaînes ne peuvent pas directement traiter un flux continu de données.

Le développement d'UIMA AS cherche à répondre à ces limitations.

Lire la suite

05janv. 2012

Installation des plugins UIMA-AS sous Eclipse Indigo

Au sein de Dictanova, nous avons des besoins importants en termes de distribution de la charge de calcul. Le CPM classique d'UIMA (l'organe chargé de l'ordonnancement des traitements) ne répond pas suffisamment à nos besoins et nous nous tournons donc vers UIMA AS (pour UIMA Asynchronous Scaleout) qui offre des possibilités de montées en charge beaucoup plus importantes en permettant notamment de déployer les Analysis Engine dans plusieurs JVM et sur plusieurs machines.

Je décris dans ce billet la procédure que j'ai mise en oeuvre pour installer les plugins UIMA AS sous Eclipse Indigo.

Lire la suite

22nov. 2011

Ouverture des données publiques à Nantes

Ça y est c'est officiel, Nantes a lancée sa plateforme OpenData. Ça s'est passé ce lundi 21 novembre 2011 à la Cantine --- comme tous les évènements cools qui ont lieu sur Nantes, et je ne dis pas ça que parce que je suis fan de la Cantine Nantaise, d'Atlantic 2 et du quatuor de choc Adrien/Magali/Florent/Lucie !

Le nombre de jeu de données est pour l'instant restreint, mais un jeu en particulier a attiré les contributeurs OSM.

Lire la suite

21nov. 2011

Travaux Pratique TALN - Contexte syntaxique

Les séances précédentes ont été consacrées à l'analyse lexicale et morphologique. Il est temps de se détacher de la dimension lexicale des textes pour tendre vers la dimension syntaxique.

Lire la suite

14nov. 2011

Travaux Pratique TALN - Morphologie et contexte syntaxique

Dans le TP précédent nous nous sommes limité à l'analyse des mots en-dehors de tout contexte. Il s'est alors agi de découper un texte en mots puis de compter ces derniers.

Dans ce second TP, nous allons nous intéresser à la morphologie des mots (leur forme textuelle). Nous explorerons notamment deux procédés de normalisation morphologique : la racinisation et la lemmatisation. Nous découvrirons ensuite que le contexte des mots, combiné à leur morphologie, peut nous apprendre bien des choses.

Lire la suite

03nov. 2011

Rencontre des contributeurs Nantais à OSM

Les contributeurs Nantais à Open Street Map (OSM pour les intimes) se donnent rendez-vous ce soir (jeudi 3 novembre 2011) au bar le Flesselles à 19h30.

À l'ordre du jour :

  • Boire un verre (ou plusieurs) tous ensemble
  • Discuter de la création récente de l'association OSM nationale
  • Échanger autour de nos pratiques (outils, méthodes, zones couvertes, ...)
  • Réfléchir à de futures cartoparties (accessibilité notamment)
  • Rétablir la route du campus Tertre

Ces rencontres sont ouvertes à toutes les personnes curieuses de découvrir OSM, pas seulement aux contributeurs réguliers (et moins réguliers).

24oct. 2011

Travaux Pratique TALN - Le lexique

Malgré notre projet de création d'entreprise, je tenais à continuer à enseigner le TALN à l'Université. Outre l'intérêt pragmatique du chef d'entreprise qui souhaite ainsi repérer les éléments prometteurs à recruter, l'enseignement est une des meilleures manières de prendre du recul sur un domaine.

Cette année je compte mettre de côté UIMA pour me concentrer sur l'expérimentation. J'ai donc décidé de me tourner vers Python, mon langage de cœur, et les bibliothèques NLTK et scikit-learn.

Pour ce premier TP, je compte faire réfléchir les étudiants sur l'analyse lexicale : découpage d'un texte en mots, calculer une distribution sur un document, puis un corpus, filtrer les mots qui participent peu à l'expression du sens et visualiser un texte à partir de son lexique.

Lire la suite

02sept. 2011

Premières semaines en tant qu'entrepreneur

L'aventure universitaire s'est terminée avec mon contrat d'ingénieur de recherche à l'INRA Nantes-Angers. Je suis désormais entrepreneur, dans l'hypothèse où c'est un statut figé dans le temps ! C'est le début d'une toute nouvelle aventure, extrêmement excitante... C'est aussi l'occasion de légèrement modifier la ligne éditoriale de ce blog (mais pas trop quand même), à commencer par son titre !

Lire la suite

19juil. 2011

Cartopartie OSM sur Nantes le samedi 23 juillet 2011

Les contributeurs nantais à OpenStreetMap (OSM) organisent une cartopartie ce samedi 23 juillet. La journée est placée sous le signe de la circulation douce : l'objectif est de corriger et compléter les infrastructures dédiées à la circulation douce sur l'agglomération nantaise (pistes cyclables, bornes, ...).

Le rendez-vous est donné à 10h30 au Café Flesselles.

Au programme :

  • Présentation de l'état des lieux et identification des zones prioritaires pour la cartopartie avec une intervention de Benoît Grunberg de GéoVélo ;
  • Formation des équipes et affectation des zones à cartographier ;
  • Fusion des données collectées.

L’événement est ouvert à tous, que vous soyez un novice qui n'a même jamais entendu parlé d'OpenStreetMap ou bien un contributeur confirmé. L'objectif de cette rencontre est de faire avancer le projet OSM dans la convivialité.

Pensez à apporter votre matériel de cartographe (bloc-notes, GPS, appareil photo...), et si possible venez en vélo puisque la cartopartie devrait principalement s'effectuer par ce mode de transport.

11juin 2011

Map/Reduce dans MongoDB

L'un des intérêts de la mouvance NoSQL est d'intégrer le paradigme du Map/Reduce qui consiste à partitionner les données afin de les traiter en parallèle. MongoDB ne fait pas exception et intègre directement ces concepts.

J'explique dans ce billet comment compter le nombre de documents associés à chaque valeur d'un attribut.

Lire la suite

05juin 2011

Copier une annotation d'une vue à une autre dans UIMA

Lorsque l'on travaille avec plusieurs vues au sein d'un même CAS, on se retrouve rapidement confronté au besoin de recopier certaines annotations d'une vue vers une autre.

Lire la suite

26mai 2011

MongoDB c'est cool

Je suis récemment tombé amoureux de la base de données MongoDB. Ses avantages sont nombreux mais j'apprécie tout particulièrement l'absence de schéma et le shell. L'absence de schéma permet d'insérer des structures de données différentes dans les collections ou de modifier les structures existantes de manière transparentes sans impact sur les autres entrées (bye bye ALTER). Le shell quant à lui offre une réelle souplesse qui permet de réaliser des opérations complexes qui auraient nécessiter l'écriture de code sur des bases SQL.

Lire la suite

09mai 2011

Firefox 4 en 64 bits

Un rapide billet pour indiquer à ceux qui comme moi veulent utiliser une version 64 bits de Firefox sans devoir utiliser les compilations nocturnes que des releases 64 bits sont disponibles sur le ftp de mozilla :

http://releases.mozilla.org/pub/mozilla.org/firefox/releases/4.0.1/linux-x86_64/fr/

En fait je me sers surtout de ce billet comme un pense-bête pour m'éviter quelques requêtes Google la prochaine fois que je voudrai réinstaller FF :)

26avr. 2011

Rencontre OSM au Flesselles le 27 avril 2011 à 19h30

Quoi ?

Une rencontre informelle entre contributeurs OpenStreetMap ouverte à tout le monde. L'objectif plus particulier de cette rencontre est de discuter de l'organisation d'un atelier OpenStreetMap à la Cantine.

Que vous soyez contributeur, utilisateur ou simple curieux, vous êtes les bienvenus.

Quand ?

Le mercredi 27 avril 2011 à partir de 19h30.

Où ?

Au café Le Flesselles à Nantes (carte)

05avr. 2011

Présentation aux Rendez-vous de la recherche à la Cantine de Nantes

Aujourd'hui, J'ai joué le jeu des Rendez-vous de la Recherche (RdvR pour les intimes) à La Cantine de Nantes. J'y ai présenté mon parcours de jeune chercheur, mon équipe et mon domaine de recherche : le Traitement Automatique des Langues (TAL).

Les Rendez-vous de la Recherche sont organisés par Jean Bézivin et Jean-Pierre Guédon, L'objectif de ces présentations informelles est de faire se rencontrer le monde de la recherche et de l'industrie. Le chercheur présente ses travaux, son équipe et son domaine. Les industriels piochent dans le flot d'information les éléments qui pourraient permettre de résoudre certaines de leurs problématiques et échangent sur ce sujet avec le chercheur. Ceci peut déboucher sur des collaborations, des initiatives...

Le support de ma présentation est disponible sur scribd.

17mar. 2011

Je soutiens ma thèse !

Je soutiendrai ma thèse le Jeudi 24 mars 2011 à 9h30 dans la salle 3 du LINA.

Non seulement la séance est publique, mais de plus vous êtes tous cordialement invité à y assister. Le contenu est détaillé dans la suite du billet.

Lire la suite

17mar. 2011

I'm going to defend my PhD thesis !

I will defend my PhD thesis on March, 24th 2011 at 9:30 am in room 3 of LINA.

Not only is the defense public, but you are welcome to attend. The thesis content is detailed in the rest of this bill.

Lire la suite

17mar. 2011

Visualiser un espace à plusieurs dimensions en 3D

L'analyse en composantes principales (ACP) permet de calculer les hyperplans d'un espace vectoriel tel qu'une projection sur ces plans conserve un maximum d'entropie. Cette approche permet entre autres choses de projeter des espaces ayant un très grand nombre de dimensions dans des espaces de dimensions réduites tout en limitant la perte d'information.

L'utilisation combinée de scikit-learn et de matplotlib permet de produire très rapidement des réductions de dimension et de les visualiser. J'utilise ces bibliothèques pour visualiser dans un espace à 2 ou 3 dimensions des espaces vectoriels correspondant à des représentations de documents à l'aide de traits particuliers.

Lire la suite

06fév. 2011

Présentation OpenStreetMap à la médiathèque de Rezé

Ce samedi 6 Février, j'ai rapidement (2h tout de même) présenté OpenStreetMap dans le cadre des Samedi du Net à la médiathèque de Rezé.

Si d'autres personnes sont intéressées pour réaliser le même genre de présentation (il faut évangéliser au maximum ^^), je tiens les supports à disposition sous licence CC-by-sa :

03fév. 2011

Nantes passe à l'OpenData

C'est du tout frais — même si on l'attendait plus ou moins depuis quelques jours — Jean-Marc Ayrault a profité de l'inauguration de la Cantine Numérique à Nantes pour annoncer que la ville de Nantes se lançait dans la libération de ses données et rejoignait par conséquent le mouvement OpenData.

Lire la suite

- page 1 de 6