Depuis plusieurs semaines je constate des plantages réguliers de Tomcat avec pour seule trace dans les logs l'abscon message :
java.lang.OutOfMemoryError: PermGen space
19mai 2012
11:56 - Par Fabien Poulard - Geek & Technique - aucun commentaire
Depuis plusieurs semaines je constate des plantages réguliers de Tomcat avec pour seule trace dans les logs l'abscon message :
java.lang.OutOfMemoryError: PermGen space
02mar. 2012
13:49 - Par Fabien Poulard - Geek & Technique
La Biliothèque de Rezé organise un stage sur 3 jours dédié à la cartographie sur Internet et en particulier OpenStreetMap. Si vous êtes de la région nantaise et que vous avez toujours souhaité vous essayer à OSM sans n'avoir jamais osé, c'est l'occasion !
Le stage est animé par deux contributeurs à OSM et devrait être passionnant. Il se tiendra du 13 au 16 mars 2012 de 19h à 21h à la Médiathèque Diderot.
Attention, l'inscription est obligatoire pour pouvoir participer. Pour en savoir plus : le petit flyer de présentation.
09janv. 2012
10:00 - Par Fabien Poulard - Geek & Technique
UIMA offre un cadre de développement structurant pour la mise au point de chaînes de traitement de l'information non structurée. S'il permet simplement de déployer des chaînes complexes et tirer parti de la puissance de calcul des processeurs multicœurs, l'ordonnanceur -- le CPM -- a plusieurs limites :
Le développement d'UIMA AS cherche à répondre à ces limitations.
05janv. 2012
11:28 - Par Fabien Poulard - Geek & Technique
Au sein de Dictanova, nous avons des besoins importants en termes de distribution de la charge de calcul. Le CPM classique d'UIMA (l'organe chargé de l'ordonnancement des traitements) ne répond pas suffisamment à nos besoins et nous nous tournons donc vers UIMA AS (pour UIMA Asynchronous Scaleout) qui offre des possibilités de montées en charge beaucoup plus importantes en permettant notamment de déployer les Analysis Engine dans plusieurs JVM et sur plusieurs machines.
Je décris dans ce billet la procédure que j'ai mise en oeuvre pour installer les plugins UIMA AS sous Eclipse Indigo.
22nov. 2011
22:37 - Par Fabien Poulard - Geek & Technique - 2 commentaires
Ça y est c'est officiel, Nantes a lancée sa plateforme OpenData. Ça s'est passé ce lundi 21 novembre 2011 à la Cantine --- comme tous les évènements cools qui ont lieu sur Nantes, et je ne dis pas ça que parce que je suis fan de la Cantine Nantaise, d'Atlantic 2 et du quatuor de choc Adrien/Magali/Florent/Lucie !
Le nombre de jeu de données est pour l'instant restreint, mais un jeu en particulier a attiré les contributeurs OSM.
21nov. 2011
23:42 - Par Fabien Poulard - Sciences & Recherche
Les séances précédentes ont été consacrées à l'analyse lexicale et morphologique. Il est temps de se détacher de la dimension lexicale des textes pour tendre vers la dimension syntaxique.
14nov. 2011
18:55 - Par Fabien Poulard - Sciences & Recherche
Dans le TP précédent nous nous sommes limité à l'analyse des mots en-dehors de tout contexte. Il s'est alors agi de découper un texte en mots puis de compter ces derniers.
Dans ce second TP, nous allons nous intéresser à la morphologie des mots (leur forme textuelle). Nous explorerons notamment deux procédés de normalisation morphologique : la racinisation et la lemmatisation. Nous découvrirons ensuite que le contexte des mots, combiné à leur morphologie, peut nous apprendre bien des choses.
03nov. 2011
11:40 - Par Fabien Poulard - Geek & Technique
Les contributeurs Nantais à Open Street Map (OSM pour les intimes) se donnent rendez-vous ce soir (jeudi 3 novembre 2011) au bar le Flesselles à 19h30.
À l'ordre du jour :
Ces rencontres sont ouvertes à toutes les personnes curieuses de découvrir OSM, pas seulement aux contributeurs réguliers (et moins réguliers).
24oct. 2011
22:38 - Par Fabien Poulard - Sciences & Recherche
Malgré notre projet de création d'entreprise, je tenais à continuer à enseigner le TALN à l'Université. Outre l'intérêt pragmatique du chef d'entreprise qui souhaite ainsi repérer les éléments prometteurs à recruter, l'enseignement est une des meilleures manières de prendre du recul sur un domaine.
Cette année je compte mettre de côté UIMA pour me concentrer sur l'expérimentation. J'ai donc décidé de me tourner vers Python, mon langage de cœur, et les bibliothèques NLTK et scikit-learn.
Pour ce premier TP, je compte faire réfléchir les étudiants sur l'analyse lexicale : découpage d'un texte en mots, calculer une distribution sur un document, puis un corpus, filtrer les mots qui participent peu à l'expression du sens et visualiser un texte à partir de son lexique.
02sept. 2011
00:00 - Par Fabien Poulard - Entrepreneuriat - 4 commentaires
L'aventure universitaire s'est terminée avec mon contrat d'ingénieur de recherche à l'INRA Nantes-Angers. Je suis désormais entrepreneur, dans l'hypothèse où c'est un statut figé dans le temps ! C'est le début d'une toute nouvelle aventure, extrêmement excitante... C'est aussi l'occasion de légèrement modifier la ligne éditoriale de ce blog (mais pas trop quand même), à commencer par son titre !
19juil. 2011
15:18 - Par Fabien Poulard - Geek & Technique
Les contributeurs nantais à OpenStreetMap (OSM) organisent une cartopartie ce samedi 23 juillet. La journée est placée sous le signe de la circulation douce : l'objectif est de corriger et compléter les infrastructures dédiées à la circulation douce sur l'agglomération nantaise (pistes cyclables, bornes, ...).
Le rendez-vous est donné à 10h30 au Café Flesselles.
Au programme :
L’événement est ouvert à tous, que vous soyez un novice qui n'a même jamais entendu parlé d'OpenStreetMap ou bien un contributeur confirmé. L'objectif de cette rencontre est de faire avancer le projet OSM dans la convivialité.
Pensez à apporter votre matériel de cartographe (bloc-notes, GPS, appareil photo...), et si possible venez en vélo puisque la cartopartie devrait principalement s'effectuer par ce mode de transport.
11juin 2011
15:00 - Par Fabien Poulard - Geek & Technique
L'un des intérêts de la mouvance NoSQL est d'intégrer le paradigme du Map/Reduce qui consiste à partitionner les données afin de les traiter en parallèle. MongoDB ne fait pas exception et intègre directement ces concepts.
J'explique dans ce billet comment compter le nombre de documents associés à chaque valeur d'un attribut.
05juin 2011
00:59 - Par Fabien Poulard - Geek & Technique
Lorsque l'on travaille avec plusieurs vues au sein d'un même CAS, on se retrouve rapidement confronté au besoin de recopier certaines annotations d'une vue vers une autre.
26mai 2011
16:12 - Par Fabien Poulard - Geek & Technique
Je suis récemment tombé amoureux de la base de données MongoDB. Ses avantages sont nombreux mais j'apprécie tout particulièrement l'absence de schéma et le shell. L'absence de schéma permet d'insérer des structures de données différentes dans les collections ou de modifier les structures existantes de manière transparentes sans impact sur les autres entrées (bye bye ALTER). Le shell quant à lui offre une réelle souplesse qui permet de réaliser des opérations complexes qui auraient nécessiter l'écriture de code sur des bases SQL.
09mai 2011
15:49 - Par Fabien Poulard - Geek & Technique
Un rapide billet pour indiquer à ceux qui comme moi veulent utiliser une version 64 bits de Firefox sans devoir utiliser les compilations nocturnes que des releases 64 bits sont disponibles sur le ftp de mozilla :
http://releases.mozilla.org/pub/mozilla.org/firefox/releases/4.0.1/linux-x86_64/fr/
En fait je me sers surtout de ce billet comme un pense-bête pour m'éviter quelques requêtes Google la prochaine fois que je voudrai réinstaller FF :)
26avr. 2011
15:19 - Par Fabien Poulard - Geek & Technique - 2 commentaires
Une rencontre informelle entre contributeurs OpenStreetMap ouverte à tout le monde. L'objectif plus particulier de cette rencontre est de discuter de l'organisation d'un atelier OpenStreetMap à la Cantine.
Que vous soyez contributeur, utilisateur ou simple curieux, vous êtes les bienvenus.
Le mercredi 27 avril 2011 à partir de 19h30.
Au café Le Flesselles à Nantes (carte)
05avr. 2011
20:45 - Par Fabien Poulard - Sciences & Recherche - un commentaire
Aujourd'hui, J'ai joué le jeu des Rendez-vous de la Recherche (RdvR pour les intimes) à La Cantine de Nantes. J'y ai présenté mon parcours de jeune chercheur, mon équipe et mon domaine de recherche : le Traitement Automatique des Langues (TAL).
Les Rendez-vous de la Recherche sont organisés par Jean Bézivin et Jean-Pierre Guédon, L'objectif de ces présentations informelles est de faire se rencontrer le monde de la recherche et de l'industrie. Le chercheur présente ses travaux, son équipe et son domaine. Les industriels piochent dans le flot d'information les éléments qui pourraient permettre de résoudre certaines de leurs problématiques et échangent sur ce sujet avec le chercheur. Ceci peut déboucher sur des collaborations, des initiatives...
Le support de ma présentation est disponible sur scribd.
17mar. 2011
17:00 - Par Fabien Poulard - Sciences & Recherche - un commentaire
Je soutiendrai ma thèse le Jeudi 24 mars 2011 à 9h30 dans la salle 3 du LINA.
Non seulement la séance est publique, mais de plus vous êtes tous cordialement invité à y assister. Le contenu est détaillé dans la suite du billet.
17mar. 2011
16:30 - Par Fabien Poulard - Sciences & Recherche
I will defend my PhD thesis on March, 24th 2011 at 9:30 am in room 3 of LINA.
Not only is the defense public, but you are welcome to attend. The thesis content is detailed in the rest of this bill.
17mar. 2011
00:03 - Par Fabien Poulard - Sciences & Recherche - un commentaire
L'analyse en composantes principales (ACP) permet de calculer les hyperplans d'un espace vectoriel tel qu'une projection sur ces plans conserve un maximum d'entropie. Cette approche permet entre autres choses de projeter des espaces ayant un très grand nombre de dimensions dans des espaces de dimensions réduites tout en limitant la perte d'information.
L'utilisation combinée de scikit-learn et de matplotlib permet de produire très rapidement des réductions de dimension et de les visualiser. J'utilise ces bibliothèques pour visualiser dans un espace à 2 ou 3 dimensions des espaces vectoriels correspondant à des représentations de documents à l'aide de traits particuliers.
« billets précédents - page 1 de 6