IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Forum général Business Intelligence Discussion :

Apache Tika disponible en version 1.0, l'outil de détection, extraction et analyse supporte 1200 formats


Sujet :

Forum général Business Intelligence

  1. #1
    Expert éminent sénior
    Avatar de Idelways
    Homme Profil pro
    Développeur Ruby on Rails / iOS
    Inscrit en
    Juin 2010
    Messages
    1 374
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations professionnelles :
    Activité : Développeur Ruby on Rails / iOS

    Informations forums :
    Inscription : Juin 2010
    Messages : 1 374
    Points : 68 548
    Points
    68 548
    Par défaut Apache Tika disponible en version 1.0, l'outil de détection, extraction et analyse supporte 1200 formats
    Apache Tika disponible en version 1.0
    Le Toolkit de détection, d'extraction et d'analyse de données supporte désormais 1200 formats de fichiers



    Après cinq années de développement, le projet open source Tika arrive à maturité et arbore fièrement le numéro de version rond : 1.0.

    C'est un toolkit Java léger et facilement intégrable, destiné à la détection, l'extraction et l'analyse de métadonnées et de données texte structurées à partir d'une très large variété de formats de fichiers (1200 à l'heure d'écriture de ces lignes).

    Parmi ces formats, on retrouve : HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF, images, ebooks/EPUB, Rich Text, divers formats de compression et de packaging, audio/image/vidéo, fichiers de classes et JAR Java, email/mbox, etc.

    Tika peut ainsi se montrer d'une efficacité redoutable pour les solutions de data-mining, d’informatique décisionnelle et pour les moteurs de recherche. Tika a d'ailleurs été extrait en 2007 d'Apache Lucene (le célèbre moteur de recherche en full TEXT). Il a par la suite quitté l'incubation (en mai 2010) pour devenir un projet Apache de premier ordre.

    Tika a été intensément testé et aurait prouvé son efficacité sur 500 millions de fichiers à travers une variété d'applications industrielles, académiques et de laboratoires gouvernementaux.

    La NASA accorde au projet une attention particulière, confiant à sa présidence Chris Mattmann, l'un des scientifiques du Jet Propulsion Laboratory. L'agence spatiale l'utilise dans nombre de ces projets de science de la terre.
    « Tika nous aide à traiter des centaines de téraoctets de données scientifiques dans des formats multiples et leurs modèles de métadonnées associées, » déclare Dan Crichton, un responsable de l'agence.

    Tika dispose par ailleurs d'une interface graphique permettant d'explorer les données de manière interactive.

    Cette version 1.0 se débarrasse de toutes les classes/méthodes/interfaces dépréciées à la version 0.10. Elle supporte un paquet de nouveaux formats, et laisse tomber le support des versions de Java antérieures à la 1.5.


    Tika 1.0 est disponible en téléchargement sur cette page

    Source : blogs de la fondation Apache

    Et vous ?

    Avez-vous déjà utilisé Tika ?
    Qu'en pensez-vous ?
    Quelles autres solutions de son genre préférez-vous ?

  2. #2
    Membre régulier
    Inscrit en
    Avril 2011
    Messages
    56
    Détails du profil
    Informations forums :
    Inscription : Avril 2011
    Messages : 56
    Points : 118
    Points
    118
    Par défaut
    Interessant !a tester

  3. #3
    Membre du Club
    Profil pro
    Étudiant
    Inscrit en
    Août 2004
    Messages
    79
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Août 2004
    Messages : 79
    Points : 55
    Points
    55
    Par défaut
    Excellent projet, pour la détection des types mime rien à redire un sans-fautes
    par contre, il a beaucoup de mal à détecter l'encodage ISO-8859-1 ou ISO-8859-15 des fichiers CSV il me sort, selon les fichiers du ISO-8859-2, ISO-8859-9, Big5, IBM500... et de temps en temps le bon ISO-8859-1 et donc tous ou partie des caractères accentués se retrouve cassés à l'affichage, donc pas vraiment au point...

  4. #4
    Expert confirmé
    Homme Profil pro
    Inscrit en
    Septembre 2006
    Messages
    2 934
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Septembre 2006
    Messages : 2 934
    Points : 4 347
    Points
    4 347
    Par défaut
    Citation Envoyé par SuperPat Voir le message
    Excellent projet, pour la détection des types mime rien à redire un sans-fautes
    par contre, il a beaucoup de mal à détecter l'encodage ISO-8859-1 ou ISO-8859-15 des fichiers CSV il me sort, selon les fichiers du ISO-8859-2, ISO-8859-9, Big5, IBM500... et de temps en temps le bon ISO-8859-1 et donc tous ou partie des caractères accentués se retrouve cassés à l'affichage, donc pas vraiment au point...
    Il n'y a pas de "au point" qui tienne en cette matière :
    la détection des encodings est un problème pour lequel il n'y a pas de solution parfaite lorsqu'on est face à des formats sur 8 bits et dont l'encoding n'est pas décrit par une meta information : un même fichier peut être valide (techniquement parlant) dans plusieurs encodings et seul un humain pourra dire lequel est le "bon".

    (et Tika utilise ICU pour la détection des encodings)

  5. #5
    Membre éprouvé Avatar de Jester
    Inscrit en
    Septembre 2003
    Messages
    813
    Détails du profil
    Informations forums :
    Inscription : Septembre 2003
    Messages : 813
    Points : 1 058
    Points
    1 058
    Par défaut
    Il y a quand même l'analyse par dictionnaire qui permettrait sans doutes d'être plus juste.

  6. #6
    Expert confirmé
    Homme Profil pro
    Inscrit en
    Septembre 2006
    Messages
    2 934
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Septembre 2006
    Messages : 2 934
    Points : 4 347
    Points
    4 347
    Par défaut
    Citation Envoyé par Jester Voir le message
    Il y a quand même l'analyse par dictionnaire qui permettrait sans doutes d'être plus juste.
    Oui, mais la question qui se pose dans un framework comme Tika est de savoir où l'on place la limite : n'est-il pas plus raisonnable de laisser le client choisir la méthode additionnelle de résolution des ambiguïtés comme il l'entend plutôt que d'alourdir le framework par une couche qui n'est son "core business"…

  7. #7
    Rédacteur
    Avatar de thierryler
    Homme Profil pro
    Inscrit en
    Octobre 2007
    Messages
    4 078
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2007
    Messages : 4 078
    Points : 12 815
    Points
    12 815
    Par défaut
    Il y a un tuto quelque part ? sur un exemple bidon ? parce que le getting started sur apache, à part expliquer comment ajouter une dépendance maven...
    Thierry Leriche-Dessirier
    Consultant Java JEE Web Agile freelance
    Rédacteur pour Developpez
    Professeur de Génie Logiciel à l'ESIEA

    Site : http://www.icauda.com / Linked'in : http://www.linkedin.com/in/thierryler / Twitter : @ThierryLeriche

  8. #8
    Nouveau Candidat au Club
    Homme Profil pro
    Consultant informatique
    Inscrit en
    Novembre 2011
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant informatique

    Informations forums :
    Inscription : Novembre 2011
    Messages : 1
    Points : 1
    Points
    1
    Par défaut «Tika facilement intégrable»
    Bonjour,

    Je souhaite créer une application Windows qui compile des glossaires de mots à partir de fichier Word, HTML, PDF, etc .....

    Pensez vous que je peux vraiment intégrer facilement Tika dans mon appli?

    Si oui je ne serais pas contre quelque hints ?

    Merci d'avance

    Emmanuel

  9. #9
    Membre chevronné

    Homme Profil pro
    Architecte logiciel
    Inscrit en
    Novembre 2006
    Messages
    1 252
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Architecte logiciel
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Novembre 2006
    Messages : 1 252
    Points : 1 954
    Points
    1 954
    Par défaut
    Je l'ai utilisé dans un projet professionnel pour la détection des mime-types, et il marche excellemment bien.

    Content de voir qu'il progresse et gagne en visibilité.

Discussions similaires

  1. Réponses: 0
    Dernier message: 02/06/2014, 18h24
  2. Réponses: 0
    Dernier message: 10/11/2011, 16h52
  3. Apache Tomcat 7 disponible en version stable
    Par Idelways dans le forum Tomcat et TomEE
    Réponses: 1
    Dernier message: 18/01/2011, 13h03
  4. Apache Tomcat 7 disponible en version stable
    Par Idelways dans le forum Actualités
    Réponses: 1
    Dernier message: 18/01/2011, 13h03
  5. MySQL 5.0 disponible en version de production !
    Par Maximil ian dans le forum SQL Procédural
    Réponses: 13
    Dernier message: 15/12/2007, 23h00

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo