Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence
Business Intelligence Forum d'entraide Business Intelligence ( Informatique décisionnelle ), ETL, générateurs d'états et infocentre . Tutoriels BI, Le comparatif
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Actualité déjà publiée
 
Outils de la discussion
Publicité
'
Vieux 10/11/2011, 15h52   #1
Coordinateur publications
 
Avatar de Idelways
 
Développeur Ruby on Rails / iOS et journaliste
Inscription : juin 2010
Messages : 1 105
Détails du profil
Informations professionnelles :
Activité : Développeur Ruby on Rails / iOS et journaliste

Informations forums :
Inscription : juin 2010
Messages : 1 105
Points : 24 337
Points : 24 337
Par défaut Apache Tika disponible en version 1.0, l'outil de détection, extraction et analyse supporte 1200 formats

Apache Tika disponible en version 1.0
Le Toolkit de détection, d'extraction et d'analyse de données supporte désormais 1200 formats de fichiers



Après cinq années de développement, le projet open source Tika arrive à maturité et arbore fièrement le numéro de version rond : 1.0.

C'est un toolkit Java léger et facilement intégrable, destiné à la détection, l'extraction et l'analyse de métadonnées et de données texte structurées à partir d'une très large variété de formats de fichiers (1200 à l'heure d'écriture de ces lignes).

Parmi ces formats, on retrouve : HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF, images, ebooks/EPUB, Rich Text, divers formats de compression et de packaging, audio/image/vidéo, fichiers de classes et JAR Java, email/mbox, etc.

Tika peut ainsi se montrer d'une efficacité redoutable pour les solutions de data-mining, d’informatique décisionnelle et pour les moteurs de recherche. Tika a d'ailleurs été extrait en 2007 d'Apache Lucene (le célèbre moteur de recherche en full TEXT). Il a par la suite quitté l'incubation (en mai 2010) pour devenir un projet Apache de premier ordre.

Tika a été intensément testé et aurait prouvé son efficacité sur 500 millions de fichiers à travers une variété d'applications industrielles, académiques et de laboratoires gouvernementaux.

La NASA accorde au projet une attention particulière, confiant à sa présidence Chris Mattmann, l'un des scientifiques du Jet Propulsion Laboratory. L'agence spatiale l'utilise dans nombre de ces projets de science de la terre.
« Tika nous aide à traiter des centaines de téraoctets de données scientifiques dans des formats multiples et leurs modèles de métadonnées associées, » déclare Dan Crichton, un responsable de l'agence.

Tika dispose par ailleurs d'une interface graphique permettant d'explorer les données de manière interactive.

Cette version 1.0 se débarrasse de toutes les classes/méthodes/interfaces dépréciées à la version 0.10. Elle supporte un paquet de nouveaux formats, et laisse tomber le support des versions de Java antérieures à la 1.5.


Tika 1.0 est disponible en téléchargement sur cette page

Source : blogs de la fondation Apache

Et vous ?

Avez-vous déjà utilisé Tika ?
Qu'en pensez-vous ?
Quelles autres solutions de son genre préférez-vous ?
Idelways est déconnecté   Envoyer un message privé Réponse avec citation 61
Vieux 10/11/2011, 21h01   #2
Membre du Club
 
Inscription : avril 2011
Messages : 32
Détails du profil
Informations forums :
Inscription : avril 2011
Messages : 32
Points : 67
Points : 67
Interessant !a tester
jv-boy est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 11/11/2011, 00h14   #3
Futur Membre du Club
 
Étudiant
Inscription : août 2004
Messages : 74
Détails du profil
Informations professionnelles :
Activité : Étudiant

Informations forums :
Inscription : août 2004
Messages : 74
Points : 18
Points : 18
Excellent projet, pour la détection des types mime rien à redire un sans-fautes
par contre, il a beaucoup de mal à détecter l'encodage ISO-8859-1 ou ISO-8859-15 des fichiers CSV il me sort, selon les fichiers du ISO-8859-2, ISO-8859-9, Big5, IBM500... et de temps en temps le bon ISO-8859-1 et donc tous ou partie des caractères accentués se retrouve cassés à l'affichage, donc pas vraiment au point...
SuperPat est déconnecté   Envoyer un message privé Réponse avec citation 02
Vieux 11/11/2011, 09h04   #4
Expert Confirmé
 
Homme
Inscription : septembre 2006
Messages : 2 291
Détails du profil
Informations personnelles :
Sexe : Homme

Informations forums :
Inscription : septembre 2006
Messages : 2 291
Points : 2 738
Points : 2 738
Citation:
Envoyé par SuperPat Voir le message
Excellent projet, pour la détection des types mime rien à redire un sans-fautes
par contre, il a beaucoup de mal à détecter l'encodage ISO-8859-1 ou ISO-8859-15 des fichiers CSV il me sort, selon les fichiers du ISO-8859-2, ISO-8859-9, Big5, IBM500... et de temps en temps le bon ISO-8859-1 et donc tous ou partie des caractères accentués se retrouve cassés à l'affichage, donc pas vraiment au point...
Il n'y a pas de "au point" qui tienne en cette matière :
la détection des encodings est un problème pour lequel il n'y a pas de solution parfaite lorsqu'on est face à des formats sur 8 bits et dont l'encoding n'est pas décrit par une meta information : un même fichier peut être valide (techniquement parlant) dans plusieurs encodings et seul un humain pourra dire lequel est le "bon".

(et Tika utilise ICU pour la détection des encodings)
JeitEmgie est déconnecté   Envoyer un message privé Réponse avec citation 20
Vieux 12/11/2011, 23h08   #5
Membre chevronné
 
Avatar de Jester
 
Inscription : septembre 2003
Messages : 624
Détails du profil
Informations forums :
Inscription : septembre 2003
Messages : 624
Points : 633
Points : 633
Il y a quand même l'analyse par dictionnaire qui permettrait sans doutes d'être plus juste.
Jester est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 13/11/2011, 09h52   #6
Expert Confirmé
 
Homme
Inscription : septembre 2006
Messages : 2 291
Détails du profil
Informations personnelles :
Sexe : Homme

Informations forums :
Inscription : septembre 2006
Messages : 2 291
Points : 2 738
Points : 2 738
Citation:
Envoyé par Jester Voir le message
Il y a quand même l'analyse par dictionnaire qui permettrait sans doutes d'être plus juste.
Oui, mais la question qui se pose dans un framework comme Tika est de savoir où l'on place la limite : n'est-il pas plus raisonnable de laisser le client choisir la méthode additionnelle de résolution des ambiguïtés comme il l'entend plutôt que d'alourdir le framework par une couche qui n'est son "core business"…
JeitEmgie est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 15/11/2011, 09h34   #7
Rédacteur
 
Avatar de thierryler
 
Homme Thierry Leriche-Dessirier
Inscription : octobre 2007
Messages : 1 217
Détails du profil
Informations personnelles :
Nom : Homme Thierry Leriche-Dessirier
Localisation : France

Informations forums :
Inscription : octobre 2007
Messages : 1 217
Points : 3 333
Points : 3 333
Il y a un tuto quelque part ? sur un exemple bidon ? parce que le getting started sur apache, à part expliquer comment ajouter une dépendance maven...
thierryler est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 16/11/2011, 21h14   #8
Invité de passage
 
Homme Emmanuel
Consultant informatique
Inscription : novembre 2011
Messages : 1
Détails du profil
Informations personnelles :
Nom : Homme Emmanuel
Localisation : France

Informations professionnelles :
Activité : Consultant informatique

Informations forums :
Inscription : novembre 2011
Messages : 1
Points : 1
Points : 1
Par défaut «Tika facilement intégrable»

Bonjour,

Je souhaite créer une application Windows qui compile des glossaires de mots à partir de fichier Word, HTML, PDF, etc .....

Pensez vous que je peux vraiment intégrer facilement Tika dans mon appli?

Si oui je ne serais pas contre quelque hints ?

Merci d'avance

Emmanuel
fitaly est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/01/2012, 09h37   #9
Membre Expert
 
Homme Chris Camel
Architecte de système d'information
Inscription : novembre 2006
Messages : 1 237
Détails du profil
Informations personnelles :
Nom : Homme Chris Camel
Âge : 36
Localisation : France, Haute Garonne (Midi Pyrénées)

Informations professionnelles :
Activité : Architecte de système d'information
Secteur : Aéronautique - Marine - Espace - Armement

Informations forums :
Inscription : novembre 2006
Messages : 1 237
Points : 1 776
Points : 1 776
Je l'ai utilisé dans un projet professionnel pour la détection des mime-types, et il marche excellemment bien.

Content de voir qu'il progresse et gagne en visibilité.
Tommy31 est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Actualité déjà publiée
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 06h36.


 
 
 
 
Partenaires

Hébergement Web