IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C++ Discussion :

Extraire le texte d'un document Word..


Sujet :

C++

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé
    Profil pro
    lkjlgj
    Inscrit en
    Février 2007
    Messages
    255
    Détails du profil
    Informations personnelles :
    Localisation : Angola

    Informations professionnelles :
    Activité : lkjlgj

    Informations forums :
    Inscription : Février 2007
    Messages : 255
    Par défaut Extraire le texte d'un document Word..
    Bonjour tout le monde,

    J'élabore un module d'extraction de texte de documents
    Word mais je ne veux pas avoir à exploiter Word pour ce
    faire.

    En cherchant sur le net j'ai constaté que rares sont les softs
    qui taclent directement les documents (PowerGrep par ex.).

    Il y a quelques temps, j'ai trouvé comment extraire le texte de
    documents RTF. Mais avec Word les choses sont plus compliquées :
    le texte n'est pas simplement balisé mais carrément compressé il
    me semble.

    Des idées ?

  2. #2
    Membre averti
    Profil pro
    Inscrit en
    Mars 2007
    Messages
    15
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2007
    Messages : 15
    Par défaut
    Salut
    quelle version de word utilises tu ?
    Car à partir de la 2003 tu peux faire des recherches dans le fichier xml.
    Pour les versions antérieures , je pense qu'il faut passer par OLE et piloter WORD.

  3. #3
    Membre éclairé
    Profil pro
    lkjlgj
    Inscrit en
    Février 2007
    Messages
    255
    Détails du profil
    Informations personnelles :
    Localisation : Angola

    Informations professionnelles :
    Activité : lkjlgj

    Informations forums :
    Inscription : Février 2007
    Messages : 255
    Par défaut
    Personnellement j'utilise Office XP mais je ne préfère pas
    restreindre mon programme d'extraction à une seule version
    de Word.
    Quant à OLE, je cherche justement à éviter d'exploiter le
    programme Word de près ou de loin pour l'extraction de texte.
    C'est evidemment là que ça se complique...

  4. #4
    Membre Expert
    Avatar de poukill
    Profil pro
    Inscrit en
    Février 2006
    Messages
    2 155
    Détails du profil
    Informations personnelles :
    Âge : 41
    Localisation : France

    Informations forums :
    Inscription : Février 2006
    Messages : 2 155
    Par défaut
    Le fomat Word est connu par Microsoft, et seulement Microsoft. Je ne vois pas comment c'est possible de récupérer du texte alors qu'on ne connait pas le "protocole" : en-tête, etc...

    On ne peut pas plus le lire qu'en créer, il faudrait savoir comment est foutu l'en-tête!

  5. #5
    Membre éclairé
    Profil pro
    lkjlgj
    Inscrit en
    Février 2007
    Messages
    255
    Détails du profil
    Informations personnelles :
    Localisation : Angola

    Informations professionnelles :
    Activité : lkjlgj

    Informations forums :
    Inscription : Février 2007
    Messages : 255
    Par défaut
    J'ai trouvé le site suivant avec des tas de descriptions de formats
    mais les plus récents formats de Word n'y sont pas :

    http://www.wotsit.org/list.asp?fc=10

  6. #6
    Membre Expert
    Avatar de poukill
    Profil pro
    Inscrit en
    Février 2006
    Messages
    2 155
    Détails du profil
    Informations personnelles :
    Âge : 41
    Localisation : France

    Informations forums :
    Inscription : Février 2006
    Messages : 2 155
    Par défaut
    Citation Envoyé par devroot
    J'ai trouvé le site suivant avec des tas de descriptions de formats
    mais les plus récents formats de Word n'y sont pas :

    http://www.wotsit.org/list.asp?fc=10
    Normal.... Microsoft ne va pas dévoiler son architecture comme ça !^^

Discussions similaires

  1. Modifier le texte d'un document word avec Java
    Par randhalrens dans le forum Environnement de Développement Intégré (EDI)
    Réponses: 0
    Dernier message: 16/09/2009, 15h38
  2. Localiser du texte dans un document word avec java
    Par samorra dans le forum Débuter avec Java
    Réponses: 5
    Dernier message: 14/07/2009, 12h56
  3. afficher le texte d'un document word dans un form
    Par dimmu dans le forum VB.NET
    Réponses: 2
    Dernier message: 30/06/2009, 12h51
  4. Réponses: 0
    Dernier message: 15/03/2008, 09h59
  5. [COM] Extraire le texte d'un fichier "word" (.doc) avec
    Par ptikiwi dans le forum Bibliothèques et frameworks
    Réponses: 6
    Dernier message: 09/06/2006, 17h06

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo