IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C++ Discussion :

Extraire le texte d'un document Word..


Sujet :

C++

  1. #1
    Membre éclairé
    Profil pro
    lkjlgj
    Inscrit en
    Février 2007
    Messages
    255
    Détails du profil
    Informations personnelles :
    Localisation : Angola

    Informations professionnelles :
    Activité : lkjlgj

    Informations forums :
    Inscription : Février 2007
    Messages : 255
    Par défaut Extraire le texte d'un document Word..
    Bonjour tout le monde,

    J'élabore un module d'extraction de texte de documents
    Word mais je ne veux pas avoir à exploiter Word pour ce
    faire.

    En cherchant sur le net j'ai constaté que rares sont les softs
    qui taclent directement les documents (PowerGrep par ex.).

    Il y a quelques temps, j'ai trouvé comment extraire le texte de
    documents RTF. Mais avec Word les choses sont plus compliquées :
    le texte n'est pas simplement balisé mais carrément compressé il
    me semble.

    Des idées ?

  2. #2
    Membre averti
    Profil pro
    Inscrit en
    Mars 2007
    Messages
    15
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2007
    Messages : 15
    Par défaut
    Salut
    quelle version de word utilises tu ?
    Car à partir de la 2003 tu peux faire des recherches dans le fichier xml.
    Pour les versions antérieures , je pense qu'il faut passer par OLE et piloter WORD.

  3. #3
    Membre éclairé
    Profil pro
    lkjlgj
    Inscrit en
    Février 2007
    Messages
    255
    Détails du profil
    Informations personnelles :
    Localisation : Angola

    Informations professionnelles :
    Activité : lkjlgj

    Informations forums :
    Inscription : Février 2007
    Messages : 255
    Par défaut
    Personnellement j'utilise Office XP mais je ne préfère pas
    restreindre mon programme d'extraction à une seule version
    de Word.
    Quant à OLE, je cherche justement à éviter d'exploiter le
    programme Word de près ou de loin pour l'extraction de texte.
    C'est evidemment là que ça se complique...

  4. #4
    Membre Expert
    Avatar de poukill
    Profil pro
    Inscrit en
    Février 2006
    Messages
    2 155
    Détails du profil
    Informations personnelles :
    Âge : 41
    Localisation : France

    Informations forums :
    Inscription : Février 2006
    Messages : 2 155
    Par défaut
    Le fomat Word est connu par Microsoft, et seulement Microsoft. Je ne vois pas comment c'est possible de récupérer du texte alors qu'on ne connait pas le "protocole" : en-tête, etc...

    On ne peut pas plus le lire qu'en créer, il faudrait savoir comment est foutu l'en-tête!

  5. #5
    Membre éclairé
    Profil pro
    lkjlgj
    Inscrit en
    Février 2007
    Messages
    255
    Détails du profil
    Informations personnelles :
    Localisation : Angola

    Informations professionnelles :
    Activité : lkjlgj

    Informations forums :
    Inscription : Février 2007
    Messages : 255
    Par défaut
    J'ai trouvé le site suivant avec des tas de descriptions de formats
    mais les plus récents formats de Word n'y sont pas :

    http://www.wotsit.org/list.asp?fc=10

  6. #6
    Membre Expert
    Avatar de poukill
    Profil pro
    Inscrit en
    Février 2006
    Messages
    2 155
    Détails du profil
    Informations personnelles :
    Âge : 41
    Localisation : France

    Informations forums :
    Inscription : Février 2006
    Messages : 2 155
    Par défaut
    Citation Envoyé par devroot
    J'ai trouvé le site suivant avec des tas de descriptions de formats
    mais les plus récents formats de Word n'y sont pas :

    http://www.wotsit.org/list.asp?fc=10
    Normal.... Microsoft ne va pas dévoiler son architecture comme ça !^^

  7. #7
    Membre averti
    Profil pro
    Inscrit en
    Mars 2007
    Messages
    15
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2007
    Messages : 15
    Par défaut
    Si tu sais extraire les mots d'un RTF l'idée serait peut etre de convertir avant ton WORD en RTF

  8. #8
    Membre éclairé
    Profil pro
    lkjlgj
    Inscrit en
    Février 2007
    Messages
    255
    Détails du profil
    Informations personnelles :
    Localisation : Angola

    Informations professionnelles :
    Activité : lkjlgj

    Informations forums :
    Inscription : Février 2007
    Messages : 255
    Par défaut
    Deux remarques :

    1- Evidemment Microsoft ne va pas dévoiler son format. Encore que,
    je ne vois pas l'intéret de le garder secret... De toute façon des formats
    propriétaires secrets qui ont été crackés c'est pas ce qui manque. On trouve
    sur le net par ex. les caractéristiques du format PDF qui appartient pourtant
    à Adobe qui n'en a pas officiellement dévoilé le contenu.

    2 - Commencer par transformer un DOC en RTF ? Je suis preneur si qq1 sait
    le fait par code sans passer par un autre prog.

  9. #9
    Membre expérimenté
    Inscrit en
    Décembre 2003
    Messages
    272
    Détails du profil
    Informations forums :
    Inscription : Décembre 2003
    Messages : 272
    Par défaut
    Citation Envoyé par devroot
    1- Evidemment Microsoft ne va pas dévoiler son format. Encore que, je ne vois pas l'intéret de le garder secret... De toute façon des formats propriétaires secrets qui ont été crackés c'est pas ce qui manque. On trouvesur le net par ex. les caractéristiques du format PDF qui appartient pourtant à Adobe qui n'en a pas officiellement dévoilé le contenu.
    Le format Word n'est pas complètement connu par les crackeurs, il reste toujours possible qu'un fichier particulier utilise une fonctionnalité qui n'a pas été étudiée.

    Et pour le PDF pas distribué par Adobe, tu veux rire ?

  10. #10
    Membre chevronné
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    349
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 349
    Par défaut
    Transformer le format Word en RTF, c'est simple si tu passes par ... Word piloté par OLE. Si tu n'as pas Word sur ton poste ou que tu veux t'en passer, on retombe sur le même problème, à savoir connaitre le format Word.

  11. #11
    Expert confirmé

    Homme Profil pro
    Ingénieur systèmes et réseaux
    Inscrit en
    Février 2007
    Messages
    4 253
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Ingénieur systèmes et réseaux
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Février 2007
    Messages : 4 253
    Billets dans le blog
    3
    Par défaut
    Je vais peut-être dire une bétise... mais....
    Il me semblait que les fichiers word, excel, etc... était des "OLE Structure Storage" ?

    Donc utilisation des fonction ::StgOpenStorage() etc... et utilisation des interfaces COM: IStorage et IStream.

    Au niveau bit-code par contre, mes souvenirs lointains de Microsoft on tendance à me dire que c'était très très simple... un peu à la IFF.

  12. #12
    Membre chevronné
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    349
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 349
    Par défaut
    J'ai trouvé ce site où tu peux télécharger les spécifications du format Word:

    http://www.wotsit.org/list.asp?fc=10

    J'ai jeté un oeil mais je te souhaite bon courage ...

  13. #13
    Membre éclairé
    Profil pro
    lkjlgj
    Inscrit en
    Février 2007
    Messages
    255
    Détails du profil
    Informations personnelles :
    Localisation : Angola

    Informations professionnelles :
    Activité : lkjlgj

    Informations forums :
    Inscription : Février 2007
    Messages : 255
    Par défaut
    Merci pour le lien...
    ...mais je l'avais déjà trouvé et malheureusement
    les liens vers les spécifs Microsoft ne sont plus valides !

    Bon, pour l'instant le plus simple semble en effet exploiter OLE
    mais ça impose que Word soit installé sur la machine.

  14. #14
    Membre chevronné
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    349
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 349
    Par défaut
    Certains liens sont toujours valides, exemple:

    http://www.wotsit.org/download.asp?f...8&sc=227344918

    Sinon, à moins de trouver une API toute faite, le plus simple est effectivement d'utiliser OLE.

Discussions similaires

  1. Modifier le texte d'un document word avec Java
    Par randhalrens dans le forum Environnement de Développement Intégré (EDI)
    Réponses: 0
    Dernier message: 16/09/2009, 15h38
  2. Localiser du texte dans un document word avec java
    Par samorra dans le forum Débuter avec Java
    Réponses: 5
    Dernier message: 14/07/2009, 12h56
  3. afficher le texte d'un document word dans un form
    Par dimmu dans le forum VB.NET
    Réponses: 2
    Dernier message: 30/06/2009, 12h51
  4. Réponses: 0
    Dernier message: 15/03/2008, 09h59
  5. [COM] Extraire le texte d'un fichier "word" (.doc) avec
    Par ptikiwi dans le forum Bibliothèques et frameworks
    Réponses: 6
    Dernier message: 09/06/2006, 17h06

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo