Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Candidat au Club
    sous linux module perl pour détecter les fichiers Word, Excel, PowerPoint etc
    Bonjour

    je travaille sous Debian.
    Je cherche à vérifier l'intégrité de fichiers de documents provenant de Windows (doc, docx, xls, xls, ppt etc...)
    Pour les fichiers Word j'utilise TEXT::EXTRACT::WORD qui ne détecte pas tous les fichiers Word.
    Je cherche donc un autre module plus efficace.
    Win32::OLE ferait l'affaire mais il semble ne pas tourner sous Linux, vrai ? (cpan indique "OS unsupported")

    Gustave

  2. #2
    Rédacteur/Modérateur

    Bonjour,

    à ma connaissance, le module TEXT::EXTRACT::WORD ne cherche pas à vérifier l'intégrité de fichier textes, mais à en extraire le contenu textuel. Il serait bien que tu précises un peu plus clairement ton besoin.

    Et, d'après ce que j'en sais, il ne peut travailler que sur des fichiers Word préparés avec des versions relativement récentes de MS Office -- mais relativement récentes signifie ici moins d'une quinzaine d'années. On ne doit plus voir beaucoup de fichiers Word de ce type (le format était jusqu'alors alors propriétaire et, me semble-t-il, plus ou moins secret, donc c'est plus complexe à extraire ou à vérifier).

  3. #3
    Candidat au Club
    sous linux module perl pour détecter les fichiers Word, Excel, PowerPoint etc
    Citation Envoyé par Lolo78 Voir le message
    Bonjour,

    à ma connaissance, le module TEXT::EXTRACT::WORD ne cherche pas à vérifier l'intégrité de fichier textes, mais à en extraire le contenu textuel. Il serait bien que tu précises un peu plus clairement ton besoin.

    Et, d'après ce que j'en sais, il ne peut travailler que sur des fichiers Word préparés avec des versions relativement récentes de MS Office -- mais relativement récentes signifie ici moins d'une quinzaine d'années. On ne doit plus voir beaucoup de fichiers Word de ce type (le format était jusqu'alors alors propriétaire et, me semble-t-il, plus ou moins secret, donc c'est plus complexe à extraire ou à vérifier).
    Je travaille sous debian.
    Mon besoin est le suivant : j'ai effectué une restauration d'un disque C de Windows qui avait été effacé par mégarde.
    Le logiciel de récupération attribue parfois l'extension .doc à des fichiers corrompus.
    Si TEXT::EXTRACT::WORD peut lire un fichier cela signifie qu'il n'est pas corrompu.
    Par contre il arrive que TEXT::EXTRACT::WORD ne puisse pas lire un fichier bien que celui-ci soit parfaitement lisible avec OpenOffice.
    En fait je cherche un module Perl qui effectue ce que la commande "file" du bash fait. Je ne l'ai pas trouvé je n'ai trouvé que TEXT::EXTRACT::WORD.