IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Shell et commandes GNU Discussion :

Projet Bash : conversion pdf en docx


Sujet :

Shell et commandes GNU

  1. #1
    Membre à l'essai
    Homme Profil pro
    Administrateur systèmes et réseaux
    Inscrit en
    Juillet 2017
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Administrateur systèmes et réseaux
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Juillet 2017
    Messages : 5
    Par défaut Projet Bash : conversion pdf en docx
    Bonjour, je suis morgan, un vieille admin système qui n'a géré quasiment que du windows...
    J'ai depuis maintenant un an changer mon fusil d'épaule et ne propose plus que de l'open source à mes clients.. il sont satisfait... et moi aussi d'ailleur.

    J'ai un ami qui voulait investir dans omnipage afin de scanner vers un dossier, puis omnipage aurai convertie tous les fichier pdf de se dossier en docx et supprimer le fichier original PDF.

    Je pense que c'est faisable en bash ... mais comment .lol

    je voulais utiliser la commande abiword --to=docs *.pdf.

    mais la mise en place d'un script totale avec un scan des fichier puis une conversion me dépasse un peu.

    Pourriez vous m'aider à comprendre et mettre en place ce type de solution qui pour des expert comme vous ne devrait pas être trop compliqué.

    En vous remerciant par avance

    Morgan

  2. #2
    Modérateur
    Avatar de N_BaH
    Profil pro
    Inscrit en
    Février 2008
    Messages
    7 664
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 7 664
    Par défaut
    Bonjour,

    oui, c'est possible : tu mets la commande (en l'adaptant un peu !) dans une boucle for qui liste les fichiers du répertoires.
    c'est tout bête.

    pour le reste, ne connaissant pas les commandes, et l'enchaînement des opérations... ?
    N'oubliez pas de consulter les cours shell, la FAQ, et les pages man.

  3. #3
    Membre à l'essai
    Homme Profil pro
    Administrateur systèmes et réseaux
    Inscrit en
    Juillet 2017
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Administrateur systèmes et réseaux
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Juillet 2017
    Messages : 5
    Par défaut merci
    merci de ta réponse. en effet c'est l'idée...une boucle.. mais je suis incapable de la mettre en place...

    en gros ça serai

    scan imprimante => dossier sur partage SMB => scan du dossier par un script => PDF détecté => conversion en doc => suppression du PDF original.

    Voici le cahier des charges.

    En vous remerciant pour votre aide

    Morgan

  4. #4
    Responsable Systèmes


    Homme Profil pro
    Gestion de parcs informatique
    Inscrit en
    Août 2011
    Messages
    18 290
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Gestion de parcs informatique
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Août 2011
    Messages : 18 290
    Par défaut
    Je commencerais par regarder du coté d'Omnipage qui doit avoir des fonctions de scripting. Par contre peut-être pas avec la version de base, ça changerait le budget du coup.
    Ma page sur developpez.com : http://chrtophe.developpez.com/ (avec mes articles)
    Mon article sur le P2V, mon article sur le cloud
    Consultez nos FAQ : Windows, Linux, Virtualisation

  5. #5
    Rédacteur/Modérateur
    Avatar de Winnt
    Homme Profil pro
    budget et contrôle de gestion
    Inscrit en
    Décembre 2006
    Messages
    1 978
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 57
    Localisation : France

    Informations professionnelles :
    Activité : budget et contrôle de gestion
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Décembre 2006
    Messages : 1 978
    Par défaut
    Bonjour,

    Pour la surveillance du répertoire regardez incron dont c'est le travail.
    Winnt
    Merci de lire les règles du forum LaTeX et Qu'est ce qu'un ECM ?.
    N'hésitez pas à parcourir la FAQ la réponse y est peut-être déjà.
    Pensez au bouton si votre problème est résolu.


    C'est en Linuxant qu'on devient .... geek
    Et c'est en LateXant qu'on devient flemmard
    Mon blog tout neuf.
    Articles : présentation de la distribution Gentoo, Les index sous LaTeX et leur personnalisation.

  6. #6
    Membre à l'essai
    Homme Profil pro
    Administrateur systèmes et réseaux
    Inscrit en
    Juillet 2017
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Administrateur systèmes et réseaux
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Juillet 2017
    Messages : 5
    Par défaut merci
    Pour omnipage.. oui effectivement il le fais. mais je voulais eviter des solution propriétaire.

    Je vais regarder du coté de incron

    Merci , je vous fais un retour rapide.

  7. #7
    Expert confirmé
    Homme Profil pro
    Développeur informatique en retraite
    Inscrit en
    Avril 2008
    Messages
    2 103
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côtes d'Armor (Bretagne)

    Informations professionnelles :
    Activité : Développeur informatique en retraite

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 103
    Par défaut
    Citation Envoyé par saturdaymofever Voir le message
    en effet c'est l'idée...une boucle.. mais je suis incapable de la mettre en place...
    Voici comment faire une boucle sur tous les fichiers pdf d'un dossier:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    for fichier in /chemin/vers/le/dossier/*.pdf; do 
        ls -l "$fichier"
    done
    Voici le cahier des charges.
    Le principe de ce forum est le suivant: un utilisateur écrit un script, bute sur une difficulté, énonce clairement son problème. Les participants du forum l'aident. L'utilisateur remercie.

    Si un utilisateur arrive en disant "je ne sais pas écrire la moindre ligne de code. merci de réaliser ceci pour moi", àmha, ça risque de ne pas passer...

    Ou alors, ça devient de la prestation de service... c'est possible, mais probablement pas gratuit...

    En ce qui te concerne, tu dis être un vieil admin windoze. J'imagine que tu sais écrire des commandes DOS, voire des ".BAT". L'adaptation à linux, même si elle n'est pas immédiate, devrait être faisable, avec un petit effort

    Tu pourrais peut-être jeter un oeil à l'un des tutoriels de ce forum ici.

  8. #8
    Membre à l'essai
    Homme Profil pro
    Administrateur systèmes et réseaux
    Inscrit en
    Juillet 2017
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Administrateur systèmes et réseaux
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Juillet 2017
    Messages : 5
    Par défaut merci
    Oui tu as raison, je pourrai m'en sortir . et oui encore une fois c'est la facilité. désolé en effet c'est pas top.
    Mes projets m’emmène déjà au bout de la nuit avec seulement 1 semaine de congés par an...

    Merci en tout cas . tu as raison sur toute la ligne.

    Je ferai un effort de compréhension avant de poster

    Merci

  9. #9
    Responsable Systèmes


    Homme Profil pro
    Gestion de parcs informatique
    Inscrit en
    Août 2011
    Messages
    18 290
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Gestion de parcs informatique
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Août 2011
    Messages : 18 290
    Par défaut
    Pour omnipage.. oui effectivement il le fais. mais je voulais eviter des solution propriétaire.
    Je ne comprend pas. Omnipage intervient dans ton traitement ou c'est une option ? Si le produit est acheté, utilises ses fonctions de scripting car tu ne maitrises pas le script sous Linux.

    Rien ne t"empêche ensuite d'essayer de le faire en script sous Linux en second temps.

    Pour bash sous Linux, tu retrouvera les mêmes concepts qu'en ligne de commande DOS (et même en mieux), boucles, conditions, variables, etc. Tu as aussi plein d'outils de base fourni sous Linux pouvant te faciliter le travail.
    Commences par jeter un œil ici.

    question subsidiaire, quelqu'un fait ou a déjà fait de l'OCR sous Linux ? Je suis curieux de connaitre le résultat par rapport à Omnipage ou Abbyy qui font référence dans le monde Windows.
    Ma page sur developpez.com : http://chrtophe.developpez.com/ (avec mes articles)
    Mon article sur le P2V, mon article sur le cloud
    Consultez nos FAQ : Windows, Linux, Virtualisation

  10. #10
    Expert confirmé
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    11 142
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 11 142
    Par défaut
    Salut,
    Citation Envoyé par chrtophe Voir le message
    question subsidiaire, quelqu'un fait ou a déjà fait de l'OCR sous Linux ? Je suis curieux de connaître le résultat par rapport à Omnipage ou Abbyy qui font référence dans le monde Windows.
    Un jour quelqu'un a ouvert une discussion concernant tesseract et comme je suis curieux (excellent défaut, ), j'ai fouiné. Il en ressort ce qui suit, des notes prises en cours de manip puisque je ne connaissais absolument pas le produit :
    en partant d'une bête copie d'écran d'un livre google, enregistrée en .png :
    - ouverture avec The Gimp, désaturation pour "mover" certains textes bleus vers du gris foncé,
    plus une couleur de contraste et c'est bon.
    - resize de l'image (en fait, juste la définition, 72 --> 300 dpi)
    - export en .tif sans compression
    puis

    tesseract resampling.tif resampling.txt

    et c'est tout bon ; les textes bleus ont eu un peu de mal, normal, ils étaient aussi soulignés (pointeurs vers figures, 3 corrections, 10 secondes et basta)

    Attention : pas mal de virgules ont été transformées en points, et un mot bien récupéré sur une ligne a cafouillé sur une autre (reconstruction)
    On notera qu'on ne peut pas se passer de certaines manipulations manuelles.

    Et là où ce logiciel pêche (je voudrais bien savoir comment s'en sortent les autres), c'est sur les retours à la ligne qui sont transformés en vrais sauts à la ligne : pour quelques lignes ça va, s'il faut reprendre tout un bouquin ça risque d'être laborieux :
    Le fichier source pour les manips :
    Nom : resampling.png
Affichages : 331
Taille : 275,8 Ko
    Le fichier travaillé avec The Gimp, avant ocr donc :
    Nom : resampling.tif.jpg
Affichages : 359
Taille : 100,7 Ko
    Note pour *ici* : ce forum n'acceptant pas les .tif, pour vous proposer quelque chose de visuel, j'ai exporté le .tif en .jpg

    Image du fichier texte résultant, pour bien montrer le défaut des retours à la ligne :
    Nom : resampling.txt.png
Affichages : 320
Taille : 77,8 Ko
    Même topo, image du fichier texte avec la fenêtre de l'éditeur redimensionnée pour faire apparaître le défaut, et copie d'écran.
    Je pense que le fichier texte que je présente ci-dessus a été nettoyé des petits défauts indiqués dans ma citation (puisque je ne les retrouve plus).

  11. #11
    Membre à l'essai
    Homme Profil pro
    Administrateur systèmes et réseaux
    Inscrit en
    Juillet 2017
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Administrateur systèmes et réseaux
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Juillet 2017
    Messages : 5
    Par défaut omnipage
    Omnipage est une option.... à 200 euros tout de même l'option lol

    en ce moment je suis dans ma ligne linux et nano carte et je propose des solutions de nas avec des sauvegardes sur mes serveur cloud... des mini boitier multi os avec proxmox pour différentes taches chez le client... et me suis dis qu'un petit boitier type nano pie 2 plus avec un script ocr pourrai faire le job... je fais économiser à mon client et je développe ma gamme de petit boitier fonctionnel.

  12. #12
    Responsable Systèmes


    Homme Profil pro
    Gestion de parcs informatique
    Inscrit en
    Août 2011
    Messages
    18 290
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Gestion de parcs informatique
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Août 2011
    Messages : 18 290
    Par défaut
    L'idée de boitiers par service, c'est pas mal, mais peut être un peu léger pour de l'OCR (qui requiert quand même de la puissance).

    Bien que je préfère les retours utilisateurs (merci Jipété), lire ceci :
    https://doc.ubuntu-fr.org/ocr
    un petit extrait :
    Pour le moment, la ROC (ou OCR) n'est pas un des domaines les plus avancés sous GNU/Linux : jusqu'en 2006, les résultats étaient même en général totalement inutilisables. Cependant, les choses ont évolué rapidement en 2007 et 2008 avec tesseract et le projet Ocropus. Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir.
    Ma page sur developpez.com : http://chrtophe.developpez.com/ (avec mes articles)
    Mon article sur le P2V, mon article sur le cloud
    Consultez nos FAQ : Windows, Linux, Virtualisation

Discussions similaires

  1. Réponses: 19
    Dernier message: 03/04/2017, 11h02
  2. Utilisation de conversion PDF dans un projet web
    Par amnass dans le forum Documents
    Réponses: 3
    Dernier message: 26/05/2009, 15h08
  3. Automatisation conversion pdf
    Par licorne dans le forum Général JavaScript
    Réponses: 6
    Dernier message: 30/09/2005, 17h00
  4. [JSP][Conversion][Pdf]
    Par med.ba dans le forum Servlets/JSP
    Réponses: 3
    Dernier message: 06/04/2005, 14h41
  5. Conversion .pdf .doc
    Par knecmotet dans le forum Windows
    Réponses: 2
    Dernier message: 07/03/2005, 15h29

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo