IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

petit script pour copier un livre avoir avoir hors ligne (+ rapidement consultable)


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Avril 2016
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Marne (Champagne Ardenne)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Avril 2016
    Messages : 2
    Par défaut petit script pour copier un livre avoir avoir hors ligne (+ rapidement consultable)
    Bonjour,

    Alors voila j'ai accès à un livre en ligne mais souvent j'aimerai en avoir besoin hors connexion car plus rapide d'accès ca m'evite de remettre mes identifiants.
    J'ai donc besoin d'un petit script qui permettrait de copier les page de ce livre automatiquement pour les avoir en JPG ou PDF hors ligne.

    Si quelqu'un peut m'expliquer comment faire je suis preneur .

    Merci

  2. #2
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 790
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 790
    Par défaut
    Salut,

    Faire cela dépend du site Web (via lequel on accède au livre)... et des droits de copies associés.
    Acheter une copie numérique sera plus simple!

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  3. #3
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 860
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 860
    Billets dans le blog
    1
    Par défaut
    Bonjour
    Du côté de Python il y a le module selenium qui peut lancer un navigateur et lui faire effectuer des actions comme remplir un formulaire ou autre. Mais en dehors du cadre légal (peut-être que les règles de lecture du site imposent une lecture "en ligne" ce qui interdit toute "aspiration" telle que tu l'imagines), dans le meilleur des cas tu obtiendras une copie "image" du livre, comme si tu faisais des copies d'écran page par page.
    Et cela t'interdira tout style de recherche comme recherche par mot (ce qui est bien pratique sur les livres numériques).
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  4. #4
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 790
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 790
    Par défaut
    Citation Envoyé par Sve@r Voir le message
    Et cela t'interdira tout style de recherche comme recherche par mot (ce qui est bien pratique sur les livres numériques)..
    On pourrait ajouter une couche OCR pour traiter ce détail...

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  5. #5
    Membre Expert
    Homme Profil pro
    Enseignant
    Inscrit en
    Juin 2013
    Messages
    1 617
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Enseignant
    Secteur : Enseignement

    Informations forums :
    Inscription : Juin 2013
    Messages : 1 617
    Par défaut
    Comme dit précédemment, cela dépendra du site. De mon côté, j'ai un script qui me fait cela.
    A adapter peut-être ?
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
     
    import subprocess
    import requests
    from requests.exceptions import ConnectionError
     
    def isurl(url_test) :
        try:
            response = requests.get(url)
            response.raise_for_status()
            return True
        except requests.exceptions.HTTPError as err:
            if err.response.status_code == 404:
                print("404 Error")
                return False
     
    ###############################################################################
    ############################### à modifier ####################################
    ###############################################################################
    repertoire = ...
    url_manuel = ...
    nom_fichier_pdf = "...pdf"
     
    ###############################################################################
    # si le nombre de pages dépasse 2000, changer le nombre
    num_page = 1
    while num_page < 2000:
        url = url_manuel.format(num_page)
        if isurl(url):
            sortie = "page{}.pdf".format(num_page)
            print(sortie)
            subprocess.run(['wkhtmltopdf', url, sortie], cwd=repertoire)
            num_page+=1
        else:
            break
     
    nb_pages = num_page-1
     
    ######################### assemblage des pages ###################################
    import PyPDF2
     
    ## création de la liste des pages à assembler
    liste_pages = ["page{}.pdf".format(num_page) for num_page in range(1,nb_pages+1)]
     
    # fonction d'assemblage
    def pdf_combine(pdf_liste):
        """ fonction d'assemblage des pages en pdf présentes
        dans pdf_liste"""
        merger = PyPDF2.PdfMerger()
        for pdf in pdf_liste:
            merger.append(pdf)
        merger.write(nom_fichier_pdf)
     
    # on assemble
    pdf_combine(liste_pages)
     
    import os
    cpt=0 # compteur fichiers supprimés
     
    ######################### effacage des pages ###################################
    # on efface les fichiers de toutes les pages pdf une fois combinées
    # Parcours récursif des répertoires
    for fichier in liste_pages:
        # affiche les fichiers supprimés
        print(fichier, ' supprimé')
        # efface les fichiers
        os.remove(fichier)
        # incrémente le compteur de fichiers supprimés
        cpt+=1            
     
    print(cpt, ' fichiers supprimé(s) !')

  6. #6
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 860
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 860
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par marco056 Voir le message
    A adapter peut-être ?
    Peut-être. La boucle jusqu'à 2000... (j'aurais mis un while True puisque de toute façon tu as une porte de sortie). Et ce "break" sera plus à sa place avec un test écrit dans le bon sens (ce qui aura au-moins l'avantage de gagner une tabulation)
    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    # si le nombre de pages dépasse 2000, on s'en balec
    num_page = 1
    while True:
        url = url_manuel.format(num_page)
        if not isurl(url): break
        sortie = "page{}.pdf".format(num_page)
        print(sortie)
        subprocess.run(['wkhtmltopdf', url, sortie], cwd=repertoire)
        num_page+=1
    Ceci dit, je te remercie de ton intervention qui m'a appris l'existence de wkhtmltopdf
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  7. #7
    Expert confirmé
    Avatar de fred1599
    Homme Profil pro
    Lead Dev Python
    Inscrit en
    Juillet 2006
    Messages
    4 198
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations professionnelles :
    Activité : Lead Dev Python
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Juillet 2006
    Messages : 4 198
    Par défaut
    Hello,

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    while num_page < 2000:
        url = url_manuel.format(num_page)
        if isurl(url):
            # suite du code
    Si ça passe, c'est que le serveur est bien gentil !

    Je limiterai le nombre de requêtes par minute, à moins de se faire jeter et blacklister.

  8. #8
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 790
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 790
    Par défaut
    Citation Envoyé par fred1599 Voir le message
    Je limiterai le nombre de requêtes par minute, à moins de se faire jeter et blacklister.
    wkhtmltopdf prend son temps: charger le browser, lui demander de charger la page (qui peut être "riche" en contenu), la sauvegarder en PDF.... Si on arrive à faire une page par seconde, c'est bien.
    Mieux serait de demander à wkhtmltopdf de récupérer plusieurs pages consécutives et éventuellement paralléliser un peu.
    Ce qui ouvre aussi la porte à des reprises en cas d'erreurs et à leur gestion... plus intéressant mais beaucoup plus compliqué (que le code initial).

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  9. #9
    Expert confirmé
    Avatar de fred1599
    Homme Profil pro
    Lead Dev Python
    Inscrit en
    Juillet 2006
    Messages
    4 198
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations professionnelles :
    Activité : Lead Dev Python
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Juillet 2006
    Messages : 4 198
    Par défaut
    Salut !

    @wiztricks,

    Tu as raison, et pour le coup ça peut devenir trop lent et long, dans ce cas il serait peut-être bon de faire de l'asynchrone pour rendre la tâche non bloquante et mettre un temps de pause (1 seconde) pour éviter les surcharges réseaux.

  10. #10
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 790
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 790
    Par défaut
    En fait, je n'aime pas du tout wkhtmltopdf: il fait trop de choses dans son subprocess pour lequel on ne contrôle rien du tout. Pour optimiser, pas facile! Il semble que de nouvelles bibliothèques plus généralistes soient sorties cefpython3, pyppeteer, playwright,...
    Si je devais "optimiser", je regarderais du côté de ces bibliothèques pour voir ce qu'on pourrait faire avec un découpage plus fin...

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

Discussions similaires

  1. [JavaScript] Petit script pour afficher les tweets de Twitter sur votre site
    Par Immobilis dans le forum Contribuez
    Réponses: 0
    Dernier message: 20/08/2011, 18h24
  2. Un petit script pour une exposition
    Par bmoncanard dans le forum ActionScript 1 & ActionScript 2
    Réponses: 0
    Dernier message: 06/09/2010, 11h59
  3. Script pour copier Index
    Par castorameur dans le forum Administration
    Réponses: 4
    Dernier message: 15/04/2010, 09h15
  4. petit script pour vote automatiques
    Par intoxxx dans le forum Scripts/Batch
    Réponses: 1
    Dernier message: 16/11/2009, 13h43
  5. Script pour copier des fichiers.
    Par agilec dans le forum Linux
    Réponses: 3
    Dernier message: 15/10/2009, 18h43

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo