Télécharger zip et extraire les fichiers

**Vincent_FR** · 19/06/2024, 09h15

Bonjour,

Novice et autodidacte dans le langage python, je me tourne vers la communauté pour obtenir de l'aide sur un code qui doit me permettre de télécharger un fichier zip puis dans extraire l'ensemble de ces fichiers dans un dossier. Mon code est donc le suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
if os.path.exists(repertoire):
	print ("dossier :  OK")
else :
	os.makedirs(repertoire)
 
#  Téléchargement du fichier
req = requests.get(url,stream=True)
#  Extrait le ZIP
zipfile= zipfile.ZipFile(BytesIO(req.content))
zipfile.extractall(repertoire)

La difficulté est qu'une fois sur 10, le traitement s'arrête soudainement et remonte des exceptions de ce genre :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Traceback (most recent call last):
  File "C:\Program Files\QGIS 3.34.7\apps\Python312\Lib\site-packages\requests\models.py", line 816, in generate
    yield from self.raw.stream(chunk_size, decode_content=True)
  File "C:\Program Files\QGIS 3.34.7\apps\Python312\Lib\site-packages\urllib3\response.py", line 1040, in stream
    yield from self.read_chunked(amt, decode_content=decode_content)
  File "C:\Program Files\QGIS 3.34.7\apps\Python312\Lib\site-packages\urllib3\response.py", line 1184, in read_chunked
    self._update_chunk_length()
  File "C:\Program Files\QGIS 3.34.7\apps\Python312\Lib\site-packages\urllib3\response.py", line 1119, in _update_chunk_length
    raise ProtocolError("Response ended prematurely") from None
urllib3.exceptions.ProtocolError: Response ended prematurely
 
During handling of the above exception, another exception occurred:
 
Traceback (most recent call last):
  File "C:\Script\SUP\geo_sup.py", line 125, in <module>
    zipfile= zipfile.ZipFile(BytesIO(req.content))
                                     ^^^^^^^^^^^
  File "C:\Program Files\QGIS 3.34.7\apps\Python312\Lib\site-packages\requests\models.py", line 899, in content
    self._content = b"".join(self.iter_content(CONTENT_CHUNK_SIZE)) or b""
                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Program Files\QGIS 3.34.7\apps\Python312\Lib\site-packages\requests\models.py", line 818, in generate
    raise ChunkedEncodingError(e)
requests.exceptions.ChunkedEncodingError: Response ended prematurely

J'ai écumé les différentes discussions notamment celle-ci :

https://stackoverflow.com/questions/...-with-requests

Néanmoins, j'ai quelques difficultés à assimiler le problème, ( il semble que ce soit lié à la tache qui demande des ressources mémoires au dela de la limite autorisée) et à le résoudre.

Pouvez-vous m'aider à ce sujet ?

D'avance un grand

**papajoker** · 19/06/2024, 10h21

bonjour

Ta seule erreur ici est web urllib3... procolole erreur (pas merci pour ta copie écran, je ne peux faire un copier/coller de ton erreur ou, facilement indiquer le ligne)

La seconde erreur (normale) est uniquement parce que tu ne testes pas le retour de ta méthode requests.get() et essayes de décompresser même si le fichier n'est pas arrivé.

Pour la mémoire ... tu n'indiques rien (taille fichier, ram disponible) que veux-tu que l'on réponde ? si le fichier fait 8Go, effectivement

Note: Que vient faire ton paramètre stream ?? était avant ton erreur ? ou est une mauvaise copie depuis ton lien après erreur ?

**Vincent_FR** · 19/06/2024, 10h26

Envoyé par papajoker

bonjour

Ta seule erreur ici est web urllib3... procolole erreur (pas merci pour ta copie écran, je ne peux faire un copier/coller de ton erreur ou, facilement indiquer le ligne)

La seconde erreur (normale) est uniquement parce que tu ne testes pas le retour de ta méthode requests.get() et essayes de décompresser même si le fichier n'est pas arrivé.

Ok le contenu de l'erreur est plus clair. Je vais gratter la dessus. et désolé pour la capture d'écran, je vais régler ça .

**Vincent_FR** · 20/06/2024, 11h59

Bonjour,

J'ai trouvé une discussion où l'on conseillait à la personne qui avait un message d'erreur tel que le mien de faire une boucle qui retente de télécharger le fichier en cas d'erreur :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
for essai in range(3):
    try:
        req = requests.get(url)
	zipfile= zipfile.ZipFile(BytesIO(req.content))
	zipfile.extractall(repertoire)
        break
    except requests.exceptions.ChunkedEncodingError:
        time.sleep(1)
else:
    print("telechargement infructueux")

C'est malheureusement une solution un peu biaisée car ça ne regle pas l'essence du problème.

**umfred** · 20/06/2024, 13h58

le paramètre stream de requests.get fait que l'on attend pas la fin du téléchargement pour que la fonction retourne quelque chose; ça permet de télécharger par morceaux et éventuellement de s'arrêter avant la fin du téléchargement complet.

https://realpython.com/python-download-file-from-url/

**Vincent_FR** · 26/02/2025, 13h11

Bonjour,

Je reviens vers vous toujours avec mes lacunes en python

car cette fois je souhaiterais télécharger des archives provenant de différentes url. J'ai donc pensé à créer une boucle de ce genre pour arriver à mon but :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
liste = [urlIA4,urlA5]
 
for i in liste :
    req = requests.get(i)
    zipfile= zipfile.ZipFile(BytesIO(req.content))
    zipfile.extractall(repertoire)

Malheureusement, cela ne me télécharge et extrait que le fichier de la première url et j'essuie ce message d'erreur :

Traceback (most recent call last):
File "C:\Script\SUP\debug_geo_sup_v2.py", line 115, in <module>
zipfile= zipfile.ZipFile(BytesIO(req.content))
^^^^^^^^^^^^^^^
AttributeError: 'ZipFile' object has no attribute 'ZipFile'

Je suppose qu'il ne doit pas comprendre avec ce simple code qu'il doit faire les deux dernières étapes avec la deuxième valeur de la liste.

Si une âme charitable veut me bien un coup de main, je lui en serais reconnaissant.

Merci d'avance à vous.

**fred1599** · 26/02/2025, 14h22

Hello,

Dans ta boucle, tu fais zipfile = zipfile.ZipFile(...).

Une fois cette ligne exécutée, zipfile ne représente plus le module zipfile mais un objet ZipFile, ce qui cause l'erreur d'attribut à l'itération suivante.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import requests
import zipfile
from io import BytesIO
 
 
liste = [urlIA4, urlA5]
repertoire = "chemin/vers/le/dossier"
 
 
for url in liste:
    req = requests.get(url)
 
    if req.status_code == 200:  # Vérifier si la requête a réussi
        with zipfile.ZipFile(BytesIO(req.content)) as archive:
            archive.extractall(repertoire)
        print(f"Extraction réussie pour {url}")
    else:
        print(f"Erreur lors du téléchargement de {url} : {req.status_code}")