Lire archive .taz depuis URL

**jules02880** · 10/08/2020, 16h05

Bonjour à tous,

Je suis en train de réaliser un programme Python qui permet à l'utilisateur de rechercher le nombre d’occurrences de certains termes de son choix dans l'ensemble des débats de l'Assemblée Nationale, afin notamment d'en étudier l'évolution, avec plusieurs fonctionnalités qui peuvent être intéressantes. Tout ce qui se dit lors des débats à l'Assemblée Nationale est en effet retranscris et ces données sont disponibles en ligne.

Sur ce lien, on retrouve pour chaque année un répertoire qui contient un certain nombre d'archives .taz. D'après cette notice, ces archives contiennent pour chacune d'entre elles deux fichiers XML. C'est celui qui commence par CRI m'intéresse dans mon script.

Cependant donc, je ne sais pas exactement à quoi correspond une archive .taz. Cela semble être la compression d'un fichier .tar et .Z, assez archaïque donc et très peu documenté sur internet.

Je suis parvenu avec la commande bash suivante à transformer des archives .taz que j'avais téléchargé en local en .tar:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

for d in *.taz; do tar xaf $d; done

Je sais par ailleurs comment travailler avec une archive .tar directement dans mon programme Python, donc je suis parvenu à tester mon programme.

Je cherche donc comment je pourrais dans mon programme Python récupérer à partir d'une url comme celle-ci par exemple, l'archive .tar qui lui correspond afin de travailler ensuite avec le fichier .xml qui m'intéresse.

J'ai bien évidemment essayé de l'ouvrir comme je le ferais pour ouvrir une archive .tar:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
import urllib.request
import tarfile
 
url = "https://echanges.dila.gouv.fr/OPENDATA/Debats/AN/2011/AN_20111013_088.taz"
stream = urllib.request.urlopen(url)
file = tarfile.open(fileobj=stream, mode="r:gz")

Mais j'obtiens une erreur qui m'indique que ce n'est pas un fichier gzip

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

tarfile.ReadError: not a gzip file

Quelqu'un aurait-il une idée ? Merci d'avance pour vos réponses.

**wiztricks** · 10/08/2020, 18h41

Salut,

Envoyé par jules02880

Quelqu'un aurait-il une idée ?

Si vous avez essayé tous les formats de compression supportés par tarfile et que çà ne fonctionne pas, vous avez toujours la solution de sauvegarder les données dans un fichier et de faire faire le boulot par "tar" (via subprocess.call).

- W

**jurassic pork** · 11/08/2020, 07h01

hello,

Envoyé par jules02880

Bonjour à tous,
Cependant donc, je ne sais pas exactement à quoi correspond une archive .taz. Cela semble être la compression d'un fichier .tar et .Z, assez archaïque donc et très peu documenté sur internet.

en fait une archive .taz est une archive .tar compressée en format LZW.
Soit, tu la décompresses en utilisant un programme externe comme le suggère Wiztricks, ou alors tu peux utiliser par exemple le paquet unlzw3 disponible chez Pypi. Le souci de unlzw3 c'est qu'il est écrit en pure python et donc plus lent qu'un programme externe.
Voici un exemple d'utilisation de ce paquet :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import urllib.request
import io
import unlzw3
import tarfile
FILE_URL = "https://echanges.dila.gouv.fr/OPENDATA/Debats/AN/2011/AN_20111013_088.taz"
tarFic = "M:/temp/fichier.tar"
response = urllib.request.urlopen(FILE_URL)
compressed_file = io.BytesIO(response.read())
decompressed_file = unlzw3.unlzw(compressed_file.read())
with open(tarFic, 'wb') as outfile:
    outfile.write(decompressed_file)
outfile.close()
tar = tarfile.open(tarFic, "r")
for tarinfo in tar:
    print(tarinfo.name, "a comme taille", tarinfo.size, "octets",)
tar.close()