Ouvrir un fichier avec Pandas (extension pas .csv)

**DaddyTousucre** · 22/12/2022, 09h31

Bonjour à tous,
Pour traiter les résultats obtenus sur des bacs de tests je souhaite ouvrir mes fichiers de résultats avec pandas pour en faire des dataframes.
Les machines renvoient selon leur type :
- des fichiers ".tsv" qui correspondent csv avec un séparateur tabulation
- des fichiers ".lvm" qui correspondent csv avec un séparateur virgule
Voici mon code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import FormChoixMachine
import FormEssais
import pandas as pd
 
Machine = FormChoixMachine.ChoixMachine()
Chemin_Liste = list(FormEssais.Chemin_Liste_Essais())
DossierEssais = Chemin_Liste[0]
ListeEssais = Chemin_Liste[1]
 
for Essai in range(len(ListeEssais)):
    if Machine != "Old_TE77":
        Chemin = DossierEssais + "\\" + ListeEssais[Essai] + ".tsv"
        Lecture_Fichier = pd.read_csv(Chemin, delimiter="\t")
    else:
        Chemin = DossierEssais + "\\" + ListeEssais[Essai] + ".lvm"
        Lecture_Fichier = pd.read_csv(Chemin, delimiter=",")
    print(Lecture_Fichier)

Et ça coince... Sauriez-vous m'aider à savoir pourquoi ?
Merci par avance,
Bonne journée,

**Arioch** · 22/12/2022, 09h43

Bonjour.

Ca coince...

Mais encore ?

Quel est le message d'erreur ?

Si c'est une erreur liée aux chemins UNC (accès de vos fichiers à travers un réseau), regardez du côté de la lib pathlib qui gère très bien les chemins UNC.

**DaddyTousucre** · 22/12/2022, 09h52

Bonjour,
Le message d'erreur varie selon les cas j'ai eu :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 453: invalid start byte

mais aussi :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\Daddy\\Desktop\\Démo traitement auto\\Old TE-77\\MyFile.tsv'

(là je comprends pas pourquoi il a doublé les "\")
Les fichiers, comme vous le voyez sont en local.
L'erreur intervient toujours sur la ligne

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Lecture_Fichier = pd.read_csv(Chemin, delimiter="\t")

ou la ligne

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Lecture_Fichier = pd.read_csv(Chemin, delimiter=",")

**jurassic pork** · 22/12/2022, 09h46

Hello,

Envoyé par DaddyTousucre

Et ça coince... Sauriez-vous m'aider à savoir pourquoi ?

un message d'erreur ? sur quelle ligne de code ?

Ami calmant, J.P

**wiztricks** · 22/12/2022, 10h12

Envoyé par DaddyTousucre

Et ça coince... Sauriez-vous m'aider à savoir pourquoi ?

Vous ne pouvez pas utiliser Pandas sans un minimum de connaissances sur les fichiers, leur chemin d'accès (FileNotFoundError), et l'encodage des fichiers texte(UnicodeDecodeError).
Ce qui demande de passer du temps dans un bons tutos d'apprentissage des bases du langage (avant de se jeter dans Pandas et se faire bouffer tout cru).
note: c'est en faisant les exercices proposés dans les tutos qu'on apprend à décortiquer les messages d'erreur et leur importance dans la description d'un problème qu'on pourra rencontrer.
- W

**jurassic pork** · 22/12/2022, 11h25

UnicodeError : il faut vérifier que le fichier source est en utf-8 ce qui ne semble pas le cas quand tu as une erreur (peut-être que le fichier est encodé en ANSI)
FileNotFoundError : Est-ce que le fichier indiqué dans le message d'erreur est bien présent dans l'ordinateur ( vérifier avec l'explorateur de fichier et ne pas se préoccuper des doubles \).

**DaddyTousucre** · 22/12/2022, 12h05

Suite aux remarques de jurassic (merci beaucoup), j'ai fait les modifications suivantes :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
for Essai in range(len(ListeEssais)):
    if Machine != "Old_TE77":
        Chemin = DossierEssais + "\\" + ListeEssais[Essai] + ".TSV"
        Lecture_Fichier = pd.read_csv(Chemin, delimiter="\t", encoding="ANSI")
    else:
        Chemin = DossierEssais + "\\" + ListeEssais[Essai] + ".lvm"
        Lecture_Fichier = pd.read_csv(Chemin, delimiter=",", encoding="ANSI")
    print(Lecture_Fichier)

J'ai maintenant une nouvelle erreur :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

ParserError: Error tokenizing data. C error: Expected 3 fields in line 16, saw 22

Comme mes données commencent effectivement à la deuxième colonne de la ligne 16, j'ai donc modifié par :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
for Essai in range(len(ListeEssais)):
    listecol=[]
    for i in range(1,21):
        listecol.append(int(i))
    if Machine != "Old_TE77":
        Chemin = DossierEssais + "\\" + ListeEssais[Essai] + ".TSV"
        Lecture_Fichier = pd.read_csv(Chemin, delimiter="\t", encoding="ANSI", header=15, usecols=listecol)
    else:
        Chemin = DossierEssais + "\\" + ListeEssais[Essai] + ".lvm"
        Lecture_Fichier = pd.read_csv(Chemin, delimiter=",", encoding="ANSI", header=15, usecols=listecol)
    print(Lecture_Fichier)

Mais j'ai l'erreur suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

ValueError: Usecols do not match columns, columns expected but not found: [1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]

Comment puis-je résoudre ce problème ?

**jurassic pork** · 22/12/2022, 12h11

si il n' y a pas d'infos confidentielles peux-tu nous montrer les 20 premières lignes de ton fichier source ?

**DaddyTousucre** · 22/12/2022, 12h16

Oui, j'ai anonymisé certaines infos plus sensibles et voici :
Nom : Premieres_lignes_tsv.PNG
Affichages : 706
Taille : 67,8 Ko

Merci pour votre aide :-)

Addendum : Je viens de réaliser qu'il y a une tabulation en trop à la fin de chaque ligne de données qu'il n'y a pas sur la ligne avec les noms de colonne, ce qui pourrait expliquer l'erreur... Comment je pourrais supprimer ça ou lui dire de ne pas le considérer ?

Ouvrir un fichier avec Pandas (extension pas .csv)

Python

Vue hybride

Discussions similaires

Partager

Partager