Lecture fichier CSV contenant des caractères accentués

**enicnath** · 28/02/2015, 20h14

Bonjour,

J'ai un fichier CSV contenant exactement les informations suivantes (il s'agit du code APE, activité principale des établissements) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
Code;Libellé
0111Z;Culture de céréales (à l'exception du riz), de légumineuses et de graines oléagineuses
0112Z;Culture du riz
0113Z;Culture de légumes, de melons, de racines et de tubercules
0114Z;Culture de la canne à sucre
0115Z;Culture du tabac
0116Z;Culture de plantes à fibres

Lorsque j'essaie de le lire avec le programme suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
#!/usr/bin/python
# -*- coding: latin-1 -*-
import csv
Fichier = open('CODESAPE.CSV', 'rb')
CSVReader = csv.reader(Fichier,delimiter=';')
for Ligne in CSVReader : 
	print(Ligne[0],'===',Ligne[1])
Fichier.close()

J'obtiens mes données, mais avec un codage bizarre :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
('Code', '===', u'Libell\xe9')
('0111Z', '===', u"Culture de c\xe9r\xe9ales (\xe0 l'exception du riz), de l\xe9gumineuses et de graines ol\xe9agineuses")
('0112Z', '===', u'Culture du riz')
('0113Z', '===', u'Culture de l\xe9gumes, de melons, de racines et de tubercules')
('0114Z', '===', u'Culture de la canne \xe0 sucre')
('0115Z', '===', u'Culture du tabac')
('0116Z', '===', u'Culture de plantes \xe0 fibres')

Quelqu'un sait-il comment faire pour leur redonner leurs accents ?

Merci

Invité · 28/02/2015, 21h02

Bonjour,

enlevez simplement les parenthèses dans print(...), cela devrait suffire.

@+.

Invité · 28/02/2015, 21h07

Re-bonjour,

Si vous êtes intéressée par du code conforme à PEP 8 :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
#!/usr/bin/python
# -*- coding: latin-1 -*-
 
import csv
 
with open("CODESAPE.CSV") as csvfile:
    reader = csv.reader(csvfile, delimiter=";")
    for line in reader:
        print "{} === {}".format(*line)
    # end for
# end with

@+.

**VinsS** · 01/03/2015, 00h35

Salut,

Ben, ton fichier est encodé, donc faut décoder.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
 
Python 2.7.3 (default, Dec 18 2014, 19:03:52) 
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import csv
>>> inf = open("f.csv", "r")
>>> c = csv.reader(inf, delimiter=';')
>>> for l in c:
...     print ": ".join([i.decode('utf-8') for i in l])
... 
0111Z: Culture de céréales (à l'exception du riz), de légumineuses et de graines oléagineuses
0112Z: Culture du riz
0113Z: Culture de légumes, de melons, de racines et de tubercules
0114Z: Culture de la canne à sucre
0115Z: Culture du tabac
0116Z: Culture de plantes à fibres
>>>

**wiztricks** · 01/03/2015, 12h45

Salut,

Envoyé par VinsS

Ben, ton fichier est encodé, donc faut décoder.

C'est plus propre mais ce n'est pas obligatoire d'autant que le module CSV de Python 2 demande a ce que les fichiers soient ouvert 'rb' (i.e. en mode "binaire" plutôt qu'en mode "texte").

- W

**sweetasnz** · 01/03/2015, 13h06

oui, j'ai eu affaire avec ce genre de galère : il faut absolument que tu maitrises ton encodage du fichier que tu lis, et celui dans lequel tu écris.
récupère l'encodage de ton fichier csv d'origine : utf8_bom, utf8, iso8859-1 ... what else ...
regarde comment la méthode "reader" de ton objet CSV décode ton fichier (documentation et/ou code source directement) et tu auras les éléments pour :
- soit définir le bon encodage (si la méthode csv.reader possède un paramètre gérant le type d'encodage)
- soit tu te sers de librairies telle que "codecs (méthode reader/writer) " pour lire ton fichier avec le bon encodage et réécrire en celui qui est géré par "csv.reader"

la maitrise de l'encodage, le nerf de la guerre en python : c'est la 1èere chose à maitriser.

de manière générale, je conseille de tout passer en unicode, UTF8 et toujours se demander si je travaille avec le bon encodage

petit rappel : les 256 premiers caractères (au sens de l'encodage de caractères, en gros, lettre sans accent et chiffre, qq symbôles basiques ...) sont gérés de manière identique qq soit l'encodage, si un caractères est hors ces 256, tu auras besoin de définir et maitriser l'encodage, donc autant le faire d'entrée de jeu.

Lecture fichier CSV contenant des caractères accentués

Python

Vue hybride

Discussions similaires

Partager

Partager