Trier fichier csv

**memento80** · 30/10/2011, 20h13

Bonjour,

Bon j'espère ne pas poster pour rien mais, là, je commence à m'embourber sérieusement...

J'ai cherché sur le forum mais je n'ai pas trouvé de sujet correspondant à mon besoin qui me parait pourtant tout bête.

Voilà, j'aimerais trier un fichier csv se présentant de la sorte (exemple) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
28.045 ;13; A ; Commentaire 1024
28.061 ;17; A ; Commentaire 1153
28.048 ;14; B ; Commentaire 965
28.064 ;15; C ; Commentaire 453
28.110 ;11; D ; Commentaire 854
28.144 ;20; D ; Commentaire 243
28.151 ;19; E ; Commentaire 52
28.148 ;16; E ; Commentaire 1021
28.172 ;18; E ; Commentaire 111

Ici, le tri serait à faire sur le premier champs.

Je n'ai rien trouvé dans le module csv (ou sinon j'ai loupé un truc).
Sinon, je m'orientais vers une solution qui me semblait de plus en plus tordu, comme passer par une liste pour récupérer chaque ligne, trier cette liste, et la réinjecter dans un nouveau fichier... et là, je me suis mis à patauger..

Merci d'avance pour votre aide.

**tyrtamos** · 30/10/2011, 21h05

Bonjour,

Je ne vois pas comment on pourrait trier sans lire le fichier et le réécrire après le tri. A part de créer un fichier index en mémoire, ce qui serait justifié si le fichier était très gros.

Alors, si les lignes du fichier sont aussi simples que ça, partons sur la solution "tordue"

Après lecture du fichier, on a une liste comme suit (attention à l'exemple fourni: en principe, les fichiers csv n'ont pas d'espace à côté du séparateur):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
L = [
"28.045 ;13; A ; Commentaire 1024",
"28.061 ;17; A ; Commentaire 1153",
"28.048 ;14; B ; Commentaire 965",
"28.064 ;15; C ; Commentaire 453",
"28.110 ;11; D ; Commentaire 854",
"28.144 ;20; D ; Commentaire 243",
"28.151 ;19; E ; Commentaire 52",
"28.148 ;16; E ; Commentaire 1021",
"28.172 ;18; E ; Commentaire 111"]

Il faut découper chaque élément de cette liste avec le ';':

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

R = [e.split(';')  for e in L]

Ce qui donne pour R:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
['28.045 ', '13', ' A ', ' Commentaire 1024']
['28.061 ', '17', ' A ', ' Commentaire 1153']
['28.048 ', '14', ' B ', ' Commentaire 965']
['28.064 ', '15', ' C ', ' Commentaire 453']
['28.110 ', '11', ' D ', ' Commentaire 854']
['28.144 ', '20', ' D ', ' Commentaire 243']
['28.151 ', '19', ' E ', ' Commentaire 52']
['28.148 ', '16', ' E ', ' Commentaire 1021']
['28.172 ', '18', ' E ', ' Commentaire 111']

On tri selon le 1er élément, mais comme le nombre est une chaine, il faut le convertir en flottant pendant le tri:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

R.sort(key=lambda v: float(v[0]))

Ce qui donne:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
['28.045 ', '13', ' A ', ' Commentaire 1024']
['28.061 ', '17', ' A ', ' Commentaire 1153']
['28.048 ', '14', ' B ', ' Commentaire 965']
['28.064 ', '15', ' C ', ' Commentaire 453']
['28.110 ', '11', ' D ', ' Commentaire 854']
['28.144 ', '20', ' D ', ' Commentaire 243']
['28.151 ', '19', ' E ', ' Commentaire 52']
['28.148 ', '16', ' E ', ' Commentaire 1021']
['28.172 ', '18', ' E ', ' Commentaire 111']

Il faut ensuite reformer la liste de chaine pour l'enregistrer sur disque:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

F = [';'.join(e) for e in R]

Ce qui donne enfin:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
28.045 ;13; A ; Commentaire 1024
28.048 ;14; B ; Commentaire 965
28.061 ;17; A ; Commentaire 1153
28.064 ;15; C ; Commentaire 453
28.110 ;11; D ; Commentaire 854
28.144 ;20; D ; Commentaire 243
28.148 ;16; E ; Commentaire 1021
28.151 ;19; E ; Commentaire 52
28.172 ;18; E ; Commentaire 111

Qu'il ne reste plus qu'à enregistrer sur le disque.

**memento80** · 30/10/2011, 22h45

Merci Tyrtamos.

Après quelques tests, il semblerait effectivement que ça marche.

Il me reste 2 trucs importants néanmoins :
- comprendre en détail le code que tu m'as fourni

- reformer correctement mon fichier csv de sortie car je bute encore sur cette partie (c'est surement rien car pour l'instant je retrouve bien mes données dans mon fichier... mais ça reste sur une seule ligne)

Par contre, par curiosité, tu parlais de "créer un fichier index en mémoire, ce qui serait justifié si le fichier était très gros".
Qu'entends tu par là ? Car effectivement, mon fichier pourrait être gros (je n'ai fourni qu'un extrait dans mon exemple).

**tyrtamos** · 30/10/2011, 23h57

Envoyé par memento80

Par contre, par curiosité, tu parlais de "créer un fichier index en mémoire, ce qui serait justifié si le fichier était très gros".
Qu'entends tu par là ? Car effectivement, mon fichier pourrait être gros (je n'ai fourni qu'un extrait dans mon exemple).

Pour les fichiers tellement gros qu'ils ne peuvent tenir en mémoire, le principe est simple (le code l'est moins...):
- on ne charge pas le fichier en mémoire, mais on peut en lire chaque ligne séparément.
- on crée une liste d'entier (=index), chaque entier donnant l'adresse (l'offset) de chaque ligne sur disque.
- on peut ensuite trier la liste d'index en fonction de la ligne pointée par l'adresse.
- après, la liste d'index permet de retrouver triées toutes les lignes du fichier sur disque.
- on peut même retrouver l'une des lignes grâce à une recherche par dichotomie (on retrouve quasi instantanément une ligne dans un fichier d'un million de lignes: c'est impressionnant).
- on peut enregistrer sur disque la liste des index pour la retrouver plus tard.

Généralement, on utilise ça avec un fichier à accès direct (chaque ligne prend exactement la même longueur). Mais on peut l'appliquer avec des lignes de longueurs différentes avec l'adresse de chaque ligne en octets depuis le début du fichier.

**josmiley** · 31/10/2011, 01h02

tyrtamos,

j'vois pas pourquoi tu split() et tu float() ...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
>>> L = [
... "28.045 ;13; A ; Commentaire 1024",
... "28.061 ;17; A ; Commentaire 1153",
... "28.048 ;14; B ; Commentaire 965",
... "28.064 ;15; C ; Commentaire 453",
... "28.110 ;11; D ; Commentaire 854",
... "28.144 ;20; D ; Commentaire 243",
... "28.151 ;19; E ; Commentaire 52",
... "28.148 ;16; E ; Commentaire 1021",
... "28.172 ;18; E ; Commentaire 111"]
>>> sorted(L)
['28.045 ;13; A ; Commentaire 1024',
'28.048 ;14; B ; Commentaire 965', 
'28.061 ;17; A ; Commentaire 1153',
'28.064 ;15; C ; Commentaire 453', 
'28.110 ;11; D ; Commentaire 854', 
'28.144 ;20; D ; Commentaire 243',
'28.148 ;16; E ; Commentaire 1021',
'28.151 ;19; E ; Commentaire 52',
'28.172 ;18; E ; Commentaire 111']

**tyrtamos** · 31/10/2011, 07h19

Bonjour josmiley,

Envoyé par josmiley

j'vois pas pourquoi tu split() et tu float() ...

Simplification apparemment astucieuse, mais:

Pour le float: dans le cas général, la comparaison entre 2 nombres ne donne pas toujours le même résultat que la comparaison entre ces mêmes nombres convertis en chaines de caractères.

Exemple 1: 18.172 > 9.458 mais "18.172" < "9.458"

Exemple 2: 4.079e-06 < 0.753 mais "4.079e-06" > "0.753"

Et pour le split: si on ne fait pas, la comparaison entre 2 nombres de longueurs différentes impliquera le caractère séparateur ';' et les suivants.

Exemple: 2.87819 > 2.8781 mais "2.87819" < "2.8781;".

Ta solution marche ici parce que les nombres fournis ont la même structure et la même longueur xx.xxx (et qu'ils sont, en plus, dans la 1ère colonne que l'on veut trier).

Mais ce ne serait pas raisonnable de mettre un code qui ne marche que dans ce cas particulier.

------------------------------------------
PS: uniquement pour le plaisir, les 3 formules de mon 1er message peuvent être mises en un seule ligne:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

F = [';'.join(e) for e in sorted([e.split(';')  for e in L], key=lambda v: float(v[0]))  ]

Mais ça ne contribue pas à sa lisibilité...

**josmiley** · 31/10/2011, 10h43

oui effectivement ...

**memento80** · 31/10/2011, 11h56

Merci beaucoup. Ca marche effectivement au poil.

Vu l'explication, je ne pense pas que mes fichiers soient assez gros pour avoir à utiliser la deuxième méthode.
Je la garde sous le coude quand même...

A+

Trier fichier csv

Python

Discussions similaires

Partager

Partager