tableau de liste trié selon un élément de la liste

**gilles2508** · 30/05/2019, 23h43

Bonjour,

soit le fichier CSV qui commence comme cela et contient 183000 lignes non triées:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
 
ENFANT_SEXE;ENFANT_PRENOM;ANNEE;DEP_LIBELLE;DEP_CODE;NOMBRE_OCCURRENCES
Garçons;ELIOTT;2016-01-01;Loire-Atlantique;44;41.0
Garçons;ELLIOT;2001-01-01;Loire-Atlantique;44;6.0
Garçons;ELLIOT;2008-01-01;Loire-Atlantique;44;9.0
Garçons;ELOI;1906-01-01;Loire-Atlantique;44;4.0
Garçons;ELOI;2011-01-01;Loire-Atlantique;44;6.0
Garçons;ELOI;2017-01-01;Loire-Atlantique;44;3.0

Je le mets dans un tableau:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
 
import csv
f = open("234400034_001-002_prenoms-maj2017.csv", "r",  encoding='utf-8')
c = csv.reader(f, delimiter=';')
tableau = []
cmpt = 0
for ligne in c:
    tableau.append(ligne)
    cmpt=cmpt+1
    if cmpt%1000 == 0:
        print (cmpt," lignes lues")
f.close()

Je veux obtenir un nouveau tableau trié par ordre alphabétique sur la deuxième colonne correspondant aux prénoms.

Merci pour votre aide.

**tyrtamos** · 31/05/2019, 06h22

Bonjour,

NB: le code doit être présenté entre les tags de code (le '#' en haut et à droite de la fenêtre d'édition)

Voilà un exemple de code (Python 3) pour ton problème, en partant du principe que le fichier tiendra en mémoire:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
#!/usr/bin/python3
# -*- coding: utf-8 -*-
 
import csv
 
# lit le fichier "fichier.csv"
tableau = []
cmpt = 0
with open("fichier.csv", "r", encoding='utf-8') as f1:
    for ligne in csv.reader(f1, delimiter=';'):
        tableau.append(ligne)
        cmpt += 1
 
print(cmpt," lignes lues")
 
# retire la ligne de titre en 1ère position
lignetitre = tableau.pop(0)
 
# trie le tableau selon le 2ème champ du tableau
tableau.sort(key=lambda v: v[1])
 
# remet la ligne de titre en 1ère position
tableau.insert(0, lignetitre)
 
# écrit le tableau trié dans le fichier "fichier2.csv"
with open('fichier2.csv', 'w', newline='', encoding='utf-8') as f2:
    c2 = csv.writer(f2, delimiter=';', quoting=csv.QUOTE_MINIMAL)
    for ligne in tableau:
        c2.writerow(ligne)

**gilles2508** · 31/05/2019, 08h42

Super, ça marche, un grand merci tyrtamos.

Et en plus, je comprends tout,... enfin presque tout: En fait la ligne clef m'échappe un peu.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

tableau.sort(key=lambda v: v[1])

Qui tente de m'expliquer?

Merci

**wiztricks** · 31/05/2019, 08h56

Salut,

Le tuto. sur comment trier avec Python qui vient avec la documentation standard est un bon début...

- W

**tyrtamos** · 31/05/2019, 10h11

Envoyé par gilles2508

En fait la ligne clef m'échappe un peu.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

tableau.sort(key=lambda v: v[1])

Qui tente de m'expliquer?

Le tri des éléments d'une liste suppose une comparaison entre chacun d'entre eux pour savoir lequel est avant l'autre.

Mais ici, on a une liste composée de sous-listes, chacune représentant une ligne comme:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

['Garçons', 'ELLIOT', '2001-01-01', 'Loire-Atlantique', '44', '6.0']

Et comme tu veux que le tri se fasse sur le 2ème champ de chaque ligne, on met:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

key=lambda v: v[1]

pour dire à sort: pour les comparaisons, au lieu de prendre la sous-liste v, tu prends son 2ème champ v[1]

Pour faire un tri sur les dates, il suffirait de mettre key=lambda v: v[2]

ok?

**gilles2508** · 31/05/2019, 10h47

Merci,
c'est de plus en plus clair, mais pour aller au boût, je vous sollicite encore. N'hésitez pas à me rectifier si je dis des bourdes:

la méthode sort() attend une clef de tri.
"key = " est suivi d'une fonction. lamda permet l'écriture implicite d'une fonction qui prend comme argument "v" et renvoie v[1]

Que représente "v"? Une ligne (liste) du fichier certainement, mais comment cela se fait-il?

Gilles

**tyrtamos** · 31/05/2019, 11h54

Envoyé par gilles2508

Que représente "v"? Une ligne (liste) du fichier certainement, mais comment cela se fait-il?

lambda déclare une fonction qui sera appliquée à chaque élément de la liste à trier (ici chaque élément est une sous-liste pour chaque ligne), et v n'est qu'un argument de fonction: tu l'appelles comme tu veux.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

key=lambda nimportequoipourvuquecamousse: nimportequoipourvuquecamousse[1]

fonctionnerait aussi bien!

**jmbain** · 01/06/2019, 09h45

Salut,
Il reste un inconvénient avec le code suivant :

Envoyé par tyrtamos

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
# trie le tableau selon le 2ème champ du tableau
tableau.sort(key=lambda v: v[1])

c'est que le tableau n'est pas vraiment trié... si les données contiennent des caractères accentués.
Ceci est dû au fait que ces caractères viennent après les autres dans l'ordre des caractères unicode.
Pour éviter cela, il faut les convertir avant tri en leur équivalent non accentué. Ce qui se fait très bien avec le trop peu connu module unidecode.
Exemple simplifié :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
 
import unidecode
tableau = [
	['garçons','éliot'],
	['garçons','eliot'],
	['garçons','alceste'],
	['garçonss','roger'],
	]
print(tableau)
tableau.sort(key=lambda v: v[1])
print(tableau)
tableau.sort(key=lambda v: unidecode.unidecode(v[1]))
print(tableau)

Ce module s'installe avec pip (pip3 install unidecode).
Voici le résultat du code précédent :
[['garçons', 'éliot'], ['garçons', 'eliot'], ['garçons', 'alceste'], ['garçonss', 'roger']]
[['garçons', 'alceste'], ['garçons', 'eliot'], ['garçonss', 'roger'], ['garçons', 'éliot']]
[['garçons', 'alceste'], ['garçons', 'eliot'], ['garçons', 'éliot'], ['garçonss', 'roger']]
La troisième ligne est la seule version de la liste qui soit véritablement triée.

**tyrtamos** · 01/06/2019, 12h39

Bonjour,

Envoyé par jmbain

c'est que le tableau n'est pas vraiment trié... si les données contiennent des caractères accentués.
Ceci est dû au fait que ces caractères viennent après les autres dans l'ordre des caractères unicode.

Bien vu! C'est même encore pire que ça, puisque dans les polices de caractères courantes, non seulement les caractères accentués sont derrière tous les autres caractères, mais les caractères minuscules sont derrière les majuscules.

Exemples:
'é' est après le 'z'
'a' est après le 'Z'

On peut utiliser le module "unicodedata" en créant une fonction qui va supprimer les accents et tout passer en majuscules:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
from unicodedata import normalize, combining
 
def majuscsa(ch):
    """Convertit la chaine ch (unicode) en majuscules non accentuées
       utilise unicodedata.normalize et unicodedata.combining
    """
    # conv. de minuscule en majuscule avec conservation des accents éventuels
    ch = ch.upper()
    # suppression des accents qui restent
    chnorm = normalize('NFKD', ch)
    return "".join([c for c in chnorm if not combining(c)])

Avec cette fonction, l'instruction de tri deviendra tout simplement:

tableau.sort(key=lambda v: majuscsa(v[1]))

Mais le résultat n'est pas encore parfait, puisque les caractères accentués, ayant perdu leur accent, apparaîtront dans l'ordre initial de la liste. Et donc, on pourra avoir: "xxéx", "xxex", "xxèx", etc...

Il faudrait donc faire un vrai tri français comme le fait le dictionnaire! Et là, ça se gâte un peu...

Le document le plus clair que j'ai trouvé est un document canadien: http://www-clips.imag.fr/geta/gilles...-francais.html. On voit bien que le français est bourré de vacheries...

Par exemple, il est reconnu comme ordre de priorité entre les caractères français:

aA àÀ âà
cC çÇ
eE éÉ èÈ êÊ ëË
iI îÎ ïÏ
oO ôÔ
uU ùÙ ûÛ üÜ
yY ÿŸ

Voilà cependant un code que j'ai développé et qui respecte les exemples donnés du document canadien:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
#! /usr/bin/python3
# -*- coding: utf-8 -*-
 
import locale
 
class Compfr:
    """comparaison de 2 chaines unicode selon le dictionnaire français
    """
    def __init__(self):
        self.loc = locale.getlocale() # stocke la locale courante
        self.espinsec = '\xA0' # espace insécable
 
    def __call__(self, v1, v2):
        # retire les tirets et les blancs insécables
        v1 = v1.replace('-', '')
        v1 = v1.replace(self.espinsec, '')
        v2 = v2.replace('-', '')
        v2 = v2.replace(self.espinsec, '')
        # calcule la comparaison selon la locale
        locale.setlocale(locale.LC_ALL, '')
        comp = locale.strcoll(v1, v2)
        #retour à la locale courante
        locale.setlocale(locale.LC_ALL, self.loc) 
        # retour du résultat de la comparaison
        return comp

Et voilà des exemples d'utilisation:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
from functools import cmp_to_key
 
L = ['pécher', 'pèche', 'pêcher', 'PÉCHÉ', 'péché', 'PÊCHE', 'pêche', 'PÈCHE']
print(L)
compfr = Compfr()
L2 = sorted(L, key=cmp_to_key(compfr))
print(L2)

Ce qui affiche:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
['pécher', 'pèche', 'pêcher', 'PÉCHÉ', 'péché', 'PÊCHE', 'pêche', 'PÈCHE']
['pèche', 'PÈCHE', 'pêche', 'PÊCHE', 'péché', 'PÉCHÉ', 'pécher', 'pêcher']

Etc...

On voit que, comme il s'agit d'une comparaison entre 2 éléments (à cause de locale.strcoll), on utilise cmp_to_key du module functools.

Pour le problème de tri de ce fil, cela donnerait (j'ai mis une majuscule au 2ème 'eliot'):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
L = [['garçons', 'éliot'], ['garçons', 'Eliot'], ['garçons', 'eliot'], ['garçons', 'alceste'], ['garçons', 'roger']]
print(L)
compfr = Compfr()
L.sort(key=cmp_to_key(lambda x, y:compfr(x[1],y[1])))
print(L)

Ce qui affiche:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
[['garçons', 'éliot'], ['garçons', 'Eliot'], ['garçons', 'eliot'], ['garçons', 'alceste'], ['garçons', 'roger']]
[['garçons', 'alceste'], ['garçons', 'eliot'], ['garçons', 'Eliot'], ['garçons', 'éliot'], ['garçons', 'roger']]

**wiztricks** · 01/06/2019, 16h13

Salut,

Envoyé par tyrtamos

On voit que, comme il s'agit d'une comparaison entre 2 éléments (à cause de locale.strcoll), on utilise cmp_to_key du module functools.

key=locale.strxfrm est assez bon (et probablement plus rapide) excepté pour les '-' (qui se remplacent).
L'internationalisation (I18N) date de la fin des années 80 et tout le boulot a été réalisé assez bien dans locale avec ses collations spécifiques... non sans mal car, les bugs donnaient lieu a des débats plutôt exotiques.

- W