IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

tableau de liste trié selon un élément de la liste


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Homme Profil pro
    Enseignant
    Inscrit en
    Mars 2015
    Messages
    13
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Sarthe (Pays de la Loire)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Mars 2015
    Messages : 13
    Par défaut tableau de liste trié selon un élément de la liste
    Bonjour,

    soit le fichier CSV qui commence comme cela et contient 183000 lignes non triées:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
     
    ENFANT_SEXE;ENFANT_PRENOM;ANNEE;DEP_LIBELLE;DEP_CODE;NOMBRE_OCCURRENCES
    Garçons;ELIOTT;2016-01-01;Loire-Atlantique;44;41.0
    Garçons;ELLIOT;2001-01-01;Loire-Atlantique;44;6.0
    Garçons;ELLIOT;2008-01-01;Loire-Atlantique;44;9.0
    Garçons;ELOI;1906-01-01;Loire-Atlantique;44;4.0
    Garçons;ELOI;2011-01-01;Loire-Atlantique;44;6.0
    Garçons;ELOI;2017-01-01;Loire-Atlantique;44;3.0
    Je le mets dans un tableau:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
     
    import csv
    f = open("234400034_001-002_prenoms-maj2017.csv", "r",  encoding='utf-8')
    c = csv.reader(f, delimiter=';')
    tableau = []
    cmpt = 0
    for ligne in c:
        tableau.append(ligne)
        cmpt=cmpt+1
        if cmpt%1000 == 0:
            print (cmpt," lignes lues")
    f.close()

    Je veux obtenir un nouveau tableau trié par ordre alphabétique sur la deuxième colonne correspondant aux prénoms.

    Merci pour votre aide.

  2. #2
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    Bonjour,

    NB: le code doit être présenté entre les tags de code (le '#' en haut et à droite de la fenêtre d'édition)

    Voilà un exemple de code (Python 3) pour ton problème, en partant du principe que le fichier tiendra en mémoire:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    #!/usr/bin/python3
    # -*- coding: utf-8 -*-
     
    import csv
     
    # lit le fichier "fichier.csv"
    tableau = []
    cmpt = 0
    with open("fichier.csv", "r", encoding='utf-8') as f1:
        for ligne in csv.reader(f1, delimiter=';'):
            tableau.append(ligne)
            cmpt += 1
     
    print(cmpt," lignes lues")
     
    # retire la ligne de titre en 1ère position
    lignetitre = tableau.pop(0)
     
    # trie le tableau selon le 2ème champ du tableau
    tableau.sort(key=lambda v: v[1])
     
    # remet la ligne de titre en 1ère position
    tableau.insert(0, lignetitre)
     
    # écrit le tableau trié dans le fichier "fichier2.csv"
    with open('fichier2.csv', 'w', newline='', encoding='utf-8') as f2:
        c2 = csv.writer(f2, delimiter=';', quoting=csv.QUOTE_MINIMAL)
        for ligne in tableau:
            c2.writerow(ligne)

  3. #3
    Membre averti
    Homme Profil pro
    Enseignant
    Inscrit en
    Mars 2015
    Messages
    13
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Sarthe (Pays de la Loire)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Mars 2015
    Messages : 13
    Par défaut
    Super, ça marche, un grand merci tyrtamos.

    Et en plus, je comprends tout,... enfin presque tout: En fait la ligne clef m'échappe un peu.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    tableau.sort(key=lambda v: v[1])
    Qui tente de m'expliquer?

    Merci

  4. #4
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 743
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 743
    Par défaut
    Salut,

    Le tuto. sur comment trier avec Python qui vient avec la documentation standard est un bon début...

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  5. #5
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    Citation Envoyé par gilles2508 Voir le message
    En fait la ligne clef m'échappe un peu.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    tableau.sort(key=lambda v: v[1])
    Qui tente de m'expliquer?
    Le tri des éléments d'une liste suppose une comparaison entre chacun d'entre eux pour savoir lequel est avant l'autre.

    Mais ici, on a une liste composée de sous-listes, chacune représentant une ligne comme:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    ['Garçons', 'ELLIOT', '2001-01-01', 'Loire-Atlantique', '44', '6.0']
    Et comme tu veux que le tri se fasse sur le 2ème champ de chaque ligne, on met:

    pour dire à sort: pour les comparaisons, au lieu de prendre la sous-liste v, tu prends son 2ème champ v[1]

    Pour faire un tri sur les dates, il suffirait de mettre key=lambda v: v[2]

    ok?

  6. #6
    Membre averti
    Homme Profil pro
    Enseignant
    Inscrit en
    Mars 2015
    Messages
    13
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Sarthe (Pays de la Loire)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Mars 2015
    Messages : 13
    Par défaut
    Merci,
    c'est de plus en plus clair, mais pour aller au boût, je vous sollicite encore. N'hésitez pas à me rectifier si je dis des bourdes:

    la méthode sort() attend une clef de tri.
    "key = " est suivi d'une fonction. lamda permet l'écriture implicite d'une fonction qui prend comme argument "v" et renvoie v[1]

    Que représente "v"? Une ligne (liste) du fichier certainement, mais comment cela se fait-il?

    Gilles

  7. #7
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    Citation Envoyé par gilles2508 Voir le message
    Que représente "v"? Une ligne (liste) du fichier certainement, mais comment cela se fait-il?
    lambda déclare une fonction qui sera appliquée à chaque élément de la liste à trier (ici chaque élément est une sous-liste pour chaque ligne), et v n'est qu'un argument de fonction: tu l'appelles comme tu veux.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    key=lambda nimportequoipourvuquecamousse: nimportequoipourvuquecamousse[1]
    fonctionnerait aussi bien!

  8. #8
    Membre éclairé
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Novembre 2018
    Messages
    41
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Seine et Marne (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2018
    Messages : 41
    Par défaut
    Salut,
    Il reste un inconvénient avec le code suivant :
    Citation Envoyé par tyrtamos Voir le message
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    # trie le tableau selon le 2ème champ du tableau
    tableau.sort(key=lambda v: v[1])
    c'est que le tableau n'est pas vraiment trié... si les données contiennent des caractères accentués.
    Ceci est dû au fait que ces caractères viennent après les autres dans l'ordre des caractères unicode.
    Pour éviter cela, il faut les convertir avant tri en leur équivalent non accentué. Ce qui se fait très bien avec le trop peu connu module unidecode.
    Exemple simplifié :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
     
    import unidecode
    tableau = [
    	['garçons','éliot'],
    	['garçons','eliot'],
    	['garçons','alceste'],
    	['garçonss','roger'],
    	]
    print(tableau)
    tableau.sort(key=lambda v: v[1])
    print(tableau)
    tableau.sort(key=lambda v: unidecode.unidecode(v[1]))
    print(tableau)
    Ce module s'installe avec pip (pip3 install unidecode).
    Voici le résultat du code précédent :
    [['garçons', 'éliot'], ['garçons', 'eliot'], ['garçons', 'alceste'], ['garçonss', 'roger']]
    [['garçons', 'alceste'], ['garçons', 'eliot'], ['garçonss', 'roger'], ['garçons', 'éliot']]
    [['garçons', 'alceste'], ['garçons', 'eliot'], ['garçons', 'éliot'], ['garçonss', 'roger']]
    La troisième ligne est la seule version de la liste qui soit véritablement triée.

  9. #9
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    Bonjour,

    Citation Envoyé par jmbain Voir le message
    c'est que le tableau n'est pas vraiment trié... si les données contiennent des caractères accentués.
    Ceci est dû au fait que ces caractères viennent après les autres dans l'ordre des caractères unicode.
    Bien vu! C'est même encore pire que ça, puisque dans les polices de caractères courantes, non seulement les caractères accentués sont derrière tous les autres caractères, mais les caractères minuscules sont derrière les majuscules.

    Exemples:
    'é' est après le 'z'
    'a' est après le 'Z'

    On peut utiliser le module "unicodedata" en créant une fonction qui va supprimer les accents et tout passer en majuscules:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    from unicodedata import normalize, combining
     
    def majuscsa(ch):
        """Convertit la chaine ch (unicode) en majuscules non accentuées
           utilise unicodedata.normalize et unicodedata.combining
        """
        # conv. de minuscule en majuscule avec conservation des accents éventuels
        ch = ch.upper()
        # suppression des accents qui restent
        chnorm = normalize('NFKD', ch)
        return "".join([c for c in chnorm if not combining(c)])
    Avec cette fonction, l'instruction de tri deviendra tout simplement:

    tableau.sort(key=lambda v: majuscsa(v[1]))

    Mais le résultat n'est pas encore parfait, puisque les caractères accentués, ayant perdu leur accent, apparaîtront dans l'ordre initial de la liste. Et donc, on pourra avoir: "xxéx", "xxex", "xxèx", etc...

    Il faudrait donc faire un vrai tri français comme le fait le dictionnaire! Et là, ça se gâte un peu...

    Le document le plus clair que j'ai trouvé est un document canadien: http://www-clips.imag.fr/geta/gilles...-francais.html. On voit bien que le français est bourré de vacheries...

    Par exemple, il est reconnu comme ordre de priorité entre les caractères français:

    aA àÀ âà
    cC çÇ
    eE éÉ èÈ êÊ ëË
    iI îÎ ïÏ
    oO ôÔ
    uU ùÙ ûÛ üÜ
    yY ÿŸ

    Voilà cependant un code que j'ai développé et qui respecte les exemples donnés du document canadien:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    #! /usr/bin/python3
    # -*- coding: utf-8 -*-
     
    import locale
     
    class Compfr:
        """comparaison de 2 chaines unicode selon le dictionnaire français
        """
        def __init__(self):
            self.loc = locale.getlocale() # stocke la locale courante
            self.espinsec = '\xA0' # espace insécable
     
        def __call__(self, v1, v2):
            # retire les tirets et les blancs insécables
            v1 = v1.replace('-', '')
            v1 = v1.replace(self.espinsec, '')
            v2 = v2.replace('-', '')
            v2 = v2.replace(self.espinsec, '')
            # calcule la comparaison selon la locale
            locale.setlocale(locale.LC_ALL, '')
            comp = locale.strcoll(v1, v2)
            #retour à la locale courante
            locale.setlocale(locale.LC_ALL, self.loc) 
            # retour du résultat de la comparaison
            return comp
    Et voilà des exemples d'utilisation:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    from functools import cmp_to_key
     
    L = ['pécher', 'pèche', 'pêcher', 'PÉCHÉ', 'péché', 'PÊCHE', 'pêche', 'PÈCHE']
    print(L)
    compfr = Compfr()
    L2 = sorted(L, key=cmp_to_key(compfr))
    print(L2)
    Ce qui affiche:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    ['pécher', 'pèche', 'pêcher', 'PÉCHÉ', 'péché', 'PÊCHE', 'pêche', 'PÈCHE']
    ['pèche', 'PÈCHE', 'pêche', 'PÊCHE', 'péché', 'PÉCHÉ', 'pécher', 'pêcher']
    Etc...

    On voit que, comme il s'agit d'une comparaison entre 2 éléments (à cause de locale.strcoll), on utilise cmp_to_key du module functools.

    Pour le problème de tri de ce fil, cela donnerait (j'ai mis une majuscule au 2ème 'eliot'):

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    L = [['garçons', 'éliot'], ['garçons', 'Eliot'], ['garçons', 'eliot'], ['garçons', 'alceste'], ['garçons', 'roger']]
    print(L)
    compfr = Compfr()
    L.sort(key=cmp_to_key(lambda x, y:compfr(x[1],y[1])))
    print(L)
    Ce qui affiche:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    [['garçons', 'éliot'], ['garçons', 'Eliot'], ['garçons', 'eliot'], ['garçons', 'alceste'], ['garçons', 'roger']]
    [['garçons', 'alceste'], ['garçons', 'eliot'], ['garçons', 'Eliot'], ['garçons', 'éliot'], ['garçons', 'roger']]

  10. #10
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 743
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 743
    Par défaut
    Salut,

    Citation Envoyé par tyrtamos Voir le message
    On voit que, comme il s'agit d'une comparaison entre 2 éléments (à cause de locale.strcoll), on utilise cmp_to_key du module functools.
    key=locale.strxfrm est assez bon (et probablement plus rapide) excepté pour les '-' (qui se remplacent).
    L'internationalisation (I18N) date de la fin des années 80 et tout le boulot a été réalisé assez bien dans locale avec ses collations spécifiques... non sans mal car, les bugs donnaient lieu a des débats plutôt exotiques.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  11. #11
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    Bonjour,

    Citation Envoyé par wiztricks Voir le message
    key=locale.strxfrm est assez bon (et probablement plus rapide) excepté pour les '-' (qui se remplacent).
    Merci wiztricks, je vais essayer. Ce serait bien que ça permette de ne pas utiliser cmp_to_key.

Discussions similaires

  1. Réponses: 1
    Dernier message: 27/04/2016, 14h07
  2. [PHP 5.5] supprimer un tableau (array) selon son élément
    Par aspkiddy dans le forum Langage
    Réponses: 8
    Dernier message: 10/09/2015, 14h56
  3. listes triées selon langue choisie (D7)
    Par lfa95 dans le forum Langage
    Réponses: 7
    Dernier message: 13/04/2011, 14h40
  4. [JDOM] Ajout d'éléments triés selon leur nom et problème de redondance.
    Par _fav_ dans le forum Format d'échange (XML, JSON...)
    Réponses: 3
    Dernier message: 05/08/2010, 11h24
  5. Réponses: 4
    Dernier message: 09/08/2006, 11h05

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo