IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

enchainement de conditions sur dataframe


Sujet :

Python

  1. #1
    Membre à l'essai
    Homme Profil pro
    Étudiant
    Inscrit en
    Octobre 2018
    Messages
    45
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Octobre 2018
    Messages : 45
    Points : 13
    Points
    13
    Par défaut enchainement de conditions sur dataframe
    Bonjour,
    j'ai à nouveau besoin d'aide sur un script python utilisant la librairie panda...
    Je vais essayer d'être clair dans mes explications.
    Dans un dataframe, j'ai 3 colonnes d'intérêts. Dans une 4ème colonne, je veux que la valeur d'une cellule corresponde à une des valeurs de mes 3 colonnes, selon une quantité (que j'obtiens par un value_count sur chacune de ces 3 colonnes).
    Un petit schéma:

    col1 col2 col3 col4
    a b c c
    d e f d
    a b c c


    J'y arrive en utilisant le code ci-dessous, mais c'est très long je trouve (10min pour traiter 10 000 lignes):

    j'ajoute au dataframe des colonnes avec mes values_counts, ce qui donne dans l'exemple:
    compte_col1 compte_col2 compte_col3
    2                      2                     2
    1                       1                      1
    2                       2                         2
    
    et j'obtiens la valeur de ma col4 par:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    for i in range(len(dataframe)):
        if compte_col1[i] > x:
            col4[i] = col1[i]
        elif compte_col2[i] > y:
            col4[i] = col2[i]
    etc...

    Dans mon code perso, j'ai un if avec un if imbriqué contenant lui-même 2 elif. Je pense qu'il y a une solution pour optimiser cela, mais je suis trop débutant pour voir laquelle...

  2. #2
    Expert éminent Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 035
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 035
    Points : 8 400
    Points
    8 400
    Par défaut
    salut,

    perso j'ai du mal à comprendre ce que tu fais, ça n'a pas l'air très compliqué mais c'est très mal expliqué si tu peux reformuler à l'occasion, prendre un exemple plus parlant...

    quant à ton code tu fais une boucle i que tu n'utilises pas, on ne sait pas ce que valent x et y, ni ce qu'il doit se passer dans le cas où aucune des conditions ne valide

  3. #3
    Membre à l'essai
    Homme Profil pro
    Étudiant
    Inscrit en
    Octobre 2018
    Messages
    45
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Octobre 2018
    Messages : 45
    Points : 13
    Points
    13
    Par défaut
    J'ai rajouté les i dans ma boucle.

    x et y correspond à des valeurs d'un value_count.
    En gros, j'ai des variables qualitatives dans plusieurs colonnes de mon dataframe (ex: couleur des yeux: bleu, vert, jaune; fruits préférés: mangue, pêche, abricot). Je compte le nombre total de chacune des valeurs de chaque variable (ex: 2 jaunes 3 verts 6 bleus; 5 mangues, 2 pêches, 4 abricots).
    En fonction de ces comptes, et pour chaque ligne, je vais attribuer telle ou telle valeur dans une autre colonne de mon dataframe, qu'on appellera target.
    ex: ligne 1: yeux jaunes et fruit = mangue; une de mes conditions dit if compte_fruit_prefere[ma ligne] > 3 alors la valeur affichée dans ma target sera celle de la colonne fruit_preferee, sinon ce sera la couleur des yeux (pour cette ligne, ce sera mangue dans ma target).

    Je ne sais pas si c'est plus clair avec cet exemple purement fictif (et un peu absurde)... Pour être plus précis, mes variables qualitatives décrivent la même chose (une localisation de maladie) mais à un niveau de précision différent (localisation au niveau de l'organe, au niveau du tissu, au niveau de la cellule). Plus le niveau de précision augmente, plus il y a de modalités et donc plus les données sont éparpillées. De fait, je cherche le bon équilibre entre précision et représentativité de ma target: si il n'y a pas assez de valeurs pour ce degré de précision, alors on passe au niveau au-dessus (moins précis mais avec plus de données).
    Je dois donc avoir le compte de chaque modalité de mes variables qualitatives. Et en fonction de ce compte (de ma quantité de données, témoin de leur représentativité), je vais attribuer telle ou telle valeur à ma variable target.

    Il faut implémenter tte les conditions possibles, il n'y en a pas tant que ça puisque mes intervalles sont larges (avec mes vraies données, je distingue les modalités que l'on retrouve 300 fois et plus, entre 50 et 300, et moins de 50).

  4. #4
    Expert éminent Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 035
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 035
    Points : 8 400
    Points
    8 400
    Par défaut
    salut,

    un truc comme ça fonctionne chez moi (rapidement) :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    import pandas as pd
     
    x = 2
    y = 1
     
    # on génère un dataframe de 10K lignes
    tochar = pd.np.vectorize(chr)
    df = pd.DataFrame(tochar(pd.np.random.randint(97, 123, 30000).reshape(10000, 3)), columns=['col1', 'col2', 'col3'])
     
    # on crée nos colonnes additionnelles
    df['compte_col1'] = df[df.apply(lambda x:x==df['col1'])].count(axis=1)
    df['compte_col2'] = df[df.apply(lambda x:x==df['col2'])].count(axis=1)
    df['compte_col3'] = df[df.apply(lambda x:x==df['col3'])].count(axis=1)
     
    # la fonction de callback qui nous intéresse
    def f(row):
       if row['compte_col1'] > x:
          r = row['col1']
       elif row['compte_col2'] > y:
          r = row['col2']
       else:
          r = pd.np.nan
       return r
     
    # on crée la colonne 'col4'
    df['col4'] = df.apply(f, axis=1)
    et le résultat :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    >>> df.head()
      col1 col2 col3  compte_col1  compte_col2  compte_col3 col4
    0    d    c    f            1            1            1  NaN
    1    b    f    a            1            1            1  NaN
    2    f    a    a            1            2            2    a
    3    a    c    a            2            1            2  NaN
    4    d    d    e            2            2            1    d
     
    >>> df[df['col4'].notnull()].head()
       col1 col2 col3  compte_col1  compte_col2  compte_col3 col4
    2     f    a    a            1            2            2    a
    4     d    d    e            2            2            1    d
    5     b    a    a            1            2            2    a
    12    b    c    c            1            2            2    c
    14    a    e    e            1            2            2    e

Discussions similaires

  1. update avec condition sur autre table
    Par allowen dans le forum Langage SQL
    Réponses: 5
    Dernier message: 01/04/2005, 15h02
  2. UPDATE avec condition sur d'autres tables
    Par guda dans le forum Langage SQL
    Réponses: 7
    Dernier message: 10/03/2005, 11h20
  3. [XSLT][ACCESS]condition sur valeur
    Par kor dans le forum XSL/XSLT/XPATH
    Réponses: 23
    Dernier message: 10/01/2005, 14h14
  4. [SQL] Conditions sur une date dans une requete
    Par poufouille dans le forum Bases de données
    Réponses: 4
    Dernier message: 17/03/2004, 14h25
  5. Condition sur debug et release
    Par xave dans le forum MFC
    Réponses: 3
    Dernier message: 04/02/2004, 15h04

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo