[Panda] dataframe et hierarchical tree

**JeanYvette** · 26/06/2023, 16h12

Bonjour à tous,

Je rencontre un petit problème car je n'ai aucune idée de comment procéder à une tâche.

J'ai un dataframe qui se compose de ce type de colonne :
CodeGroupe; [200 colonnes avec un nom de 0 à 199]

Dans ces 200 colonnes, il s'agit en fait de composants de mon groupe, certaines lignes vont avoir que 1 ou 2 colonnes de remplis, d'autres peuvent les avoir toutes. (toutes les données sont numériques)
Par exemple, je peux avoir :

CodeArticle;0;1;2;3
1;200;300;400

Le groupe fini 1 est donc composé des identifiants 200;300 et 400.

Si j'ai, plus loin dans mon dataframe, une ligne du style :

CodeArticle;0;1;2
200;3999;4000

Mon sous-groupe 200 n'est pas un groupe "final", il est lui même composé de 3999 et de 4000.
4000 est donc un composant de 200 qui est lui même un composant de 1

J'aimerais deux choses :
Un arbre avec ceci :
1
200
3999
4000
300
400

Mon problème ici est que je ne sais pas comment dire à mon framework de creation d'arbre (quel qu'il soit) qu'il doit gérer les 200 colonnes comme les enfants de "CodeGroupe" et que des fois, un code "enfant" peut être lui même parent.
Je me suis dit que je pourrais peut-être concaténer mes 200 colonnes en une seule mais pour gérer les sous-sous niveaux je ne sais pas comment faire.

J'ai tenté de voir, si je pouvais avoir une option pour générer une nouvelle colonne m'indiquant le niveau (par exemple, ma ligne 1;200;300;400 serait le niveau 1 car aucun groupe n'est composé de 1) mais je ne sais pas non plus comment faire, là, je sèche totalement sur quel style d'algo je dois mettre en place...

J'espère avoir été clair

Bisous bisous

**wiztricks** · 26/06/2023, 18h33

Salut,

Si on prend chaque ligne du dataframe, comment la placer dans un arbre?
Par exemple, la ligne 1;200;300;400 crée 4 nœuds où 200, 300, 400 sont "fils de" 1 (et/ou ont 1 pour parent).
A la vue de la ligne 200;3999;4000, le nœud 200 existe déjà, on lui ajoute les fils 3999 et 4000.

Chaque nœud a donc un parent et peut un ou plusieurs descendants.

Après coder ça dépend de ce que vous connaissez côté Python: classes, listes, dictionnaires,...

- W

**JeanYvette** · 26/06/2023, 18h47

Bonjour,

Oui dans l'idée c'est ça, mes connaissances sont vastes et limitées en même temps. Je fais du dev mais python n'est clairement pas mon langage de prédilection, là je passe par jupyter notebook car il permet de traiter très rapidement des csv et de faire diverses graphs dont j'ai besoin.

Là, dans l'idée, j'ai aussi besoin de ce graphe de hiérarchie car une fois qu'il sera ok, ça voudra aussi dire que mon dataframe/csv sera suffisament propre pour être utilisé dans de diverses cas

Donc le dev pour y aller, à la rigueur, je peux m'en accommoder, là mon vrai problème à l'heure actuelle c'est, avec ce que j'ai, quel type de format de dataframe je dois viser

**wiztricks** · 26/06/2023, 19h48

Envoyé par JeanYvette

Donc le dev pour y aller, à la rigueur, je peux m'en accommoder, là mon vrai problème à l'heure actuelle c'est, avec ce que j'ai, quel type de format de dataframe je dois viser

Personnellement, je ne vois pas trop l'intérêt d'utiliser pandas ici: lire un fichier CSV, ligne à ligne pour insérer des informations dans un arbre...

Ceci dit, comment utiliser pandas pour représenter une structure hiérarchique se trouve sur Internet mais pas facile d'aller trier pour vous ce qui pourrait répondre à vos besoins.

- W

**JeanYvette** · 26/06/2023, 20h11

J'utilise pandas ici simplement parce que je m'en sers pour tous les csv que j'ouvre dans le notebook car il y en a besoin, donc dans le but de rester tout le temps "pandas pour les csv", voila tout

Après là je ne sais pas exactement où aller. Parce que si je rajoute une colonne avec la notion de "niveau", ca ne suffira pas. Est-ce qu'au lieu d'avoir un csv style :
Code, 0, 1, 2, 3 ...

Avoir
Code, 0, rien ou niveau
En ayant transformé les colonne 1 et plus en une nouvelle ligne dans la colonne 0 ?

**wiztricks** · 27/06/2023, 10h33

Envoyé par JeanYvette

Après là je ne sais pas exactement où aller. Parce que si je rajoute une colonne avec la notion de "niveau", ca ne suffira pas. Est-ce qu'au lieu d'avoir un csv style :
Code, 0, 1, 2, 3 ...

Les informations à stocker dans chaque nœud/ligne de l'arbre dépendent de ce qu'on va en faire ensuite. Si on a besoin de descendre, les fils suffisent, pour remonter à la racine, le parent suffira. Tout dépendra des besoins.

- W

**JeanYvette** · 27/06/2023, 10h41

Pour le coup mon but final serait de construire un diagramme de ce style :

Nom : cible.PNG
Affichages : 72
Taille : 7,2 Ko

Sachant que je peux avoir jusqu'à 200 enfants sur un Code données
Mais quand je lis la doc qui donne accès à ce graphique, je n'arrive pas à voir à quoi mes données doivent ressembler pour y arriver. Dans le sens où dans la doc (lien ici : https://gist.github.com/psychemedia/...4e7a29d8621623 ) la notion d'héritage est simple car dans des colonnes différentes. Là où mois, une donnée de ma colonne 56, par exemple, pourrait se retrouver dans ma colonne CodeArticle (donc identifiante) créant donc un nouveau niveau dans mon arbre

**wiztricks** · 27/06/2023, 11h02

Envoyé par JeanYvette

Dans le sens où dans la doc (lien ici : https://gist.github.com/psychemedia/...4e7a29d8621623 ) la notion d'héritage est simple car dans des colonnes différentes.

Si vous voulez créer un arbre avec treelib à partir d'un fichier CSV, il faudrait peut être ouvrir la documentation de treelib et jouer avec pour apprendre à l'utiliser.
Ajouter pandas là dedans ajoute des complications (une couche en plus à gérer dont on ne voit pas l'intérêt sinon lire le CSV qu'on peut faire autrement).

- W

**JeanYvette** · 27/06/2023, 12h10

Oui j'ai regardé la doc, j'avais dans l'idée de créer des dataframes (ou tableau ou liste, qu'importe sur la théorie) avec par exemple :

dfParents : Tous les "CodeArticle" où la donnée n'apparait jamais dans les les 200 colonnes de composants => Ca veut donc dire que ce sont des code Parents de niveau 0.
df enfants de niveau 1 : Tous les codes qui sont dans les 200 colonnes associées au codearticle de dfParents. Rajouté à cela une colonne précisant du coup que parent=dfparents.codeArticle
df enfants de niveau 2 : Tous les codes qui sont dans les 200 colonnes associées au codearticle de df enfants de niveau 1 et rajouté une colonne précisant du coup que parent = dfenfant2.codearticle
et ainsi de suite

Là par contre, je ne connais pas assez python pour savoir comment procéder. Dans le sens où, par exemple, comment dans python je peux voir que df[CodeArticle] n'existe pas dans df[0] ni quand df[1] .... ni dans df [200]. Là je ne sais pas. J'ai pensé à concaténer mes 200 champs composants, pour faire avec str.countains le problème c'est que je peux avoir un codeArticle style '099999' et un code différent '99999' donc le '99999' est "contains" dans '099999' donc là, ça foire à cause de la casse.

Je sais globalement (en tout cas en théorie) comment voir l'idée, (enfin, si ce que j'ai énoncé plus haut est bon) mais par contre, là, je ne vois pas en python comment constituer mes dataframes de niveau

**wiztricks** · 27/06/2023, 13h33

Envoyé par JeanYvette

Oui j'ai regardé la doc, j'avais dans l'idée de créer des dataframes (ou tableau ou liste, qu'importe sur la théorie) avec par exemple

La documentation de treelib ne parle pas de dataframe (car il n'y en a pas besoin).

On peut jouer avec et faire pas à pas:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
>>> from treelib import Tree
>>> tree = Tree()
>>> line = 1, 200, 300, 400
>>> parent = line[0]
>>> tree.create_node(parent, parent)
Node(tag=1, identifier=1, data=None)
>>> for z in line[1:]: tree.create_node(z, z, parent=parent)
...
Node(tag=200, identifier=200, data=None)
Node(tag=300, identifier=300, data=None)
Node(tag=400, identifier=400, data=None)
>>> line = 200, 3999, 4000
>>> parent = line[0]
>>> for z in line[1:]: tree.create_node(z, z, parent=parent)
...
Node(tag=3999, identifier=3999, data=None)
Node(tag=4000, identifier=4000, data=None)
>>> tree.show()
1
├── 200
│   ├── 3999
│   └── 4000
├── 300
└── 400
 
>>>

Et pour faire ça lire le CSV ligne à ligne sans utiliser pandas suffit largement.

- W

**popo** · 28/06/2023, 13h00

Un exemple qu'il faudra peut-être adapter à ton besoin :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
from treelib import Tree
 
# Ceci représente les lignes de ton csv
content = [
    "1;200;300;400",
    "200;2000;2999",
    "300;3000;3999",
    "2000;20000",
    "2;500;600;700",
    "500;5000;5999",
    "5000;50000"
]
 
# Ceci va crée un tableau de tableau de valeurs
# [['1', '200, '300', '400'], ['200', '2000', '2999'], ...]
data = [value.split(";") for value in content]
 
tree = Tree()
 
# Ceci crée la racine
tree.create_node("0", "0")
 
for line in data:
 
    parent = line[0]
 
    # Ceci car dans la structure 1 et 2 n'ont pas de parent
    # Donc on les ajoute à la racine si nécessaire
    if not tree.contains(parent):
        tree.create_node(parent, parent, parent="0")
 
    # Ceci va remplir le reste de l'arbre
    for value in line[1:]:
        tree.create_node(value, value, parent=parent)
 
 
tree.show()

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
0
├── 1
│   ├── 200
│   │   ├── 2000
│   │   │   └── 20000
│   │   └── 2999
│   ├── 300
│   │   ├── 3000
│   │   └── 3999
│   └── 400
└── 2
    ├── 500
    │   ├── 5000
    │   │   └── 50000
    │   └── 5999
    ├── 600
    └── 700

**JeanYvette** · 29/06/2023, 11h01

Ah oui, je vois où tu veux en venir, il va falloir que j'essaye cela. J'était parti sur quelque chose de totalement différents qui consistait à transformer mon csv en un tableau de deux colonnes avec parents|composants (ou du coup on avait autant de lignes parents que celui-ci a de composants) et un composant pouvait apparaitre dans parents montrant qu'il y avait un niveau en dessous. J'ai créé mon arbre avec les données de code parents qui n'apparaissent pas dans composants et leurs composants direct (me permettant d'avoir deux niveaux directement)
Ensuite, je bouclais sur le reste de mes données et, si un composants avait son code parent associé dans l'arbre, alors je créé un nouveau noeud et je flag une colonne virtuelle. Je parcours mon tableau jusqu'à ce que toute les lignes de ma colonne virtuelle soient flaguées me permettant ainsi de gérer tous les niveaux.
Mais j'ai eu plusieurs problème :
Tout d'abord, un composant pouvant avoir plusieurs parents différent, treelib n'aime pas ça et j'ai donc rajouté un compteur du style : (lettreAlphabet compteurboucle) où lettre alphabet change pour chaque niveau de noeud et compteurboucle s'incrémente pour chaque création de nœud (ainsi, j'ai du (a0) (a1) (b0).. dans mes index)
C'est pas dingo, mais à l'heure actuelle je n'ai pas trouvé d'alternative.
La première partie, celle où je fais mon arbre avec tous les parents et leurs composants directs fonctionne très bien. La deuxième partie me semble rentrer dans une boucle soit infinie, soit beaucoup trop longue pour être acceptable...

edit, j'avais un soucis dans mon code directement, là globalement tout est ok en passant par ce fonctionnement de double colonne et d'indice. Ca a mis en exergue un petit souci dans le nettoyage des données mais sinon c'est ok

Merci pour le soutien en tout cas

Bisous bisous

[Panda] dataframe et hierarchical tree [Python 3.X]

Calcul scientifique Python

Discussions similaires

Partager

Partager