Remove Duplicates and Groupby

Version imprimable

17/08/2015, 10h25
gerday.m

Remove Duplicates and Groupby

Bonjour à tous,

Cela fait 2 bonnes semaines que je code en python. J'ai pas mal progressé mais il m'arrive encore de rester bloquer sur des choses simples. Dans ce cas-ci ça fait plusieurs heures que je te testes plein de truc sur un exemple simple mais rien n'a faire. Je n'arrive pas à avoir ce que je veux.

Mon problème est le suivant :

j'ai un fichier .csv avec des adresses emails, domaine et ville.

,email,domain,city
0,g@gmail.com,gmail.com,liege
1,d@hotmail.com,hotmail.com,bruxelle
2,o@yahoo.fr,yahoo.fr,dinant
3,g@msn.be,msn.be,liege
4,p@caramail.be,caramail.be,anvers
5,g@gmail.com,gmail.com,liege
6,a@ulg.ac.be,ulg.ac.be,liege

la première étape à réaliser est d'enlever les doublons (dans l'exemple : 5,g@gmail.com,gmail.com,liege).
J'ai essayer avec

Code:

remove

,

Code:

drop_duplicates

,

Code:

duplicated

, un truc avec

Code:

.set()

.... Enfin j'arrive pas a juste l'enlever et avoir un simple tableau du style :

,email,domain,city
0,g@gmail.com,gmail.com,liege
1,d@hotmail.com,hotmail.com,bruxelle
2,o@yahoo.fr,yahoo.fr,dinant
3,g@msn.be,msn.be,liege
4,p@caramail.be,caramail.be,anvers
6,a@ulg.ac.be,ulg.ac.be,liege

(Dans mon cas l'index n'est pas important puisque je le remplacerai par un numero d'identification pour pouvoir faire un lien vers une autre dataframe)

et la deuxième étape est d'extraire le nom de l'adresse email et puis ensuite de les regrouper pour voir si oui ou non, il y'a un même nom pour plusieurs domaines. example:

name,domain,city
g , gmail.com , liege
, msn.be , liege
d , hotmail.com , bruxelle
o , yahoo.fr , dinant
p , caramail.be , anvers
a , ulg.ac.be , liege

Si je regroupe avec ce code :

Code:

df = df.groupby(['email','domain','city'])

j'obtiens une réponse : <pandas.core.groupb.DataFrame object at 0x3ca68c>
<class 'pandas.core.groupby.DataFrameGroupby>

Moi je voudrais qu'il m'affiche par colonne ce que je veux et pas simplement ça. Si j'utilise après

Code:

.mean()

ça fonctionne mais il me fait la moyenne des indexes et ça ne m'interesse pas du tout.

De plus, si j'ai d'autres colonnes, je suppose que pour grouper aussi il faut que je les nomme dans le df.groupby?

Je suis sur que la solution est simple mais je ne trouve pas les exemples qui colle à ma situation. Une fois que je l'aurai vu une fois ça ira, mais la je bloque un peu.

Merci de votre aide

Maxime

salut,

Citation:

Envoyé par gerday.m

la première étape à réaliser est d'enlever les doublons (dans l'exemple : 5,g@gmail.com,gmail.com,liege).

pour moi la première étape c'est plutôt de lire le fichier et savoir sur quoi on travaille/comment sont formatées les données une fois lues par python

ensuite 5,g@gmail.com,gmail.com,liege n'est pas un doublon, g@gmail.com,gmail.com,liege peut en être un éventuellement, mais alors ça veut dire que la deuxième étape va consister à appliquer un traitement préalable sur les données lues pour pouvoir identifier les doublons, mais à ce stade on ne sait même pas si les index/numéros sont réellement lus dans le fichier ou s'ils sont ignorés etc.

si tu peux préciser un peu,

edit: si on part du principe que les données en entrée sont sous cette forme par exemple (une liste de listes) :
Code:

1 2 3 4 5 6 7 8 9 datas = [ ['0', 'g@gmail.com', 'gmail.com', 'liege'], ['1', 'd@hotmail.com', 'hotmail.com', 'bruxelle'], ['2', 'o@yahoo.fr', 'yahoo.fr', 'dinant'], ['3', 'g@msn.be', 'msn.be', 'liege'], ['4', 'p@caramail.be', 'caramail.be', 'anvers'], ['5', 'g@gmail.com', 'gmail.com', 'liege'], ['6', 'a@ulg.ac.be', 'ulg.ac.be', 'liege'] ]
et que tu te fiche de perdre l'index, une solution possible serait un truc du genre :
Code:

1 2 3 4 5 6 7 8 9 >>> [j.split(',') for j in set([','.join(i[1:]) for i in datas])] [ ['o@yahoo.fr', 'yahoo.fr', 'dinant'], ['g@gmail.com', 'gmail.com', 'liege'], ['a@ulg.ac.be', 'ulg.ac.be', 'liege'], ['d@hotmail.com', 'hotmail.com', 'bruxelle'], ['g@msn.be', 'msn.be', 'liege'], ['p@caramail.be', 'caramail.be', 'anvers'] ]

17/08/2015, 11h10
gerday.m

Merci pour la rapidité de la réponse.

Alors pour préciser, je lis un fichier .csv qui est très bien structuré. Dans python, je transforme le fichier en DataFrame. j'obtiens mes colonnes avec en-tête et index. Donc j'utilise:

Code:

df = pd.read_csv(monfichier.csv

)

les index/numeros sont inclus dans le fichier .csv donc oui ils sont là.

Et effectivement j'avais pas pris en compte que l'index faisait en sorte que la ligne n'était pas un doublon.....

Par contre dans ma DataFrame, j'ai pas des liste par ligne mais par colonne. (Je sais pas si je suis clair)
17/08/2015, 11h26
BufferBob

ok en fait je viens de comprendre, tu utilises la lib python pandas manifestement que je ne connais pas (mon linux me propose de me l'installer pour la somme dérisoire de 126 autres packages, je passe mon tour :aie:)
si quelqu'un connait il pourra mieux te rencarder en l'essence, ne sachant pas quelle tête à l'objet que tu récupères avec read_csv()
17/08/2015, 11h31
gerday.m

Aucune souci ^^

Merci quand même!! Mais tu m'as déjà pas mal aidé en me faisant relever l'erreur que je faisais en essayant de supprimer des doublons qui avaient pas le même index. ça m'aide déjà pas mal.

EDIT

ce code fonctionne très bien, dans l'optique ou on a des lignes identiques.

Code:

dfip=dfip.drop_duplicates()

J'ai toujours pas trouvé pour le groupby. Mais après discussion, je n'en aurai probablement plus besoin. Mais toujours bon à savoir, rien que dans l'optique d'une prochaine fois :mrgreen:

Je devrai peut-être recréer un post, mais bon pas envie de flooder le forum python alors que ça ne fait que un jours que je poste. De plus j'ai pas encore épuisé les recherches.
Mais si quelqu'un sait m'orienté je suis preneur. La question est la suivant

j'ai une première dataframe avec les index (1,2,3,4). Je veux rajouter a cette dataframe, une autre dataframe avec l'index (6,7,8,9). Comment faire pour ajouter l'index de la deuxième a la première? dans mon cas, les indexes ressemble plus a des nombres a 6 chiffres et ne se suivent pas forcément. (Créer un nouvelle dataframe où j'insère les deux anciennes ça me va aussi)