Récupérer les doublons d'une liste

**RTK45** · 07/03/2012, 17h02

Bonjour,

je suis bloqué depuis un moment sur la marche à suivre pour extraire des chaines de caractères (non uniques) et leurs IDs associés.

J'ai un fichier de données qui se présente ainsi:

JZFJIZJDZJ A
ZDJZZFJZIZ A
ZFKZOFZJK B
ZFJZFOPZF B
KFZOFJZFZ B
FIOZJOFIJZ C

Les IDs ne sont pas uniques, et les chaines de caractères non plus. J'essaie de récupérer chaque chaine de caractère de mon fichier avec tous les IDs possibles qui lui sont associés.

Par exemple on peut imaginer qu'à JZFJIZJDZJ soient associés les IDs A,B et C.

J'ai commencé par créer 2 listes, une contenant mes chaines de caractères, l'autre mes IDs.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
pattern = []
noms = []
for i,el in enumerate(fichier.readlines()):
	col = el.split('	')
	pattern.append(col[0])
	noms.append(col[1].strip(('\n')))

Je tente ensuite de les parcourir toutes les deux :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
for i,j in zip(pattern,noms):
	if i==i: #test du désespoir
		print i

Mais je n'arrive pas à tester la condition selon laquelle j'ai des doublons. Je veux récupérer ma première chaine et tous ses doublons pour pouvoir récupérer les IDs (comme l'exemple ci dessus) et ainsi de suite jusqu'à avoir parcouru tout mon fichier.

Si quelqu'un a une idée sur la stratégie à mettre en place j'avoue que je ne vois pas. J'ai voulu passer par les dictionnaires mais j'ai un problème de clés étant donné qu'il n'y a pas de chaine de caractères (ou d'IDs) uniques.

Merci à vous

**valAa** · 07/03/2012, 17h19

Je te propose une solution avec un dictionnaire, ayant pour clés les chaînes et pour valeurs des listes d'ID associés à chaque chaîne.
Un truc du genre :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
 
Python 2.6.5 (r265:79063, Apr 16 2010, 13:09:56) 
[GCC 4.4.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> inputs = ("JZFJIZJDZJ A", "ZDJZZFJZIZ A", "ZFKZOFZJK B", "ZFJZFOPZF B", "KFZOFJZFZ B", "FIOZJOFIJZ C")
>>> inputs
('JZFJIZJDZJ A', 'ZDJZZFJZIZ A', 'ZFKZOFZJK B', 'ZFJZFOPZF B', 'KFZOFJZFZ B', 'FIOZJOFIJZ C')
>>> inputs = [i.split() for i in inputs] # je découpe selon l'espace
>>> inputs
[['JZFJIZJDZJ', 'A'], ['ZDJZZFJZIZ', 'A'], ['ZFKZOFZJK', 'B'], ['ZFJZFOPZF', 'B'], ['KFZOFJZFZ', 'B'], ['FIOZJOFIJZ', 'C']]
>>> result = dict() # j'initialise un dico vide
>>> for string, id in inputs: # j'itère sur mes couples (chaîne, ID)
...     if string not in result: # si le dico n'a pas encore d'entrée pour cette chaîne, on l'initialise avec une liste vide
...             result[string] = []
...     result[string].append(id) # on ajoute l'iD dans la liste
...
>>> result
{'FIOZJOFIJZ': ['C'], 'ZFKZOFZJK': ['B'], 'KFZOFJZFZ': ['B'], 'JZFJIZJDZJ': ['A'], 'ZDJZZFJZIZ': ['A'], 'ZFJZFOPZF': ['B']}

Bon apparemment ton exemple d'entrées n'était pas bon, car là tes chaînes sont uniques contrairement à ton énoncé.
mais avec un meilleur exemple, ça marche.

**RTK45** · 07/03/2012, 17h38

Merci pour votre solution, en effet désolé pour mon exemple je vais en redonner un plus concret:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
AAAAA  1
AAAAA  2
BBBBB  1
ABCBA  1
CCCCC  3

Je vais essayer d'adapter votre code. Le problème là c'est que comme j'ai des chaines qui sont semblables mon dictionnaire se limite à toutes les valeurs uniques, et du coup je ne récupère qu'un seul ID par chaine.

**valAa** · 07/03/2012, 17h44

Pour ce dernier exemple, mon code te donnera

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
>>> result
{'AAAAA': ['1', '2'], 'ABCBA': ['1'], 'CCCCC': ['3'], 'BBBBB': ['1']}

Ce n'est pas ce que tu souhaites ?

**RTK45** · 07/03/2012, 17h48

EDIT: je suis juste stupide, j'avais mal indenté la dernière ligne du code. Merci beaucoup pour votre aide

**valAa** · 07/03/2012, 17h58

[edit] tu as supprimé ta question, mais je laisse la réponse pour d'autres :-) [/edit]

AAAA' n'est pas crée deux fois dans le dico.
ce qu'on fait :
Quand on rencontre 'AAAA' on regarde s'il est déjà dans le dico.
- Non ?
-> on crée la clé 'AAAA' avec comme valeur une liste
-> on aoute dans cette liste l'ID (correspondant donc au premier 'AAAA' rencontré
- Oui ?
-> on se contente d'ajouter à la liste d'iD (créee la première fois qu'on a rencontré 'AAAA', voir ci-dessus) l'ID supplémentaire.

**fred1599** · 08/03/2012, 13h16

@valAa

Je suis d'accord avec toi, solution correcte, selon l'énoncé du PO.

@RTK45

1) Enoncé du début incorrect, car il ne donne pas les cas exceptionnels.
2) Pourquoi el.split(' ') au lieu de el.split() ?
3) Est-ce que dans chaque ligne, tu rencontres qu'une chaîne et qu'un seul ID?
4) Plus propre serait

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
pattern, nom = [], []
lines = [line.strip('\n') for line in f.readlines()]
for line in lines:
    chaine, id = line.split()
    pattern.append(chaine)
    nom.append(id)

Mais bon après t'es embêté, donc ça reste une solution de bricolage, et donc difficilement maintenable.
5) Qu'est-ce qui va pas dans la solution de valAa?

**RTK45** · 08/03/2012, 15h42

1) Enoncé du début incorrect, car il ne donne pas les cas exceptionnels.

mea culpa, j'ai ajouté un autre exemple plus concret après.

2) Pourquoi el.split(' ') au lieu de el.split() ?

C'est une erreur de ma part, enfin disons que jusqu'à maintenant j'employais la méthode étudiée en cours, en effet el.split() marche très bien.

3) Est-ce que dans chaque ligne, tu rencontres qu'une chaîne et qu'un seul ID?

Oui.

4) Plus propre serait:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
pattern, nom = [], []
lines = [line.strip('\n') for line in f.readlines()]
for line in lines:
    chaine, id = line.split()
    pattern.append(chaine)
    nom.append(id)

En effet, merci pour votre solution

.

5) Qu'est-ce qui va pas dans la solution de valAa?

Rien, la première fois j'avais mal interprété le code et je l'avais donc mal appliqué, cette solution est bien fonctionnelle

Récupérer les doublons d'une liste

Python

Discussions similaires

Partager

Partager