Bonjour,

je suis bloqué depuis un moment sur la marche à suivre pour extraire des chaines de caractères (non uniques) et leurs IDs associés.

J'ai un fichier de données qui se présente ainsi:
JZFJIZJDZJ A
ZDJZZFJZIZ A
ZFKZOFZJK B
ZFJZFOPZF B
KFZOFJZFZ B
FIOZJOFIJZ C
Les IDs ne sont pas uniques, et les chaines de caractères non plus. J'essaie de récupérer chaque chaine de caractère de mon fichier avec tous les IDs possibles qui lui sont associés.

Par exemple on peut imaginer qu'à JZFJIZJDZJ soient associés les IDs A,B et C.

J'ai commencé par créer 2 listes, une contenant mes chaines de caractères, l'autre mes IDs.

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
pattern = []
noms = []
for i,el in enumerate(fichier.readlines()):
	col = el.split('	')
	pattern.append(col[0])
	noms.append(col[1].strip(('\n')))
Je tente ensuite de les parcourir toutes les deux :

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
for i,j in zip(pattern,noms):
	if i==i: #test du désespoir
		print i
Mais je n'arrive pas à tester la condition selon laquelle j'ai des doublons. Je veux récupérer ma première chaine et tous ses doublons pour pouvoir récupérer les IDs (comme l'exemple ci dessus) et ainsi de suite jusqu'à avoir parcouru tout mon fichier.

Si quelqu'un a une idée sur la stratégie à mettre en place j'avoue que je ne vois pas. J'ai voulu passer par les dictionnaires mais j'ai un problème de clés étant donné qu'il n'y a pas de chaine de caractères (ou d'IDs) uniques.


Merci à vous