Bonjour,
je suis bloqué depuis un moment sur la marche à suivre pour extraire des chaines de caractères (non uniques) et leurs IDs associés.
J'ai un fichier de données qui se présente ainsi:
Les IDs ne sont pas uniques, et les chaines de caractères non plus. J'essaie de récupérer chaque chaine de caractère de mon fichier avec tous les IDs possibles qui lui sont associés.JZFJIZJDZJ A
ZDJZZFJZIZ A
ZFKZOFZJK B
ZFJZFOPZF B
KFZOFJZFZ B
FIOZJOFIJZ C
Par exemple on peut imaginer qu'à JZFJIZJDZJ soient associés les IDs A,B et C.
J'ai commencé par créer 2 listes, une contenant mes chaines de caractères, l'autre mes IDs.
Je tente ensuite de les parcourir toutes les deux :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6 pattern = [] noms = [] for i,el in enumerate(fichier.readlines()): col = el.split(' ') pattern.append(col[0]) noms.append(col[1].strip(('\n')))
Mais je n'arrive pas à tester la condition selon laquelle j'ai des doublons. Je veux récupérer ma première chaine et tous ses doublons pour pouvoir récupérer les IDs (comme l'exemple ci dessus) et ainsi de suite jusqu'à avoir parcouru tout mon fichier.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3 for i,j in zip(pattern,noms): if i==i: #test du désespoir print i
Si quelqu'un a une idée sur la stratégie à mettre en place j'avoue que je ne vois pas. J'ai voulu passer par les dictionnaires mais j'ai un problème de clés étant donné qu'il n'y a pas de chaine de caractères (ou d'IDs) uniques.
Merci à vous
Partager