Regex sur élément changeant

**Amniote** · 28/05/2019, 09h46

Bonjour à tous,

J'ai le fichier suivant :

# NCBI taxid / refseq / STRING
9606 NP_001166366|NP_001166367|NP_001166368|NP_001744 9606.ENSP00000339191
9606 NP_004496|XP_005256902 9606.ENSP00000460380
9606 NP_004445 9606.ENSP00000306894
9606 NP_005599 9606.ENSP00000325589
9606 NP_001001557 9606.ENSP00000287020
9606 NP_001124506|NP_001180247|NP_919420|XP_005272332|XP_006713941 9606.ENSP00000389709
9606 NP_950248 9606.ENSP00000247219
9606 NP_001273572|NP_057026|XP_005250983|XP_005250984|XP_006716631|XP_006716632|XP_006716633 9606.ENSP00000287025
9606 NP_775746 9606.ENSP00000319482
9606 NP_004789 9606.ENSP00000364864

et le script suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
 
from collections import defaultdict
import re
Dtraduction=defaultdict(set)
 
with open ("C:/Users/lveillat/Desktop/Données stage/Données/RefSeq to STRING.tsv","r") as f1:
	for lignes in f1:
		lignes1=lignes.rstrip("\n").replace("|"," ")
		matchs=re.search("^(\d+)	(([A-Z]+_\d+| )+)	(\S+)", lignes1)
 
		if matchs:
			NCBItaxid=matchs.group(1)
			refseq=matchs.group(2)
			STRING=matchs.group(3)
			Dtraduction[STRING].add(refseq)
			print (Dtraduction)

Mon objectif est de créer le dictionnaire Dtraduction sous cette forme :

'9606.ENSP00000339191': {'NP_001166366', 'NP_001166367', 'NP_001166368', 'NP_001744'}})
'9606.ENSP00000460380': {'NP_004496', 'XP_005256902'}
'9606.ENSP00000306894' : {'NP_004445'}
ect…

Le soucis que j'ai, c'est que j'arrive pas a créer ma regex de façon à ce qu'elle s'adapte au nombre changeant de 'NP_xxxxx' la seule sortie que j'obtiens avec mon script est celui-ci :

defaultdict(<class 'set'>, {'NP_001744': {'NP_001166366 NP_001166367 NP_001166368 NP_001744'}})
defaultdict(<class 'set'>, {'NP_001744': {'NP_001166366 NP_001166367 NP_001166368 NP_001744'}, 'XP_005256902': {'NP_004496 XP_005256902'}})
defaultdict(<class 'set'>, {'NP_001744': {'NP_001166366 NP_001166367 NP_001166368 NP_001744'}, 'XP_005256902': {'NP_004496 XP_005256902'}, 'NP_004445': {'NP_004445'}})

Comme vous pouvez le constater il ne me prends pas les différents NP_xxxx comme différents éléments, mais comme un seul…

Pouvez vous m'aider svp ?

Merci

**tsuji** · 31/05/2019, 22h08

D'abord, c'est un code python. Donc la question devrait être poser au forum python (ici, c'est de php)
https://www.developpez.net/forums/f1...eneral-python/

Mais l'éssentiel c'est d'obtenir d'aide, n'est-ce pas? Voilà...

[1] Il faut apprendre comment compter les indices de groupement. En gros, de gauche à droite chaque fois rencontrer un (, l'indice augmente par 1. Pour le détail plus précis, il vaut mieux lire des tutos et documentation.
[2] Il vaut mieux laisser "|" comme tel pour l'étape de matcher pour ne pas laisser aucune chance de confondre les data NP_... avec la clé éventuelle 9606...

Voici comment faire suivant de près le code présenté pour que vous sentez plus comfortable à suivre.

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
    for lignes in f1:
        #lignes1=lignes.rstrip("\n").replace("|"," ")
        lignes1=lignes.rstrip("\n")
        #matchs=re.search("^(\d+)	(([A-Z]+_\d+| )+)	(\S+)", lignes1)
        matchs=re.search("^(\d+)\s(([A-Z]+_\d+(\|?))+)\s(\d+\.[A-Z0-9]+)$", lignes1)
 
        if matchs:
            NCBItaxid=matchs.group(1)
            #refseq=matchs.group(2)
            refseq=matchs.group(2).replace("|", " ")
            #STRING=matchs.group(3)
            STRING=matchs.group(5)
            Dtraduction[STRING].add(refseq)
            print (Dtraduction)

Je mets \s au lieu de " " pour voir plus claire et j'explicite un peu plus le dernier composant - mais si la structure apparante n'est pas générque par extrapolation, vous pouvez toujours y remettre comme ...(\S+)$.

**wiztricks** · 01/06/2019, 20h13

Salut,

Envoyé par Amniote

Mon objectif est de créer le dictionnaire Dtraduction sous cette forme

Pourquoi partir dans les regex si vous ne savez pas les utiliser?
Vos lignes sont de la forme:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

nnnn items clef

où items peut être item(|items)
et que .split sait très bien découper:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
>>> line = 'nnnn a|b|c clef\n'
>>> line.strip().split(' ')
['nnnn', 'a|b|c', 'clef']
>>>

et on peut stocker çà directement dans le dico:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
>>> dico = {}
>>> dico[e[-1]] = e[1].split('|')
>>> dico
{'clef': ['a', 'b', 'c']}
>>>

Les expressions régulières permettent d'aller un peu plus loin dans la vérification que la ligne est bien construite. Par exemple si on a:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

9606 NP_001124506|NP_001180247|NP_919420|XP_005272332|XP_006713941 9606.ENSP00000389709

Il peut être intéressant de s'assurer que la ligne commence bien par 4 digits suivis d'un espace. Que les NP_xx ou XP_xx commencent bien par suivis de... etc.
Si c'est juste pour faire un découpage à la hache comme vous le feriez avec .split, autant utiliser .split: c'est bien plus simple.

- W

Regex sur élément changeant

Python

Vue hybride

Discussions similaires

Partager

Partager