IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

[débutant] parser une chaine


Sujet :

Python

  1. #1
    Membre confirmé
    Profil pro
    Inscrit en
    Mai 2008
    Messages
    133
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2008
    Messages : 133
    Par défaut [débutant] parser une chaine
    Bonjour,
    je suis nouveau en python et je dois faire de la bioinfo en meme temps la galere:
    voila mon souci d`aujourdhui est le suivant :
    j`ai une chaine
    ['528365..528435,528774..528938,529294..529389,529779..530001,530348..530487,530870..530990\n']

    et je veux en faire une sous chaine telle que: ['528365..528435'][`,`][528774..528938] ainsi de suite et je voudrai enlever le \n a la fin

    jai fait ceci coo=line.split(',')
    mais j`aarive pas a lui dire de garder les virgules et denlever le retour a la ligne pouvez vous m`aider svp


    J`ai oublie est ce qu`il y a des bioinformaticiens sur python car j`ai vu qu`en perl


    merci

  2. #2
    Membre éclairé
    Avatar de Captain'Flam
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2011
    Messages
    273
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Février 2011
    Messages : 273
    Billets dans le blog
    1
    Par défaut
    Que penses-tu de ça :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    >>> s = '1,2,3,4,5,6\n'
    >>> s2 = s.strip().split(',')
    >>> s2
    ['1', '2', '3', '4', '5', '6']
    >>> s3 = sum( map( list,zip( s2,','*len( s2 ))),[])[:-1]
    >>> s3
    ['1', ',', '2', ',', '3', ',', '4', ',', '5', ',', '6']
    --
    Captain'Flam

  3. #3
    Membre confirmé
    Profil pro
    Inscrit en
    Mai 2008
    Messages
    133
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2008
    Messages : 133
    Par défaut
    J'ai essaye ca marche pas voila mom code initial:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    with open('coco_cds.txt') as fichier:
    	for line in fichier:
    		ch= line.split('\t')[1:2]
    		if ch in lsite:
    			brin=line.split('\t')[3:4]
    			if '+'in brin:	
    				print "ok"
    				coo=line.split('\t')[7:8]
    quand je fais print coo j'obtiens ca ['1412897..1412909,1413103..1413155,1413409..1413531,1413634..1413748,1414228..1414427,1414721..1414891,1415181..1415381,1415548..1415679\n']

    je veux a partir de ca avoir une sous chaine contenant [`'1412897..1412909',','...]
    en fait couper tous le monde meme les virgules

    Merci

  4. #4
    Expert confirmé

    Homme Profil pro
    Inscrit en
    Octobre 2008
    Messages
    4 307
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Octobre 2008
    Messages : 4 307
    Par défaut
    Hello,

    Je ne comprend pas que quand tu print ta chaîne elle soit entre crochets. Ou alors c'est toi qui les a ajoutés.

    Partons du principe que ce soit une chaîne,

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
     
    # -*- coding: utf-8 -*-
     
    ch = '528365..528435,528774..528938,529294..529389,529779..530001,530348..530487,530870..530990\n'
    ch = ch[:-2]   # suppression de '\n'
     
    result = []
    for i in ch.split(','):
        result.append([i])
        result.append([','])
     
    print result
    resultat:
    [['528365..528435'], [','], ['528774..528938'], [','], ['529294..529389'], [','], ['529779..530001'], [','], ['530348..530487'], [','], ['530870..53099'], [',']]
    C'est ça que tu veux?


    edit: Je suppose que tune veux pas la virgule finale, alors result = result[:-1]

  5. #5
    Membre confirmé
    Profil pro
    Inscrit en
    Mai 2008
    Messages
    133
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2008
    Messages : 133
    Par défaut
    oui c'est bon merci

  6. #6
    Membre émérite
    Homme Profil pro
    Inscrit en
    Décembre 2007
    Messages
    758
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France

    Informations professionnelles :
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Décembre 2007
    Messages : 758
    Par défaut
    Citation Envoyé par VinsS Voir le message

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    ch = ch[:-1]   # suppression de '\n'
    attention, juste un caractère à enlever pour \n. D'ailleurs on voit que tu as mangé le '0' à la fin de ton test

  7. #7
    Expert confirmé

    Homme Profil pro
    Inscrit en
    Octobre 2008
    Messages
    4 307
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Octobre 2008
    Messages : 4 307
    Par défaut
    Citation Envoyé par kango Voir le message
    attention, juste un caractère à enlever pour \n. D'ailleurs on voit que tu as mangé le '0' à la fin de ton test
    Bien vu, en fait je pensais que ce n'était vrai que lors d'une lecture de fichier et pas lorsque la chaîne est donnée dans le code.

    Je m'impose un gage. (aller chercher moi-même ma bière dans le frigo).

  8. #8
    Membre émérite
    Homme Profil pro
    Inscrit en
    Décembre 2007
    Messages
    758
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France

    Informations professionnelles :
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Décembre 2007
    Messages : 758
    Par défaut
    Citation Envoyé par VinsS Voir le message
    aller chercher moi-même ma bière dans le frigo.
    c'est une pénitence tout à fait appropriée.

  9. #9
    Membre confirmé
    Profil pro
    Inscrit en
    Mai 2008
    Messages
    133
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2008
    Messages : 133
    Par défaut
    Voila j'ai un autre souci je ne sais pas de quelle forme je dois partir je m'explique des le debut

    je pars d,un fichier au debut:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
     
    C169v2-04488	Aster-06787	187	262	561	636       
    C169v2-04487	Aster-06725	92	235	216	357
    C169v2-04480	Aster-06724	371	431	4	64
    C169v2-04481	Aster-06792	2	447	41	488	
    C169v2-03069	Aster-04749	21	283	2	265
    C169v2-03068	Aster-01309	8	222	41	248
    C169v2-03061	Aster-06908	100	396	399	708
    je recupere les noms dans la premiere colonne en faisant:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
     
    with open('essai1.txt') as fic:
    	for ligne in fic:
    		chaine = ligne.split('\t')[:1]
    		lsite.append(chaine)

    par la suite je vais regarder dans un autre fichier

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
     
    # Colonne 1: scaffold
    #         2: gene id
    #         3: start
    #         4: dir
    #         5: origine gene model
    #         6: proteinId
    #         7: ex-nom
    #         8: coordonnees genomiques
    #         9: structure intron/exon
    #        10: segments du CDS couvert par EST
    C169-scaffold_1	C169v2-00001	3777	-	ORIGINAL JGI	55057	Genemark1.1_g	3777..3857,4046..4192,4443..4561,4940..5234,5406..5540,5734..5847,6009..6098,6421..6492
    C169-scaffold_1	C169v2-00002	12682	-	ORIGINAL JGI	55058	Genemark1.2_g	12682..12691,13195..13445,13694..13711
    C169-scaffold_1	C169v2-00003	18095	+	ORIGINAL JGI	31905	fgenesh1_kg.1_#_1_#_4092_1_CBOZ_CBPA	18095..18097,18280..18410,18690..18972
    C169-scaffold_1	C169v2-00004	20452	+	ORIGINAL JGI	6968	gw1.1.615.1	20452..20496,20636..20726,20881..21046,21194..21382,21567..21735
    C169-scaffold_1	C169v2-00005	21893	-	ORIGINAL JGI	34662	fgenesh1_pm.1_#_3	21893..22051,22201..22293,22590..22747,22864..23102,23192..23364
    C169-scaffold_8	C169v2-04488	528365	+	ORIGINAL JGI	63423	Genemark1.4206_g	528365..528435,528774..528938,529294..529389,529779..530001,530348..530487,530870..530990
    C169-scaffold_8	C169v2-04487	523752	+	ORIGINAL JGI	42018	fgenesh1_pg.8_#_66	523752..523949,524383..524517,524819..524948,525371..525456,525763..525830,526605..526740,527270..527305
    C169-scaffold_5	C169v2-03069	1412897	+	ORIGINAL JGI	41001	fgenesh1_pg.5_#_204	1412897..1412909,1413103..1413155,1413409..1413531,1413634..1413748,1414228..1414427,1414721..1414891,1415181..1415381,1415548..1415679
    et je regarde si je retouve bien les memes CV-**** ensuite je regarde le brin si cest +

    je fais
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
     
    ith open('coco_cds.txt') as fichier:
    	for line in fichier:
    		ch= line.split('\t')[1:2]
    		if ch in lsite:
    			brin=line.split('\t')[3:4]
    			if '+'in brin:	
    				print "ok"
    				cv=line.split('\t')[1:2]
    				#print cv
    				cv="".join(cv)
    				coo=line.strip('\t')
     
    				coo=coo.strip('\n')
    				liste=coo.split('\t')[7:8]
    				seq="".join(liste)
    				seq=seq.replace(',','..,..')
    				#result=seq.split('..')
    				#result1=seq="".join(result)
     
    				d[cv]=seq
    le souci que j'ai je dois vioir si je retrouve le bon numero CV-*** je regarde si cest + je dois recuperer les coordonnes qui sont sous la forme 528365..528435,528774..528938,529294..529389,529779..530001,530348..530487,530870..530990 et je dois faire une soustraction entre 528435 et 528365 mais je ne sais pas car je membrouille a mettre dans un dico pour avoir cle valeur cest a dire nom et coordonnes ou bien je dois tout faire dans le for

    merci


    bon jai reussi a faire ceci

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    for valeur in d.values():
        	valeur=valeur.replace(',','..,..')
    	result=valeur.split('..')#
    	print result
    	nombre1=int(result[0])
    	nombre2=int(result[1])
    	prot=[1]

    ce que je veux fqire pour chaque result faire une soustraction entre les result
    par exemple
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    ['1412897', '1412909', ',', '1413103', '1413155', ',', '1413409', '1413531', ',', '1413634', '1413748', ',', '1414228', '1414427', ',', '1414721', '1414891', ',', '1415181', '1415381', ',', '1415548', '1415679']
    exemple 1412909-1412897 et remettre la virgule ensuite 1413155 -1413103

    en sachant que je dois metttre dans une liste prot en partant que la premiere valeur prot[0]=1 et dire que '1412897' cest la premiere valeur ensuite ca fait 1..(1412909-1412897),1413155 -1413103 ainsi de suite

  10. #10
    Expert confirmé

    Homme Profil pro
    Inscrit en
    Octobre 2008
    Messages
    4 307
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Octobre 2008
    Messages : 4 307
    Par défaut
    D'abord pour simplifier ton code que j'ai dut relire plusieurs fois:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
     
    with open('coco_cds.txt') as fichier:
        d = {}
        for line in fichier.readlines:
    	ch = line.split('\t')
    	if ch[0] in lsite and if ch[2] == "+":
    		cv = ch[1]
    		liste = ch[7][:-1]
                    seq = list.replace(',','..,..')
                    d[cv] = seq
     
    for key in d.keys():
        print key, "\t", d[key]
    ch[1:2] = ch[1]

    Maintenant que tu as ton dictionnaire, pour la soustraction d'un nombre avec son précédent tu devrais pouvoir t'en sortir.

    Comme ce sont des chaînes et non pas des nombres, tu devras faire quelque chose dans le genre:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    z = eval(y) - eval(x)

  11. #11
    Membre confirmé
    Profil pro
    Inscrit en
    Mai 2008
    Messages
    133
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2008
    Messages : 133
    Par défaut
    Je narrive pas a faire marcher ton script car il necrit rien dans le dico ,
    cest pas grave je veux porusuivre ce que j'ai fait
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
     
    for valeur in d.values():
       	valeur=valeur.replace(',','..,..')
    	result=valeur.split('..')
    	prot=1
    	#print result
    	nombre1=int(result[0])
    	nombre2=int(result[1])
    	ok=str(nombre2-nombre1)
    	print ok
    voila j'ai pu faire le calcul pour chaque result[0] et result[1]
    mais la je veux le faire en boucle pour chaue valeur restante mais je ne sais pas comment le faire car je m'elange entre les differentes parties

    en effet j'ai trois listes:


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
     
    ['1412897', '1412909', ',', '1413103', '1413155', ',', '1413409', '1413531', ','
    , '1413634', '1413748', ',', '1414228', '1414427', ',', '1414721', '1414891', ',
    ', '1415181', '1415381', ',', '1415548', '1415679']
    ['523752', '523949', ',', '524383', '524517', ',', '524819', '524948', ',', '525
    371', '525456', ',', '525763', '525830', ',', '526605', '526740', ',', '527270',
     '527305']
    ['528365', '528435', ',', '528774', '528938', ',', '529294', '529389', ',', '529
    779', '530001', ',', '530348', '530487', ',', '530870', '530990']
    et je dois calculer separement

    pouvez vous maider

    merci

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [Débutant]Afficher une chaine de caractères
    Par cyrille2k5 dans le forum Oracle
    Réponses: 3
    Dernier message: 02/06/2006, 16h04
  2. Réponses: 9
    Dernier message: 30/11/2005, 18h18
  3. Parser une chaine
    Par TieumB dans le forum Général JavaScript
    Réponses: 6
    Dernier message: 17/01/2005, 11h20
  4. Parser une chaine en shell script
    Par Gogoye dans le forum Linux
    Réponses: 10
    Dernier message: 19/07/2004, 17h49
  5. Réponses: 3
    Dernier message: 17/12/2003, 11h26

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo