IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bioinformatique Perl Discussion :

dopage d'un fichier xgmml


Sujet :

Bioinformatique Perl

  1. #1
    Membre à l'essai
    Profil pro
    Enseignant Chercheur
    Inscrit en
    Février 2011
    Messages
    11
    Détails du profil
    Informations personnelles :
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Enseignant Chercheur
    Secteur : Service public

    Informations forums :
    Inscription : Février 2011
    Messages : 11
    Points : 15
    Points
    15
    Par défaut dopage d'un fichier xgmml
    Bonjour,
    xgmml est un format de fichier qui prend de l'importance dans la modélisation d'une réponse physiologique d'un organisme. il permet de schématiser les interactions des protéines. Cytoscape est l'un des meilleurs logiciel qui permet de visualiser ces interactions et permet de créer les fichiers xgmml.
    A présent ce format de fichier n'est pas encore trop connu. Mais sa structure est très partique car il est capable de classer les protéines ou gènes dans des catégories/classes/sous-classe...

    Voici un exemple de structure

    entête
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
     
    <?xml version="1.0" encoding="UTF-8" standalone="yes"?>
    <graph label="HPPN" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:cy="http://www.cytoscape.org" xmlns="http://www.cs.rpi.edu/XGMML"  directed="1">
      <att name="documentVersion" value="1.1"/>
      <att name="networkMetadata">
        <rdf:RDF>
          <rdf:Description rdf:about="http://www.cytoscape.org/">
            <dc:type>Protein-Protein Interaction</dc:type>
            <dc:description>N/A</dc:description>
            <dc:identifier>N/A</dc:identifier>
            <dc:date>2011-05-09 18:17:00</dc:date>
            <dc:title>ggg</dc:title>
            <dc:source>http://www.cytoscape.org/</dc:source>
            <dc:format>Cytoscape-XGMML</dc:format>
          </rdf:Description>
        </rdf:RDF>
      </att>
    <att type="string" name="backgroundColor" value="#ffffff"/>
      <att type="real" name="GRAPH_VIEW_ZOOM" value="0.7595238095238095"/>
      <att type="real" name="GRAPH_VIEW_CENTER_X" value="320.0"/>
      <att type="real" name="GRAPH_VIEW_CENTER_Y" value="400.0"/>
      <att type="string" name="mezhoudparameters" value="parameters"/>
      <att type="string" name="mezhoudparameters" value="version1.1=downstream genes=Localization=interaction=true=Function=2=cytoplasm=1=plasma membrane=3=nucleus=0=extracellular==unknown=true=cytoplasm=false=plasma membrane=false=nucleus=false=extracellular=false==cytoplasm=2=plasma membrane=1=nucleus=3=extracellular=0==phosphorylation=false=transregulation=true=binding=false=="/>
    suite
    Description de deux protéines (nodes)
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    <node label="DEHUE1" id="-9438">
        <att type="string" name="Human Proteome Folding Project URL" value="query=21361176"/>
        <att type="string" name="RefSeq" value="NP_000680"/>
        <att type="string" name="UniProtKB" value="DEHUE1"/>
        
        <att type="string" name="Protein name" value="Aldehyde dehydrogenase 1"/>  
        <att type="string" name="vizmap:NODE_COLOR" value="#ffffcc"/>
        <att type="string" name="Function" value="Cytokine"/>
        <att type="string" name="Bio.Process" value="Translation regulation"/>
        <att type="string" name="Localization" value="extracellular"/>
        <att type="string" name="vizmap:NODE_SHAPE" value="DIAMOND"/>
    </node>
      <node label="ACHUA1" id="-9437">
        <att type="string" name="Human Proteome Folding Project URL" value="query=4557457"/>
        <att type="string" name="RefSeq" value="NP_000070"/>
        <att type="string" name="UniProtKB" value="ACHUA1"/>
        
      </node>
    suite
    interaction de ces deux proteins (edges)
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    <edge>
      <edge label="DEHUE1 (PP.0.1) DEHUE1" source="-9438" target="-9438">
        <att type="string" name="UniProtKB" value="DEHUE1 (PP.0.1) DEHUE1"/>
        <att type="integer" name="direct" value="1"/>
        <att type="integer" name="direction" value="0"/>
        <att type="string" name="interaction" value="PP.0.1" cy:editable="false"/>
        <att type="string" name="interaction type" value="PP"/>
        <att type="string" name="source ID" value="0"/>
        <att type="string" name="source database" value="HPRD"/>
        <graphics width="1" fill="#0000ff" cy:sourceArrow="0" cy:targetArrow="0" cy:sourceArrowColor="#000000" cy:targetArrowColor="#000000" cy:edgeLabelFont="Default-0-10" cy:edgeLineType="SOLID" cy:curved="STRAIGHT_LINES"/>
      </edge>
      <edge label="ACHUA1 (PP.0.1) B4E3U0" source="-9437" target="-9436">
        <att type="string" name="UniProtKB" value="ACHUA1 (PP.0.1) B4E3U0"/>
        <att type="integer" name="direct" value="1"/>
        <att type="integer" name="direction" value="0"/>
        <att type="string" name="interaction" value="PP.0.1" cy:editable="false"/>
        <att type="string" name="interaction type" value="PP"/>
        <att type="string" name="source ID" value="1"/>
        <att type="string" name="source database" value="HPRD"/>
        <graphics width="1" fill="#0000ff" cy:sourceArrow="0" cy:targetArrow="0" cy:sourceArrowColor="#000000" cy:targetArrowColor="#000000" cy:edgeLabelFont="Default-0-10" cy:edgeLineType="SOLID" cy:curved="STRAIGHT_LINES"/>
      </edge>
    Ceci est un exemple de deux protéines. imaginez quant il s'agit des milliers de protéines qui répondent à une intoxication par exemple.
    A présent l'inconvénients c'est qu'il faut construite manuellement ces fichiers pour pouvoir les visualiser. Alors il s'agit d'une bonne initiative d'écrire un programme qui automatise la construction des fichiers xgmml.

    Comments:
    A la base, nous avant la partie 3 (interactions). Ce qu'il faut faire c'est de remplir la partie 2 (description détaillée des protéines) par exemple DEHUE1 possède plus d'informations que ACHUA1, c'est moi qui les a ajouté manuellement). Il suffit d'injecter ses donnés à partir d'un autre fichier. La partie interaction reste inchangée.
    voici le format du fichier qui peut contenir les informations à injecter (base de donnée UniprotKB.dat)
    Seulement pour la protéine 1 (DEHUE1). vous allez remarquer le code DEHUE1 ne se trouve pas dans la deuxième ligne AC: P00352; O00768; Q5SYR1; il se trouve un peut plus loin ligne (DR PIR; A33371; DEHUE1). Ce qui complique encore comment apparié les codes et trouver les données correspondant à la protéine qui porte parfois un code différent.
    Nous nous intéressons seuleemnt à quelques lignes contenant:
    ^ID, (identité)
    ^AC, (accession)
    ^DR.*PIR.*, (accession dans d'autre base de données
    ^DR.*GO.*F:.* (fonction de la protéine)
    ^DR.*GO.*P:.* (Processus biologique)
    .*SUBCELLULAR.* (Localisation subcellular)

    Format de fichier uniproKB.dat contenant les informations sur les protéines
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
    207
    208
    209
    210
    211
    212
    213
    214
    215
    216
    217
    218
    219
    220
    221
    222
    223
    224
    225
    226
    227
    228
    229
    230
    231
    232
    233
    234
    235
    236
    237
    238
    239
    240
    241
    242
    243
    244
    245
    246
    247
    248
    249
    250
    251
    252
    253
    254
    255
    256
    257
    258
    259
    260
    261
    262
    263
    264
    265
    266
    267
    268
    269
    270
    271
    272
    273
    274
    275
    276
    277
    278
    279
    280
    281
    282
    283
    284
    285
    286
    287
    288
    289
    290
    291
    292
    293
    294
    295
    296
    297
    298
    299
    300
    301
    302
    303
    304
    305
    306
    307
    308
    309
    310
    311
    312
    313
    314
    315
     
    ID   AL1A1_HUMAN             Reviewed;         501 AA.
    AC   P00352; O00768; Q5SYR1;
    DT   21-JUL-1986, integrated into UniProtKB/Swiss-Prot.
    DT   23-JAN-2007, sequence version 2.
    DT   05-APR-2011, entry version 126.
    DE   RecName: Full=Retinal dehydrogenase 1;
    DE            Short=RALDH 1;
    DE            Short=RalDH1;
    DE            EC=1.2.1.36;
    DE   AltName: Full=ALDH-E1;
    DE   AltName: Full=ALHDII;
    DE   AltName: Full=Aldehyde dehydrogenase family 1 member A1;
    DE   AltName: Full=Aldehyde dehydrogenase, cytosolic;
    GN   Name=ALDH1A1; Synonyms=ALDC, ALDH1, PUMB1;
    OS   Homo sapiens (Human).
    OC   Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
    OC   Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
    OC   Catarrhini; Hominidae; Homo.
    OX   NCBI_TaxID=9606;
    RN   [1]
    RP   NUCLEOTIDE SEQUENCE [GENOMIC DNA].
    RX   MEDLINE=90077427; PubMed=2591967; DOI=10.1016/0888-7543(89)90127-4;
    RA   Hsu L.C., Chang W.-C., Yoshida A.;
    RT   "Genomic structure of the human cytosolic aldehyde dehydrogenase
    RT   gene.";
    RL   Genomics 5:857-865(1989).
    RN   [2]
    RP   NUCLEOTIDE SEQUENCE [MRNA], AND VARIANT SER-121.
    RC   TISSUE=Liver;
    RX   MEDLINE=94027752; PubMed=8214422;
    RX   DOI=10.1111/j.1530-0277.1993.tb00849.x;
    RA   Zheng C.F., Wang T.T., Weiner H.;
    RT   "Cloning and expression of the full-length cDNAS encoding human liver
    RT   class 1 and class 2 aldehyde dehydrogenase.";
    RL   Alcohol. Clin. Exp. Res. 17:828-831(1993).
    RN   [3]
    RP   NUCLEOTIDE SEQUENCE [MRNA].
    RC   TISSUE=Lens;
    RA   Ramana K.V., Xiao T., Ansari N.H.;
    RT   "Cloning and expression of aldehyde dehydrogenase 1 (ALDH1A1) from
    RT   human lens cDNA library.";
    RL   Submitted (SEP-2003) to the EMBL/GenBank/DDBJ databases.
    RN   [4]
    RP   NUCLEOTIDE SEQUENCE [LARGE SCALE MRNA].
    RA   Kalnine N., Chen X., Rolfs A., Halleck A., Hines L., Eisenstein S.,
    RA   Koundinya M., Raphael J., Moreira D., Kelley T., LaBaer J., Lin Y.,
    RA   Phelan M., Farmer A.;
    RT   "Cloning of human full-length CDSs in BD Creator(TM) system donor
    RT   vector.";
    RL   Submitted (MAY-2003) to the EMBL/GenBank/DDBJ databases.
    RN   [5]
    RP   NUCLEOTIDE SEQUENCE [GENOMIC DNA], AND VARIANT PHE-177.
    RG   NIEHS SNPs program;
    RL   Submitted (JUL-2003) to the EMBL/GenBank/DDBJ databases.
    RN   [6]
    RP   NUCLEOTIDE SEQUENCE [LARGE SCALE GENOMIC DNA].
    RX   PubMed=15164053; DOI=10.1038/nature02465;
    RA   Humphray S.J., Oliver K., Hunt A.R., Plumb R.W., Loveland J.E.,
    RA   Howe K.L., Andrews T.D., Searle S., Hunt S.E., Scott C.E., Jones M.C.,
    RA   Ainscough R., Almeida J.P., Ambrose K.D., Ashwell R.I.S.,
    RA   Babbage A.K., Babbage S., Bagguley C.L., Bailey J., Banerjee R.,
    RA   Barker D.J., Barlow K.F., Bates K., Beasley H., Beasley O., Bird C.P.,
    RA   Bray-Allen S., Brown A.J., Brown J.Y., Burford D., Burrill W.,
    RA   Burton J., Carder C., Carter N.P., Chapman J.C., Chen Y., Clarke G.,
    RA   Clark S.Y., Clee C.M., Clegg S., Collier R.E., Corby N., Crosier M.,
    RA   Cummings A.T., Davies J., Dhami P., Dunn M., Dutta I., Dyer L.W.,
    RA   Earthrowl M.E., Faulkner L., Fleming C.J., Frankish A.,
    RA   Frankland J.A., French L., Fricker D.G., Garner P., Garnett J.,
    RA   Ghori J., Gilbert J.G.R., Glison C., Grafham D.V., Gribble S.,
    RA   Griffiths C., Griffiths-Jones S., Grocock R., Guy J., Hall R.E.,
    RA   Hammond S., Harley J.L., Harrison E.S.I., Hart E.A., Heath P.D.,
    RA   Henderson C.D., Hopkins B.L., Howard P.J., Howden P.J., Huckle E.,
    RA   Johnson C., Johnson D., Joy A.A., Kay M., Keenan S., Kershaw J.K.,
    RA   Kimberley A.M., King A., Knights A., Laird G.K., Langford C.,
    RA   Lawlor S., Leongamornlert D.A., Leversha M., Lloyd C., Lloyd D.M.,
    RA   Lovell J., Martin S., Mashreghi-Mohammadi M., Matthews L., McLaren S.,
    RA   McLay K.E., McMurray A., Milne S., Nickerson T., Nisbett J.,
    RA   Nordsiek G., Pearce A.V., Peck A.I., Porter K.M., Pandian R.,
    RA   Pelan S., Phillimore B., Povey S., Ramsey Y., Rand V., Scharfe M.,
    RA   Sehra H.K., Shownkeen R., Sims S.K., Skuce C.D., Smith M.,
    RA   Steward C.A., Swarbreck D., Sycamore N., Tester J., Thorpe A.,
    RA   Tracey A., Tromans A., Thomas D.W., Wall M., Wallis J.M., West A.P.,
    RA   Whitehead S.L., Willey D.L., Williams S.A., Wilming L., Wray P.W.,
    RA   Young L., Ashurst J.L., Coulson A., Blocker H., Durbin R.M.,
    RA   Sulston J.E., Hubbard T., Jackson M.J., Bentley D.R., Beck S.,
    RA   Rogers J., Dunham I.;
    RT   "DNA sequence and analysis of human chromosome 9.";
    RL   Nature 429:369-374(2004).
    RN   [7]
    RP   NUCLEOTIDE SEQUENCE [LARGE SCALE GENOMIC DNA].
    RA   Mural R.J., Istrail S., Sutton G.G., Florea L., Halpern A.L.,
    RA   Mobarry C.M., Lippert R., Walenz B., Shatkay H., Dew I., Miller J.R.,
    RA   Flanigan M.J., Edwards N.J., Bolanos R., Fasulo D., Halldorsson B.V.,
    RA   Hannenhalli S., Turner R., Yooseph S., Lu F., Nusskern D.R.,
    RA   Shue B.C., Zheng X.H., Zhong F., Delcher A.L., Huson D.H.,
    RA   Kravitz S.A., Mouchard L., Reinert K., Remington K.A., Clark A.G.,
    RA   Waterman M.S., Eichler E.E., Adams M.D., Hunkapiller M.W., Myers E.W.,
    RA   Venter J.C.;
    RL   Submitted (JUL-2005) to the EMBL/GenBank/DDBJ databases.
    RN   [8]
    RP   NUCLEOTIDE SEQUENCE [LARGE SCALE MRNA].
    RC   TISSUE=Colon;
    RX   PubMed=15489334; DOI=10.1101/gr.2596504;
    RG   The MGC Project Team;
    RT   "The status, quality, and expansion of the NIH full-length cDNA
    RT   project: the Mammalian Gene Collection (MGC).";
    RL   Genome Res. 14:2121-2127(2004).
    RN   [9]
    RP   NUCLEOTIDE SEQUENCE [GENOMIC DNA] OF 1-6.
    RX   MEDLINE=93263033; PubMed=8493914;
    RA   Yoshida A., Hsu L.C., Yanagawa Y.;
    RT   "Biological role of human cytosolic aldehyde dehydrogenase 1: hormonal
    RT   response, retinal oxidation and implication in testicular
    RT   feminization.";
    RL   Adv. Exp. Med. Biol. 328:37-44(1993).
    RN   [10]
    RP   PROTEIN SEQUENCE OF 2-501, AND ACETYLATION AT SER-2.
    RC   TISSUE=Liver;
    RX   MEDLINE=84208019; PubMed=6723659;
    RX   DOI=10.1111/j.1432-1033.1984.tb08150.x;
    RA   Hempel J., von Bahr-Lindstroem H., Joernvall H.;
    RT   "Aldehyde dehydrogenase from human liver. Primary structure of the
    RT   cytoplasmic isoenzyme.";
    RL   Eur. J. Biochem. 141:21-35(1984).
    RN   [11]
    RP   NUCLEOTIDE SEQUENCE [MRNA] OF 162-501.
    RX   MEDLINE=85252089; PubMed=4015823; DOI=10.1016/0741-8329(85)90024-2;
    RA   Yoshida A., Ikawa M., Hsu L.C., Tani K.;
    RT   "Molecular abnormality and cDNA cloning of human aldehyde
    RT   dehydrogenases.";
    RL   Alcohol 2:103-106(1985).
    RN   [12]
    RP   NUCLEOTIDE SEQUENCE [MRNA] OF 162-501.
    RC   TISSUE=Liver;
    RX   MEDLINE=85216574; PubMed=2987944; DOI=10.1073/pnas.82.11.3771;
    RA   Hsu L.C., Tani K., Fujiyoshi T., Kurachi K., Yoshida A.;
    RT   "Cloning of cDNAs for human aldehyde dehydrogenases 1 and 2.";
    RL   Proc. Natl. Acad. Sci. U.S.A. 82:3771-3775(1985).
    RN   [13]
    RP   PROTEIN SEQUENCE OF 266-273, ACTIVE SITES GLU-269 AND CYS-303, AND
    RP   NAD-BINDING SITE CYS-456.
    RX   MEDLINE=88050861; PubMed=3676276; DOI=10.1021/bi00392a015;
    RA   Abriola D.P., Fields R., Stein S., Mackerell A.D. Jr., Pietruszko R.;
    RT   "Active site of human liver aldehyde dehydrogenase.";
    RL   Biochemistry 26:5679-5684(1987).
    RN   [14]
    RP   PARTIAL PROTEIN SEQUENCE.
    RC   TISSUE=Erythrocyte;
    RX   MEDLINE=89377753; PubMed=2776714;
    RA   Agarwal D.P., Cohn P., Goedde H.W., Hempel J.;
    RT   "Aldehyde dehydrogenase from human erythrocytes: structural
    RT   relationship to the liver cytosolic isozyme.";
    RL   Enzyme 42:47-52(1989).
    RN   [15]
    RP   ACETYLATION [LARGE SCALE ANALYSIS] AT LYS-91; LYS-128; LYS-252;
    RP   LYS-353; LYS-367; LYS-410; LYS-419; LYS-435 AND LYS-495, AND MASS
    RP   SPECTROMETRY.
    RX   PubMed=19608861; DOI=10.1126/science.1175371;
    RA   Choudhary C., Kumar C., Gnad F., Nielsen M.L., Rehman M., Walther T.,
    RA   Olsen J.V., Mann M.;
    RT   "Lysine acetylation targets protein complexes and co-regulates major
    RT   cellular functions.";
    RL   Science 325:834-840(2009).
    RN   [16]
    RP   IDENTIFICATION BY MASS SPECTROMETRY [LARGE SCALE ANALYSIS].
    RX   PubMed=21269460; DOI=10.1186/1752-0509-5-17;
    RA   Burkard T.R., Planyavsky M., Kaupe I., Breitwieser F.P.,
    RA   Buerckstuemmer T., Bennett K.L., Superti-Furga G., Colinge J.;
    RT   "Initial characterization of the human central proteome.";
    RL   BMC Syst. Biol. 5:17-17(2011).
    CC   -!- FUNCTION: Binds free retinal and cellular retinol-binding protein-
    CC       bound retinal. Can convert/oxidize retinaldehyde to retinoic acid
    CC       (By similarity).
    CC   -!- CATALYTIC ACTIVITY: Retinal + NAD(+) + H(2)O = retinoate + NADH.
    CC   -!- PATHWAY: Cofactor metabolism; retinol metabolism.
    CC   -!- SUBUNIT: Homotetramer.
    CC   -!- SUBCELLULAR LOCATION: Cytoplasm.
    CC   -!- SIMILARITY: Belongs to the aldehyde dehydrogenase family.
    CC   -!- WEB RESOURCE: Name=NIEHS-SNPs;
    CC       URL="http://egp.gs.washington.edu/data/aldh1a1/";
    CC   -----------------------------------------------------------------------
    CC   Copyrighted by the UniProt Consortium, see http://www.uniprot.org/terms
    CC   Distributed under the Creative Commons Attribution-NoDerivs License
    CC   -----------------------------------------------------------------------
    DR   EMBL; M31994; AAA51692.1; -; Genomic_DNA.
    DR   EMBL; M31982; AAA51692.1; JOINED; Genomic_DNA.
    DR   EMBL; M31983; AAA51692.1; JOINED; Genomic_DNA.
    DR   EMBL; M31984; AAA51692.1; JOINED; Genomic_DNA.
    DR   EMBL; M31985; AAA51692.1; JOINED; Genomic_DNA.
    DR   EMBL; M31986; AAA51692.1; JOINED; Genomic_DNA.
    DR   EMBL; M31987; AAA51692.1; JOINED; Genomic_DNA.
    DR   EMBL; M31988; AAA51692.1; JOINED; Genomic_DNA.
    DR   EMBL; M31989; AAA51692.1; JOINED; Genomic_DNA.
    DR   EMBL; M31990; AAA51692.1; JOINED; Genomic_DNA.
    DR   EMBL; M31991; AAA51692.1; JOINED; Genomic_DNA.
    DR   EMBL; M31992; AAA51692.1; JOINED; Genomic_DNA.
    DR   EMBL; AF003341; AAC51652.1; -; mRNA.
    DR   EMBL; AY390731; AAR92229.1; -; mRNA.
    DR   EMBL; BT006921; AAP35567.1; -; mRNA.
    DR   EMBL; AY338497; AAP88039.1; -; Genomic_DNA.
    DR   EMBL; AL591031; CAI12257.1; -; Genomic_DNA.
    DR   EMBL; CH471089; EAW62543.1; -; Genomic_DNA.
    DR   EMBL; BC001505; AAH01505.1; -; mRNA.
    DR   EMBL; S61235; AAD13925.1; -; Genomic_DNA.
    DR   EMBL; M26761; AAA35518.1; -; mRNA.
    DR   EMBL; K03000; AAA51695.1; -; mRNA.
    DR   IPI; IPI00218914; -.
    DR   PIR; A33371; DEHUE1.
    DR   RefSeq; NP_000680.2; NM_000689.3.
    DR   UniGene; Hs.76392; -.
    DR   ProteinModelPortal; P00352; -.
    DR   SMR; P00352; 8-501.
    DR   IntAct; P00352; 4.
    DR   STRING; P00352; -.
    DR   PhosphoSite; P00352; -.
    DR   SWISS-2DPAGE; P00352; -.
    DR   Cornea-2DPAGE; P00352; -.
    DR   DOSAC-COBS-2DPAGE; P00352; -.
    DR   REPRODUCTION-2DPAGE; IPI00218914; -.
    DR   REPRODUCTION-2DPAGE; P00352; -.
    DR   UCD-2DPAGE; P00352; -.
    DR   PeptideAtlas; P00352; -.
    DR   PRIDE; P00352; -.
    DR   Ensembl; ENST00000297785; ENSP00000297785; ENSG00000165092.
    DR   GeneID; 216; -.
    DR   KEGG; hsa:216; -.
    DR   UCSC; uc004ajd.1; human.
    DR   CTD; 216; -.
    DR   GeneCards; GC09M045338; -.
    DR   H-InvDB; HIX0008099; -.
    DR   HGNC; HGNC:402; ALDH1A1.
    DR   HPA; CAB020690; -.
    DR   HPA; HPA002123; -.
    DR   MIM; 100640; gene.
    DR   neXtProt; NX_P00352; -.
    DR   PharmGKB; PA24692; -.
    DR   eggNOG; prNOG13758; -.
    DR   HOGENOM; HBG752218; -.
    DR   HOVERGEN; HBG000097; -.
    DR   InParanoid; P00352; -.
    DR   OMA; VNCYSVV; -.
    DR   OrthoDB; EOG4Z8XW6; -.
    DR   PhylomeDB; P00352; -.
    DR   BRENDA; 1.2.1.36; 247.
    DR   Reactome; REACT_13433; Biological oxidations.
    DR   DrugBank; DB00157; NADH.
    DR   DrugBank; DB00755; Tretinoin.
    DR   DrugBank; DB00162; Vitamin A.
    DR   NextBio; 874; -.
    DR   ArrayExpress; P00352; -.
    DR   Bgee; P00352; -.
    DR   CleanEx; HS_ALDH1A1; -.
    DR   Genevestigator; P00352; -.
    DR   GermOnline; ENSG00000165092; Homo sapiens.
    DR   GO; GO:0005829; C:cytosol; TAS:Reactome.
    DR   GO; GO:0004029; F:aldehyde dehydrogenase (NAD) activity; TAS:Reactome.
    DR   GO; GO:0005497; F:androgen binding; TAS:ProtInc.
    DR   GO; GO:0005099; F:Ras GTPase activator activity; TAS:UniProtKB.
    DR   GO; GO:0001758; F:retinal dehydrogenase activity; IEA:EC.
    DR   GO; GO:0006081; P:cellular aldehyde metabolic process; TAS:ProtInc.
    DR   GO; GO:0006069; P:ethanol oxidation; TAS:Reactome.
    DR   GO; GO:0006805; P:xenobiotic metabolic process; TAS:Reactome.
    DR   InterPro; IPR016161; Ald_DH/histidinol_DH.
    DR   InterPro; IPR016163; Ald_DH_C.
    DR   InterPro; IPR016160; Ald_DH_CS.
    DR   InterPro; IPR016162; Ald_DH_N.
    DR   InterPro; IPR015590; Aldehyde_DH_dom.
    DR   Gene3D; G3DSA:3.40.309.10; Aldehyde_dehydrogenase_C; 1.
    DR   Gene3D; G3DSA:3.40.605.10; Aldehyde_dehydrogenase_N; 1.
    DR   Pfam; PF00171; Aldedh; 1.
    DR   SUPFAM; SSF53720; Aldehyde_DH/Histidinol_DH; 1.
    DR   PROSITE; PS00070; ALDEHYDE_DEHYDR_CYS; 1.
    DR   PROSITE; PS00687; ALDEHYDE_DEHYDR_GLU; 1.
    PE   1: Evidence at protein level;
    KW   Acetylation; Complete proteome; Cytoplasm; Direct protein sequencing;
    KW   NAD; Oxidoreductase; Polymorphism.
    FT   INIT_MET      1      1       Removed.
    FT   CHAIN         2    501       Retinal dehydrogenase 1.
    FT                                /FTId=PRO_0000056415.
    FT   NP_BIND     246    251       NAD (By similarity).
    FT   ACT_SITE    269    269       Proton acceptor.
    FT   ACT_SITE    303    303       Nucleophile.
    FT   BINDING     456    456       NAD.
    FT   SITE        170    170       Transition state stabilizer (By
    FT                                similarity).
    FT   MOD_RES       2      2       N-acetylserine.
    FT   MOD_RES      91     91       N6-acetyllysine.
    FT   MOD_RES     128    128       N6-acetyllysine.
    FT   MOD_RES     252    252       N6-acetyllysine.
    FT   MOD_RES     353    353       N6-acetyllysine.
    FT   MOD_RES     367    367       N6-acetyllysine.
    FT   MOD_RES     410    410       N6-acetyllysine.
    FT   MOD_RES     419    419       N6-acetyllysine.
    FT   MOD_RES     435    435       N6-acetyllysine.
    FT   MOD_RES     495    495       N6-acetyllysine.
    FT   VARIANT     121    121       N -> S (in dbSNP:rs1049981).
    FT                                /FTId=VAR_048901.
    FT   VARIANT     125    125       G -> R (in dbSNP:rs11554423).
    FT                                /FTId=VAR_048902.
    FT   VARIANT     177    177       I -> F (in dbSNP:rs8187929).
    FT                                /FTId=VAR_017778.
    FT   CONFLICT    162    162       V -> I (in Ref. 11; AAA35518 and 12;
    FT                                AAA51695).
    SQ   SEQUENCE   501 AA;  54862 MW;  B26464DC7168348E CRC64;
         MSSSGTPDLP VLLTDLKIQY TKIFINNEWH DSVSGKKFPV FNPATEEELC QVEEGDKEDV
         DKAVKAARQA FQIGSPWRTM DASERGRLLY KLADLIERDR LLLATMESMN GGKLYSNAYL
         NDLAGCIKTL RYCAGWADKI QGRTIPIDGN FFTYTRHEPI GVCGQIIPWN FPLVMLIWKI
         GPALSCGNTV VVKPAEQTPL TALHVASLIK EAGFPPGVVN IVPGYGPTAG AAISSHMDID
         KVAFTGSTEV GKLIKEAAGK SNLKRVTLEL GGKSPCIVLA DADLDNAVEF AHHGVFYHQG
         QCCIAASRIF VEESIYDEFV RRSVERAKKY ILGNPLTPGV TQGPQIDKEQ YDKILDLIES
         GKKEGAKLEC GGGPWGNKGY FVQPTVFSNV TDEMRIAKEE IFGPVQQIMK FKSLDDVIKR
         ANNTFYGLSA GVFTKDIDKA ITISSALQAG TVWVNCYGVV SAQCPFGGFK MSGNGRELGE
         YGFHEYTEVK TVTVKISQKN S
    //
    Oui c'est trop long, mais je crois que c'est utile pour le future.

    merci pour votre patience.

  2. #2
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 499 184
    Points
    499 184
    Par défaut
    En gros, le format xgmml n'est qu'un format XML qui suit une certaine structure à respecter. Sinon, de ce que je comprends à ta demande, tu souhaites analyser un fichier uniprot pour pouvoir créer un fichier xgmml. Donc qu'as-tu fais de ton coté pour parser tes fichiers uniprot ?
    Tu as des modules bioperl qui te facilite la vie pour le parsing de fichier au format uniprot. Ensuite pour la création du fichier xgmml, il te revient à créer un fichier XML via le module XML::Writer. Mais tu as mieux car il existe un module sur le CPAN Graph::XGMML qui te génère tes graphiques xgmml.
    Bonne lecture et montre nous ce que tu as fait.

  3. #3
    Membre à l'essai
    Profil pro
    Enseignant Chercheur
    Inscrit en
    Février 2011
    Messages
    11
    Détails du profil
    Informations personnelles :
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Enseignant Chercheur
    Secteur : Service public

    Informations forums :
    Inscription : Février 2011
    Messages : 11
    Points : 15
    Points
    15
    Par défaut
    Salut Djibril,
    Citation Envoyé par djibril Voir le message
    tu souhaites analyser un fichier uniprot pour pouvoir créer un fichier xgmml.
    En fait ce n'est pas tout à fait cela. Le prgramme cytoscape génére le format xgmml et fort probablement avec le module CPAN Graph::XGMML ou bien un autre module écrit en php.
    Je voulais insérer des informations du fichier uniprotKB dans le fichier.xgmml. le soucis c'est qu'il faut apparier les codes pour insérer les informations au niveau de la protéine (node) correspondante.
    Je suis newbie, incapable d'écrire un script compliqué comme celui là. enfin pour moi compliqué. mais je pourrais écrire son algorithme:

    analyser le fichier xgmml
    ouvrir fichier.xgmml
    parcourir le fichier.xgmml ligne par ligne
    découper le en pragraphe par protéine qui commence par <node et fini par la première </node>
    chercher l'expression suivante <node label="(.*)".*>
    affecter cette expression à une variable $1
    fermer le fichier.xgmml
    Analyser le fichier uniprot.dat
    ouvrir le UniprotKB.dat
    parcourir UniprotKB.dat ligne par ligne
    découper uniprotKB.dat en paragraphe par protéine: le pargarphe commence par ^ID et fini au niveau de la première ^// recontré.
    repérer les expressions régulières suivantes:
    ^ID\s+(\w+)$ #identité de la protéine possible que ce n'est pas utile
    ^AC\s+((\w+);)+$ #première série de code de cette protéines
    ^DR\s+PIR;(\s(\w+);)+$ # deuxième série de code de la même protéine
    ^DR\s+GO;.*C:(\w+).*$ # subcellular localisation ici il faut rajouter l'option de s'arreter la première occurence
    ^DR\s+GO;.*F:(\w+).*$ # c'est pour la onction de la protéine
    ^DR\s+GO;.*P:(\w+).*$ # c'est pour le processus biologique
    affecter à ces expressions des variables $2 pour l'ID; $3 pour AC, $5 pour PIR, $6 pour la localisation subcellular, $7 pour la fonction et $8 pour le processus biologique
    fermer le fichier UniprotKB.dat
    commencer la comparaison ou la recherche des codes
    si on trouve le $1 dans le fichier uniprotKb.dat, càd $1=~$3 ou bien $1=~$5
    on imprime dans le fichier.xgmml à la suite de paragraphe de la protéine $1.
    <att type="string" name="Protein name" value="$1"/>
    <att type="string" name="Function" value="$7"/>
    <att type="string" name="Bio.Process" value="$8"/>
    <att type="string" name="Localization" value="$6"/>
    <att type="string" name="vizmap:NODE_SHAPE" value="DIAMOND"/> # c'est une constante
    <att type="string" name="vizmap:NODE_COLOR" value="#ffffcc"/> # c'est une constante

    si non, on passe au paragraphe de la protéine suivante.
    Je ne sais si cela est compréhensible. Y a t il une autre façon pour que cela soit plus claire.

    merci
    A+

Discussions similaires

  1. fichier mappé en mémoire
    Par WinBernardo dans le forum Delphi
    Réponses: 7
    Dernier message: 01/12/2006, 09h38
  2. Réponses: 5
    Dernier message: 20/08/2002, 18h01
  3. Lire 1 bit d'un fichier en C
    Par Anonymous dans le forum C
    Réponses: 3
    Dernier message: 23/05/2002, 18h31
  4. Comparer des fichiers de données : Quel Langage ?
    Par Anonymous dans le forum Langages de programmation
    Réponses: 6
    Dernier message: 24/04/2002, 22h37
  5. Fichier PDOXUSRS.NET
    Par yannick dans le forum Paradox
    Réponses: 5
    Dernier message: 05/04/2002, 09h45

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo