IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

problème d'accès à des characters


Sujet :

R

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé
    Profil pro
    Inscrit en
    Janvier 2009
    Messages
    219
    Détails du profil
    Informations personnelles :
    Âge : 40
    Localisation : France

    Informations forums :
    Inscription : Janvier 2009
    Messages : 219
    Par défaut problème d'accès à des characters
    Bonjour,

    J'ai un problème d'accès à mes données : je lis un fichier csv et je m'intéresse à 2 variables en particulier (codon.wild et codon.mut).

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
     
    > head(donnees)
      position chrom codon.wild codon.mut
    1  6589165  chr1        GCT       TCT
    2 12854480  chr1        CGC       CAC
    3 36915872  chr1        GAC       GAA
    4 42628591  chr1        TGT       AGT
    5 48825430  chr1        CCC       ACC
    6 62921096  chr1        ATG       GTG
    Il s'agit d'un problème de biologie. J'ai ici les codons "sauvages" et les codons mutés. J'ai besoin d'utiliser un logiciel qui prend en entrée un nucléotide sauvage et le nucléotide transformé correspondant. Ce qui donnerait :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
      position chrom nucleo.wild nucleo.mut
    1  6589165  chr1        G       T
    2 12854480  chr1        G       A
    3 36915872  chr1        C       A
    ...
    Je cherche donc où est la différence dans mon triplet (sachant qu'on compare seulement 1-1, 2-2 et 3-3).
    Mon problème est que je n'arrive pas récupérer les 3 lettres indépendament.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
     
    temp_wild=as.character(donnees[,3])
    > temp_wild[1]
    [1] "GCT"
    > temp_wild[1,1]
    Erreur dans temp_wild[1, 1] : nombre de dimensions incorrect
    > temp_wild[[1]]
    [1] "GCT"
    str(temp_wild)
     chr [1:179] "GCT" "CGC" "GAC" "TGT" "CCC" "ATG" "GTA" ...
    J'ai l'impression que mon problème est que chaque triplet est considéré comme un character. Je ne peux donc pas séparer les lettres.
    Je ne vois pas comment convertir alors ma liste ...

    De plus, savez-vous s'il existe une fonction pour faire ce genre de comparaison directement ?

    Merci d'avance

  2. #2
    ced
    ced est déconnecté
    Rédacteur/Modérateur

    Avatar de ced
    Homme Profil pro
    Gestion de bases de données techniques
    Inscrit en
    Avril 2002
    Messages
    6 059
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Gestion de bases de données techniques
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Avril 2002
    Messages : 6 059
    Par défaut
    Bonjour,

    Pour tout ce qui concerne les séquences d'ADN, il faut regarder du côté du projet Bioconductor, qui s'appuie sur R et tout un tas de packages adaptés à cette problématique.
    Rédacteur / Modérateur SGBD et R
    Mes tutoriels et la FAQ MySQL

    ----------------------------------------------------
    Pensez aux balises code et au tag
    Une réponse vous a plu ? N'hésitez pas à y mettre un
    Je ne réponds pas aux questions techniques par message privé, les forums sont là pour ça

  3. #3
    Membre averti
    Homme Profil pro
    Statisticien
    Inscrit en
    Août 2011
    Messages
    16
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Statisticien
    Secteur : Santé

    Informations forums :
    Inscription : Août 2011
    Messages : 16
    Par défaut
    Bonjour,
    voici une solution utilisant la fonction substr.
    Je pense qu'il est possible d'optimiser le code ou d'utiliser d'autres fonctions permettant de comparer des chaines de caractères, mais bon si ton fichier n'est pas trop grand cela devrait faire l'affaire.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
     
    > donnees<-matrix(c("GCT","TCT","CGC","CAC","GAC","GAA","TGT","AGT","CCC","ACC"), ncol=2,byrow=T)
    > colnames(donnees)<-c("temp_wild","temp_mut")
    > donnees
         temp_wild temp_mut
    [1,] "GCT"     "TCT"   
    [2,] "CGC"     "CAC"   
    [3,] "GAC"     "GAA"   
    [4,] "TGT"     "AGT"   
    [5,] "CCC"     "ACC"   
     
     
    > matresult<-matrix(nrow=nrow(donnees),ncol=2)
    > colnames(matresult)<-c("nucleo_wild","nucleo_mut")
     
     
    > for (i in 1:nrow(donnees)) {
    +   for (j in 1:3) {
    +     if (substr(donnees[i,1],j,j)!=substr(donnees[i,2],j,j)) {
    +       matresult[i,1]<-substr(donnees[i,1],j,j)
    +       matresult[i,2]<-substr(donnees[i,2],j,j)
    +       break
    +     }
    +   }
    + }
    > matresult
         nucleo_wild nucleo_mut
    [1,] "G"         "T"       
    [2,] "G"         "A"       
    [3,] "C"         "A"       
    [4,] "T"         "A"       
    [5,] "C"         "A"       
     
    >
    Cordialement,
    Benoît

  4. #4
    Membre éclairé
    Profil pro
    Inscrit en
    Janvier 2009
    Messages
    219
    Détails du profil
    Informations personnelles :
    Âge : 40
    Localisation : France

    Informations forums :
    Inscription : Janvier 2009
    Messages : 219
    Par défaut
    Merci !

    Effectivement, cette solution marche. Mon problème était donc de convertir mes données en matrice...

    donnees_temp=data[,c(24,26)];
    donnees=as.matrix(donnees_temp)
    head(donnees)

    matresult<-matrix(nrow=nrow(donnees),ncol=2)
    colnames(matresult)<-c("nucleo_wild","nucleo_mut")


    for (i in 1:nrow(donnees)) {
    for (j in 1:3) {
    if (substr(donnees[i,1],j,j)!=substr(donnees[i,2],j,j)) {
    matresult[i,1]<-substr(donnees[i,1],j,j)
    matresult[i,2]<-substr(donnees[i,2],j,j)
    break
    }
    }
    }

    matresult

  5. #5
    Membre éclairé
    Profil pro
    Inscrit en
    Janvier 2009
    Messages
    219
    Détails du profil
    Informations personnelles :
    Âge : 40
    Localisation : France

    Informations forums :
    Inscription : Janvier 2009
    Messages : 219
    Par défaut
    Citation Envoyé par ced Voir le message
    Bonjour,

    Pour tout ce qui concerne les séquences d'ADN, il faut regarder du côté du projet Bioconductor, qui s'appuie sur R et tout un tas de packages adaptés à cette problématique.
    Merci pour l'idée. Je ne sais pas trop si je peux trouver de l'aide pour ce problème sur bioconductor car en effet, je suis dans un cadre de séquences... mais mon problème est assez commun et peut s'appliquer à pas mal de domaines.

    Pour ma part, je n'ai utilisé bioconductor que pour des études de niveau d'expression de gènes sur des données RNA seq (avec DESeq _ (DEXSeq aussi)). Je sais qu'il y a aussi des packages pour les données de puces à ADN. Evidemment, j'imagine que bioconductor propose beaucoup plus ! Je ne sais pas s'il y a quelque chose pour le problème "simple et commun" que j'avais là.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 1
    Dernier message: 23/03/2012, 15h41
  2. [SimpleXML] [débutant] Accès à des données XML
    Par pouktoro dans le forum Bibliothèques et frameworks
    Réponses: 4
    Dernier message: 24/04/2009, 19h51
  3. Problèmes d'accès à des données XML chargées
    Par netphenix dans le forum ActionScript 3
    Réponses: 7
    Dernier message: 03/09/2008, 09h27
  4. Réponses: 1
    Dernier message: 03/07/2007, 18h23
  5. [Jar] Problème d'accès à des fichiers
    Par GLDavid dans le forum Langage
    Réponses: 2
    Dernier message: 31/10/2006, 15h51

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo