problème d'accès à des characters

**jane40** · 28/11/2011, 17h48

Bonjour,

J'ai un problème d'accès à mes données : je lis un fichier csv et je m'intéresse à 2 variables en particulier (codon.wild et codon.mut).

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
 
> head(donnees)
  position chrom codon.wild codon.mut
1  6589165  chr1        GCT       TCT
2 12854480  chr1        CGC       CAC
3 36915872  chr1        GAC       GAA
4 42628591  chr1        TGT       AGT
5 48825430  chr1        CCC       ACC
6 62921096  chr1        ATG       GTG

Il s'agit d'un problème de biologie. J'ai ici les codons "sauvages" et les codons mutés. J'ai besoin d'utiliser un logiciel qui prend en entrée un nucléotide sauvage et le nucléotide transformé correspondant. Ce qui donnerait :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
  position chrom nucleo.wild nucleo.mut
1  6589165  chr1        G       T
2 12854480  chr1        G       A
3 36915872  chr1        C       A
...

Je cherche donc où est la différence dans mon triplet (sachant qu'on compare seulement 1-1, 2-2 et 3-3).
Mon problème est que je n'arrive pas récupérer les 3 lettres indépendament.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
 
temp_wild=as.character(donnees[,3])
> temp_wild[1]
[1] "GCT"
> temp_wild[1,1]
Erreur dans temp_wild[1, 1] : nombre de dimensions incorrect
> temp_wild[[1]]
[1] "GCT"
str(temp_wild)
 chr [1:179] "GCT" "CGC" "GAC" "TGT" "CCC" "ATG" "GTA" ...

J'ai l'impression que mon problème est que chaque triplet est considéré comme un character. Je ne peux donc pas séparer les lettres.
Je ne vois pas comment convertir alors ma liste ...

De plus, savez-vous s'il existe une fonction pour faire ce genre de comparaison directement ?

Merci d'avance

**ced** · 28/11/2011, 18h37

Bonjour,

Pour tout ce qui concerne les séquences d'ADN, il faut regarder du côté du projet Bioconductor, qui s'appuie sur R et tout un tas de packages adaptés à cette problématique.

**benoit.abm** · 28/11/2011, 20h28

Bonjour,
voici une solution utilisant la fonction substr.
Je pense qu'il est possible d'optimiser le code ou d'utiliser d'autres fonctions permettant de comparer des chaines de caractères, mais bon si ton fichier n'est pas trop grand cela devrait faire l'affaire.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
 
> donnees<-matrix(c("GCT","TCT","CGC","CAC","GAC","GAA","TGT","AGT","CCC","ACC"), ncol=2,byrow=T)
> colnames(donnees)<-c("temp_wild","temp_mut")
> donnees
     temp_wild temp_mut
[1,] "GCT"     "TCT"   
[2,] "CGC"     "CAC"   
[3,] "GAC"     "GAA"   
[4,] "TGT"     "AGT"   
[5,] "CCC"     "ACC"   
 
 
> matresult<-matrix(nrow=nrow(donnees),ncol=2)
> colnames(matresult)<-c("nucleo_wild","nucleo_mut")
 
 
> for (i in 1:nrow(donnees)) {
+   for (j in 1:3) {
+     if (substr(donnees[i,1],j,j)!=substr(donnees[i,2],j,j)) {
+       matresult[i,1]<-substr(donnees[i,1],j,j)
+       matresult[i,2]<-substr(donnees[i,2],j,j)
+       break
+     }
+   }
+ }
> matresult
     nucleo_wild nucleo_mut
[1,] "G"         "T"       
[2,] "G"         "A"       
[3,] "C"         "A"       
[4,] "T"         "A"       
[5,] "C"         "A"       
 
>

Cordialement,
Benoît

**jane40** · 29/11/2011, 11h21

Merci !

Effectivement, cette solution marche. Mon problème était donc de convertir mes données en matrice...

donnees_temp=data[,c(24,26)];
donnees=as.matrix(donnees_temp)
head(donnees)

matresult<-matrix(nrow=nrow(donnees),ncol=2)
colnames(matresult)<-c("nucleo_wild","nucleo_mut")

for (i in 1:nrow(donnees)) {
for (j in 1:3) {
if (substr(donnees[i,1],j,j)!=substr(donnees[i,2],j,j)) {
matresult[i,1]<-substr(donnees[i,1],j,j)
matresult[i,2]<-substr(donnees[i,2],j,j)
break
}
}
}

matresult

**jane40** · 29/11/2011, 11h27

Envoyé par ced

Bonjour,

Pour tout ce qui concerne les séquences d'ADN, il faut regarder du côté du projet Bioconductor, qui s'appuie sur R et tout un tas de packages adaptés à cette problématique.

Merci pour l'idée. Je ne sais pas trop si je peux trouver de l'aide pour ce problème sur bioconductor car en effet, je suis dans un cadre de séquences... mais mon problème est assez commun et peut s'appliquer à pas mal de domaines.

Pour ma part, je n'ai utilisé bioconductor que pour des études de niveau d'expression de gènes sur des données RNA seq (avec DESeq _ (DEXSeq aussi)). Je sais qu'il y a aussi des packages pour les données de puces à ADN. Evidemment, j'imagine que bioconductor propose beaucoup plus ! Je ne sais pas s'il y a quelque chose pour le problème "simple et commun" que j'avais là.

problème d'accès à des characters

R

Vue hybride

Discussions similaires

Partager

Partager