test student avec un fichier qu'il faut couper

**hajarita** · 07/12/2012, 16h54

Bonjour,

je veux faire un test de Student sur mes données qui sont organisées comme suit :

Sequence -- A -- B
seq1 -- 2.3 -- 3.2
seq1 -- 1 -- 0.9
seq1 -- 0.2 -- 0
seq2 -- 5 -- 6
seq2 -- 2.3 -- 2
seq2 -- 3 -- 3.2
...

Je veux faire le test de Student entre mes valeurs de A et B pour chaque séquence.

Je le fais avec PERL et R integré, mais c'est très très long, car je divise mon long fichier en d'autres petits fichiers que je donne à R à chaque fois, pour avoir la p-value.

Je lis mon long fichier de milliers de lignes et à chaque fois je mets les trois lignes d'une séquence et je passe ce fichier à R.

Savez-vous comment faire avec R pour que je puisse faire tout d'un coup ?

Merci d'avance

**vchouraki** · 08/12/2012, 19h26

Bonjour,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
?t.test
example(t.test)

HTH

Vincent

**hajarita** · 08/12/2012, 21h59

Envoyé par vchouraki

Bonjour,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
?t.test
example(t.test)

HTH

Vincent

Merci d'avoir répondu

Mais non, la formule pour faire le test de Student je la connais.
Mon problème est que je ne sais pas comment dire à R de me faire ce test pour chaque séquence dans mon tableau qui est représentée par trois lignes dans ce cas:
exemple:

Sequence|analyse_A|analyse_B
seq1|2.3|3.2
seq1|1|0.9
seq1|0.2|0
seq2|5|6
seq2|2.3|2
seq2|3|3.2

Si je fais ça :
t.test(data[,2], data[,3]), il va me faire le test pour toutes les séquences, alors ce que je veux, c'est calculer la p-value pour chaque séquence
seq 1 => sa p-value
seq 2 => sa p-value
ainsi de suite

**vchouraki** · 09/12/2012, 04h45

Bonjour,

Au temps pour moi. Une boucle for ou sapply devrait suffire. voir which pour sélectionner selon la valeur de la séquence et str pour aider à extraire la p.value.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
?Control
?sapply
?which
?str

Par exemple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
test <- data.frame(a=1:100, b=100:1, c=rep(1:20, each=5))
for (i in unique(test$c)) {
pval <- t.test(test$a[which(test$c == i)], test$b[which(test$c == i)])$p.value
print(paste("pour c = ", i, ", pval=", sprintf("%.2e", pval), sep=""))
}

ou

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

sapply(unique(test$c), function(x)t.test(test$a[which(test$c == x)], test$b[which(test$c == x)])$p.value)

HTH

Vincent

**hajarita** · 10/12/2012, 00h37

Envoyé par vchouraki

Bonjour,

Au temps pour moi. Une boucle for ou sapply devrait suffire. voir which pour sélectionner selon la valeur de la séquence et str pour aider à extraire la p.value.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
?Control
?sapply
?which
?str

Par exemple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
test <- data.frame(a=1:100, b=100:1, c=rep(1:20, each=5))
for (i in unique(test$c)) {
pval <- t.test(test$a[which(test$c == i)], test$b[which(test$c == i)])$p.value
print(paste("pour c = ", i, ", pval=", sprintf("%.2e", pval), sep=""))
}

ou

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

sapply(unique(test$c), function(x)t.test(test$a[which(test$c == x)], test$b[which(test$c == x)])$p.value)

HTH

Vincent

D'accord, je comprends.
En fait mes données sont comme cela (avec d'autres colonnes, mais seulement ces colonnes qui m'intéressent).

Sequence|charge|modification|analyse_A|analyse_B
seq1|1|modif1|2.3|3.2
seq1|1|modif1|1|0.9
seq1|1|modif1|0.2|0
seq2|1||5|6
seq2|1||2.3|2
seq2|1||3|3.2

donc ma séquence est définie par : la séquence, la charge et la modification (dans la colonne modification il se peut qu'elle soit vide parfois)

Donc en se basant sur ce que tu m'as expliqué au-dessus: j'ai essayé ça, mais il me dit qu'il y a une erreur.

Voila ce que j'ai écrit:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
 
>data<-read.table("chemin vers mon fichier", sep = "\t", header = FALSE)
> for (i in unique(data[,1], data[,2], data[,3])) {
+ pval <- t.test(data[,4][which(data[,1] == i) && (data[,2] == i) && (data[,3] == i)], (data[,5][which(data[,1] == i) && (data[,2] == i) && (data[,3] == i)]$p.value
+ print(paste("pour peptide = ", i, ", pval=",pval, sep=""))

Ça me donne cette erreur:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
Error: unexpected symbol in:
"pval <- t.test(data[,10][which(data[,1] == i) && (data[,2] == i) && (data[,3] == i)], (data[,11][which(data[,1] == i) && (data[,2] == i) && (data[,3] == i)]$p.value
print"

Je ne sais pas si c'est correct, ce que j'ai écrit pour la boucle for et le reste (pval)

**A. D.** · 12/12/2012, 11h16

Bonjour,

Je pense qu'il y a une erreur de syntaxe dans la commande que vous avez écrite.
Pour rappel :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
data [ indices_de_lignes_a_selectionner , indices_de_colonnes_a_selectionner ]

Bonne continuation

Cordialement,

A.D.

test student avec un fichier qu'il faut couper

R

Discussions similaires

Partager

Partager