Match entre valeurs d'une colonne et valeurs d'un vecteur

**Aline Davaud** · 28/04/2021, 09h43

Bonjour,

Je sollicite votre aide pour une opération que je n'arrive pas à réaliser.

J'ai ce tableau

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
 
res= data.frame(cas=c("A", "B", "C"), gene=c("AJUD,AUJTG,UYTRR", "FRTY", "ADERT,FERT,OPOIU"))
 
  cas             gene
1   A AJUD,AUJTG,UYTRR
2   B             FRTY
3   C ADERT,FERT,OPOIU

et cette liste de gènes

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
TD_gene=c("UYTRR", "FERT","OPOIU")
[1] "UYTRR" "FERT"  "OPOIU"

et j'aimerai pouvoir obtenir le tableau suivant, soit le même tableau qu'au début mais avec une nouvelle colonne indiquant les gènes de la deuxième colonne présent dans la liste de gène TD

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
res2= data.frame(cas=c("A", "B", "C"), gene=c("AJUD,AUJTG,UYTRR", "FRTY", "ADERT,FERT,OPOIU"), gene_TD=c("UYTRR", "", "FERT,OPOIU"))
  cas             gene    gene_TD
1   A AJUD,AUJTG,UYTRR      UYTRR
2   B             FRTY           
3   C ADERT,FERT,OPOIU FERT,OPOIU

Je voulais utiliser la fonction mutate de tydiverse et la fonction grep mais je ne sais pas trop comment proccéder.

Quelqu'un aurait une idée,

Merci d'avance,

Aline

**olivier.decourt** · 28/04/2021, 18h15

Bonjour.
Avec l'équivalent de grep dans {stringr}, une fonction appelée str_match_all.
Le problème est le type du résultat, une liste de valeurs qu'il faut ensuite transformer pour qu'elle soit comme dans votre exemple (avec paste et l'option collapse). Le rowwise + ungroup est là pour indiquer qu'on travaille ligne par ligne dans les données (surtout pour paste qui sinon va concaténer tous les contenus de la colonne).

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
library(tidyverse)
library(stringr)
 
res <- data.frame(cas=c("A", "B", "C"), gene=c("AJUD,AUJTG,UYTRR", "FRTY", "ADERT,FERT,OPOIU"))
TD_gene <- c("UYTRR", "FERT","OPOIU")
 
res %>% 
  rowwise() %>% 
  mutate(gene_TD = str_match_all(gene, {{TD_gene}}) %>% unlist() %>% paste(collapse=",")) %>% 
  ungroup()

Il y a peut-être plus simple.

**Aline Davaud** · 29/04/2021, 16h21

Bonjour,

Ca m'a l'air déjà très bien comme ça.
Merci beaucoup.

Aline

**Aline Davaud** · 29/04/2021, 17h32

Rebonjour,

Finalement, cela marche bien mais je n'avais pas prévu la source d'erreur suivante:
quand le nom d'un gène est composé par le début d'un autre comme dans l'exemple ci dessous: "AJU" et "AJUD".
Car dans ce cas, ça place le gène AJU dans la colonne TD alors que ce n'est pas le même gène.
Je vais essayer de voir comment adapter votre code, mais si quelqu'un à une idée, je prends.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
 
library(tidyverse)
library(stringr)
 
res <- data.frame(cas=c("A", "B", "C"), gene=c("AJUD,AUJTG,UYTRR", "FRTY", "ADERT,FERT,OPOIU"))
TD_gene <- c("UYTRR", "FERT","OPOIU", "AJU")
 
res %>% 
  rowwise() %>% 
  mutate(gene_TD = str_match_all(gene, {{TD_gene}}) %>% unlist() %>% paste(collapse=",")) %>% 
  ungroup()
 
 cas   gene             gene_TD     
  <chr> <chr>            <chr>       
1 A     AJUD,AUJTG,UYTRR "UYTRR,AJU" 
2 B     FRTY             ""          
3 C     ADERT,FERT,OPOIU "FERT,OPOIU"
>

Merci d'avance,

Aline

**olivier.decourt** · 30/04/2021, 17h25

Bonjour.
Dans ce cas je pense que le plus fiable serait de réorganiser les données : éclater la variable contenant la liste de gènes en plusieurs colonnes (avec tidyr::separate par exemple) puis mettre les données "en hauteur" avec tidyr::pivot_longer ou reshape2::melt. Il y aura alors un gène par ligne, vous pourrez plus facilement tester leur présence / absence dans la liste fixe.

Match entre valeurs d'une colonne et valeurs d'un vecteur

R

Discussions similaires

Partager

Partager