Bonjour,
J'ai besoin d'aide pour extraire des chaines de caractères. J'aimerai pouvoir récupérer différentes informations contenues dans une colonne :
1. la série de caractère compris entre "hg19_ct_UserTrack_3545_" et ";chr"
2. le numéro du chromosome indiqué dans la colonne ID (chiffre entre "chr" et ":").
Pour cela j'aimerai utiliser la fonction mutate du package dplyr pour créer une nouvelle variable mais j'ai du mal à trouver comment récupérer ces différentes informations car j'ai encore du mal à comprendre les expressions régulières. Voici un exemple ci dessous de données.
Merci d'avance pour votre aide,
Aline
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9 ID=c("hg19_ct_UserTrack_3545_A0733-81-879;chr1;AJZOE_chr1:118754506:C:C","hg19_ct_UserTrack_3545_E85-T85-OIU;chr7;POERF_chr7:10558543:T:T ","hg19_ct_UserTrack_3545_854-7854-7456;chr8;OSIDFDS_chr8:102785620:A:A ") index=c(1,2,3) data.frame(index, ID) index ID 1 1 hg19_ct_UserTrack_3545_A0733-011-089;chr1;AJZOE_chr1:118754506:C:C 2 2 hg19_ct_UserTrack_3545_E85-T85-OIU;chr7;POERF_chr7:10558543:T:T 3 3 hg19_ct_UserTrack_3545_854-7854-7456;chr8;OSIDFDS_chr8:102785620:A:A
Partager