Bonjour a tous, m'intéressant depuis peu a de la bio-informatique, je me retrouve a utilisé la Shell pour manipuler des gros fichiers de data base.


Mon problème aujourd'hui est le suivant :


J'ai deux fichiers :
RNAseq.txt contenant 14 colones et quelque 54 000 lignes.


GSM521268 GSM521269 GSM521270 GSM521271 GSM521272 GSM521273 GSM521274 GSM521275 GSM521276 GSM521277 GSM521278 GSM521279 GSM521280 GSM521281
MIR4640_1 322.2 322.3 302.9 310.0 277.1 285.1 275.0 266.6 246.2 270.2 215.3 231.6 341.9 356.4
RFC2_1 447.9 456.2 378.1 366.9 376.8 396.9 406.2 392.6 371.9 388.7 363.0 351.9 441.8 455.1
HSPA6_1 51.1 52.9 54.1 53.3 52.9 49.4 41.3 48.4 47.2 49.3 48.9 52.7 53.3 50.5
PAX8_1 298.0 319.7 285.3 292.0 267.0 283.4 247.7 265.4 280.9 289.3 282.5 284.9 268.4 267.5
GUCA1A_1 7.7 7.4 7.3 7.1 6.3 6.9 7.1 7.3 7.7 7.0 7.7 7.2 7.2 7.4
MIR5193_1 131.1 129.5 106.9 96.4 101.5 103.7 144.3 138.3 131.1 122.5 150.6 158.5 117.9 116.0
THRA_1 29.5 29.4 30.0 26.3 28.0 26.9 26.1 29.1 28.5 27.3 27.3 29.2 26.2 28.5
PTPN21_1 67.6 63.0 61.9 63.2 62.9 64.0 58.5 58.4 63.5 61.8 57.7 59.3 62.5 63.0
CCL5_1 11.9 11.4 8.8 10.1 10.9 9.7 9.5 8.9 8.8 9.5 11.5 10.3 10.0 10.8


et LRPPRC_2000.txt

genes logFC logCPM PValue FDR
MYOCD_2 2.97386810448106 2.02944105936454 5.25454090442755e-46 1.78442250900358e-43
NEFL_2 2.80402073168777 3.35229371955615 2.16925036628554e-114 4.08978495781593e-111
RSAD2_2 2.249052324673 2.70645211477593 3.36998068756065e-44 1.06505025486924e-41
TM4SF1_2 2.1300365595002 4.20013592227357 1.54921028988239e-92 1.80219303402808e-89
IFI44L_1 2.07454066243818 3.69083076729137 7.56205099901107e-31 1.36905674957262e-28
PTBP2_1 2.02278075266193 2.31117065783669 4.15622833856391e-28 6.36531608994347e-26
NEFL_3 1.99692019590042 2.81263326571224 5.76561461673869e-41 1.60017755923953e-38
TM4SF1_4 1.99420423509474 3.7984910916427 8.53711875625522e-84 8.48667214542281e-81


Contenant 5 colones et 2000 lignes. En soi, dans ce fichier seul la colonne 1 m'intéresse.


Ce que je veux faire : prendre la colonne 1 "genes" de mon fichier LRPPRC_2000.txt et les matchs avec la colonne 1 du fichier RNAseq (dans lequel ils sont tous présents) afin de sortir dans un 3nd fichier, toutes les valeurs du tableau 1 associé a ces gênes uniquement, et me débarrasser de toutes les autres valeurs.


Au fils de mes recherches, j'ai compris qu'il fallait que j'utilise la awk, mais toutes mes tentatives d'adaptations de formules trouvées sur internet se sont révélées infructueuses !


Faites-moi savoir si mes explications ne sont pas claires !


En vous remerciant par avance.