Modification fichier texte et recherche recursive de noms espacés par tabulation

Version imprimable

Bonjour,

dans le cadre de mon stage j'aimerai modifier un fichier à ma convenance pour le traiter par la suite en python, débutante en bash depuis ce matin, tout ne marche pas comme je veux >.< :

le fichier de départ ressemble à :
Code:

1 2 3 4 5 6 7 8 9 10 11 22 0|71 ENSGGOP00000021128 ENSCJAP00000039513 ENSMUSP00000023509 ENSRNOP00000050815 21 0|69 ENSGGOP00000021128 ENSCJAP00000039513 ENSMUSP00000023509 ENSRNOP00000050815 17 0|65 ENSGGOP00000021128 ENSCJAP00000039513 15 0|63 ENSGGOP00000021128 11 0|61 ENSGGOP00000021128 10 ENSGGOP00000021128 16 ENSCJAP00000039513 20 0|68 ENSMUSP00000023509 ENSRNOP00000050815 18 ENSMUSP00000023509 19 ENSRNOP00000050815
La première colonne correspond au nom de l'espèce (1 à 22). La deuxième colonne au nom du gène dans cette espèce, de type x|x, xx|x, ... xxxx|xxxx. Les autres colonnes correspondent au nom du gène dans les espèces actuelles descendantes de celle-ci (type : ENSCJA.......).

Je veux récupérer parcourir le fichier ligne par ligne et remplacer UNE fois le nom du gène de l'espèce i chez son ancêtre (une des lignes qui précède). En gros, l'espèce 21 a un gène 0|69 qui correspond aux gènes "ENSGGOP00000021128 ENSCJAP00000039513 ENSMUSP00000023509 ENSRNOP00000050815", je veux récupérer le nom "0|69" et le remplacer à sa première occurrence c'est-à-dire l'espèce 22 0|71 pour obtenir : "22 0|71 0|69".

Je veux obtenir :
Code:

1 2 3 4 5 6 7 8 9 10 11 22 0|71 0|69 21 0|69 0|65 0|68 17 0|65 0|63 ENSCJAP00000039513 15 0|63 0|61 11 0|61 ENSGGOP00000021128 10 ENSGGOP00000021128 16 ENSCJAP00000039513 20 0|68 ENSMUSP00000023509 ENSRNOP00000050815 18 ENSMUSP00000023509 19 ENSRNOP00000050815
Le fichier fais 340 000 lignes, le séparateur dans le fichier source est la tabulation.

Voici mon code mais il ne me modifie pas les noms de gènes par le nom "xxxx|xxxx" (avec x étant des chiffres). J'ai vu qu'il existait le awk mais pas si simple (>.<)
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 #! /bin/bash expand -t 1 OUTPUT > OUTPUT2 val=10 while read ligne do nom=$(echo "$ligne" | cut -f2 -d' ' ) # awk {'print $2'} gene=$(echo "$ligne" | cut -f3- -d' ') if [ "${#nom}" -lt "$val" ] then echo "$nom" #echo "$gene" sed -i 's/$gene/$nom/' OUTPUT2 fi done <OUTPUT2 sed 's/ /\t/' OUTPUT2
Si quelqu'un peut m'aider s'il vous plaît !!

25/02/2016, 16h27
N_BaH

Bonjour,

je vais botter en touche :

Citation:

modifier un fichier à ma convenance pour le traiter par la suite en python

attaque le problème directement en python !

l'ordre du fichier original doit-il être conserver ?
25/02/2016, 16h48
disedorgue

Bonjour et Bienvenue,

As-tu au moins un algo à proposer de comment faire ça ?

En tout cas, cela semble un bon exercice :)
25/02/2016, 19h39
Shinane

Bonjour

Citation:

attaque le problème directement en python !
l'ordre du fichier original doit-il être conserver ?

J'ai déjà essayé mais cela me paraît plus simple de rechercher du texte avec grep ou sed pour le remplacer plutôt qu'en python avec des listes ou dictionnaires ou autres puisque chaque ligne peut ou non être différente.

L'ordre des lignes importe peu, tant que la ligne elle-même est correcte !

Citation:

As-tu au moins un algo à proposer de comment faire ça ?
En tout cas, cela semble un bon exercice

Je n'ai pas d'algorithme puisque ce n'est qu'un pré-traitement du fichier pour regrouper des informations. J'ai déjà mis le code que j'ai fait et j'ai mis un exemple de ce que c'est censé faire !! A vrai dire, ce n'est pas très compliqué mais je n'y arrive pas ... :?

Sinon avec une vision simple :

Chat 12|1 a1 a2 a3 a4 a5
chien 13|52 a1 a2

je veux récupérer "a1 a2", le chercher et le remplacer par le numero situé en colonne 2 ("13|52"). Pour obtenir :
Chat 12|1 13|52 a3 a4 a5
chien 13|52 a1 a2

si je comprends bien il te faut un algo du type :

1) (facultatif?) lire entièrement le fichier pour créer un tableau associatif :
Code:

1 2 3 especes[ENSGGOP00000021128]="0|61" ... especes[ENSGGOP00000011177]="0|80"
340 000 espèces !

2) re-lire tout le fichier ligne a ligne et remplacer une colonne ou plusieurs colonnes si elle représente une espèce
Code:

1 2 3 4 5 6 7 8 while read ligne; do declare -a values=decomposer_colonnes($ligne) for e in values[@]; do # si ancêtre précède alors : especes[$colonne1]="$colonne2" # si colonne présente dans especes alors on remplace [[ -n "${especes[$e]}" ]] && $ligne=remplace_value_by_espece ("$ligne" "$e" "${especes[$e]}") done done
note : si l'ancêtre précède, donc une seule lecture suffit (pas de 1-).

26/02/2016, 11h00
BufferBob

salut,

Citation:

Envoyé par Shinane

Sinon avec une vision simple :
Chat 12|1 a1 a2 a3 a4 a5
(...)
je veux récupérer "a1 a2"

et si on trouve à la fois "a1", "a1 a2" et "a1 a2 a3", tu préfères lequel ?
aussi est-ce que c'est possible de trouver "a3 a1 a2" par exemple, ou "a1 a3 a4" ?

vu d'ici je plussoie très fortement N_BaH, c'est pas un truc à faire en bash le traitement est trop complexe, surtout s'il y a 340k lignes à traiter, mieux vaut partir directement sur du python

On pourrait le faire en shell, mais tu risques d'avoir ton résultat qu'au bout d'une journée.

En tout cas, tu dis que tu n'as pas d'algo et que c'est simple, donc pourquoi ne pas le faire directement en python (comme on te la suggéré dés le départ) ?

Pour faciliter ton parsing du fichier, tu peux à la rigueur juste réordonner celui-ci pour avoir une décroissance du nombre de colonne, ce qui donnerait un fichier réordonné comme ci-dessous (selon ton premier fichier exemple):
Code:

1 2 3 4 5 6 7 8 9 10 22 0|71 ENSGGOP00000021128 ENSCJAP00000039513 ENSMUSP00000023509 ENSRNOP00000050815 21 0|69 ENSGGOP00000021128 ENSCJAP00000039513 ENSMUSP00000023509 ENSRNOP00000050815 20 0|68 ENSMUSP00000023509 ENSRNOP00000050815 17 0|65 ENSGGOP00000021128 ENSCJAP00000039513 15 0|63 ENSGGOP00000021128 11 0|61 ENSGGOP00000021128 19 ENSRNOP00000050815 18 ENSMUSP00000023509 16 ENSCJAP00000039513 10 ENSGGOP00000021128