Modification de données sous conditions

**adrientdl13** · 27/07/2020, 09h48

Bonjour à tous,
Depuis quelques temps je suis à la recherche d'une solution pour modifier une partie de mes données brutes en vain.
Voici mes données brutes: en première colonne le nom des chromosomes, en 2eme la position physique, en 3eme l'identifiant unique de ma ligne, en 6eme une codification à utiliser, en 7eme ma colonne à modifier.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
CHROM	POS	ID	REF	ALT	IUPAC	CONTEXT
1	144	1_144	C	A	M	CAAATAATGATCAAATAAATTTAAAAAGCAATTTTACTCAATATTGTTTTAGCGTGTTAAGAATTATTTTTTAACTTCTTTTTGAATATTTGAAGGCATA[C/A]CATGTGAAACCTCAATTTTTAGCCATTCCNAACATACAAGTCAAATATTAGCCCATTTTAAAACTTCAATTTTCAGCTCGAAATTTGTCGATTTTCAAAG
1	174	1_174	C	A,T	H	ATTTTACTCAATATTGTTTTAGCGTGTTAAGAATTATTTTTTAACTTCTTTTTGAATATTTGAAGGCATANCATGTGAAACCTCAATTTTTAGCCATTCC[C/A]AACATACAAGTCAAATATTAGCCCATTTTAAAACTTCAATTTTCAGCTCGAAATTTGTCGATTTTCAAAGGGGTTAACCTATGGAAAGGAGTCATTTTGA
1	303	1_303	G	C	S	TAAAACTTCAATTTTCAGCTCGAAATTTGTCGATTTTCAAAGGGGTTAACCTATGGAAAGGAGTCATTTTGACATGAAAATTTCAAAATTTGGAAACCGG[G/C]TAATATTTGACATTCATGTTTTGAATGGCTAAAAGTGAAGTTTCATTACGGCAACCCCTGCAAATAATGATCAAATAAATTTAAAAATCAATTCTACTCA
1	442	1_442	T	A	W	AGTTTCATTACGGCAACCCCTGCAAATAATGATCAAATAAATTTAAAAATCAATTCTACTCAATATTGTTTTAGCGTGTTAAGAATTATTTTTTAACTTC[T/A]TTTTGAATATTTGAAGGCATACCATGGTGAACCTCAATTTTTAGCCATTCCCCATGGTGAAACCTCAATTTTTAGTCATTCCCAACATACAAGTCAAATA

Objectif: dans cet exemple, la ligne contenant le 1_144 possède à droite du [C/A] dans la colonne N°7 un "N" à 30 bases plus loin correspondant à la base de la ligne suivante nommée 1_174 car les séquence distance de moins de 100 unités sont chevauchantes. Et inversement, dans la ligne contenant le 1_174, on retrouve à gauche du [C/A] un "N" à -30 bases de la ligne précédente nommée 1_144. Il faudrait pour la ligne 1_144 remplacer le "N" par "H" pris dans la ligne 1_174 et pour la ligne 1_174 remplacer le "N" par "M" pris dans la ligne 1_144. Cela est vrai uniquement si la distance entre les lignes est inférieur à 100 unités. Au dela nous avons pas de recouvrement de séquence et donc pas de modification à opérer.
Résultats souhaité:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
CHROM	POS	ID	REF	ALT	IUPAC	CONTEXT
1	144	1_144	C	A	M	CAAATAATGATCAAATAAATTTAAAAAGCAATTTTACTCAATATTGTTTTAGCGTGTTAAGAATTATTTTTTAACTTCTTTTTGAATATTTGAAGGCATA[C/A]CATGTGAAACCTCAATTTTTAGCCATTCCHAACATACAAGTCAAATATTAGCCCATTTTAAAACTTCAATTTTCAGCTCGAAATTTGTCGATTTTCAAAG
1	174	1_174	C	A,T	H	ATTTTACTCAATATTGTTTTAGCGTGTTAAGAATTATTTTTTAACTTCTTTTTGAATATTTGAAGGCATAMCATGTGAAACCTCAATTTTTAGCCATTCC[C/A]AACATACAAGTCAAATATTAGCCCATTTTAAAACTTCAATTTTCAGCTCGAAATTTGTCGATTTTCAAAGGGGTTAACCTATGGAAAGGAGTCATTTTGA
1	303	1_303	G	C	S	TAAAACTTCAATTTTCAGCTCGAAATTTGTCGATTTTCAAAGGGGTTAACCTATGGAAAGGAGTCATTTTGACATGAAAATTTCAAAATTTGGAAACCGG[G/C]TAATATTTGACATTCATGTTTTGAATGGCTAAAAGTGAAGTTTCATTACGGCAACCCCTGCAAATAATGATCAAATAAATTTAAAAATCAATTCTACTCA
1	442	1_442	T	A	W	AGTTTCATTACGGCAACCCCTGCAAATAATGATCAAATAAATTTAAAAATCAATTCTACTCAATATTGTTTTAGCGTGTTAAGAATTATTTTTTAACTTC[T/A]TTTTGAATATTTGAAGGCATACCATGGTGAACCTCAATTTTTAGCCATTCCCCATGGTGAAACCTCAATTTTTAGTCATTCCCAACATACAAGTCAAATA

Attention: il se peut qu'il y ait plusieurs "N" dans les séquences à gauche et a droite de [./.], mais il faut prendre spécifiquement le bon, a savoir si la distance 174-144 =30, alors on ne doit modifier que le N à +30, et inversement à -30 pour l'autre ligne.
Merci de votre aide !

**Flodelarab** · 27/07/2020, 13h39

Bonjour

Ton algorithme étant si clair, la seule question qui reste est : pourquoi ne le fais-tu pas ?
Avec awk, le deuxième champ est désigné par $2 et le septième par $7; tu peux alors chercher les indices de tes expressions ([C/A], N, etc) avec la commande find( ).Et remplacer par le 6ème champ, $6, si un critère est vérifié.

Bonne chance !

Invité · 27/07/2020, 13h43

find() ?

**adrientdl13** · 27/07/2020, 13h54

Bonjour,
Mon soucis principal est d'avoir un compteur de caractère à partir de ma requète [./.] pour aller piocher dans la bonne ligne et la colonne d'interet IUPAC …
Merci :-)

**Flodelarab** · 27/07/2020, 14h20

Pardon. L'intitulé exact est index().

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
index(in, find)
 
    Search the string in for the first occurrence of the string find, and return the position in characters where that occurrence begins in the string in. Consider the following example:
 
    $ awk 'BEGIN { print index("peanut", "an") }'
    -| 3
 
    If find is not found, index() returns zero.
 
    With BWK awk and gawk, it is a fatal error to use a regexp constant for find. Other implementations allow it, simply treating the regexp constant as an expression meaning ‘$0 ~ /regexp/’. (d.c.)

"return the position in characters" veut dire qu'il compte les caractères.

Source :
https://www.gnu.org/software/gawk/ma...Functions.html

**balkany** · 27/07/2020, 15h44

C'est un cas particulier que le nombre de bases à gauche et à droite de [./.] soit égal à 100 ?
Parce que si c'est toujours le cas, il n'y a pas besoin de compter…
Mais peut-être que je ne comprends pas tout dans cette histoire

**adrientdl13** · 27/07/2020, 16h07

oui c'est pas simple a expliquer… pardon
Pour chaque [./.] j'ai toujours extrait 100 lettres à gauche et 100 lettres à droite. Si 2 identifiants de ligne ont des numéros s'espaçant de moins de 100, cela veut dire que dans la séquence de lettres de ma ligne considérée je vais retrouver un N. Ce N, je voudrais le substituer au caractère présent dans la colonne IUPAC de la ligne suivante s'il se trouve a droite du [./.], soit le substituer au caractère présent dans la colonne IUPAC de la ligne précédente s'il se trouve a droite du [./.]

Je voulais compter car parfois je peux avoir 3 ou 4 identifiants de lignes en 100 unités, donc 3 ou 4 N à substituer sur la ligne considérée.

**balkany** · 27/07/2020, 16h44

Ah d'accord, j'avais complètement zappé les colonnes 2 et 3, désolé.
Donc du coup, puisqu'on sait à priori où doit se trouver le N, j'utiliserais plutôt la fonction substr() pour tester sa présence à l'endroit voulu, et sortir en erreur sinon (ou faire autre chose…).
Mais sinon, c'est ce qu'a dit Flodelarab en #2, donc : à toi de proposer un premier essai de codage !

**adrientdl13** · 27/07/2020, 17h02

Merci pour les indications ! je vais tester les fonctions

**adrientdl13** · 04/08/2020, 15h17

Envoyé par adrientdl13

Merci pour les indications ! je vais tester les fonctions

J'ai trouvé une solution en passant par l'outil qui s'appelle "bcftools concensus" qui propose une option adéquate.

Par ailleurs, dans mon exemple premier, il y a quelques erreurs. Si par exemple dans ma 4eme colonne nommée REF j'ai "C" et dans ma 5eme colonne j'ai "A,T"; je devrais donc retrouver dans ma 7eme colonne [C/A,T].
Or pour le moment je n'ai que [C/A]. Comment puis-je modifier ce qu'il se trouve après le "/" dans ma 7eme colonne en fonction de l'information contenue dans ma 5eme colonne SVP ?

Un grand merci une nouvelle fois de vos aides

**balkany** · 04/08/2020, 15h41

Tu peux faire

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

awk 'BEGIN{OFS=FS="\t"} {sub("\\[.*\\]","["$4"/"$5"]",$7); print}' fichier

Modification de données sous conditions

Shell et commandes GNU

Discussions similaires

Partager

Partager