Décalage sur les lignes d'un fichier csv ou txt produit par mon script en python3

Version imprimable

Bonjour à tous,

Je suis en train de me réorienter en bioinformatique. En plein apprentissage de python, j'ai decide de passer un peu à la pratique. J'ai fait un script qui ouvre un fichier au format fasta. Il s'agit d'un fichier texte dans lequel on stocke des sequences nucléique (ATCG). Un fichier peut contenir une séquence nucléique ou plusieurs sequences.

Voici un exemple de fichier fasta avec plusieurs entrées :

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
>gi|373251181|ref|NG_001742.2| Mus musculus olfactory receptor GA_x5J8B7W2GLP-600-794 (LOC257854) pseudogène on chromosome 2
AGCCTGCCAAGCAAACTTCACTGGAGTGTGCGTAGCATGCTAGTAACTGCATCTGAATCTTTCAGCTGCT
TGTTGGGCCTCTCACAAGGCAGAGTGTCTTCATGGGACTTTGATATTTATTTTTGTACAACCTAAGAGGA
ACAAATCCTTTGACACTGACAAATTGGCTTCCATATTTTATACCTTAATCATCTCCATGTTGAATTCATT
GATCAACAGTTTAAGAAAAAAAGATGTAAAAATGCTTTTAGAAAGAGAGGCAAAGTTATGCACAATAACT
TCTCATGAAGTCACAGTTTGTTAAAAGTTGCCTTAGTTCACAATAAATAATTATGTATGCTCTATAATTT
CAGTGA
 
>gi|425889810|gb|JZ141974.1| ES4f_H12.esd SL-enriched library from schistosomula Schistosoma mansoni cDNA, mRNA sequence
ATGAAGTGAAAAATTTATTTATTTATAACAAAATGATGAATCAATGTACATTGTATTTATCTAATGTAGA
TATAGCCTAACTTCCCGCTTTTTTCAATGAGCGTATATTGCGTAATTCACGATATAATACATTTTGTTGA
ACAAGTGGATCAAATGCAACTTTCTCTTTACGATTATTAGCTAGACGAGGTCGAAAACCAACTACACAAT
GTCCTGAACCACTGGTACTTTCTAATAATACCATAACAGTTTTTATAAATCCTTGTGATGTTGACATAAA
GGATAAATGTGTATACTTGTACAAAGTTATTTATATTGGGTAATCTTCGTTGATATTATGTAATGATCAT
GCAACAAATCACAAGAGTAAAACCGTGACGG

Mon script (voir ci-dessous) a pour but de :

Compter les différents acide nucléique pour chaque sequence.
Enregistrer les résultats dans un fichier csv ou txt avec le nom de la sequence, le nombre de chaque acide nucléique.

Mon script lit bien les fichiers fasta et il créer bien le fichier que je lui demande. Seul problème, lorsque j'ouvre le tableau (csv ou txt) à l'aide de libre office ou excel. Les résultats sont décalés. C'est-à-dire que le nom de la séquence apparait bien dans la premiere ligne et à la premiere colonne. Mais les résultats associé à cette sequences sont écrite à partir de la seconde ligne et à la seconde colonne.

Comment résoudre ce problème ?

Petite question supplémentaire: comment faire un header ?

Voici le script que j'ai écris:

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
 
#!/usr/bin/python3                                                                                                                                                                                                             
 
import sys, os
 
pyScriptName = sys.argv[0]
dataFileName = sys.argv[1]
outputFileName = sys.argv[2]
 
# Read fasta file                                                                                                                                                                                                              
fasta_dict = {}
 
with open(dataFileName, "r") as fasta_file, open(outputFileName, "w") as output_cpg:
    sequence_id = ""
    for line in fasta_file:
        if line.startswith(">"):
            sequence_id = line
            fasta_dict[sequence_id] = ""
        else:
            fasta_dict[sequence_id] += line.strip()
 
    for id in fasta_dict:                                                                                                                                                                                                     
        seq = fasta_dict[id]
        G_count = seq.count("G")
        C_count = seq.count("C")
        A_count = seq.count("A")
        T_count = seq.count("T")
        CpG_count = seq.count("CG")
        output_cpg.write(id +  ";" + str(G_count) + ";" + str(C_count) + ";" + str(A_count) + ";" + str(T_count) + ";" + str(CpG_count) + ";" + "\n")                                                
 
fasta_file.close()
output_cpg.close()

Merci pour votre aide.

A bientôt !

29/03/2020, 13h44
wiztricks

Salut,

Citation:

Envoyé par benoit3166

Comment résoudre ce problème ?

En regardant le fichier de sortie pour confirmer que vous écrivez 2 lignes au lieu d'une... Puis en corrigeant le code pour ne pas écrire cette fin de ligne en trop.

Citation:

Envoyé par benoit3166

Petite question supplémentaire: comment faire un header ?

Le header est juste la première ligne du fichier.

- W
29/03/2020, 15h01
benoit3166
Bonjour wiztricks,

Merci pour ta réponse.

Citation:

Envoyé par wiztricks

Salut,

En regardant le fichier de sortie pour confirmer que vous écrivez 2 lignes au lieu d'une... Puis en corrigeant le code pour ne pas écrire cette fin de ligne en trop.

Avant d'ouvrir la discussion, j'avais déjà fait plusieurs essais comme vous me le conseillez, afin d'identifier d'où vient la ligne supplémentaire. Elle vient du nom des sequences. En effet, j'ai obtenu un tableau sans décalage lorsque j'ai écris ce code :
Code:

1 2 output_cpg.write(str(G_count) + ";" + str(C_count) + ";" + str(A_count) + ";" + str(T_count) + ";" + str(CpG_count) + ";" + id)
Or, ce que je cherche à avoir dans le fichier de sortie, c'est que le nom des séquences soit dans la première colonne. C'est plus lisible pour analyser les résultats à l'oeil dans un premier temps. Il y a donc un saut de ligne dans le nom des séquences. Quand j'utilise cette ligne de code (voir ci-dessous), j'obtiens un fichier comme je l'ai décris dans mon premier post: le nom des séquence décale tout.

Code:

output_cpg.write(id + ";" + str(G_count) + ";" + str(C_count) + ";" + str(A_count) + ";" + str(T_count) + ";" + str(CpG_count) + ";" + "\n")

Comment enlever ce saut de ligne dans le nom des sequences (qui apparait après le > dans le fichier au format fasta) pour avoir un fichier de sortie interpretable ?

Citation:

Le header est juste la première ligne du fichier.

- W

Oui et ce que je cherche à faire, c'est rajouter une ligne informative qui informe sur le contenu de chaque colonne (ex: nom des sequence, %A, %T, %C, %G, etc.). Cette ligne sera utile pour des analyses statistique avec R (header = TRUE avec la fonction read.table ou read.csv) ou avec d'autres libraries en python (quand je le maitriserai mieux).

J'aurai du être plus explicite dans mon premier post. Je m'en excuse.
29/03/2020, 16h13
wiztricks

Salut,

Citation:

Envoyé par benoit3166

Comment enlever ce saut de ligne dans le nom des sequences (qui apparait après le > dans le fichier au format fasta) pour avoir un fichier de sortie interpretable ?

Le code fait déjà cela pour les lignes donnant la séquences de nucléotides.
Si c'est vous qui l'avez écrit, vous savez déjà comment!

Citation:

ce que je cherche à faire, c'est rajouter une ligne informative qui informe sur le contenu de chaque colonne (ex: nom des sequence, %A, %T, %C, %G, etc.). Cette ligne sera utile pour des analyses statistique avec R (header = TRUE avec la fonction read.table ou read.csv) ou avec d'autres libraries en python (quand je le maitriserai mieux).

Le code écrit déjà plein de lignes dans le fichier, je ne vois pas quelle difficulté vous avez à écrire une première ligne.

- W

Salut,

Merci wiztricks pour ton aide. J'ai résolu le problème et cela fonctionne. J'avais oublié le strip sur sequence_id.

Pour ceux que cela intéresse, voici le code final ci-dessous.

A bientôt !

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
 
#!/usr/bin/python3                                                                                                                                                                                                                                                 
 
import sys, os
 
pyScriptName = sys.argv[0]
dataFileName = sys.argv[1]
outputFileName = sys.argv[2]
 
# Read fasta file                                                                                                                                                                                                                                                  
fasta_dict = {}
 
with open(dataFileName, "r") as fasta_file, open(outputFileName, "w") as output_cpg:
    sequence_id = ""
    for line in fasta_file:
        if line.startswith(">"):
            sequence_id = line.strip()
            fasta_dict[sequence_id] = ""
        else:
            fasta_dict[sequence_id] += line.strip()
 
    output_cpg.write("Name" + ";" + "Size" + ";" + "G" + ";" + "C" + ";" + "A" + ";" + "T" + ";" + "CpG" + ";" + "\n")
    for id in fasta_dict.keys():
        print(id)
        win = len(fasta_dict[id])
	seq = fasta_dict[id]
        G_count = seq.count("G")
	C_count = seq.count("C")
        A_count = seq.count("A")
	T_count = seq.count("T")
        CpG_count = seq.count("CG")
 
        output_cpg.write(id + ";" + str(win) +  ";" + str(G_count) + ";" + str(C_count) + ";" + str(A_count) + ";" + str(T_count) + ";" + str(CpG_count) + ";" + "\n")
fasta_file.close()
output_cpg.close()