Nombre occurence Mots (novice)

**preliator** · 26/12/2019, 15h48

Bonjour à tous,

Je cherche à créer un programme python qui, grâce à un fichier texte en lecture, me permettra de sortir un tableur excel contenant le nombre d’occurrence de chacun des mots. Ceci afin de faire sortir les mots les plus utilisés.

J'ai donc crée un début de script qui fait bien le travail. Cependant, je rencontre un problème d'encodage. Effectivement, le mot "Réalisation" va s'écrire "rÃalisation".
Pire encore, le programme que j'ai crée me découpe ce mot en 2 parties : "rÃ", "alisation".

J'ouvre mon fichier texte, je crée une liste "liste_mots" qui contient tous les mots sans ponctuation, je crée un dictionnaire contenant les mots et leur score d'apparition grâce au module Counter de Collections, et je crée un fichier excel contenant ces informations.

Code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
 
from collections import Counter
import csv
import re
 
liste_mots = []
dictionaire = {}
 
with open("texte.txt", "r", encoding='utf-8') as fichier:
    for line in fichier:
        line = line.strip()
 
liste_mots = re.findall("\w+",open("texte.txt").read())	#METTRE DANS UNE LISTE TOUS LES MOTS SANS PONCTUATION
dictionaire = (Counter(liste_mots).most_common())
 
with open("result.csv", "w", newline='', encoding='utf-8') as resultat:
	fieldnames = ['Mot', 'Score']
	w = csv.DictWriter(resultat, fieldnames=fieldnames, delimiter = ";")
	w.writeheader() #POUR AFFICHER LES ENTETES
	for i in dictionaire:
		w.writerow({'Mot': i[0], 'Score': i[1]})

Merci à vous.

**wiztricks** · 26/12/2019, 16h28

Salut,

Envoyé par preliator

Cependant, je rencontre un problème d'encodage. Effectivement, le mot "Réalisation" va s'écrire "rÃalisation".
Pire encore, le programme que j'ai crée me découpe ce mot en 2 parties : "rÃ", "alisation".

C'est ce qui arrive lorsqu'on lit de l'utf-8 avec un encoding 8 bits.
Et ligne 13: vous lisez le fichier sans préciser l'encoding (et on ne comprend pas trop à quoi sert la lecture précédente).

- W

**preliator** · 26/12/2019, 17h56

Merci pour votre réponse. Effectivement, j'ai enlevé cette partie du script ...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
with open("texte.txt", "r", encoding='utf-8') as fichier:
    for line in fichier:
        line = line.strip()

... qui me faisait ouvrir le fichier 2 fois.

Comment le script se profilerait il avec l'option supplémentaire de l'encoding sur cette partie ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
liste_mots = re.findall("\w+",open("texte.txt").read())	#METTRE DANS UNE LISTE TOUS LES MOTS SANS PONCTUATION
dictionaire = (Counter(liste_mots).most_common())

Merci.

Nombre occurence Mots (novice)

Python

Vue hybride

Discussions similaires

Partager

Partager