problème sur un exercice sur les dictionnaires et les listes

**MPython Alaplancha** · 08/02/2023, 17h07

Envoyé par Sve@r

for ponctuation in string.punctuation !!!

Oui tout à fait, tu peux faire ainsi, mais pourquoi trois point de suspension à la suite de ton message? Pensais-tu que je l'ignorais?
@wiztrick: Ne sois pas interprétatif et inutile de monter sur tes chevaux, il y a rien de constructif à cela.

**MPython Alaplancha** · 08/02/2023, 17h10

Accessoirement j'en profite pour te dire que tu avais raison concernant la ponctuation.

ah, quand même...

**wiztricks** · 08/02/2023, 17h35

Envoyé par Hominidé

@wiztrick: Ne sois pas interprétatif et inutile de monter sur tes chevaux, il y a rien de constructif à cela.

Disant cela qui est "interpretatif": balaie ton paddock bonhomme.

- W

**Sve@r** · 08/02/2023, 17h45

Envoyé par Hominidé

Oui tout à fait, tu peux faire ainsi, mais pourquoi trois point de suspension à la suite de ton message? Pensais-tu que je l'ignorais?

Pour montrer que je suis ouvert au fait que la discussion peut continuer.

**MPython Alaplancha** · 08/02/2023, 17h51

Envoyé par Sve@r

Pour montrer que je suis ouvert au fait que la discussion peut continuer.

Idem

**fred1599** · 08/02/2023, 21h36

Hello,

Bon comme je l'ai dis avec les regex, voici une proposition,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import re
from collections import defaultdict
from string import punctuation
 
word_regex = re.compile(r'\b\w+\b')
punctuation_regex = re.compile(f'[{re.escape(punctuation)}]')
 
 
def get_words(my_file):
    result = defaultdict(set)
    with open(my_file) as f:
        content = punctuation_regex.sub("", "".join(f.read().lower()))
    words = word_regex.findall(content)
    for word in words:
        result[len(word)].add(word)
 
    return {k: sorted(v, key=len) for k, v in result.items()}

C'est sans doute améliorable...

**Beginner.** · 08/02/2023, 23h47

Salut,

Envoyé par fred1599

C'est sans doute améliorable...

Ton code semble plus rapide que le code avec replace car avec cette dernière on parcourt le texte pour chaque signe de ponctuation...

1- Je trouve aussi que d'utiliser findall est meilleur que d'utiliser split, on évite des chaines vides... Et c'est plus polyvalent ---> on cherche d’après les caractères qu'on inclus (comme les lettres de l'alphabet...) et non d’après les caractères qu'on exclus (comme les signes de ponctuation)

Mais du coup je ne vois pas l’intérêt de "nettoyer" le texte (supprimer toutes les ponctuations) car justement ce n'est pas utile avec findall puisque (encore une fois) on cherche d’après les caractères qu'on inclus et non d’après les caractères qu'on exclus.

2- D'ailleurs ce nettoyage peut parfois poser problème, exemple : l'école devient lécole

3- Juste une remarque : au début quand j'ai testé le code il y a avait des choses bizarres, c'était dû au fait qu'il faut préciser l'encodage lors de l'ouverture du fichier...

D'une manière générale je trouve que chercher d’après les caractères qu'on inclus est plus efficace et plus fiable car on sait ce que l'on veut inclure alors que la liste de ce que l'on doit exclure peut être longue, cela peut être plus que les signes de ponctuation...

Qu'en pensez-vous ?

**fred1599** · 09/02/2023, 07h35

Hello,

@Beginner,

Je me suis laissé fourvoyer par cette histoire de ponctuations, tu as raison, effectivement, dans mon précédent code je n'avais pas créer de suppression spécifiques liées à la ponctuation.

Pour ceux qui le font, car ils en ont besoin, l'autre solution pourrait être d'utiliser la méthode strip

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import re
from collections import defaultdict
from string import punctuation
 
word_regex = re.compile(r'\b\w+\b')
 
def get_words(my_file):
    result = defaultdict(set)
    with open(my_file) as f:
         words = word_regex.findall(f.read().lower())
    for word in words:
        result[len(word)].add(word)
 
    return {k: sorted(v) for k, v in result.items()}

À savoir que j'ai utilisé lower alors que selon le PO, le texte est tout en minuscules, et qu'on ne demande pas un tri spécifique...

EDIT: Retrait du paramètre key=len selon la remarque de Sve@r (voir ci-dessus).

**Sve@r** · 09/02/2023, 07h41

Envoyé par fred1599

C'est sans doute améliorable...

Pettite erreur sur sorted(v, key=len). Il faut trier la liste des mots sur l'ordre alphabétique et non sur leur longueur (surtout que tous les mots de chaque liste ont la même longueur)

Envoyé par fred1599

selon le PO, le texte est tout en minuscules

En fait il a dit "les mots seront écrits en minuscule". Perso je l'ai compris "devront être écrits en minuscule par votre programme".
Et sur le site Upylab, les fichiers d'exemple contiennent des majuscules.

**fred1599** · 09/02/2023, 07h51

Envoyé par Sve@r

Pettite erreur sur sorted(v, key=len). Il faut trier la liste des mots sur l'ordre alphabétique et non sur leur longueur (surtout que tous les mots de chaque liste ont la même longueur)

Arf oui, j'ai vraiment été trop vite sur le coup là

**YSENE** · 27/02/2023, 12h17

Bonjour à tous,
Je vous remercie vous tous d'avoir réagi à ce forum pour me venir en aide.
Finalement le problème est résolu : j'avais un problème avec la ponctuation.

Ce code m'a beaucoup aidé.

Envoyé par Hominidé

Bonjour,
Voici un exemple de la piste que j'avais évoquée.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
>>> liste_de_mots_rectifiés = []
>>> string = "Bonjour, ceci est ma phrase dont je souhaite enlever la ponctuation qui pourrait être accolée à un mot."
>>> for mot in string.split():
	for ponctuation in (',', '.'):
		mot = mot.replace(ponctuation, "")
	liste_de_mots_rectifiés.append(mot)
 
 
>>> " ".join(liste_de_mots_rectifiés)
'Bonjour ceci est ma phrase dont je souhaite enlever la ponctuation qui pourrait être accolée à un mot'
>>>