#Rien de nouveau sous le soleil, tout est vanité comme courir après le vent!
Developpement pour Android avec Python3/Kivy/Buildozer
ah, quand même...Accessoirement j'en profite pour te dire que tu avais raison concernant la ponctuation.
#Rien de nouveau sous le soleil, tout est vanité comme courir après le vent!
Developpement pour Android avec Python3/Kivy/Buildozer
Mon Tutoriel sur la programmation «Python»
Mon Tutoriel sur la programmation «Shell»
Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
Et on poste ses codes entre balises [code] et [/code]
Hello,
Bon comme je l'ai dis avec les regex, voici une proposition,
C'est sans doute améliorable...
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17 import re from collections import defaultdict from string import punctuation word_regex = re.compile(r'\b\w+\b') punctuation_regex = re.compile(f'[{re.escape(punctuation)}]') def get_words(my_file): result = defaultdict(set) with open(my_file) as f: content = punctuation_regex.sub("", "".join(f.read().lower())) words = word_regex.findall(content) for word in words: result[len(word)].add(word) return {k: sorted(v, key=len) for k, v in result.items()}
Celui qui trouve sans chercher est celui qui a longtemps cherché sans trouver.(Bachelard)
La connaissance s'acquiert par l'expérience, tout le reste n'est que de l'information.(Einstein)
Salut,
Ton code semble plus rapide que le code avec replace car avec cette dernière on parcourt le texte pour chaque signe de ponctuation...
1- Je trouve aussi que d'utiliser findall est meilleur que d'utiliser split, on évite des chaines vides... Et c'est plus polyvalent ---> on cherche d’après les caractères qu'on inclus (comme les lettres de l'alphabet...) et non d’après les caractères qu'on exclus (comme les signes de ponctuation)
Mais du coup je ne vois pas l’intérêt de "nettoyer" le texte (supprimer toutes les ponctuations) car justement ce n'est pas utile avec findall puisque (encore une fois) on cherche d’après les caractères qu'on inclus et non d’après les caractères qu'on exclus.
2- D'ailleurs ce nettoyage peut parfois poser problème, exemple : l'école devient lécole
3- Juste une remarque : au début quand j'ai testé le code il y a avait des choses bizarres, c'était dû au fait qu'il faut préciser l'encodage lors de l'ouverture du fichier...
D'une manière générale je trouve que chercher d’après les caractères qu'on inclus est plus efficace et plus fiable car on sait ce que l'on veut inclure alors que la liste de ce que l'on doit exclure peut être longue, cela peut être plus que les signes de ponctuation...
Qu'en pensez-vous ?
Hello,
@Beginner,
Je me suis laissé fourvoyer par cette histoire de ponctuations, tu as raison, effectivement, dans mon précédent code je n'avais pas créer de suppression spécifiques liées à la ponctuation.
Pour ceux qui le font, car ils en ont besoin, l'autre solution pourrait être d'utiliser la méthode stripÀ savoir que j'ai utilisé lower alors que selon le PO, le texte est tout en minuscules, et qu'on ne demande pas un tri spécifique...
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import re from collections import defaultdict from string import punctuation word_regex = re.compile(r'\b\w+\b') def get_words(my_file): result = defaultdict(set) with open(my_file) as f: words = word_regex.findall(f.read().lower()) for word in words: result[len(word)].add(word) return {k: sorted(v) for k, v in result.items()}
EDIT: Retrait du paramètre key=len selon la remarque de Sve@r (voir ci-dessus).
Celui qui trouve sans chercher est celui qui a longtemps cherché sans trouver.(Bachelard)
La connaissance s'acquiert par l'expérience, tout le reste n'est que de l'information.(Einstein)
Pettite erreur sur sorted(v, key=len). Il faut trier la liste des mots sur l'ordre alphabétique et non sur leur longueur (surtout que tous les mots de chaque liste ont la même longueur)
En fait il a dit "les mots seront écrits en minuscule". Perso je l'ai compris "devront être écrits en minuscule par votre programme".
Et sur le site Upylab, les fichiers d'exemple contiennent des majuscules.
Mon Tutoriel sur la programmation «Python»
Mon Tutoriel sur la programmation «Shell»
Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
Et on poste ses codes entre balises [code] et [/code]
Vous avez un bloqueur de publicités installé.
Le Club Developpez.com n'affiche que des publicités IT, discrètes et non intrusives.
Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité, merci de nous soutenir en désactivant votre bloqueur de publicités sur Developpez.com.
Partager