Bonjour,
j'ai récupéré un fichier .ged (généalogie) de plus 60Mo. Il semble qu'il y est une un pb d'encodage lors de l'exportation (source initiale perdue => nouvel export impossible). Je dois travailler en qu'actif sur le fichier que j'ai et dans lequel, les caractères accentués ont été remplacés par "?".
via des rechercher/remplacer j'ai beaucoup amélioré les choses.
Mais il reste de nombreux cas avec des occurrences moins nombreuses.
Quelqu'un pourrait il me proposer svp un script python pour analyser ce fichier (source.ged) et faire un inventaire de tous les mots avec ?, l'enregistrer dans un corrections.txt
(suis sous macOS et le fichier et en UTF-8)
une fois que j'aurai cet inventaire, tous les mots trouvés depuis le début, jusqu'à la fin du source.ged > (corrections.txt), je ferai l'inventaire du nombre d'occurrences de tous les mots distincts.
par tri décroissant, d'occurence, je procéderai au remplacement progressif avec les lettres correctes
>En vous remerciant par avance
Bien à vous
Partager