Bonjour,
J'essaie de nettoyer des fichiers convertis avec pdftotext afin de les récupérer dans R (analyse statistique).
Pour cela, j'utilise la commande suivante :
Les options du tr sont censé me supprimer mes caractères spéciaux, sauf les caractères ascii indiqués. Sauf que :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 cat corpus.txt | tr -cd '\11\12\15\40-\176\224-\237'
- je ne parviens pas à inclure les caractères supérieurs au code 237 ;
- des accents disparaissent
- certains caractères spéciaux subsistent si j'en crois R.
Ci-joint un extrait du texte (corpus) que je souhaite nettoyer.
Merci de l'aide,
Thibaud.
Partager