IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Linux Discussion :

CODAGE UTF8 et interopérabilité: MS doc et (Linux ou LaTeX)


Sujet :

Linux

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Homme Profil pro
    amateur autodidacte
    Inscrit en
    Août 2011
    Messages
    22
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : amateur autodidacte
    Secteur : Santé

    Informations forums :
    Inscription : Août 2011
    Messages : 22
    Par défaut CODAGE UTF8 et interopérabilité: MS doc et (Linux ou LaTeX)
    Bonjour à tous

    Sous Linux, en UTF8, je me heurte régulièrement à une besogne encombrante: le codage d'espaces particuliers (avant ou après des signes de ponctuation) dans des documents MSWord.doc que j'exporte en fichier texte (avec abiword ou libreoffice)

    Les messages des compilateurs LaTeX ou autres pdfLaTeX m'indiquent le plus souvent:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    Unicode char \u8 :* not set up for use with LaTeX
    Utilisant vim comme éditeur, je ne sais pas comment repérer ces blancs codés en utf8 inconnus de LaTeX.

    J'en suis réduit à rechercher les . , ; ,« ,!, ? etc. car ces blancs ne sont malheureusement pas constants ! (sinon il serait facile de les substituer dans tout le document, en une seule ligne de commande de vim (ou de sed, pour une série de fichiers de même origine)

    Bref je ne sais pas trop s'il s'agit d'un problème de codage (utiliser un outil de conversion), de vim ou de sed (comment désigner ce caractère dans une commande de substitution ?), voire une question plus spécifiquement TeXienne.

    Toujours est-il que mes collègues Windoziens me donnent beaucoup plus de travail avec ce «détail» qu'avec tous les choix et réglages de mise en forme et de typographie qu'ils me demandent !

    Merci pour votre intérêt

    PS Suggestion aux mainteneurs du forum: ne serait-il pas utile de créer une rubrique sur les problèmes d'interopérabilité et de codage, y compris l'UTF8 si insuffisamment universel ? Je pense aussi à ces fichiers doc que certains collègues ne parviennent pas à ouvrir ou à lire entre 2 versions différentes (je suppose ! ) de windows (je n'ai pas ce souci et leur sers parfois de relai !), ou bien à ces pdf "binhex" parfois pas ouvrables même sur certains mac.. (là encore j'ai vite trouvé le convertisseur sous Linux)

  2. #2
    Expert confirmé Avatar de disedorgue
    Homme Profil pro
    Ingénieur intégration
    Inscrit en
    Décembre 2012
    Messages
    4 376
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur intégration
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Décembre 2012
    Messages : 4 376
    Par défaut
    Bonjour,

    Difficile de répondre comme ça, aurais-tu un exemple pratique d'un fichier à nous soumettre ?

  3. #3
    Membre averti
    Homme Profil pro
    amateur autodidacte
    Inscrit en
    Août 2011
    Messages
    22
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : amateur autodidacte
    Secteur : Santé

    Informations forums :
    Inscription : Août 2011
    Messages : 22
    Par défaut
    Citation Envoyé par disedorgue Voir le message
    Bonjour,

    Difficile de répondre comme ça, aurais-tu un exemple pratique d'un fichier à nous soumettre ?
    Bonjour,

    Voici les 100 premières pages d'un fichier doc exporté en txt par Abiword.
    JOURNEE_100p.txt

    La pluspart des ponctuations ( : ; ! ? etc. ) sont précédées par un caractère blanc qu'il m'a suffit de remplacer par une espace.

    Mais comme ce caractère n'est pas toujours présent, je ne peux pas me contenter de le remplacer massivement et en aveugle, sans risquer d' amputer la fin d'un mot précédent.

    merci

  4. #4
    Expert confirmé
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    11 159
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 11 159
    Par défaut
    Bonjour,

    je m'invite dans la conversation, la typographie est une de mes passions...

    Citation Envoyé par josephtux Voir le message
    La plus part plupart des ponctuations ( : ; ! ? etc. ) sont précédées par un caractère blanc qu'il m'a suffit de remplacer par une espace.

    Mais comme ce caractère n'est pas toujours présent, je ne peux pas me contenter de le remplacer massivement et en aveugle, sans risquer d' amputer la fin d'un mot précédent.

    merci
    J'ai jeté un œil rapide au fichier texte, et il n'y a pas que ces histoires de ponctuations, si on veut faire les choses bien...

    Le plus gros problème, à mon avis, c'est que les erreurs sont aléatoires, donc impossibles à corriger automatiquement, ou alors avec des règles tordues.
    Car s'il est facile de rechercher les occurrences de " ." et de " ," pour les remplacer par "." et ",", il en ira autrement du caractère " (guillemet double quote) utilisé en ouvrant et en fermant : à moins de les compter et de jouer sur pair/impair ou de détecter début et fin de mot, je ne vois pas trop comment faire.

    Il y aura aussi la problématiques des doubles espaces : il y en a tout plein... Bon, là c'est facile, il suffit de faire tourner une procédure qui remplace les doubles par des simples, mais la faire tourner au moins deux fois, au cas où l'auteur aurait saisi trois espaces. Et si, pour une raison qu'on ignore, c'était volontaire, ça va tout lui casser...

    Mais il y a également les erreurs de saisie : "qui se chronicisent.." avec deux points !, "c’est affirmation claire", joli charabia, "engagement dans «l’action psychiatrique" pas de guillemet fermant (les doubles quotes moches, c'est moi qui les tape) !

    Et les fautes habituelles :
    • "Saint Anne" ça existe, ça ? Moi j'aurais dit Sainte-Anne, à l'oreille c'est pareil, sur le papier ça va mieux , et il faut un trait d'union, là ;
    • "de façon inégales" ;
    • "Pau, Clermont Ferrand, Lille etc ;" --> Pau, Clermont-Ferrand, Lille, etc. ;
    • "Psychiatrie du Sujet Agé" majuscules partout dans le titre = typographie anglo-saxonne, beuark ! Et il manque l'accent sur le A --> Â et sur le 1er E de JOURNÉE... ;
    • 17 Avril 2015 --> 17 avril 2015, les noms de mois (et ceux de jour) sont des noms communs, donc pas de majuscule.


    Au vu de la quantité de choses à vérifier/reprendre/retoucher, à mon avis il est illusoire de vouloir automatiser un traitement, à moins d'accepter de laisser passer tout un tas d'horreurs diverses et variées...

  5. #5
    Expert confirmé Avatar de disedorgue
    Homme Profil pro
    Ingénieur intégration
    Inscrit en
    Décembre 2012
    Messages
    4 376
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur intégration
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Décembre 2012
    Messages : 4 376
    Par défaut
    Malgré ce que dit Jipété, essayons au moins de résoudre ton problème de base: ce qui semble te gêner, c'est ce que l'on nomme l'espace insécable qui vient souvent, justement, avec les caractères de ponctuation.
    Sous vim, tu peux les voir par exemple à l'aide de la commande suivante en mode normal:
    Pour les modifier en espace normal sous sed:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    sed -e 's/\o302\o240/ /g' fichier
    Sous vim:
    avec <ctrl-k>NS pour touche controle+k puis N majuscule puis S majuscule

  6. #6
    Expert confirmé
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    11 159
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 11 159
    Par défaut
    Citation Envoyé par disedorgue Voir le message
    Malgré ce que dit Jipété, essayons au moins de résoudre ton problème de base: ce qui semble te gêner, c'est ce que l'on nomme l'espace insécable qui vient souvent, justement, avec les caractères de ponctuation.
    Arf, j'avais pris le train en marche et n'ai pas capté que l'OP voulait supprimer () les espaces insécables (ou alors c'était mal exprimé), auquel cas j'aurais aussitôt répondu que c'était complètement stupide car ils n'ont pas été inventé pour rien et permettent d'éviter des horreurs telles qu'un caractère de ponctuation tout seul en début de ligne, exemple :
    Vous voyez le problème
    ? Et ce genre de catastrophe se rencontre parfois, dans les journaux papier (je ne parle pas du web, où il y a tout et n'importe quoi)...

    En fait je pensais que l'OP voulait rechercher là où il manquait des espaces insécables, et les rajouter, pour uniformiser son texte. De là j'ai regardé le fichier joint, j'ai capté toutes les autres fautes et voilà...
    Maintenant, s'il s'agit juste de remplacer les espaces insécables par des espaces normales et conserver () tout ce que j'ai relevé par ailleurs (qui est surement loin d'être exhaustif), mettons que je n'ai rien dit...

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [PostgreSQL] codage utf8. pg_query
    Par jonathan1 dans le forum PHP & Base de données
    Réponses: 1
    Dernier message: 27/10/2011, 15h00
  2. Generer un .doc sous linux sans wine ?
    Par Jamir dans le forum Langage
    Réponses: 4
    Dernier message: 08/10/2011, 09h01
  3. Réponses: 1
    Dernier message: 14/12/2007, 00h22
  4. Comment lire un fichier doc sous Linux
    Par Pauli dans le forum Applications et environnements graphiques
    Réponses: 4
    Dernier message: 09/01/2007, 14h22
  5. Meilleur éditeur de doc Html sous Linux ?
    Par Lucio dans le forum Applications et environnements graphiques
    Réponses: 3
    Dernier message: 13/10/2006, 17h42

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo