IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Java Discussion :

Parsing en java, caractère spéciaux


Sujet :

Langage Java

  1. #1
    Membre confirmé
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2013
    Messages
    124
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Février 2013
    Messages : 124
    Par défaut Parsing en java, caractère spéciaux
    Bonjour à vous,

    J'espère vraiment que vous aurez une réponse à mon casse tête !

    Voila j'ai une classe écrite en Java qui parse un site en HTML, pour parser le site, j'utilise cette bonne vieille bibliotheque Jsoup que je ne remet pas en cause dans l'histoire.

    voila la balise :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    <span id=".....">developpez &nbsp; ₋ &nbsp;&nbsp;java</span>
    le &#8331 est un tiret.

    je veux trouver celà (l'exemple est fictif) :

    mais je trouve ça :
    Bien à vous
    Dumbl

  2. #2
    Membre chevronné Avatar de Ceddoc
    Homme Profil pro
    Développeur Java
    Inscrit en
    Janvier 2009
    Messages
    493
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Développeur Java
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Janvier 2009
    Messages : 493
    Par défaut
    Tu pourrais nous montrer ton code?

    Ca ressemble à une histoire d'encoding peut être...

  3. #3
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 577
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 577
    Par défaut
    Ce tiret n'est pas un simple -
    C'est un caractère littéraire qui n'est pas représentable dans les fichiers texte non-Unicode. Si tu essaies de le faire, ce n'est pas possible, et ça met un ? à la place.

    Mais ce problème n'apparaît que quand tu essaies d'écrire dans la console ou dans un fichier. Les String en mémoire, elles, voient bel et bien le tiret comme fourni par JSoup.
    À toi de voir donc, si ça te dérange ou pas.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  4. #4
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    Ce n'est pas un simple tiret, on n'est plus dans le couches bases de l'unicode. C'est le code 0x208B, et il y a fort à parier que, simplement, l'interface que tu utilise pour afficher le résultat ne supporte pas ce charactère.


    Après avoir parsé le texte, tu l'affiche comment? Swing? console ? fichier?
    Dans les deux derniers cas, quel encodage?

  5. #5
    Membre confirmé
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2013
    Messages
    124
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Février 2013
    Messages : 124
    Par défaut
    Daccord, le problème est que ce "-" spéciale met utile pour splitter la chaîne de caractère, en faisant juste avec les espace du String, je trouve quelques anomalie du aux sites parsés.
    Pour le moment je l'affiche dans la console, mais il sera rentré dans la base de donnée, mais sans le tiret, genre developpez dans un colonne et java dans une autre

  6. #6
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 577
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 577
    Par défaut
    Du coup il y a pas de problème. Avant l'affichage dans la console il marche très bien, et puisque tu ne comptes pas le garder au moment d'afficher dans la console...
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  7. #7
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    Citation Envoyé par dumbl Voir le message
    Daccord, le problème est que ce "-" spéciale met utile
    Je ne vois pas en quoi le fait qu'il te soit utile soit un problème

    pour splitter la chaîne de caractère,
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    String[] elements = chaine.split("\u208b");

  8. #8
    Membre confirmé
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2013
    Messages
    124
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Février 2013
    Messages : 124
    Par défaut
    Ok merci pour les réponses,

    @tchize_ : Pourquoi split("\u208b")?
    Enfin comment sais-tu que c'est ça?
    J'ai compris que c'est de l'unicode mais comment savoir le code (au cas où un futur autre problème de caractère spécial me pose problème...)

    Merci
    Dumbl

  9. #9
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    Citation Envoyé par dumbl Voir le message
    comment savoir le code
    C'est toi même qui nous l'as donné :

    &#8331

    8331 (décimal) ça donne 208b en hexadecimal.....

  10. #10
    Membre confirmé
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2013
    Messages
    124
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Février 2013
    Messages : 124
    Par défaut
    Ok génial merci beaucoup !

    Je clos le sujet

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Caractères spéciaux / Java parsing JSON
    Par franck06 dans le forum Langage
    Réponses: 2
    Dernier message: 25/04/2013, 16h37
  2. java et caractères spéciaux
    Par mongilotti dans le forum Langage
    Réponses: 12
    Dernier message: 01/10/2010, 11h57
  3. affichage des caractères spéciaux sous java
    Par hasnaouiwafa dans le forum Général Java
    Réponses: 2
    Dernier message: 03/04/2007, 17h23
  4. [Java] XMLWriter - caractères spéciaux
    Par Bowa dans le forum XML/XSL et SOAP
    Réponses: 1
    Dernier message: 13/04/2006, 16h42
  5. Parsing et caractères spéciaux
    Par Shogun dans le forum XML/XSL et SOAP
    Réponses: 2
    Dernier message: 29/10/2004, 17h43

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo