IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C Discussion :

Récupérations des données à partir du HTML [C]


Sujet :

C

  1. #1
    Membre averti
    Inscrit en
    Mars 2010
    Messages
    23
    Détails du profil
    Informations forums :
    Inscription : Mars 2010
    Messages : 23
    Par défaut Récupérations des données à partir du HTML [C]
    Bonjour,

    Je souhaiterais parser une page web pour récupérer des données dessus.
    Or, il n'y a pas de xml dans le code de cette page.
    Avez vous une méthode ou une librarie à me conseiller ?
    Faut-il convertir le HTML en xml puis parser ou bien parser directement le HTML ?

    Il est à noter que les informations qui m'interessent sont toutes dans des tableaux.

    comment faire ? A l'aide d'expressions régulières ou avec une librairie spécialisée ?
    (j'ai vu http://nicolasj.developpez.com/articles/regex/)

    En effet il ya plein de balises supplémentaires entre les <td "blabla">text</td>

    Je compte garder les informations textuelles (text) et non leur mise en forme ("blabla"). Elle vont etre entrées dans une base de donnée.

    Merci

  2. #2
    Responsable 2D/3D/Jeux


    Avatar de LittleWhite
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Mai 2008
    Messages
    27 055
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Mai 2008
    Messages : 27 055
    Billets dans le blog
    141
    Par défaut
    Bonjour,

    J'ai rencontré le même genre de problème et je dois dire qu'il y a deux possibilités qui ce sont offertes à moi:
    - Réclamer au créateur de la page web de fournir un fichier XML avec les données afin que des clients tiers puissent se connecter ... bon faut être ami avec le développeur du site
    - Faire une analyse à la main (notamment avec les Regex). Le problème de cette méthode, c'est que si la page est modifié, il y a de grand risque que plus rien ne fonctionne.

    Malheureusement, je ne connais pas d'autre méthode (à part afficher la page web directement )
    Vous souhaitez participer à la rubrique 2D/3D/Jeux ? Contactez-moi

    Ma page sur DVP
    Mon Portfolio

    Qui connaît l'erreur, connaît la solution.

  3. #3
    Modérateur
    Avatar de Obsidian
    Homme Profil pro
    Développeur en systèmes embarqués
    Inscrit en
    Septembre 2007
    Messages
    7 444
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Développeur en systèmes embarqués
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2007
    Messages : 7 444
    Par défaut
    Citation Envoyé par LittleWhite Voir le message
    - Réclamer au créateur de la page web de fournir un fichier XML avec les données afin que des clients tiers puissent se connecter ... bon faut être ami avec le développeur du site
    - Faire une analyse à la main (notamment avec les Regex). Le problème de cette méthode, c'est que si la page est modifié, il y a de grand risque que plus rien ne fonctionne.

    Malheureusement, je ne connais pas d'autre méthode (à part afficher la page web directement )
    C'est entre autres pour cela que le XHtml a été défini. Une page valide XHtml doit pouvoir être analysée avec un parser XML. Et si les bonnes entitées ont été repérées comme il se doit avec l'attribut « id », ça devient simple.

    Maintenant, les sites entièrement valides ne sont pas légion.

Discussions similaires

  1. Réponses: 14
    Dernier message: 16/09/2011, 10h57
  2. Réponses: 9
    Dernier message: 08/05/2011, 18h23

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo