IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

Récupérer le texte entre deux balises HTML


Sujet :

Langage Perl

  1. #1
    Candidat au Club
    Inscrit en
    Mai 2011
    Messages
    4
    Détails du profil
    Informations forums :
    Inscription : Mai 2011
    Messages : 4
    Points : 3
    Points
    3
    Par défaut Récupérer le texte entre deux balises HTML
    Bonjour, et merci d'avance pour votre aide !

    Je cherche à écrire un programme en Perl me permettant d'extraire le texte entre chaque balises html.
    Pour ce que j'ai écrit pour l'instant, perl n'arrive pas a extraire la totalité du contenu (je pense qu'il bug avec la balise <a href> mais je ne vois pas comment contourner ce problème) :


    open(TEXTE,"home.html") ;

    while ($ligne = <TEXTE>)
    {
    if ($ligne=~/<(.*?)>(.*?)<\/(.*?)>/)
    {
    print "$2\n";
    }
    }
    close(TEXTE);
    Voici mon html d'exemple :

    <html>
    <head>
    <title>Blabla</title>
    </head>
    <body>
    <p><a href="https://en.wikipedia.org">Il</a> était une fois.</p>
    <p>Bla bla</p>
    </body>
    </html>
    Merci !

  2. #2
    Rédacteur/Modérateur

    Avatar de Lolo78
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mai 2012
    Messages
    3 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2012
    Messages : 3 612
    Points : 12 256
    Points
    12 256
    Billets dans le blog
    1
    Par défaut
    Bonjour,

    c'est une mauvaise idée que de vouloir analyser du HTML avec des expressions régulières, le HTML n'est pas régulier.

    Il vaut mieux utiliser un parser spécialisé du CPAN. Par exemple:

    http://search.cpan.org/dist/HTML-Parser/Parser.pm

    Mais il en a d'autres.

  3. #3
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    A l'aide du module Mojo:OM, on peut accéder en quelques fonctions au contenu textuel des balises un peu à la façon de jQuery.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    open(TEXTE,"home.html");
    local $/; # slurp file
    my $dom = Mojo::DOM->new(<TEXTE>);
    print $dom->text;
    Plus j'apprends, et plus je mesure mon ignorance (philou67430)
    Toute technologie suffisamment avancée est indiscernable d'un script Perl (Llama book)
    Partagez vos problèmes pour que l'on partage ensemble nos solutions : je ne réponds pas aux questions techniques par message privé
    Si c'est utile, say

Discussions similaires

  1. Récupérer le contenu entre deux balises même les tags html
    Par asbb.asbb dans le forum Format d'échange (XML, JSON...)
    Réponses: 0
    Dernier message: 26/02/2015, 15h23
  2. Récupérer du texte entre deux balises
    Par Alban1 dans le forum Scripts/Batch
    Réponses: 4
    Dernier message: 07/09/2014, 20h06
  3. Capturer texte entre deux balises HTML?
    Par jojo86 dans le forum Langage
    Réponses: 3
    Dernier message: 01/07/2011, 10h05
  4. Récupérer un texte entre deux balises prédéfinies
    Par Zaki_SDwin dans le forum Contribuez
    Réponses: 6
    Dernier message: 28/05/2008, 20h50
  5. [DOM] [Débutant] Récupérer texte entre deux balises
    Par webrider dans le forum Général JavaScript
    Réponses: 8
    Dernier message: 27/02/2007, 09h49

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo