IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

Programme perl html


Sujet :

Langage Perl

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre à l'essai
    Femme Profil pro
    Étudiant
    Inscrit en
    Novembre 2014
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Novembre 2014
    Messages : 5
    Par défaut Programme perl html
    Bonjour, Je travaille sur un corpus html que j'ai téléchargé pour analyser, et je voudrais rassembler l'ensemble en format .txt et le nettoyer. je voudrais faire cette tâche avec avec Perl, sauf que je ne sais pas comment procéder. Auriez-vous des idées ?
    Je vous remercie d'avance pour votre aide.
    R

  2. #2
    Rédacteur/Modérateur

    Avatar de Lolo78
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mai 2012
    Messages
    3 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2012
    Messages : 3 612
    Billets dans le blog
    1
    Par défaut
    Bien sûr que j'ai des idées, mais la question est beaucoup trop vague. Explique ce que tu veux faire exactement. Retirer toutes les balises HTML? Certaines seulement? Autre chose?

  3. #3
    Membre confirmé
    Profil pro
    Inscrit en
    Mars 2013
    Messages
    124
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2013
    Messages : 124
    Par défaut
    oui, c'est vague. Et aussi on ne connait pas la qualité du html de base.
    personnellement, si je devais le faire, je transformerait d'abord le html en xml, puis avec xslt et le module Libxml je le retransformerait en ce qu'on veut. Il y aurait plus de travail à la base, mais ensuite j'y gagnerais. Cela dit je suis tout ouïe pour les solutions plus simples.

  4. #4
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 822
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 822
    Par défaut
    Bonjour,

    Toute la problématique est dans ta propre réponse

    Citation Envoyé par vidici Voir le message
    oui, c'est vague. Et aussi on ne connait pas la qualité du html de base.
    Transformer le HTML en n'importe quoi revient à parser le HTML. Sauf que parser du HTML sans en connaitre la structure, la qualité revient à parser du XML sans connaitre le balisage et la structure, donc impossible. Le second problème majeur du HTML, c'est qu'il peut être fonctionnel (sur le navigateur) alors que le code est non propre, non strict niveau balisage, donc à parser, c'est indigeste. Donc avant de faire quoique ce soit, ta première démarche est de voir à quoi ressemble ton HTML et de prier que ce soit peut-être du xhtml .
    Sinon, pour son parsing, tu as HTML::Parser sur le CPAN.

    Pour l'analyse de fichier XML, tu as XML::Twig, XML::LbXML.

    Voilà !

  5. #5
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Par défaut
    J'ai récemment découvert, en marge de WWW::Mechanize::Query, le module Mojo::DOM. L'interface permet d'accéder à du code HTML à l'aide des sélecteurs CSS, à la façon de jQuery.

  6. #6
    Membre à l'essai
    Femme Profil pro
    Étudiant
    Inscrit en
    Novembre 2014
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Novembre 2014
    Messages : 5
    Par défaut Programme perl html
    Bonsoir à tous,

    merci infiniment pour vos réponses. Je débute en programmation, mais je vais essayer de tester vos propositions. J'ai un corpus de fichier html de 3 ans de suite dans un même répértoire, et la conversion en text doit être faite automatiquement pour l'ensemble du dossier qui contient les fichier html.
    Je ferai suivre le script.

    Merci encore.
    A+

Discussions similaires

  1. Interface HTML à un programme Perl
    Par farfadox dans le forum Balisage (X)HTML et validation W3C
    Réponses: 2
    Dernier message: 05/11/2014, 13h14
  2. Perl > html to pdf
    Par shwin dans le forum Modules
    Réponses: 8
    Dernier message: 07/10/2006, 13h36
  3. [File] Accès concurrent à un fichier avec un programme Perl
    Par dreamincoco dans le forum Entrée/Sortie
    Réponses: 4
    Dernier message: 30/11/2005, 18h48
  4. Réponses: 4
    Dernier message: 16/01/2003, 14h42

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo