Programme perl html

**rosa92** · 08/12/2014, 22h59

Bonjour, Je travaille sur un corpus html que j'ai téléchargé pour analyser, et je voudrais rassembler l'ensemble en format .txt et le nettoyer. je voudrais faire cette tâche avec avec Perl, sauf que je ne sais pas comment procéder. Auriez-vous des idées ?
Je vous remercie d'avance pour votre aide.
R

**Lolo78** · 09/12/2014, 08h31

Bien sûr que j'ai des idées, mais la question est beaucoup trop vague. Explique ce que tu veux faire exactement. Retirer toutes les balises HTML? Certaines seulement? Autre chose?

**vidici** · 09/12/2014, 08h53

oui, c'est vague. Et aussi on ne connait pas la qualité du html de base.
personnellement, si je devais le faire, je transformerait d'abord le html en xml, puis avec xslt et le module Libxml je le retransformerait en ce qu'on veut. Il y aurait plus de travail à la base, mais ensuite j'y gagnerais. Cela dit je suis tout ouïe pour les solutions plus simples.

**djibril** · 09/12/2014, 09h30

Bonjour,

Toute la problématique est dans ta propre réponse

Envoyé par vidici

oui, c'est vague. Et aussi on ne connait pas la qualité du html de base.

Transformer le HTML en n'importe quoi revient à parser le HTML. Sauf que parser du HTML sans en connaitre la structure, la qualité revient à parser du XML sans connaitre le balisage et la structure, donc impossible. Le second problème majeur du HTML, c'est qu'il peut être fonctionnel (sur le navigateur) alors que le code est non propre, non strict niveau balisage, donc à parser, c'est indigeste. Donc avant de faire quoique ce soit, ta première démarche est de voir à quoi ressemble ton HTML et de prier que ce soit peut-être du xhtml

.
Sinon, pour son parsing, tu as HTML::Parser sur le CPAN.

Pour l'analyse de fichier XML, tu as XML::Twig, XML::LbXML.

Voilà !

**Philou67430** · 09/12/2014, 13h54

J'ai récemment découvert, en marge de WWW::Mechanize::Query, le module Mojo::DOM. L'interface permet d'accéder à du code HTML à l'aide des sélecteurs CSS, à la façon de jQuery.

**rosa92** · 10/12/2014, 16h53

Bonsoir à tous,

merci infiniment pour vos réponses. Je débute en programmation, mais je vais essayer de tester vos propositions. J'ai un corpus de fichier html de 3 ans de suite dans un même répértoire, et la conversion en text doit être faite automatiquement pour l'ensemble du dossier qui contient les fichier html.
Je ferai suivre le script.

Merci encore.
A+

**Lolo78** · 10/12/2014, 19h04

Parcourir tout un répertoire et traiter tous les fichiers qui s'y trouvent est très facile et ne pose pas de problème. La seule difficulté peut-être peut-être la conversions proprement dite, selon la nature du HTML. Peut-être pourrais-tu poster un échantillon de ton HTML.

**Philou67430** · 11/12/2014, 09h07

Un exemple uniligne utilisant Mojo::DOM (en fait, il utilise WWW::Mechanize::Query dont la méthode dom retourne un objet Mojo::DOM) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$ perl -MWWW::Mechanize::Query -E '$m = WWW::Mechanize::Query->new(); $m->get("http://www.developpez.net/forums/d1486484/autres-langages/perl/langage/programme-perl-html"); print join "", $m->dom->all_contents->grep(sub { $_->node eq "text" })'

L'uniligne récupère la page de cette discussion ($m->get("...")), sélectionne tous les noeuds de type text du DOM HTML (all_contents->grep(sub { $_->node eq "text") et les affiche.

Le résultat est sans doute à "retravailler" (beaucoup de retours à la ligne) et il te faudra peut-être sélectionner seulement certains éléments HTML à récupérer (fonction find utilisant le formalisme des sélecteurs CSS3, voir doc de jQuery par exemple). C'est extrêmement facile d'utilisation : une fois qu'on y a goûté, difficile de s'en passer.

**rosa92** · 11/12/2014, 21h59

Merci Philou et lolo!
ne maitrisant pas encore ces notions, j'ai changé mon corpus, en téléchrageant que des fichiers XML. Je dois le traiter avec des expressions régulières pour récuprer entre autres du texte situé entre les balises, des noms propres...
j'ai fais un petit prgm mais je n'obtiens rien à la fin!!erreur peut être dans le script?
#
while(<>)
{
if ($t=~m/<title>/ and $t !~m/:/)
{
$t= ~ s/<title>//;
$t= ~ s/<\/title>//;
$t= ~ s/^\s+//; #supprimer les lignes vides
if ($t=~m/[A-Z][a-z]+/){print $t ;}
}
}
#

Merci encore pour votre aide!

**djibril** · 11/12/2014, 22h41

Y a du bon et du très mauvais.
Si tu as des XML au lieu de fichiers HTML, c'est une très bonne idée. Je te le recommande vivement. Par contre, pour les analyser, je te déconseille très fortement d'utiliser les expressions régulières.

Bonne lecture : Perl et les fichiers XML, analyse et création des fichiers XML.

**Philou67430** · 12/12/2014, 09h01

Sauf erreur, Mojo::DOM fonctionne très bien avec du XML aussi

Mojo::DOM - Minimalistic HTML/XML DOM parser with CSS selectors

Programme perl html

Langage Perl

Discussions similaires

Partager

Partager