Précédent   Forum des professionnels en informatique > Autres langages > Autres langages > Ruby
Ruby Le forum sur la programmation Ruby. Voir aussi la FAQ Ruby et les cours Ruby.
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 20/11/2011, 22h52   #1
Invité de passage
 
Ph Lam
Inscription : décembre 2009
Messages : 25
Détails du profil
Informations personnelles :
Nom : Ph Lam

Informations forums :
Inscription : décembre 2009
Messages : 25
Points : 4
Points : 4
Par défaut Extraction automatique sur pages multiples

Bonjour,

Une petite question à vous soumettre pour laquelle je n'arrive pas à trouver de solution :

je voudrais extraire automatiquement du contenu entre deux balises html sur de multiples pages web.
J'utilise le code suivant qui me permet de récupérer le contenu d'une page unique dans un fichier texte.

Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
<code type="ruby">
#!/usr/bin/env ruby
 require 'rubygems'
 require 'nokogiri'
 require 'open-uri'
 
 doc = Nokogiri::HTML(
   open('http://url de mon site.html')
 )
 
 doc.css('html body#ctl00_Body.DefaultBody form#aspnetForm div#ctl00_OutDiv div#ctl00_InDiv.fixBdy div div#leftColunm div.boxNewsdetails div.boxContentNewsDetail div#ctl00_webPartManager_wp1266867765_wp64918401_WPArticleView_divContent p.pHead').each do|l|
   new_file=File.new("filenew.txt","w")
   new_file.puts l.content
   new_file.close
   end
</code>
Mon problème est que je ne sais pas comment faire une itération de ce script sur une série de pages définie (par exemple toutes les pages de la catégorie "trucmuche" de mon site avec une url de type http://www.monsite/trucmuche/*.html)

Est-ce que vous connaitriez la méthode avec nokogiri me permettant de faire ce genre de manip ?
phlam est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 08h38.


 
 
 
 
Partenaires

Hébergement Web