Précédent   Forum du club des développeurs et IT Pro > Dotnet > Général Dotnet
Général Dotnet Forum dédié aux questions sur le développement .NET en général. Avant de poster -> FAQs .NET, Articles .NET, Sources .NET
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Actualité déjà publiée
 
Outils de la discussion
Publicité
'
Vieux 18/08/2012, 13h11   #1
tomlev
Rédacteur/Modérateur


 
Avatar de tomlev
 
Homme Thomas Levesque
Développeur .NET
Inscription : février 2004
Messages : 17 793
Détails du profil
Informations personnelles :
Nom : Homme Thomas Levesque
Âge : 31
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Développeur .NET
Secteur : High Tech - Éditeur de logiciels

Informations forums :
Inscription : février 2004
Messages : 17 793
Points : 34 069
Points : 34 069
Par défaut Extraction de données de pages web à l'aide de HTML Agility Pack

Bonjour,

Extraction de données de pages web à l'aide de HTML Agility Pack

Citation:
Il est souvent utile de récupérer automatiquement des données à partir d'une page web, en analysant le code HTML de la page pour extraire les informations qui nous intéressent. Si on n'utilise pas les outils adéquats, écrire du code pour faire ce genre de chose peut vite devenir fastidieux... Ce tutoriel présente un outil très facile à utiliser pour extraire des données d'une page web : HTML Agility Pack
Lire l'article

N'hésitez pas à noter et commenter l'article dans cette discussion
__________________

Pas de questions techniques par MP ! Le forum est là pour ça...

Tutoriels : Les markup extensions en WPF - La sérialisation XML avec .NET (Aller plus loin) - Extraction de données de pages web à l'aide de HTML Agility Pack
Projet : Dvp.NET, la librairie .NET open-source des membres de Developpez !
tomlev est déconnecté   Envoyer un message privé Réponse avec citation 30
Vieux 22/08/2012, 09h05   #2
Reward
Membre éprouvé
 
Développeur .NET
Inscription : août 2004
Messages : 123
Détails du profil
Informations personnelles :
Localisation : France

Informations professionnelles :
Activité : Développeur .NET

Informations forums :
Inscription : août 2004
Messages : 123
Points : 402
Points : 402
Salut,

C'est excellent je ne connaissais pas du tout cette bibliothèque !

J'en comprends tout l'intérêt car pour un projet perso, j'ai été amené à faire ce genre de traitement. Et je suis tombé dans le cas numéro 1 , à partir d'un webClient et de recherches fastidieuses dans le flux string Html.

C'est beaucoup plus souple de cette façon !
Reward est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 22/08/2012, 16h38   #3
amezghal
Membre habitué
 
Homme Abdelilah amezghal
Développeur informatique
Inscription : février 2006
Messages : 74
Détails du profil
Informations personnelles :
Nom : Homme Abdelilah amezghal

Informations professionnelles :
Activité : Développeur informatique
Secteur : Tourisme - Loisirs

Informations forums :
Inscription : février 2006
Messages : 74
Points : 143
Points : 143
En php j'utilise phpQuery.
je teste le code jQuery dans la console js et je le copie tout simplement.
amezghal est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 23/08/2012, 10h00   #4
mermich
Membre chevronné
 
Homme Etienne Mermillod
Inscription : février 2007
Messages : 442
Détails du profil
Informations personnelles :
Nom : Homme Etienne Mermillod
Âge : 28

Informations forums :
Inscription : février 2007
Messages : 442
Points : 622
Points : 622
Salut,

Très bon article, mais je pense qu'il aurait été utile de mentionner fizzler qui est une surcouche de AgilityPAck et permet d'utiliser des sélecteurs css au lieu de xsl: http://code.google.com/p/fizzler/
mermich est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 23/08/2012, 10h19   #5
tomlev
Rédacteur/Modérateur


 
Avatar de tomlev
 
Homme Thomas Levesque
Développeur .NET
Inscription : février 2004
Messages : 17 793
Détails du profil
Informations personnelles :
Nom : Homme Thomas Levesque
Âge : 31
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Développeur .NET
Secteur : High Tech - Éditeur de logiciels

Informations forums :
Inscription : février 2004
Messages : 17 793
Points : 34 069
Points : 34 069
Citation:
Envoyé par mermich Voir le message
Salut,

Très bon article, mais je pense qu'il aurait été utile de mentionner fizzler qui est une surcouche de AgilityPAck et permet d'utiliser des sélecteurs css au lieu de xsl: http://code.google.com/p/fizzler/
Salut,

Je ne l'ai pas mentionné tout simplement parce que je ne connaissais pas... effectivement ça a l'air sympa ! Par contre c'est encore en beta...
__________________

Pas de questions techniques par MP ! Le forum est là pour ça...

Tutoriels : Les markup extensions en WPF - La sérialisation XML avec .NET (Aller plus loin) - Extraction de données de pages web à l'aide de HTML Agility Pack
Projet : Dvp.NET, la librairie .NET open-source des membres de Developpez !
tomlev est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 07/09/2012, 14h57   #6
poincare
Membre régulier
 
Avatar de poincare
 
Homme Henri Poincare
Architecte technique
Inscription : mai 2007
Messages : 43
Détails du profil
Informations personnelles :
Nom : Homme Henri Poincare
Localisation : France

Informations professionnelles :
Activité : Architecte technique
Secteur : High Tech - Multimédia et Internet

Informations forums :
Inscription : mai 2007
Messages : 43
Points : 70
Points : 70
Par défaut Web scraping facile avec Ada et AWS

Le framework client Ada Web server (AWS) permet le web scraping très facilement :
exemple http://rosettacode.org/wiki/Web_scraping#Ada
poincare est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 07/09/2012, 16h09   #7
tomlev
Rédacteur/Modérateur


 
Avatar de tomlev
 
Homme Thomas Levesque
Développeur .NET
Inscription : février 2004
Messages : 17 793
Détails du profil
Informations personnelles :
Nom : Homme Thomas Levesque
Âge : 31
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Développeur .NET
Secteur : High Tech - Éditeur de logiciels

Informations forums :
Inscription : février 2004
Messages : 17 793
Points : 34 069
Points : 34 069
Citation:
Envoyé par poincare Voir le message
Le framework client Ada Web server (AWS) permet le web scraping très facilement :
exemple http://rosettacode.org/wiki/Web_scraping#Ada
Je n'ai pas l'impression que ça ait grand chose à voir... dans le code que tu indiques, AWS sert juste à récupérer le contenu de la page, pas à analyser le contenu. La lecture du HTML se fait ligne par ligne, sans tenir compte de la structure du DOM.
__________________

Pas de questions techniques par MP ! Le forum est là pour ça...

Tutoriels : Les markup extensions en WPF - La sérialisation XML avec .NET (Aller plus loin) - Extraction de données de pages web à l'aide de HTML Agility Pack
Projet : Dvp.NET, la librairie .NET open-source des membres de Developpez !
tomlev est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/11/2012, 23h13   #8
umiak
Invité de passage
 
Inscription : mai 2012
Messages : 7
Détails du profil
Informations forums :
Inscription : mai 2012
Messages : 7
Points : 4
Points : 4
Bonjour,

Merci pour ce tutoriel, sympas et efficace. L'article stipule à la fin qu'il est possible de modifier des pages html, a tout hasard serait-il également possible de ce s'identifier sur un site web via cette librairie ?
umiak est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 29/11/2012, 00h34   #9
tomlev
Rédacteur/Modérateur


 
Avatar de tomlev
 
Homme Thomas Levesque
Développeur .NET
Inscription : février 2004
Messages : 17 793
Détails du profil
Informations personnelles :
Nom : Homme Thomas Levesque
Âge : 31
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Développeur .NET
Secteur : High Tech - Éditeur de logiciels

Informations forums :
Inscription : février 2004
Messages : 17 793
Points : 34 069
Points : 34 069
Citation:
Envoyé par umiak Voir le message
a tout hasard serait-il également possible de ce s'identifier sur un site web via cette librairie ?
Oui c'est possible, mais ça dépend du type d'authentification utilisé sur le site. Si c'est de l'authentification "Basic", il y a une surcharge de la méthode HtmlWeb.Load qui permet d'indiquer le user/password.
Si c'est basé sur un formulaire et des cookies, ce sera peut-être un peu plus complexe. Il faudra d'abord poster le user/password pour s'identifier avec HttpWebRequest et récupérer les cookies, puis renvoyer les cookies à chaque requête. A priori ce n'est pas faisable directement avec la classe HtmlWeb, mais rien n'empêche de faire les requêtes avec HttpWebRequest et de parser le résultat avec Html Agility Pack. Il suffit d'utiliser la méthode Load qui prend un Stream en paramètre dans la classe HtmlDocument.
__________________

Pas de questions techniques par MP ! Le forum est là pour ça...

Tutoriels : Les markup extensions en WPF - La sérialisation XML avec .NET (Aller plus loin) - Extraction de données de pages web à l'aide de HTML Agility Pack
Projet : Dvp.NET, la librairie .NET open-source des membres de Developpez !
tomlev est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Actualité déjà publiée
Outils de la discussion

Navigation rapide


Fuseau horaire GMT +2. Il est actuellement 04h06.


 
 
 
 
Partenaires

Hébergement Web