IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Dotnet Discussion :

Extraire des données d'une page web


Sujet :

Dotnet

  1. #1
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Octobre 2012
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Octobre 2012
    Messages : 42
    Points : 18
    Points
    18
    Par défaut Extraire des données d'une page web
    (Note: déplacé depuis cette discussion)

    Bonjour
    Merci pour ce tuto c'est très utile
    J'ai un fichier text qui contient :

    h2 class="nameCli">" <a href="http://www.xxxxxxxx> nom 1 </a>"
    <div class="addr"><ul> <li> adresse 1 </li>"
    <li class="call"> <span>Tél. :</span> num 1 </li>"


    <h2 class="nameCli">" <a href="http://www.xxxxxxxx> nom 2 </a>"
    <div class="addr"><ul> <li> adresse 2 </li>"
    <li class="call"> <span>Tél. :</span> num 2 </li>"


    <h2 class="nameCli">" <a href="http://www.xxxxxxxx> nom 3 </a>"
    <div class="addr"><ul> <li> adresse 3 </li>"
    <li class="call"> <span>Tél. :</span> num 3 </li>"


    Je veux avoir comme sortie cette forme :
    nom1 , adresse 1 , num 1
    nom2 , adresse 2 , num 2
    nom3 , adresse 3 , num 3


    Est-ce possible ?

  2. #2
    Rédacteur/Modérateur


    Homme Profil pro
    Développeur .NET
    Inscrit en
    Février 2004
    Messages
    19 875
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2004
    Messages : 19 875
    Points : 39 749
    Points
    39 749
    Par défaut
    Citation Envoyé par Meher001 Voir le message
    Est-ce possible ?
    Oui, mais avec les éléments que tu donnes je ne peux pas te dire comment...

    Ca m'étonnerait que ton fichier HTML ressemble vraiment à ça : les éléments ne sont pas fermés, les guillemets sont placés à des endroits qui n'ont aucun sens, etc. Essaye de donner un extrait plus représentatif de la page (ou mieux : la page complète)

  3. #3
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Octobre 2012
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Octobre 2012
    Messages : 42
    Points : 18
    Points
    18
    Par défaut
    Le fichier est trés grand de taille
    Voici un extrait plus représentatif de ma page


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
    207
    208
    209
    210
    211
    212
    213
    214
    215
    216
    217
    218
    219
    220
    221
    222
    223
    224
    225
    226
    227
    228
    229
    <li class="privRes result rad3" >
    		
    		
    	
    		<h2 class="nameCli">
    			<a href="http://www.editus.lu/ed/fr/borges-manuel-bettembourg-1480830.html" onclick="saveClientStat('1480830', '1', '1', '3209', '', '', '0', '7', 'C', 'PRS');">
    				nom1
    				
    				
    			</a>
    		</h2>
    		
    		<div class="detail">
    			
    			
    			
    			
    			
    			<div class="addr">
    				
    				<ul>						
    					<li>adresse1</li>
    				</ul>
    				
    				<ul>   
    					
    						
    							<li class="call">
    								<span>Tél. :</span>
    								tel1
    							</li>
    								
    					 	
    					 	
    					
    				</ul>
    			</div>
    			
    			
    			
    		</div>
    		
    		
    		
    		<div class="clear"></div>
    		
    		
    		
    		
    		
    
    		
    		
    		
    				
    		
    
    		
    		
    
    		<span class="idRes">1</span>		
    	</li>
    
    	
    		
    			<li class="privRes result rad3" >
    		
    		
    	
    		<h2 class="nameCli">
    			<a href="http://www.editus.lu/ed/fr/camus-nathalie-bettembourg-1488297.html" onclick="saveClientStat('1488297', '1', '2', '3209', '', '', '0', '7', 'C', 'PRS');">
    				nom2
    				
    				
    			</a>
    		</h2>
    		
    		<div class="detail">
    			
    			
    			
    			
    			
    			<div class="addr">
    				
    				<ul>						
    					<li>adresse2</li>
    				</ul>
    				
    				<ul>   
    					
    						
    							<li class="call">
    								<span>Tél. :</span>
    								tel2
    							</li>
    								
    					 	
    					 	
    					
    				</ul>
    			</div>
    			
    			
    			
    		</div>
    		
    		
    		
    		<div class="clear"></div>
    		
    	
    
    		<span class="idRes">2</span>		
    	</li>
    
    	
    		
    			<li class="privRes result rad3" >
    		
    		
    	
    		<h2 class="nameCli">
    			<a href="http://www.editus.lu/ed/fr/caixeiro-graga-antonio-bettembourg-1489200.html" onclick="saveClientStat('1489200', '1', '3', '3209', '', '', '0', '7', 'C', 'PRS');">
    				nom3
    				
    				
    			</a>
    		</h2>
    		
    		<div class="detail">
    			
    			
    			
    			
    			
    			<div class="addr">
    				
    				<ul>						
    					<li>adresse3</li>
    				</ul>
    				
    				<ul>   
    					
    						
    							<li class="call">
    								<span>Tél. :</span>
    								tel3
    							</li>
    								
    					 	
    					 	
    					
    				</ul>
    			</div>
    			
    			
    			
    		</div>
    		
    		
    		
    		<div class="clear"></div>
    		
    		
    		
    		
    		
    
    		
    		
    		
    				
    		
    
    		
    		
    
    		<span class="idRes">3</span>		
    	</li>
    
    	
    		
    			<li class="privRes result rad3" >
    		
    		
    	
    		<h2 class="nameCli">
    			<a href="http://www.editus.lu/ed/fr/cabeca-julio-cesar-bettembourg-1489236.html" onclick="saveClientStat('1489236', '1', '4', '3209', '', '', '0', '7', 'C', 'PRS');">
    				nom4
    				
    				
    			</a>
    		</h2>
    		
    		<div class="detail">
    			
    			
    			
    			
    			
    			<div class="addr">
    				
    				<ul>						
    					<li>adresse4</li>
    				</ul>
    				
    				<ul>   
    					
    						
    							<li class="call">
    								<span>Tél. :</span>
    								tel4
    							</li>
    								
    					 	
    					 	
    					
    				</ul>
    			</div>
    			
    			
    			
    		</div>
    		
    		
    		
    		<div class="clear"></div>
    J’espère que c'est claire maintenant.
    Merci

  4. #4
    Rédacteur/Modérateur


    Homme Profil pro
    Développeur .NET
    Inscrit en
    Février 2004
    Messages
    19 875
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2004
    Messages : 19 875
    Points : 39 749
    Points
    39 749
    Par défaut
    Citation Envoyé par Meher001 Voir le message
    J’espère que c'est claire maintenant.
    Ben pas vraiment, on voit pas vraiment la structure de la page... tu peux pas donner un lien ? Ou alors poster la page en pièce jointe (zippée)

  5. #5
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Octobre 2012
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Octobre 2012
    Messages : 42
    Points : 18
    Points
    18
    Par défaut
    Voila le code source complet d'un exemple de page
    view-source:http://www.editus.lu/ed/fr/recherche.html?q=1267

  6. #6
    Rédacteur/Modérateur


    Homme Profil pro
    Développeur .NET
    Inscrit en
    Février 2004
    Messages
    19 875
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2004
    Messages : 19 875
    Points : 39 749
    Points
    39 749
    Par défaut
    Alors, déjà on voit que les résultats de la recherche sont des éléments de liste (li) placés dans une liste (ul) qui a pour id "listRes". Il faut donc commencer par trouver cet élément :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    string url = "http://www.editus.lu/ed/fr/recherche.html?q=1267";
    var web = new HtmlWeb();
    var doc = web.Load(url);
     
    var listRes = doc.GetElementById("listRes");
    Ensuite, on va récupérer tous les éléments li de cette liste :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    var results = listRes.Elements("li");
    Ensuite on extrait les données pour chaque résultat :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
     
        foreach (var result in results)
        {
            var nameElement = result.Element("h2").Element("a");
            string name = nameElement.InnerText;
     
            var detail = result.Elements("div")
                               .First(e => e.GetAttributeValue("class", null) == "detail");  // le premier qui a class="detail"
     
            var addr = detail.Elements("div")
                             .First(e => e.GetAttributeValue("class", null) == "addr"); // le premier qui a class="addr"
     
            var addressElement = addr.Element("ul").Element("li");
            string address = addressElement.InnerText;
     
            var telElement = addr.Elements("ul")
                                 .ElementAt(1)  // le 2e élément "ul"
                                 .Elements("li")
                                 .First(e => e.GetAttributeValue("class", null) == "call"); // le premier qui a class="call"
            string tel = telElement.InnerText;
     
            // Faire quelque chose avec name, address et tel....
            ...
        }
    (il faudra peut-être refaire un peu de traitement sur les données pour les "nettoyer", virer les espaces en trop, etc...)

  7. #7
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Octobre 2012
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Octobre 2012
    Messages : 42
    Points : 18
    Points
    18
    Par défaut
    Merci pour votre réponse
    Je développe sous VB.net
    Ma fonction final est

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
     Dim url As String = "http://www.editus.lu/ed/fr/recherche.html?q=1267"
            Dim web = New HtmlWeb()
            Dim doc = web.Load(url)
            Dim listRes = doc.GetElementbyId("listRes")
            Dim results = listRes.Elements("li")
     
            For Each result In results
     
                Dim nameElement = result.Element("h2").Element("a")
                Dim name As String = nameElement.InnerText
     
                Dim detail = (result.Elements("div")).First(e >= e.GetAttributeValue("class", null) = "detail")  ' le premier qui a class="detail"
     
                Dim addr = (detail.Elements("div")).First(e >= e.GetAttributeValue("class", null) = "addr") ' le premier qui a class="addr"
     
                Dim addressElement = addr.Element("ul").Element("li")
                Dim address As String = addressElement.InnerText
     
                Dim telElement = (addr.Elements("ul")).ElementAt(1).Elements("li").First(e >= e.GetAttributeValue("class", null) = "call")  ' le 2e élément "ul" le premier qui a class="call"
     
     
                Dim tel As String = telElement.InnerText
     
                ' Faire quelque chose avec name, address et tel....
     
            Next
    La variable 'e' est de quel type ?
    Et pour la ligne First(e => e.GetAttributeValue , VB n'accepte pas '=>'
    Et 'null' aussi mais en VB je la transforme en 'nothing' je pense
    Merci

  8. #8
    Rédacteur/Modérateur


    Homme Profil pro
    Développeur .NET
    Inscrit en
    Février 2004
    Messages
    19 875
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2004
    Messages : 19 875
    Points : 39 749
    Points
    39 749
    Par défaut
    Citation Envoyé par Meher001 Voir le message
    La variable 'e' est de quel type ?
    HtmlElement
    Mais tu n'as pas besoin de le préciser, c'est implicite

    Citation Envoyé par Meher001 Voir le message
    Et pour la ligne First(e => e.GetAttributeValue , VB n'accepte pas '=>'
    En fait e => e.GetAttributeValue("class", null) == "detail" est une expression lambda. C'est une façon d'écrire une méthode anonyme. En VB.NET la syntaxe équivalente est Function(e) e.GetAttributeValue("class", Nothing) = "detail"
    Citation Envoyé par Meher001 Voir le message
    Et 'null' aussi mais en VB je la transforme en 'nothing' je pense
    Oui c'est ça

  9. #9
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Octobre 2012
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Octobre 2012
    Messages : 42
    Points : 18
    Points
    18
    Par défaut
    Votre fonction marche à merveille jusqu'à ce que je suis tombé sur un prospect qui n'a pas un num de téléphone et là j'ai eu le message suivant :

    La séquence ne contient aucun élément correspondant.

    Avant d'executer ma fonction j'ai changé nothing par "" parce qu’il n'as pas accepter cette variable
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    Dim telElement = (addr.Elements("ul")).ElementAt(1).Elements("li").First(Function(e) e.GetAttributeValue("class", Nothing) = "call")

  10. #10
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Octobre 2012
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Octobre 2012
    Messages : 42
    Points : 18
    Points
    18
    Par défaut
    Le 2 paramètres de la fonction GetAttributeValue prend est :
    Boolean , String ou Entier
    Qui est censé prendre une valeur par défaut s'il est introuvable.
    J'ai essayé avec "",False mais toujours la même message d'erreur :
    La séquence ne contient aucun élément correspondant.
    La valeur Nothing n'est pas accepté par le compilateur.
    Comment est ce que j'ajoute une condition pour mettre un vide au cas ou il n y a pas la classe "call" ?

  11. #11
    Rédacteur/Modérateur


    Homme Profil pro
    Développeur .NET
    Inscrit en
    Février 2004
    Messages
    19 875
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2004
    Messages : 19 875
    Points : 39 749
    Points
    39 749
    Par défaut
    Citation Envoyé par Meher001 Voir le message
    Votre fonction marche à merveille jusqu'à ce que je suis tombé sur un prospect qui n'a pas un num de téléphone et là j'ai eu le message suivant :

    La séquence ne contient aucun élément correspondant.
    C'est First qui renvoie une erreur s'il ne trouve pas l'élément correspondant. Il faut utiliser FirstOrDefault et tester si ça renvoie Nothing

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    Dim telElement = (addr.Elements("ul")).ElementAt(1).Elements("li").FirstOrDefault(Function(e) e.GetAttributeValue("class", Nothing) = "call")
    Dim tel As String = ""
    If telElement IsNot Nothing Then
        tel = telElement.InnerText
    End If

  12. #12
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Octobre 2012
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Octobre 2012
    Messages : 42
    Points : 18
    Points
    18
    Par défaut
    Ca fonctionne très bien.
    Merci énormément tomlev tu m'as aidée énormément.
    Bonne continuation.

  13. #13
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Octobre 2012
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Octobre 2012
    Messages : 42
    Points : 18
    Points
    18
    Par défaut
    Bonjour tomlev j’espère que tu vas bien
    J'ai juste une dernière question qui parait simple mais j'ai pas trouvé grande choses sur internet
    J'ai un code html qui contient plusieurs tableaux du genre

    <td id="r001">AAA </td>
    <td id="r002">AAA </td>
    <td id="r003">AAA </td>
    <td id="r004">AAA </td>

    <td> <a href=xxxxxxx> BBB </td>
    <td> <a href=xxxxxxx> BBB </td>

    j'ai fait Dim list = listRes.Descendants("td") qui me retourne tous ce qui est entre la balise td, ce que je veux c'est qu'il me récupère seulement ceux qui commencent par <td id="xxx"> , dans mon exemple tous les AAA.
    Merci

  14. #14
    Rédacteur/Modérateur


    Homme Profil pro
    Développeur .NET
    Inscrit en
    Février 2004
    Messages
    19 875
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2004
    Messages : 19 875
    Points : 39 749
    Points
    39 749
    Par défaut
    Citation Envoyé par Meher001 Voir le message
    seulement ceux qui commencent par <td id="xxx">
    C'est des éléments HTML, donc il ne faut pas réfléchir en terme de "commence par", parce qu'un élément équivalent pourrait très bien être écrit d'une manière différente. Il vaut mieux examiner les valeurs des attributs.

    Par exemple si tu veux tous les éléments <td> dont l'id commence par "r" :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    listRes.Descendants("td").Where(Function(e) e.GetAttributeValue("id", "").StartsWith("r"))

  15. #15
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Octobre 2012
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Octobre 2012
    Messages : 42
    Points : 18
    Points
    18
    Par défaut
    Parfais comme toujours
    Merci encore une fois

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Extraire des données d'une page Web en VBA sous Excel
    Par BEMI dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 20/05/2009, 06h24
  2. [RegEx] Comment extraire des données d'une page HTML ?
    Par taliesin26 dans le forum Langage
    Réponses: 1
    Dernier message: 11/12/2006, 12h39
  3. [RegEx] Récupérer des données dans une page Web
    Par Pragmateek dans le forum Langage
    Réponses: 8
    Dernier message: 24/05/2006, 19h44
  4. Extraire des informations d'une page web
    Par lr dans le forum Entrée/Sortie
    Réponses: 3
    Dernier message: 28/03/2006, 12h38
  5. [Système] Extraire des données d'une page web
    Par nazoreen dans le forum Langage
    Réponses: 17
    Dernier message: 22/03/2006, 21h38

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo