Lire les lignes d'un fichier .html

**elkhazak** · 31/05/2017, 12h22

Bonjour ç tous,

Je voudrais savoir par quoi je dois commencer afin de réaliser une petite app qui sert à extraire des données existent sur une table dans une page web .html.

J'ai cherché un peu j'ai trouvé des trucs lié au XML et non pas au HTML.

Plan :

- Parcourir les lignes du fichier .html
- Chercher la table et stocker les <TR> <TD> .. dans une table puis l'extraire dans un fichier XL.

Merci d'avance.

**frenchsting** · 31/05/2017, 14h05

Commence par fchargetexte, ensuite il te faudra parcourir la chaîne et trouver les occurrences de la chaîne "<TR><TD>" avec chaineoccurence.

Ca, ce sont les mots clés de base, ensuite, à toi de te creuser les méninges pour trouver le bon algorithme...

**elkhazak** · 31/05/2017, 14h12

Envoyé par frenchsting

Commence par fchargetexte, ensuite il te faudra parcourir la chaîne et trouver les occurrences de la chaîne "<TR><TD>" avec chaineoccurence.

Ca, ce sont les mots clés de base, ensuite, à toi de te creuser les méninges pour trouver le bon algorithme...

Jusqu'à maintenant j'ai fait ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
FichierSélectionné est une chaîne
FichierSélectionné = fSélecteur("C:\Répertoires", "Fichier.html", ...
"Sélectionner un fichier", ...
"Fichier HTML (*.html)" + TAB + "*.html" + RC + "Tous" + TAB + "*.*", "HTML")
sUrl est une chaîne
 
sUrl=fChargeTexte(FichierSélectionné)
 
Info(sUrl)

et ça affiche le code mais avec le problème des accents.

Maintenant je vais mettre la condition SI ChaîneOccurrence(sUrl,"<table>Site",SansCasse)>0 ALORS

Alors tu peux m'aider à trouver le bon algo ?
Comment peux-je récupérer la ligne ou il a trouvé le " <table>Site "

**frenchsting** · 31/05/2017, 14h47

Une piste, car je n'ai pas le temps de trop gratter, j'ai oublié de te dire qu'il faut regarder avec position :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
pour i = 1 a chaineoccurence(...)
pos = postion()...
// pos contient la ième occurence de la chaine recherchée.
fin

**elkhazak** · 31/05/2017, 15h01

Envoyé par frenchsting

Une piste, car je n'ai pas le temps de trop gratter, j'ai oublié de te dire qu'il faut regarder avec position :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
pour i = 1 a chaineoccurence(...)
pos = postion()...
// pos contient la ième occurence de la chaine recherchée.
fin

Merci je vais essayer avec le code de #tbc92

Invité · 31/05/2017, 15h43

Le code HTML, c'est la même chose qu'un code XML, et la méthode proposée précédemment est fortement déconseillée, il faut procéder avec la notion de balise et non de texte, pour trouver votre bonheur, vous pouvez vous servir de la fonction XMLExtraitChaine

**tbc92** · 31/05/2017, 14h50

Je n'ai pas testé, mais ce code devrait être assez proche de ce qu'il te faut.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
 
po est un entier 
sep, chlig, ch00 est une chaine 
 
sep = "<TR><TD>"   // ou peut-être   sep = "</table"  ?  
 
sUrl=fChargeTexte(FichierSélectionné)
 
ch00 = sUrl
po = position(ch00, "<table>", SansCasse )
tantque po > 0 
    ch00 = ch00[[ po a ]]
    chlig = extraitchaine( ch00,1, sep  ) 
    trace ( chlig ) 
    po = position(ch00, "<table>" , SansCasse )
fin

**elkhazak** · 31/05/2017, 16h16

Envoyé par tbc92

Je n'ai pas testé, mais ce code devrait être assez proche de ce qu'il te faut.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
 
po est un entier 
sep, chlig, ch00 est une chaine 
 
sep = "<TR><TD>"   // ou peut-être   sep = "</table"  ?  
 
sUrl=fChargeTexte(FichierSélectionné)
 
ch00 = sUrl
po = position(ch00, "<table>", SansCasse )
tantque po > 0 
    ch00 = ch00[[ po a ]]
    chlig = extraitchaine( ch00,1, sep  ) 
    trace ( chlig ) 
    po = position(ch00, "<table>" , SansCasse )
fin

Peux-tu m'expliquer la ligne ch00 = ch00[[ po a ]] !!

Excuse moi mais ce que j'ai compris; ce code permet d'extraire une chaine entre pos et sep.

comment peux-je préciser la balise que je veux puisque il existe plusieurs balises avec le même nom !

Ce code ci-dessous je l'ai extrait manuellement pour vous montrer ce que je voulais dans la phase avant dernière :

Code html :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
 <tr class="fondAlterne main " id="tr2615805">
            <td class="x-small listingHeight" width="2%">3</td>
            <td colspan="2" title="OT dont le ND a été reçu dans les 30 jours (HERRAS TELECOM / HERRAS CUIVRE / DELEFOSSE Xavier, le 18/04/2017, relevé en PBC). 
OT ré-injecté. (HERRAS TELECOM / HERRAS CUIVRE / MONNIER HERVE, le 03/05/2017, relevé en ETU, Cause(s) : Autre) 
OT avec rendez-vous. 
OT jumelé." align="center"><span class="rouge">30j</span> <span class="rouge">R(A)</span> <span class="orange">RDV</span> <span class="orange">JUM</span></td>
            <td align="center"><span class="badge fondTypeCLT noir">CLT</span></td>
            <td>&nbsp;</td>
            <td align="center">ME1</td>
            <td>10/05/17&nbsp;<span class="x-small">(18/04/17)</span></td>
            <td>18:00</td>
            <td align="center">HEL</td>
            <td align="center">R04&nbsp;/&nbsp;TEL</td>
            <td align="center">P</td>
            <td>0327598335</td>
            <td title="Contact*: 06 16 20 32 21">RLC CLIMBE...</td>
            <td>AMARCS EN B...</td>
            <td align="center" class="nowrap"><span title="Créé le : 03/05/17 12:37*
Expire le : 03/05/17 13:20" class="vertFonce">LBE</span></td>
            <td align="center" class="nowrap"><span><span class="vertFonce" title="TC2 : 19/04/2017 10:24">TC2</span></span></td>
            <td>
                <span class="badge fondEtatOTPreAffecte noir">Pré-affecté</span>
            </td>        
        </tr>
 
 
		<tr class="fondAlterneBis main " id="tr2654502">
            <td class="x-small listingHeight" width="2%">4</td>
            <td colspan="2" title="OT relevé en litige (TH – Gardé suite besoin nacelle). 
OT dont le ND a été reçu dans les 30 jours (SADE TELECOM / CLT LILLE SADE / SAUCEZ christophe, le 12/05/2017, relevé en FIA). 
OT avec Garantie de Temps de Relève. 
OT avec rendez-vous." align="center"><span class="rouge">L(TH)</span> <span class="rouge">30j</span> <span class="rouge">GTR</span> <span class="orange">RDV</span></td>
            <td align="center"><span class="badge fondTypeCLT noir">CLT</span></td>
            <td>FERNANDEZ M. </td>
            <td align="center">EP1</td>
            <td>29/05/17&nbsp;</td>
            <td>14:00</td>
            <td align="center">HEL</td>
            <td align="center">PCC&nbsp;/&nbsp;DGT</td>
            <td align="center">E</td>
            <td>0328729817</td>
            <td title="Contact*: 06 77 17 17 79">ARENDARD FAN...</td>
            <td>LILLE</td>
            <td align="center" class="nowrap"><span title="Créé le : 29/05/17 13:43*
Expire le : 29/05/17 14:26" class="vertFonce">LED</span></td>
            <td align="center" class="nowrap"><span><span class="vertFonce" title="TC2 : 29/05/2017 14:36">TC2</span></span></td>
            <td>
                <span class="badge fondEtatOTValideST noir">Validé&nbsp;ST</span>
            </td>         
        </tr>

Alors j'ai deux balises qui se répètent dans le code :

<tr class="fondAlterneBis main "
et
<tr class="fondAlterne main "

Je dois extraire de <tr class="fondAlterneBis main " .. jusqu'à </tr> et de <tr class="fondAlterne main " .. </tr>

et après je dois mettre les <td> dans une table : ME1 - (18/04/17) - 18:00 - HEL - R04 / TEL - 0327598335 ....

Je voudrais juste des idées.

**jurassic pork** · 01/06/2017, 01h24

hello,
comme le disais Romulus on peut se servir des fonctions xml pour traiter un fichier html. D'ailleurs il y a une option dans XmlDocument qui permet de charger un fichier HTML (xdHTML).
Cependant il peut y avoir des problèmes d'accent ou de caractères spéciaux.
Voici un exemple qui à partir de ton bout de fichier HTML extrait le contenu des td en utilisant la fonction XMLExecutePath. Dans l'extraction il y a certaines lignes qui sont vides car il y a parfois des span dans tes td.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
// Chargement du fichier HTML
Mondoc est une chaîne
Mondoc = fChargeTexte("F:\temp\html_table2.html")
// Création du document
XmlDocument("Exemple", Mondoc,xdHTML)
SI ErreurDétectée = Vrai ALORS
	Trace(ErreurInfo(errComplet))
	Erreur("le fichier n'est pas au format  HTML")
	RETOUR
FIN
// balayage du tr avec class = fondAlterne main
b est un booléen
Trace("fondAlterne main")
RequêteXPATH est une chaîne = "//tr[@class=""fondAlterne main ""]/td"
b = XMLExécuteXPath("Exemple", RequêteXPATH)
// Est-ce une requête XPath de sélection ?
SI XMLTrouve("Exemple")=Vrai ALORS
	// Parcours de la sélection résultat
	TANTQUE XMLTrouve("Exemple")=Vrai
		Trace(XMLPosition("Exemple"), " : ",XMLDonnée("Exemple"))
		XMLSuivant("Exemple")
	FIN
	// Parcours terminé, on termine la requête
	XMLAnnuleRecherche("Exemple")
FIN
Trace("===============================================================")
Trace("fondAlterneBis main ")
// balayage du tr avec class = fondAlterneBis main 
RequêteXPATH = "//tr[@class=""fondAlterneBis main ""]/td"
b = XMLExécuteXPath("Exemple", RequêteXPATH)
// Est-ce une requête XPath de sélection ?
SI XMLTrouve("Exemple")=Vrai ALORS
	// Parcours de la sélection résultat
	TANTQUE XMLTrouve("Exemple")=Vrai
		Trace(XMLPosition("Exemple"), " : ",XMLDonnée("Exemple"))
		XMLSuivant("Exemple")
	FIN
	// Parcours terminé, on termine la requête
	XMLAnnuleRecherche("Exemple")
FIN

et voici le résultat :
Nom : ExtraireHTML.png
Affichages : 1380
Taille : 46,8 Ko

Ami calmant, J.P

Lire les lignes d'un fichier .html [WD20]

WinDev

Vue hybride

Discussions similaires

Partager

Partager