Récupérer une portion d'une div

**apt** · 09/06/2011, 17h33

Bonjour à tous,

Dans le code suivant, j'aimerais récupérer les éléments suivants avec preg_match :

h1, div.article_metadata, div#article_body

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
<div id="article_holder">
	<h1>title1</h1>
	<div class="article_metadata">
		<span class="metadata_time">2011.06.08</span>
		<div class="article_auth">
			<img src="http://www.echoroukonline.com/ara/themes/rtl/img/fleche_orange.gif">name
		</div>
	</div>
	<div id="article_body">
		<p class="abstract"><strong></strong></p>
		<ul dir="rtl">
			<li><div></div></li>
			<li><div></div></li>
			<li><div></div></li>
			<li><div></div></li>
			<li><div></div></li>
		</ul>
	</div>
	<div id="autre"></div>
	<p class="nbreads"></p>
</div>

Comment faire cela ?

Merci.

**stealth35** · 09/06/2011, 17h40

pour parser du HTML c'est DOMDocument

**apt** · 09/06/2011, 18h29

Envoyé par stealth35

pour parser du HTML c'est DOMDocument

J'ai déjà utiliser le dom et xpath, mais j'ai un problème de codage.

Parce que dans l'affichage du résultat (il est en arabe), j'ai des caractères bizarre.

ØªØµØ±ÙŠØ*Ø§Øª Ù…Ø«ÙŠØ±Ø© Ù„Ù„Ø´ØºØ¨
2011.06.08 Ø³Ø§Ù„Ù… Ø²ÙˆØ§ÙˆÙŠ
Ø¹Ù„Ù‰ Ø§Ù„Ø±ØºÙ… Ù…Ù† Ø*Ø³Ø§Ø³ÙŠØ© Ø§Ù„Ù…Ø±Ø*Ù„Ø© ÙˆØ*Ø³Ø§Ø³ÙŠØ© Ø§Ù„Ø£ÙˆØ¶Ø§Ø¹ Ø¹Ù„Ù‰ ÙƒÙ„ Ø§Ù„Ø¬Ø¨Ù‡Ø§Øª ÙÙŠ Ø§Ù„Ø¬Ø²Ø§Ø¦Ø±ØŒ ÙˆØ¹Ù„Ù‰ Ø§Ù„Ø±ØºÙ… Ù…Ù† ØªØ±Ø´Ø* Ù‡Ø°Ø§ Ø§Ù„ÙˆØ¶Ø¹ Ù„Ù„Ø§Ù†ÙØ¬Ø§Ø± Ø§Ù„Ø³ÙŠØ§Ø³ÙŠ ÙˆØ§Ù„Ø§Ø¬ØªÙ…Ø§Ø¹ÙŠ ÙÙŠ Ø£ÙŠ Ù„Ø*Ø¸Ø©ØŒ ÙØ¥Ù† Ø§Ù„ÙˆØ²ÙŠØ± Ø§Ù„Ø£ÙˆÙ„ Ø§Ù„Ø³ÙŠØ¯ Ø£Ø*Ù…Ø¯ Ø£ÙˆÙŠØ*ÙŠÙ‰ ÙŠÙˆØ§ØµÙ„

Vois-tu pourquoi j'ai essayé d'avoir un résultat lisible avec preg_match ?

**stealth35** · 09/06/2011, 18h32

ton script est bien en utf-8 ?

**apt** · 09/06/2011, 19h14

Oui, le fichier est sauvegardé en UTF8 Without BOM.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
<?php
header('Content-Type: text/html; charset=UTF-8');
//<!--meta http-equiv="Content-Type" content="text/html; charset=utf-8" /--> 
set_time_limit(0);
 
$sUrl = 'http://www.echoroukonline.com/ara/editorial/index.1.html';
$sUrlSrc = getWebsiteContent($sUrl,0);
 
// Load the source
$dom = new DOMDocument("UTF-8");
@$dom->loadHTML($sUrlSrc);
 
$xpath = new DomXPath($dom);
 
// ===================================      step 1 - links:
 
$vRes = $xpath->query("/html/body/div/div[2]/div/div[2]/div[4]/div/div/div/h2/a");
 
// ===================================      step 2 - titles:
 
$aLinks = $vRes->item(0)->getAttribute("href");
 
echo "<br />aLinks : ".$aLinks."<br />";
$sUrl2 = 'http://www.echoroukonline.com/ara/'.$aLinks;
 
echo "<br />sUrl2 : ".$sUrl2."<br />";
$sUrlSrc2 = getWebsiteContent($sUrl2,1);
 
@$dom->loadHTML($sUrlSrc2);
$xpath = new DomXPath($dom);
 
// ===================================      step 3 - titles:
 
$vRes = $xpath->query(".//*[@id='article_holder']/h1");
$aTitles= $vRes->item(0)->nodeValue;
 
// ===================================      step 4 - Metas:
 
$vRes = $xpath->query(".//*[@class='article_metadata']");
$aMetas= $vRes->item(0)->nodeValue;
 
//====================================      step 5 - descriptions:
 
$vRes = $xpath->query(utf8_encode(".//*[@id='article_body']"));
$aDescriptions= $vRes->item(0)->nodeValue;
 
//=============================
 
echo '<link href="css/styles.css" type="text/css" rel="stylesheet"/><div class="main">';
echo '<h1>Using xpath for dom html</h1>';
 
//echo "<br />".$aTitles."<br />".$aMetas."<br />".$aDescriptions."<br />";
 
echo "
<div class='unit'>
    <a href='{$sUrl2}'>{$aTitles}</a>
    <div>{$aMetas}</div>
    <div>{$aDescriptions}</div>
</div>";
 
echo '</div>';
 
// this function will return page content using caches (we will load original sources not more than once per hour)
function getWebsiteContent($sUrl,$f=0) {
 
	// our folder with cache files
    $sCacheFolder = 'cache';
 
    if(!is_dir($sCacheFolder)){
        mkdir($sCacheFolder,0777);
    }
 
    // cache filename
    if ($f == 0) {
        $sFilename = 'ech-'.date('YmdHi').'.html';
    } else {
        $sFilename = 'eftch-'.date('YmdHi').'.html';
    }
 
    if (!file_exists($sCacheFolder."/".$sFilename)) {
        $ch = curl_init($sUrl);
        $fp = fopen($sCacheFolder."/".$sFilename, 'w');
        curl_setopt($ch, CURLOPT_FILE, $fp);
        curl_setopt($ch, CURLOPT_HEADER, 0);
        curl_setopt($ch, CURLOPT_HTTPHEADER, Array('User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.15) Gecko/20080623 Firefox/2.0.0.15'));
        curl_close($ch);
        fclose($fp);
    }
    //return file_get_contents($sCacheFolder.$sFilename);
    return file_get_contents_utf8($sCacheFolder."/".$sFilename);
 
 
}
function file_get_contents_utf8($fn) {
     $content = file_get_contents($fn);
     return mb_convert_encoding($content, 'UTF-8',
         mb_detect_encoding($content, 'UTF-8, ISO-8859-1', true)
            );
}
 
?>

**stealth35** · 09/06/2011, 19h24

ton file_get_contents_utf8 sert a rien le site est déjà en utf-8

Récupérer une portion d'une div

Langage PHP

Vue hybride

Discussions similaires

Partager

Partager