Problème de scraping sur un texte d'une page web

**K2carca** · 02/02/2023, 10h52

Bonjour à vous,

je fais appel à vous car je n'arrive pas à trouver une solution à mon problème malgré plusieurs jours de tentative.

J'essaie de scraper une page web (https://aviation-safety.net/wikibase/299753) dans laquelle je desire récupérer le texte ATSB Ref 202001462 (voir le bout HTML de la page ci dessous.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
 
<!-- startrecord -->
 
<table>
<tbody><tr><td class="caption">Date:</td><td class="caption">30-MAR-2020</td></tr>
<tr><td class="caption">Time:</td><td class="desc"></td></tr> 
<tr><td class="caption" valign="bottom">Type:</td><td class="desc">DJI Phantom 4 PRO</td></tr>
<tr><td class="caption">Owner/operator:</td><td class="desc"></td></tr>
<tr><td class="caption">Registration:</td><td class="desc"> </td></tr>
<tr><td class="caption">MSN:</td><td class="desc"> </td></tr>
<tr><td class="caption">Fatalities:</td><td class="desc">Fatalities: 0 / Occupants: 0</td></tr>
<tr><td class="caption">Other fatalities:</td><td class="desc">0</td></tr> 
 
<tr><td class="caption">Aircraft damage:</td><td class="desc"> Substantial</td></tr>
<tr><td class="caption">Category:</td><td class="desc">Accident</td></tr> 
 
<tr><td valign="top" class="caption">Location:</td><td class="desc">Georges River National Park, NSW - 
	<img src="/database/country/flags_15/VH.gif"> &nbsp; <a href="/wikibase/dblist.php?Country=VH">Australia</a>
 
	 </td></tr>
<tr><td class="caption">Phase:</td><td class="desc"> Unknown</td></tr>
<tr><td class="caption">Nature:</td><td class="desc">Unknown</td></tr>
<tr><td class="caption">Departure airport:</td><td class="desc"></td></tr>
<tr><td class="caption"><nobr>Destination airport:</nobr></td><td class="desc"></td></tr>
 
 
<tr><td class="caption">Confidence Rating:</td><td class="desc"><img src="/wikibase/CR2.svg" width="15" height="15"> Information verified through data from accident investigation authorities</td></tr>
</tbody></table>
 
 
 
 
<span class="caption">Narrative:</span><br><span lang="en-US">During flying training, the remotely piloted aircraft (RPA) banked uncommanded and collided with terrain resulting in substantial damage. It was later determined the forward port rotor had separated from the RPA.</span><br>
<p></p><div class="captionhr">Sources:</div> <br>
 
ATSB Ref 202001462 <br><p></p><p>
<!-- endrecord -->
 
<br>
</p>

voici mon code ci-dessous dans lequel j'aurais tout essayé (enfin je pense depuis 3 jours) sans succès.(attention ceci est le dernier essaie en date dont je sais qu'il retourne une erreur. je rappelle que j'essaie de retirer le texte de cette page ATSB Ref 202001462 et que celui-ci n'est pas le même texte dans une autre page de ce même site.
Il semble que ce texte n'est pas dans encadré par un tag ce qui me surprend d'ailleurs

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
 
import requests
from bs4 import BeautifulSoup
 
def parse_occurence():
    r = requests.get("https://aviation-safety.net/wikibase/299753")
    soup = BeautifulSoup(r.content, "html.parser")
    sources_text = soup.find_next("div", class_="captionhr").findNext("br").text
    print(sources_text)
parse_occurence()

Pourriez vous m'aider a solutionner mon problème s'il vous plait ?
Par avance merci pour votre aide.

Problème de scraping sur un texte d'une page web

Python

Mode arborescent

Discussions similaires

Partager

Partager