Problème de scraping sur un texte d'une page web
Bonjour à vous,
je fais appel à vous car je n'arrive pas à trouver une solution à mon problème malgré plusieurs jours de tentative.
J'essaie de scraper une page web (https://aviation-safety.net/wikibase/299753) dans laquelle je desire récupérer le texte ATSB Ref 202001462 (voir le bout HTML de la page ci dessous.
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
|
<!-- startrecord -->
<table>
<tbody><tr><td class="caption">Date:</td><td class="caption">30-MAR-2020</td></tr>
<tr><td class="caption">Time:</td><td class="desc"></td></tr>
<tr><td class="caption" valign="bottom">Type:</td><td class="desc">DJI Phantom 4 PRO</td></tr>
<tr><td class="caption">Owner/operator:</td><td class="desc"></td></tr>
<tr><td class="caption">Registration:</td><td class="desc"> </td></tr>
<tr><td class="caption">MSN:</td><td class="desc"> </td></tr>
<tr><td class="caption">Fatalities:</td><td class="desc">Fatalities: 0 / Occupants: 0</td></tr>
<tr><td class="caption">Other fatalities:</td><td class="desc">0</td></tr>
<tr><td class="caption">Aircraft damage:</td><td class="desc"> Substantial</td></tr>
<tr><td class="caption">Category:</td><td class="desc">Accident</td></tr>
<tr><td valign="top" class="caption">Location:</td><td class="desc">Georges River National Park, NSW -
<img src="/database/country/flags_15/VH.gif"> <a href="/wikibase/dblist.php?Country=VH">Australia</a>
</td></tr>
<tr><td class="caption">Phase:</td><td class="desc"> Unknown</td></tr>
<tr><td class="caption">Nature:</td><td class="desc">Unknown</td></tr>
<tr><td class="caption">Departure airport:</td><td class="desc"></td></tr>
<tr><td class="caption"><nobr>Destination airport:</nobr></td><td class="desc"></td></tr>
<tr><td class="caption">Confidence Rating:</td><td class="desc"><img src="/wikibase/CR2.svg" width="15" height="15"> Information verified through data from accident investigation authorities</td></tr>
</tbody></table>
<span class="caption">Narrative:</span><br><span lang="en-US">During flying training, the remotely piloted aircraft (RPA) banked uncommanded and collided with terrain resulting in substantial damage. It was later determined the forward port rotor had separated from the RPA.</span><br>
<p></p><div class="captionhr">Sources:</div> <br>
ATSB Ref 202001462 <br><p></p><p>
<!-- endrecord -->
<br>
</p> |
voici mon code ci-dessous dans lequel j'aurais tout essayé (enfin je pense depuis 3 jours) sans succès.(attention ceci est le dernier essaie en date dont je sais qu'il retourne une erreur. je rappelle que j'essaie de retirer le texte de cette page ATSB Ref 202001462 et que celui-ci n'est pas le même texte dans une autre page de ce même site.
Il semble que ce texte n'est pas dans encadré par un tag ce qui me surprend d'ailleurs
Code:
1 2 3 4 5 6 7 8 9 10
|
import requests
from bs4 import BeautifulSoup
def parse_occurence():
r = requests.get("https://aviation-safety.net/wikibase/299753")
soup = BeautifulSoup(r.content, "html.parser")
sources_text = soup.find_next("div", class_="captionhr").findNext("br").text
print(sources_text)
parse_occurence() |
Pourriez vous m'aider a solutionner mon problème s'il vous plait ?
Par avance merci pour votre aide.