Bonjour à vous,
je fais appel à vous car je n'arrive pas à trouver une solution à mon problème malgré plusieurs jours de tentative.
J'essaie de scraper une page web (https://aviation-safety.net/wikibase/299753) dans laquelle je desire récupérer le texte ATSB Ref 202001462 (voir le bout HTML de la page ci dessous.
voici mon code ci-dessous dans lequel j'aurais tout essayé (enfin je pense depuis 3 jours) sans succès.(attention ceci est le dernier essaie en date dont je sais qu'il retourne une erreur. je rappelle que j'essaie de retirer le texte de cette page ATSB Ref 202001462 et que celui-ci n'est pas le même texte dans une autre page de ce même site.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40 <!-- startrecord --> <table> <tbody><tr><td class="caption">Date:</td><td class="caption">30-MAR-2020</td></tr> <tr><td class="caption">Time:</td><td class="desc"></td></tr> <tr><td class="caption" valign="bottom">Type:</td><td class="desc">DJI Phantom 4 PRO</td></tr> <tr><td class="caption">Owner/operator:</td><td class="desc"></td></tr> <tr><td class="caption">Registration:</td><td class="desc"> </td></tr> <tr><td class="caption">MSN:</td><td class="desc"> </td></tr> <tr><td class="caption">Fatalities:</td><td class="desc">Fatalities: 0 / Occupants: 0</td></tr> <tr><td class="caption">Other fatalities:</td><td class="desc">0</td></tr> <tr><td class="caption">Aircraft damage:</td><td class="desc"> Substantial</td></tr> <tr><td class="caption">Category:</td><td class="desc">Accident</td></tr> <tr><td valign="top" class="caption">Location:</td><td class="desc">Georges River National Park, NSW - <img src="/database/country/flags_15/VH.gif"> <a href="/wikibase/dblist.php?Country=VH">Australia</a> </td></tr> <tr><td class="caption">Phase:</td><td class="desc"> Unknown</td></tr> <tr><td class="caption">Nature:</td><td class="desc">Unknown</td></tr> <tr><td class="caption">Departure airport:</td><td class="desc"></td></tr> <tr><td class="caption"><nobr>Destination airport:</nobr></td><td class="desc"></td></tr> <tr><td class="caption">Confidence Rating:</td><td class="desc"><img src="/wikibase/CR2.svg" width="15" height="15"> Information verified through data from accident investigation authorities</td></tr> </tbody></table> <span class="caption">Narrative:</span><br><span lang="en-US">During flying training, the remotely piloted aircraft (RPA) banked uncommanded and collided with terrain resulting in substantial damage. It was later determined the forward port rotor had separated from the RPA.</span><br> <p></p><div class="captionhr">Sources:</div> <br> ATSB Ref 202001462 <br><p></p><p> <!-- endrecord --> <br> </p>
Il semble que ce texte n'est pas dans encadré par un tag ce qui me surprend d'ailleurs
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10 import requests from bs4 import BeautifulSoup def parse_occurence(): r = requests.get("https://aviation-safety.net/wikibase/299753") soup = BeautifulSoup(r.content, "html.parser") sources_text = soup.find_next("div", class_="captionhr").findNext("br").text print(sources_text) parse_occurence()
Pourriez vous m'aider a solutionner mon problème s'il vous plait ?
Par avance merci pour votre aide.
Partager