Scrapping - Commentaires - Python- BeautifulSoup
Salut à tous,
Dans le cadre de mon mémoire je dois récupérer la base de données des commentaires (anonymes qui évaluent des articles scientifiques) d'un site internet. Je suis nouveau sur Python et j'utilise urllib2 et BeatifulSoup afin donc de scrapper les commentaires que je trouve dans une balise HTML <div>. Jusqu'ici pas de problème.
Le problème est que je récupére les commentaires d'une manière pas du tout structurés comme sur le site (avec le pseudo du commentateur, la date...) mais je récupére tout les commentaires dans une seule liste, tous les commentaires avec leur métadonnées sont alignés. De plus comme certains commentaires contiennent des images je récupère des données qui ressemble à cela : "id":131952,"updatable_type":"comments","created_at":"2018-02-22 06:45:39","updated_at":"2018-02-22 06:45:39"}]},{"id":132125,"inner_id":5,"html":"<p>The correction removed published figures and replaced them with new data. Above flagged concerns were not addressed at all.\nSci-Hub allows you to see the accepted author's manuscript. I modified the corrigenda panels to insert corresponding accepted figures. You can see that Fig 1A used to be different from what was then published, and now removed and replaced by correction. <a href=\"https:\/\/pubpeer.com\/storage\/image-1519723825915.PNG\" target=\"_self\"><img"
Voilà, j'espère que j'ai plutôt bien expliqué mon problème afin que vous m'éclairiez sur la voie à suivre afin de récupérer des données que je puisse structurer ensuite dans des listes et des dictionnaires. A la fin j'aimerais obtenir un dataframe avec les commentaires et leurs métadonnées.
Merci à tous
Je vous remercie