recherche d'information dans script html via beautifulsoup
Hello la team,
Je vais avoir besoin de vous pour deux "petits" sujets d'extractions d'information dans un script html d'une page que je souhaite scraper.
1. aller chercher une information dans "l'intitulé" d'une balise.
Pour chercher entre les balises d'un html comme suite, c'est relativement simple et ca me retourne bien "Rolex Daytona"
Citation:
<div class="text-bold text-ellipsis">
Rolex Daytona</div>
Code:
marque = j.find("div", {"class":"text-bold text-ellipsis"}).get_text()
Par contre, j'aimerais aller chercher des informations dans une balise et je n'y arrive pas
inspection html qui me pose soucis, j'aimerais aller récupérer en automatique la valeur Rolex qui se trouve après data-manufacturer :
Citation:
<div class="full-width">
<a href="/rolex/--6239--id27696090.htm" onclick="trackTeaserEvent('home.index', 'recommended-watches', {'articleId': $(this).data('article-id')});" class="article-item block-item rcard" data-article-id="27696090" data-manufacturer="Rolex">
2. Morceler des informations entre des balises span
Plusieurs balises <span> avec plusieurs informations distinctes dans une balise "a class="product-item-link""
Citation:
<a class="product-item-link" href="https://www.timeshop24.fr/ingersoll-i11 ... alina.html">
<span>Ingersoll</span>
<span>The Catalina Automatique 44mm</span>
<span>I11802</span>
</a>
Lorsque je fais une get_text dans la balise "a class="product-item-link"", j'extraie toutes les informations sans pouvoir les séparer :
Code:
marque = i.find("a", {"class":"product-item-link"}).get_text()
Ce code me donne : "IngersollThe Shelby Automatique 44mmI10901B" et j'aurais voulu pouvoir faire un code pour extraire "Ingersoll" puis "The Shelby Automatique 44mm" puis "I10901B"
Je sais pouvoir compter sur vous, encore merci.
Damien