BeautifulSoup request.get html.parser

**Thunder13** · 07/12/2022, 11h45

Bonjour à tous,

Je viens de faire un script qui me permet de récupérer toutes les url partiel se trouvant sur un site puis de les recompilé avec ce qu'il manque pour avoir le lien au complet.
Exemple, lorsque je lance mon script sur la page concernée, le résultat me retourne ceci :
catalogue/category/livre_1/index.html"

La suite de mon script me permet de combler ce qu'il manque > Résultat = {re.compile('https://mon_site.com/catalogue/category/livre_1/index.html')}

J'aimerais savoir si c'est possible de récupérer juste l'url se trouvant dans mon résultat "https://mon_site.com/catalogue/category/livre_1/index.html" avec un fonction ou autre.

J'ai fait beaucoup de recherche à ce sujet et je ne trouve pas de solution, pouvez vous m'aider SVP?

Merci et au plaisir de vous lire

**Sve@r** · 07/12/2022, 12h13

Bonjour

Envoyé par Thunder13

Je viens de faire un script qui me permet de récupérer...J'aimerais savoir si c'est possible de récupérer juste l'url se trouvant dans mon résultat "https://mon_site.com/catalogue/category/livre_1/index.html" avec un fonction ou autre.

Rien compris. Tu as un truc qui te retourne l'URL complète et tu veux la récupérer? Mais puisque tu l'as déjà???!!!???

Envoyé par Thunder13

J'ai fait beaucoup de recherche à ce sujet et je ne trouve pas de solution

Un peu normal, internet ne contient que ce qui est écrit par d'autres et donc personne ne va écrire des trucs aussi triviaux que "comment récupérer dans une variable2 ce que l'on a déjà dans une variable1"...

**Thunder13** · 07/12/2022, 12h32

Bonjour et désolé si je me suis pas bien fait comprendre,

Alors j'ai pas essayé mais je suppose que si j'importe le résultat dans un fichier csv, je risque de retrouver cette info {re.compile('https://mon_site.com/catalogue/category/livre_1, alors que moi je souhaite juste ça : https://mon_site.com/catalogue/category/livre_1

Est ce possible d'extraire juste le lien qui se trouve dans mon résultat ?

**Sve@r** · 07/12/2022, 13h15

Envoyé par Thunder13

Bonjour et désolé si je me suis pas bien fait comprendre,

Pas grave, de la discussion jaillira la lumière. Mais quelque part je sens se profiler ici un problème XY...

Envoyé par Thunder13

Alors j'ai pas essayé...

Très mauvais départ. D'abord on essaye, ensuite on regarde ce qui se passe...

Envoyé par Thunder13

mais je suppose que si j'importe le résultat dans un fichier csv, je risque de retrouver cette info {re.compile('https://mon_site.com/catalogue/category/livre_1, alors que moi je souhaite juste ça : https://mon_site.com/catalogue/category/livre_1

Bah, comme papajoker je pense que tu n'as pas bien pigé les regex. Mais même si tu obtenais la string "{re.compile('https://mon_site.com/catalogue/category/livre_1'" ce n'est pas bien compliqué d'en extraire ce qui commence par "http". Suffit d'un petit str.find("http") mixé ensuite avec un slice...

Envoyé par Thunder13

Est ce possible d'extraire juste le lien qui se trouve dans mon résultat ?

Commence par regarder ce qu'est ton résultat. Tu fais print(mon_resultat, type(mon_resultat)) et ensuite tu analyses...

**Thunder13** · 07/12/2022, 15h14

Voici mon code :
Nom : mon_code1.png
Affichages : 534
Taille : 119,5 Ko

Je suis allé vérifier dans mon fichier csv et cette ligne est bien présente : {re.compile('https://mon_site.com/catalogue/category/livre_1/index.html')}.

Concernant cette info "Suffit d'un petit str.find("http") mixé ensuite avec un slice..." Je suis pas un expert

et c'est pour cela que je viens vous demander de l'aide mais je suis preneur, comment je pourrais m'y prendre pour mettre cela en place (str.find(http") et le (slice ) ?

Vraiment désolé de ne pas réussir à me faire comprendre, j'espère qu'avec le code en vu ça ira mieux

**papajoker** · 07/12/2022, 15h27

Non merci pour cette copie écran ! c'est si simple de copier le texte ici (encadré dans le balise "#(code)")

Envoyé par Thunder13

Je suis pas un expert

Ici, tout est faux (x erreurs à chaque ligne depuis 33), en fait tu n'as aucune notion python, un minimum est de lire un tuto avant de coder
code illogique, indentation aléatoire…,

mais, tu as bien ce problème XY : c'est en fait ton "résultat" qui n'a aucun sens

**Sve@r** · 07/12/2022, 16h06

Envoyé par Thunder13

Je suis allé vérifier dans mon fichier csv et cette ligne est bien présente : {re.compile('https://mon_site.com/catalogue/category/livre_1/index.html')}.

Compris. Mais comme le dit papajoker, ici on poste ses codes. Ainsi on peut les récupérer pour les tester.

Bon, voici mon analyse:
En ligne 33 il est écrit resultat_url1={re.compile(un_truc)}. La syntaxe {...} exprime la création d'un ensemble (une espèce de liste d'éléments tous distincts). Cet ensemble récupère le résultat de re.compile(...) qui est un objet re.Pattern. Déjà là, n'importe qui, même un ultra débutant, pour peu qu'il réfléchisse un minimum, devrait naturellement en arriver à se demander si un ensemble de "un truc" est vraiment pertinent

Ensuite resultat_url2 récupère une liste contenant la variable "resultat_url1". Même topo, une créer une liste de "un truc", ce truc étant lui-même un ensemble de "un truc"...

Je sais pas moi, si on te disait "voici une liste de commissions" et que la liste contienne juste une seule ligne "acheter le pain", je pense que tu répondrais "ok pas besoin de liste, suffit de me dire d'acheter le pain" non? Et si la liste était elle-même dans une boite et qu'il faille ouvrir la boite pour accéder à la liste qui dit juste d'acheter le pain, tu ne penserais pas que celui qui a fait ça est bon à enfermer???

Ensuite en ligne 41 tu inities une boucle sur la liste contenue dans "resultat_url2" (donc une boucle pour aller traiter un seul élément

) et tu écris dans le fichier l'élément traité, donc l'ensemble créé en ligne 33, cet ensemble étant écrit par Python comme il le peut, c'est à dire sous la notation "ensemble".
Bref, voici un résumé succinct de ce que tu écris dans ton fichier (sans toutes ces variables intermédiaires qui me font penser à l'administration française)

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
>>> a={re.compile("http://truc")}
>>> type(a)
<class 'set'>
>>> str(a)
"{re.compile('http://truc')}"
>>>

A partir de là je suis entièrement d'accord avec toi: ton fichier contient bien la string "{re.compile('http://truc')}" et pour en extraire juste la string "http://truc" il faut faire un traitement sur la string en question. Le traitement n'est franchement pas compliqué et n'importe qui ici te donnera 15 solutions différentes pour ça toutes aussi efficaces les unes que les autres.
Ce que je dis en revanche, c'est que pour en être arrivé à avoir un fichier contenant non pas le résultat d'une action mais le nom de l'action elle-même, c'est que tu as sacrément merdé dès le départ et donc c'est sur ce départ qu'il faudrait travailler. Parce que là, tu pars droit dans le mur (tu tentes de soigner le symptôme, pas la cause). C'est comme si tu créais une fonction somme(x, y) qui renvoie la somme x+y (def somme(x, y): return x+y) mais que tu écrivais dans le fichier "somme(2, 3)" au lieu d'y écrire directement "5". Et ensuite tu viens ici demander comment transformer la chaine "somme(2, 3)" en valeur "5".
Déjà deux questions immédiates

pourquoi utiliser re.compile() (dans quel but cette instruction)
pourquoi mettre ça dans un ensemble à un seul élément

???

Envoyé par Thunder13

Vraiment désolé de ne pas réussir à me faire comprendre, j'espère qu'avec le code en vu ça ira mieux

Ah oui, là on a tous pigé de quoi il s'agit.

**papajoker** · 07/12/2022, 12h35

bonjour

Envoyé par Thunder13

Bonjour à tous,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Résultat = {re.compile('https://mon_site.com/catalogue/category/livre_1/index.html')}

J'aimerais savoir si c'est possible de récupérer juste l'url se trouvant dans mon résultat "https://mon_site.com/catalogue/category/livre_1/index.html" avec un fonction ou autre.

De même rien compris à la demande
resultat = {re.compile()} c'est quoi ce code "bidon", il est normal qu'avec ce code tu ne puisses rien trouver dans "resultat"

Je suppose que tu n'as rien compris au regex ? lire la doc est un plus...
De plus tu parles de BeautifulSoup dans le titre et c'est pour au final faire un regex sur le code de la page ? pas compris

EDIT

Envoyé par Thunder13

Est ce possible d'extraire juste le lien qui se trouve dans mon résultat ?

Tu ne nous dit pas ce qu'est "resultat", extraire une chaine d'un objet non connu, je ne sais pas faire

si resultat est uniquement une simple chaine type "{re.compile('https://mon_site.com/catalogue/category/livre_1/index.html')}" ?
alors , oui, tu peux utiliser un regex pour l'extraire, ou, si toujours de ce format ... un split(simple_quote)[1] peut aussi faire l'affaire
Mais, puisque tu nous dis que c'est toi qui a créer cette chaine, c'est que tu avais déjà l'url, alors pourquoi l'extraire de la chaine plutôt que la récupérer directement en amont ???

BeautifulSoup request.get html.parser

Python

Vue hybride

Discussions similaires

Partager

Partager