IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Réduction d'une liste scrapée


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2019
    Messages
    15
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 26
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2019
    Messages : 15
    Par défaut Réduction d'une liste scrapée
    Bonjour,

    Avec BeautifulSoup, j'ai scrapé le contenu d'un site. La soupe que j'obtiens est très désordonnée, et j'aimerai l'ordonner.
    Ainsi, j'aimerai conserver uniquement les caractères contenus entre deux "bornes", la première étant la chaine de caractère 'date', et la seconde la chaine de caractère 'domains'.
    Sauriez-vous m'indiquer une méthode me permettant d'y arriver? J'ai essayé avec soup.find, .split, mais rien n'y fait...

    Merci !

    PS : ces deux bornes sont bien la première occurence de ces deux chaines de caractères 'date' et 'domains'

  2. #2
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 832
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 832
    Billets dans le blog
    1
    Par défaut
    Bonjour
    Citation Envoyé par Antdec Voir le message
    J'ai essayé avec soup.find, .split, mais rien n'y fait...
    Bah, si on n'y arrive pas avec les outils de la lib, ou si la lib n'a pas d'outil adéquat, rien n'interdit de repartir sur les bases de Python...

    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    def borne(data, debut, fin):
    	d=data.find(debut)
    	if d == -1: return None
    	d+=len(debut)
    	f=data[d:].find(fin)
    	if f == -1: return None
    	return data[d:d+f]
    # borne()
     
    data="xxxxdate[--yyzzzabcdefdomghijk--]domainsopqrst"
    print(borne(data, "date", "domains"))
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  3. #3
    Membre averti
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2019
    Messages
    15
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 26
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2019
    Messages : 15
    Par défaut
    Merci Sve@r pour ta réponse,
    C'est ce que je cherchais !
    J'ai une autre question concernant le site que je souhaite scrapper : les informations que je recherche n'apparaissent que dès lors que je clique sur un bouton, et sont ensuite accessibles sous un url qui ne semble pas être accessible autrement (non requêtable) : monsite.com/4276.
    Les données contenues dans cet objet n'apparaissent pas dans ma soup :/
    C'est pas forcément très clair, mais aurais-tu une solution à mon problème ?
    Je ne peux mettre de screen pour des raisons évidentes, mais n'hésite pas si tu en veux en privé!
    Merci beaucoup !

    Antdec

  4. #4
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 832
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 832
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par Antdec Voir le message
    J'ai une autre question concernant le site que je souhaite scrapper : les informations que je recherche n'apparaissent que dès lors que je clique sur un bouton, et sont ensuite accessibles sous un url qui ne semble pas être accessible autrement (non requêtable) : monsite.com/4276.
    Je connais un site qui a un comportement ressemblant à ce que tu décris => https://m.ter.sncf.com/hauts-de-france. Tu remplis les champs et quand tu cliques sur "rechercher" ça part sur une URL avec plein de chiffres et lettres (je pense à un b64encode).
    Toutefois sur le site que je te donne en exemple, l'URL générée par le bouton est accessible de façon directe. Si par exemple je la copie et la colle plus tard, ça marche. T'as tenté de faire pareil???
    En plus c'est bizarre que tu puisses pas le récupérer via BF. Un site web répond à une requête. Que la requête vienne d'un navigateur, d'un java ou d'un programme Python ne change rien, le site lui il ne voit que la requête...
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  5. #5
    Membre averti
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2019
    Messages
    15
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 26
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2019
    Messages : 15
    Par défaut
    Citation Envoyé par Sve@r Voir le message
    l'URL générée par le bouton est accessible de façon directe. Si par exemple je la copie et la colle plus tard, ça marche. T'as tenté de faire pareil???
    J'ai tenté de faire pareil, mais je tombe sur une erreur : ca me redirige vers une error page 403.
    Une question de permissions alors ?

  6. #6
    Expert confirmé
    Avatar de jurassic pork
    Homme Profil pro
    Bidouilleur
    Inscrit en
    Décembre 2008
    Messages
    4 214
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Bidouilleur
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2008
    Messages : 4 214
    Par défaut
    hello,
    Y-a-t-il des scripts JS dans ta page ? Car attention BeautifulSoup ne permet pas de récupérer des pages Web dynamiques, c'est à dire que si les pages contiennent du code javascript, le package Requests n’exécute pas ce code JS et le donne simplement comme source de page. La plupart du temps ceux sont les navigateurs qui exécutent ce code JS. Le module python selenium permet de récupérer ce genre de pages, car il pilote un navigateur.
    Ami calmant, J.P

Discussions similaires

  1. Réponses: 6
    Dernier message: 18/07/2018, 09h27
  2. Faire une liste de device??
    Par jackjack dans le forum DirectX
    Réponses: 1
    Dernier message: 23/05/2003, 14h43
  3. Réponses: 4
    Dernier message: 24/04/2003, 22h28
  4. Générer une liste
    Par pfredin dans le forum Langage SQL
    Réponses: 6
    Dernier message: 02/04/2003, 15h30
  5. tri d'une liste
    Par Guigui_ dans le forum Langage
    Réponses: 4
    Dernier message: 09/01/2003, 18h08

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo