Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

XSL/XSLT/XPATH XML Discussion :

Requête dans google sheet [XPATH 2.0]


Sujet :

XSL/XSLT/XPATH XML

  1. #1
    Candidat au Club
    Homme Profil pro
    commis d'office à l'informatique
    Inscrit en
    janvier 2020
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 25
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : commis d'office à l'informatique
    Secteur : Bâtiment

    Informations forums :
    Inscription : janvier 2020
    Messages : 3
    Points : 3
    Points
    3
    Par défaut Requête dans google sheet
    Bonjour et bonne année à tous,

    Depuis quelques jours j’essaie d'amélioré un "outil" utilisé par le web-master de la société dans la quelle je travail et là je suis bloqué :/

    Je veux utilisé google sheet pour faire du "scraping". Sheet a une fonction "ImportXML()" qui permet d'importé à peu prêt ce que l'on veux du moment que l'on sais lui parlé... et visiblement moi je lui parle allemand comme un éléphant espagnol.

    Sur la page ici : https://www.google.com/search?&q=tra...Angoul%C3%AAme

    Je cherche à récupéré uniquement les url des site trouvé ( CaD : soit les liens en vert sous les balise <cite class"iUh30">, soit le lien mit dans le href des balises a )

    la fonction : =IMPORTXML(<url de la recherche google>;<la requete en Xpath).

    en utilisant =IMPORTXML(<url>;//a//@href) il me sort TOUT les liens trouvable dans la page. À noter ici que la requête //div//a//@href fait la même chose.

    pour =IMPORTXML(<url>;//div[text()]) il me sort tout les textes (normal mdr) dont ceux situé dans la balise que je cherche à visé

    ça c'est ce qui a été testé et m'a donné un résultat...

    j'ai essayé :
    //div[@class='r']/a/@href ==> contenue vide
    //div[@class='g']/a/@href ==> contenue vide
    //div/@class ==> me retourne les class
    //div[@class='TbwUpd'] ==> contenue vide
    //div[@class='r']//a//@href ==> contenue vide


    je commence à me dire que y a pas moyen des se faire ma liste :/

    une idée ?


    PS : sorry pour les fautes et n'hésitez pas à poser des question si je suis pas clair

  2. #2
    Membre expert Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    mars 2009
    Messages
    1 875
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : mars 2009
    Messages : 1 875
    Points : 3 973
    Points
    3 973
    Par défaut
    Je n'utilise pas Google Sheets, mais d'après la doc, la syntaxe serait plutôt:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    =IMPORTXML("http://lesite.com/bidule.html", "//div[@class='r']/a/@href")
    Donc avec des paramètres entre double quotes et séparés d'une virgule.
    Brachygobius xanthozonus
    Ctenobrycon Gymnocorymbus

  3. #3
    Candidat au Club
    Homme Profil pro
    commis d'office à l'informatique
    Inscrit en
    janvier 2020
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 25
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : commis d'office à l'informatique
    Secteur : Bâtiment

    Informations forums :
    Inscription : janvier 2020
    Messages : 3
    Points : 3
    Points
    3
    Par défaut
    effectivement si on utilise la fonction tel-quel il faut des paramètres entre double quotes e tséparés d'un point virgule.
    mais vu que je suis dans un tableau ma fonction ressemble à ça : =IMPORTXML(B4;$B$3) et là pas besoin des quotes

    la requête (//div[@class='r']/a/@href) ne renvoie rien :/ à croire que la fonction ne parvient pas à trouver le chemin quand il est trop "complexe"

  4. #4
    Modérateur

    Profil pro
    Inscrit en
    septembre 2004
    Messages
    11 838
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : septembre 2004
    Messages : 11 838
    Points : 20 080
    Points
    20 080
    Par défaut
    En même temps c'est une page de résultats de recherche de Google, que tu essaies d'importer, là.

    Quand on veut faire des recherches Google automatiques au lieu de le faire manuellement dans son navigateur, Google vend des droits d'accès pour faire ça.

    Normal donc qu'ils s'arrangent pour que ça marche pas quand on essaie de le faire gratis.

    Cela dit je comprends assez mal le mécanisme qui fait que tu as certains résultats. Normalement tu ne devrais rien avoir du tout, vu que la page en question ne fournit aucune information balisée en HTML/XML, mais uniquement du JavaScript ultra-obfusqué.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  5. #5
    Membre expert Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    mars 2009
    Messages
    1 875
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : mars 2009
    Messages : 1 875
    Points : 3 973
    Points
    3 973
    Par défaut
    Normalement tu ne devrais rien avoir du tout, vu que la page en question ne fournit aucune information balisée en HTML/XML, mais uniquement du JavaScript ultra-obfusqué.
    Même pas, les balises sont bien présentes, mais quasi invisibles à l'œil nu car tout est en plein milieu d'une ligne super longue (ligne 128 si je ne me trompe pas), pour la trouver dans les trois tonnes de JavaScript il suffit de faire une recherche texte sur un des résultats. Le code html n'est pas généré dynamiquement en JavaScript car j'ai aussi testé le chargement de la page avec NoScript activé et on obtient la même structure.
    Brachygobius xanthozonus
    Ctenobrycon Gymnocorymbus

  6. #6
    Candidat au Club
    Homme Profil pro
    commis d'office à l'informatique
    Inscrit en
    janvier 2020
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 25
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : commis d'office à l'informatique
    Secteur : Bâtiment

    Informations forums :
    Inscription : janvier 2020
    Messages : 3
    Points : 3
    Points
    3
    Par défaut
    Après plusieurs essaies de tout et n’importe-quoi j'ai pris le temps de réfléchir un peut...

    Faire cela à pour but de vérifié le placement du site dans les recherche google fait pas les prospects sur leur ordinateur.
    Les gens sont TRES TREs TRES souvant sur du https et non du http. CE qui fait que bah ce ue je fait me donne une mauvaise information car rien que la différence de protocole donne des placements différents...

    Donc stop à la réflexion dur google sheet et son importXML.

    J'ai trouvé un autre moyen de faire en passent par autre chose. Merci de votre aide et bonne journée.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [Google Sheets] Déverser VBA dans Google Sheet
    Par 2015-1158 dans le forum APIs Google
    Réponses: 0
    Dernier message: 24/10/2019, 17h08
  2. Problème de cumul dans google sheet
    Par tjplushaut dans le forum Excel
    Réponses: 0
    Dernier message: 26/08/2018, 19h19
  3. Réponses: 5
    Dernier message: 12/11/2017, 20h13
  4. Réponses: 0
    Dernier message: 28/10/2017, 19h09
  5. Réponses: 0
    Dernier message: 12/08/2015, 20h26

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo