Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

XSL/XSLT/XPATH XML Discussion :

Requête dans google sheet


Sujet :

XSL/XSLT/XPATH XML

  1. #1
    Candidat au Club
    Requête dans google sheet
    Bonjour et bonne année à tous,

    Depuis quelques jours j’essaie d'amélioré un "outil" utilisé par le web-master de la société dans la quelle je travail et là je suis bloqué :/

    Je veux utilisé google sheet pour faire du "scraping". Sheet a une fonction "ImportXML()" qui permet d'importé à peu prêt ce que l'on veux du moment que l'on sais lui parlé... et visiblement moi je lui parle allemand comme un éléphant espagnol.

    Sur la page ici : https://www.google.com/search?&q...Angoul%C3%AAme

    Je cherche à récupéré uniquement les url des site trouvé ( CaD : soit les liens en vert sous les balise <cite class"iUh30">, soit le lien mit dans le href des balises a )

    la fonction : =IMPORTXML(<url de la recherche google>;<la requete en Xpath).

    en utilisant =IMPORTXML(<url>;//a//@href) il me sort TOUT les liens trouvable dans la page. À noter ici que la requête //div//a//@href fait la même chose.

    pour =IMPORTXML(<url>;//div[text()]) il me sort tout les textes (normal mdr) dont ceux situé dans la balise que je cherche à visé

    ça c'est ce qui a été testé et m'a donné un résultat...

    j'ai essayé :
    //div[@class='r']/a/@href ==> contenue vide
    //div[@class='g']/a/@href ==> contenue vide
    //div/@class ==> me retourne les class
    //div[@class='TbwUpd'] ==> contenue vide
    //div[@class='r']//a//@href ==> contenue vide


    je commence à me dire que y a pas moyen des se faire ma liste :/

    une idée ?


    PS : sorry pour les fautes et n'hésitez pas à poser des question si je suis pas clair

  2. #2
    Expert confirmé
    Je n'utilise pas Google Sheets, mais d'après la doc, la syntaxe serait plutôt:
    Code :Sélectionner tout -Visualiser dans une fenêtre à part
    =IMPORTXML("http://lesite.com/bidule.html", "//div[@class='r']/a/@href")


    Donc avec des paramètres entre double quotes et séparés d'une virgule.
    Brachygobius xanthozonus
    Ctenobrycon Gymnocorymbus

  3. #3
    Candidat au Club
    effectivement si on utilise la fonction tel-quel il faut des paramètres entre double quotes e tséparés d'un point virgule.
    mais vu que je suis dans un tableau ma fonction ressemble à ça : =IMPORTXML(B4;$B$3) et là pas besoin des quotes

    la requête (//div[@class='r']/a/@href) ne renvoie rien :/ à croire que la fonction ne parvient pas à trouver le chemin quand il est trop "complexe"

  4. #4
    Modérateur

    En même temps c'est une page de résultats de recherche de Google, que tu essaies d'importer, là.

    Quand on veut faire des recherches Google automatiques au lieu de le faire manuellement dans son navigateur, Google vend des droits d'accès pour faire ça.

    Normal donc qu'ils s'arrangent pour que ça marche pas quand on essaie de le faire gratis.

    Cela dit je comprends assez mal le mécanisme qui fait que tu as certains résultats. Normalement tu ne devrais rien avoir du tout, vu que la page en question ne fournit aucune information balisée en HTML/XML, mais uniquement du JavaScript ultra-obfusqué.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  5. #5
    Expert confirmé
    Normalement tu ne devrais rien avoir du tout, vu que la page en question ne fournit aucune information balisée en HTML/XML, mais uniquement du JavaScript ultra-obfusqué.
    Même pas, les balises sont bien présentes, mais quasi invisibles à l'œil nu car tout est en plein milieu d'une ligne super longue (ligne 128 si je ne me trompe pas), pour la trouver dans les trois tonnes de JavaScript il suffit de faire une recherche texte sur un des résultats. Le code html n'est pas généré dynamiquement en JavaScript car j'ai aussi testé le chargement de la page avec NoScript activé et on obtient la même structure.
    Brachygobius xanthozonus
    Ctenobrycon Gymnocorymbus

  6. #6
    Candidat au Club
    Après plusieurs essaies de tout et n’importe-quoi j'ai pris le temps de réfléchir un peut...

    Faire cela à pour but de vérifié le placement du site dans les recherche google fait pas les prospects sur leur ordinateur.
    Les gens sont TRES TREs TRES souvant sur du https et non du http. CE qui fait que bah ce ue je fait me donne une mauvaise information car rien que la différence de protocole donne des placements différents...

    Donc stop à la réflexion dur google sheet et son importXML.

    J'ai trouvé un autre moyen de faire en passent par autre chose. Merci de votre aide et bonne journée.

###raw>template_hook.ano_emploi###