-
Erreur 404 (urllib)
Bonjour à tous,
Je me permets de faire appel à vous car je suis bloqué dans mon code. J'ai écrit un code permettant de d'aller récupérer des informations sur un site internet grâce à urllib dan mon travail.
Pour cela, l'identification se fait via un proxy identifié via une authentification Digest ==> Cela marche nickel pour beaucoup de site.
Mais pour quelques sites cela ne marche pas : J'obtiens l'erreur 404 Not Found. Après quelques recherches, certains forums parlent de cookies, d'autre de headers.
Il faut savoir que ces sites marchent parfaitement sur mon ordi perso (Pas de proxy) : sans commandes particulières. Du coup, peut-on écarter le problème de headers ou de cookies (via urllib2.HTTPCookieProcessor)?
Qu'en pensez-vous?
Si quelqu'un peut m'éclairer, je prendrai toutes indications avec grand plaisir.
Je vous remercie d'avance pour vos retours.
-
salut,
ça ressemble pas mal à une question du même ordre posée récemment, et la réponse est en fait un peu la même; c'est difficile de diagnostiquer d'où vient le problème en soi, ça n'est d'ailleurs pas directement un problème lié à python mais plutôt une question réseau qui nécessite des connaissances autour du protocole http, la démarche la plus adaptée consiste à étudier/debugger le trafic à l'aide de Wireshark et notamment son option "Follow tcp stream"
-
Salut BufferBob,
Merci pour ta réponse. J'ai pu trouver la réponse à mes interrogations.
En effet, j'ai réussi à m'authentifier grâce à la méthode getproxies() d'urllib. L'erreur 404 n'existe que pour urllib2, tandis que pour urllib tout fonctionne. Je ne sais pas pourquoi, mais urllib semble être mieux adapté à mon code.
J'ai maintenant un autre problème qui est maintenant de performance. L'authentification avec getproxies() est soit très lente soit le proxy de mon travail me limite.
Merci encore