scraping - pb dans l'enchaînement de procédures
Bonjour,
Je cherche à récupérer une information présente sur un annuaire de football, à savoir le nb de clubs par départements.
Mon traitement s'applique à autant de pages que de départements
Mon script buggue variablement à un département ou à un suivant ou à un précédent.
Je pense qu'il y a un souci dans l'enchaînement des exécutions, et que le pb est relatif au stockage dans la mémoire temporaire, qqch de ce genre..
Voici l'erreur que j'obtiens:
Code:
1 2 3 4 5 6 7 8 9 10 11
| [1] "01"
[1] 70
[1] "02"
[1] 84
[1] "03"
[1] 119
[1] "04"
[1] 9
[1] "05"
Erreur dans UseMethod("xmlNamespaceDefinitions") :
pas de méthode pour 'xmlNamespaceDefinitions' applicable pour un objet de classe "NULL" |
Une autre fois, le script pourra planter au département "14" ou autre...
Et voici mon code:
Code:
1 2 3 4 5 6 7
| for (i in deps$CODE_DEPT) {
print(i)
html = htmlParse(paste("http://www.le-footballeur.com/clubs_football-departement.php?dept=", i, sep=""), asText=FALSE)
doc <- xpathSApply(html, "//table//div[preceding-sibling::form]", xmlValue)
out[[i]] <- as.numeric(sub("^\n([0-9]+)( clubs trouvés).*$", "\\1", doc))
print(out[[i]])
} |
deps$CODE_DEPT contient les codes département: de "01" à "95"