Bonjour à tous.
Je fait appel à vous car je n'arrive pas à résoudre une erreur sur un code.
Je précise que je suis novice en programmation.
Aujourd'hui je cherche à extraire des données d'un site web.
Je me suis tourné ver le langage R car pour un novice comme moi cela ma paru plus simple car interprété.
J'ai un fichier 71.csv qui contient une liste d'adresse sur lesquelles j'ai 2 données à prendre : Une donnée et un lien.
Fichier 71.csv :
Je code : (à l'aide d'un tuto http://francoisguillem.fr/2011/05/ex...s-structurees/)
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10 http://www.bilansgratuits.fr/recherche/entreprise?rcs=48777248500024&rue=&depet=&siegeUniquement=False&chercher= http://www.bilansgratuits.fr/recherche/entreprise?rcs=31617316000011&rue=&depet=&siegeUniquement=False&chercher= http://www.bilansgratuits.fr/recherche/entreprise?rcs=50170887900025&rue=&depet=&siegeUniquement=False&chercher= http://www.bilansgratuits.fr/recherche/entreprise?rcs=42203923000020&rue=&depet=&siegeUniquement=False&chercher= http://www.bilansgratuits.fr/recherche/entreprise?rcs=52290266700016&rue=&depet=&siegeUniquement=False&chercher= http://www.bilansgratuits.fr/recherche/entreprise?rcs=39500162100022&rue=&depet=&siegeUniquement=False&chercher= http://www.bilansgratuits.fr/recherche/entreprise?rcs=78644750800098&rue=&depet=&siegeUniquement=False&chercher= http://www.bilansgratuits.fr/recherche/entreprise?rcs=50535276500026&rue=&depet=&siegeUniquement=False&chercher= http://www.bilansgratuits.fr/recherche/entreprise?rcs=44346802000021&rue=&depet=&siegeUniquement=False&chercher= http://www.bilansgratuits.fr/recherche/entreprise?rcs=51406683600016&rue=&depet=&siegeUniquement=False&chercher=
et j'ai le message d’erreur :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23 library(XML) list71 = read.csv("71.csv") extracteur = function(url) { doc = htmlParse(url) D1 = xpathSApply(doc,"/html/body/div/div/div[2]/div/div[4]/div[3]/table/tbody/tr/td[6]",xmlValue) D2 = xpathSApply(doc,"/html/body/div/div/div[2]/div/div[4]/div[3]/table/tbody/tr/td[2]/a",xmlGetAttr,name = "href") return(data.frame(D1, D2)) } data = NULL error = NULL for(i in 1:length(list71)) { tmp = NULL try(tmp = extracteur(list71[i])) if(is.null(tmp)) { error = c(error, i) } else { data = cbind(data, tmp) } }
Je ne comprend pas ce que cela signifie.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 Erreur dans try(tmp = extracteur(list71[i])) : argument inutilisé (tmp = extracteur(list71[i]))
J'ai essayé la méthode d'un autre post du forum (http://www.developpez.net/forums/d13...on-xpathsapply) :
Mais cela ne fonctionne pas non plus :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4 for (i in 1:length(list71)) { D[i]<- xpathSApply(htmlParse(list71[i]),"/html/body/div/div/div[2]/div/div[4]/div[3]/table/tbody/tr/td[6]",xmlValue) E[i]<- xpathSApply(htmlParse(list71[i]),"/html/body/div/div/div[2]/div/div[4]/div[3]/table/tbody/tr/td[2]/a",xmlGetAttr,name = "href") }
Je ne comprend pas, avec un lien précis, la première étape d'extraction fonctionne.
Code : Sélectionner tout - Visualiser dans une fenêtre à part Erreur dans file.exists(file) : argument 'file' incorrect
Si quelqu’un peut m'aider, je l'en remercie d'avance.
Partager