j'ai pas bien compris les nouveaux results :aie: .
j'envoie un code qui se revele etre 3 fois plus rapide que le precedent sur ma machine ... et j'ai un score 4 fois plus pourrit ... rien compris :aie: :aie: (ptetre a cause du champs de bit et le fait que tu compile en -O3 ... m'enfin ... j'ai pas trop le temps de chercher la.)
j'obtiens plutot ça moi:
Code:
1 2 3 4 5 6 7 8 9
| ebola@gentoo ~/src $ du -h wblnks.html
713K wblnks.html
ebola@gentoo ~/src $ time ./html-parse-v2 < wblnks.html > /dev/null
real 0m0.045s
user 0m0.040s
sys 0m0.004s
et 10000 urls parsed. d'apres wc -l |
/!\ attention: je ne met pas en doute les resultats, j'essaye seulement de comprendre !
je sais pas pourquoi je rate trop d'urls (je connais rien au html ... donc forcement j'ai fait une bourde ^^). d'ailleurs si on veux bien m'expliquer ce que je rate ....
voila le fichier "de base" sur lequel je travaille pour tester la validité de mon algo:
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13
| <html>
<body>
<a href="niveau_1">1</a>
<A HREF="niveau_2">2</A>
<a href=niveau_3>3</a>
<a class="" href=niveau_4>4</A>
<a href=niveau_5 onclick="alert('<a href=bad_url_5>')">5</a>
< a href=niveau_6 >6</a>
<a hhref=bad_url_7>7</a>
<aa href=bad_url_8>8</a>
<img src=img_1></img>
</body>
</html> |
resultat:
Code:
1 2 3 4 5 6 7 8
|
niveau_1
niveau_2
niveau_3
niveau_4
niveau_5
niveau_6
img_1 |
-edit-
hmm hmm. j'ai une petite idée du pourquoi du comment mon code as un probleme pour trouver toutes les urls.
sur:
http://2007.perso.orange.fr/Dark_Ebola.c.htm
const char *refs[] =
{"IMG\0","SRC\0","HREF"
};
alors que sur:
http://www.developpez.net/forums/att...4&d=1154876086
const char *refs[] =
{"img\0","src\0","href"
};
ça peux etre une piste ... je dis ça, je dis rien :mrgreen: (en tout cas en majuscule ça parse plus rien du tout ... normal je fait un superbe tolower sur tout ce qui est entré.)