-
dist dossier/ winapi
Bonjour,
Question peut-être un peu bête mais je me demande si il y a une manière de parser le code renvoyer par un "dist directory" https://stackoverflow.com/questions/...ource-projects
C'est un projet qui contient une liste de fichier executable bien ranger etc a première vu de la trame wireshark ça a l'air que du html
voila quel serait la meilleur façon de parser tout sa ? car la j'ai l'impression que je vais faire un travail de cochon lol
exemple : https://nodejs.org/dist/v0.8.17/
je travail avec l'api windows j'aimerais si possible pas de librairie a part
merci !!
-
Tu veux parser un dossier ou une page HTML ???
-
une page HTML, c'est ce qu'a l'air de renvoyer de répertoire dist ce qui me parait bizzare j'aurais imaginer qu'il renvoie un autre format de données mais en voyant les trames c'est du HTML...
-
Si tu as un peu de temps Google a pensé à toi :mrgreen: :mrgreen: Gumbo (<- lien github)
Je dis un peu de temps parce que 1) c'est une version béta (du moins il me semble) 2) la documentation c'est 1/4 de la moitié d'1 confetti (:mouarf: ou :aie:)
-
Oui un serveur web peut retourner le contenu d'un dossier de cette façon.
Cela dit si tu ne sais pas comment t'y prendre en C++, pourquoi choisir le C++ ?
Rien que pour récupérer le contenu de la page, tu vas galérer. Et je parle même pas d'utiliser un parser XML derrière pour ça (le format est plutôt trivial et assez fixe, autant se dispenser d'une lib plus complexe).
En python c'est l'affaire de quelques lignes.
-
Merci pour Gumbo mais comme indiquer dans le titre => Windows API, gumbo vas m'ajouter des dépendences en plus => taille plus grande pour l'exe
je fait un projet en c++, donc voilà c'est comme ça
-
Sinon, il faut coder un algo "PrettyPrinter" (*) basé sur les règles lexicales et grammaticales du HTML5 que tu trouves ici en mode texte : HTML 5.1 2nd Edition
Des outils comme Bison/ YACC, ANTLR peuvent t'aider.
Je tiens à te signaler que même en version bourrin :aie: :aie:, un tel algo est assez complexe parce que la syntaxe balise HTML/ XML c'est quand même de la m$rd$ avec tous ces "<", ">" sans parler du fait que 1) les balises peuvent être auto-fermantes et que 2) certaines balises fermantes peut être oubliées ("<hr>")
* -> C'est un algo glouton qui mange caractère par caractère et qui essaye de transformer le texte en termes lexicaux.
Et ensuite, on doit vérifier que la grammaire est respectée.