Bonjour,
Je dois réaliser un programme très complexe en perl alors que je n'ai pratiquement aucune connaissance en perl.
En gros je dois developper un outil d'audit de site web. cet outil va Verifier que des informations sensibles ne sont pas divulgué sur le site
de maniere automatique et s'assurer qu'aucun fichiers non autorisés ou illegaux (mp3, divX) ne sont accessible aux visiteurs. Pour ce
faire le logiciel parcours le site web et recherche des expressions clé dans les liens et le contenu des pages. Par exemple la liste des adresse emails disponiblent sur le site, ou une liste de mots cles.
De façon detaillée,
le programme va d'abord parcourir le site et recuperer les pages et liens du site soit :
- Recuperer le nom du site passer en argument.
- Faire la fonction de recuperation d'une page
- Faire la fonction d'extraction des liens d'une page.
- Implementer la liste des pages à recuperer.
- Marquer les pages recuperer pour ne pas boucler.
(Pour cela j'ai vuqu'on pouvait utiliser des methodes tel que la librairie LWP de perl ou HTML Parser, mais je n'arrive pas à le programmer).
Ensuite il faut visualiser le plan du site en le représentant sous forme de graphe (V;E) ou V est l'ensemble des noeuds qui
represente les pages web et E l'ensemble des arcs dirigés qui vont d'une page à une autre.
Pour cela la fonction graphviz[1] devrait faire l'affaire, d'après ce que j'ai lu.
Il faut donc d'abord choisir le format de representation en fonction de la methode de rendu choisi puis :
- Generer la list des noeud a partir des pages recuperer.
- Generer les arc diriges a partir des hyperliens d'une page a l'autre.
- Generer la representation graphique
Enfin la derniere partie consiste à analyser le contenu des pages du site et de detecté celle présentant un problème
Pour cela, on peut utiliser ces différents algo
- Pattern-matching simple
- Regexp pattern matching
- Utilisation de distances
- Bayesian network
- SVM
- Space vectore search
Il faut donc :
- Implementer l'algorithme choisie
- Ajouter le fichier de configuration
- Utiliser l'algorithme pour analyser les pages
- Mettre a jour la representation graphique pour quelle affiche les pages dangereuse en rouge et les pages suspicieuses en orange ainsi que la raison derriere la detection.
Voila si quelqu'un peut m'aider franchement, c'est respect parce que voila le sujet.
D'un autre coté ça peut etre un sujet intéressant pour les fans de programmation.
Merci d'avance de votre aide.
Perlo
Partager