IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

VB.NET Discussion :

Analyser le texte d'une page web


Sujet :

VB.NET

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé
    Homme Profil pro
    Étudiant
    Inscrit en
    Septembre 2011
    Messages
    412
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Septembre 2011
    Messages : 412
    Par défaut Analyser le texte d'une page web
    Bonjour,
    J'essaye depuis quelques mois de développer un contrôle parental, je bloque cependant sur une fonction que j'aimerais bien arriver à faire, l'analyse du texte sur la page où se trouve l'utilisateur. J'ai réussi à récupérer le code source de la page, ce qui me permet de trouver le texte qui s'y trouve. Cependant l'analyse des mots présents dans cette page peut être faussée par la présence des balises HTML ... J'ai donc pensé à supprimer toutes les balises HTML que récupère mon programme afin d'extraire uniquement le texte. Cette solution me semble correcte.
    Mais c'est ici que commence le problème, en effet la récupération du code source est simple car dans mon programme, je défini telle ou telle adresse, il faudrait que l'utilisateur utiliser un navigateur que j'ai fais moi, mais je ne peux pas imposer une telle contrainte, donc peut-on récupérer les URL's des autres navigateurs ou récupérer les URL's (Ou IP) qui transitent sur l'ordinateur local ?
    Pensez vous que c'est une bonne solution ou en avez vous une meilleure ? A moins de créer un add-on pour chaque navigateur ...
    Merci.

  2. #2
    Membre actif Avatar de Ethan 0x21
    Homme Profil pro
    Administrateur systèmes et réseaux
    Inscrit en
    Août 2006
    Messages
    120
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Administrateur systèmes et réseaux

    Informations forums :
    Inscription : Août 2006
    Messages : 120
    Par défaut
    Bonjour,


    La solution la plus simple serait de creer uniquement un programme mettant à jour le fichier c:\windows\system32\drivers\hosts, avec une liste de site que votre programme aurait identifié comme interdite, aprés une recherche automatique, ainsi il redirigerait les accés a ces adresses sur l'adresse de loopback (127.0.0.1).

    Aussi non vous pouvez installer un driver de net filtering tiers, offrant une API permettant de modifier la pile TCP/IP avant les programmes applicatifs que sont les navigateurs.

    Cdt

  3. #3
    Rédacteur/Modérateur


    Homme Profil pro
    Développeur .NET
    Inscrit en
    Février 2004
    Messages
    19 875
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2004
    Messages : 19 875
    Par défaut
    Pour la lecture du texte, utilise une librairie comme HTML Agility Pack (voir tuto).

    Pour la 2e partie, je sais pas trop... tu pourrais sans doute t'enregistrer comme proxy du système, comme le fait Fiddler, mais je suis pas sûr que tu puisses empêcher l'utilisateur de changer le proxy manuellement.

  4. #4
    Modérateur
    Avatar de DotNetMatt
    Homme Profil pro
    CTO
    Inscrit en
    Février 2010
    Messages
    3 611
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : CTO
    Secteur : Finance

    Informations forums :
    Inscription : Février 2010
    Messages : 3 611
    Billets dans le blog
    3
    Par défaut
    Citation Envoyé par tomlev Voir le message
    Pour la 2e partie, je sais pas trop... tu pourrais sans doute t'enregistrer comme proxy du système, comme le fait Fiddler, mais je suis pas sûr que tu puisses empêcher l'utilisateur de changer le proxy manuellement.
    On peut peut-être empêcher l'utilisateur de modifier le proxy en appliquant une LGPO (Local Group Policy Object), qui est le pendant des GPO pour les Workgroups. A tester...
    Less Is More
    Pensez à utiliser les boutons , et les balises code
    Desole pour l'absence d'accents, clavier US oblige
    Celui qui pense qu'un professionnel coute cher n'a aucune idee de ce que peut lui couter un incompetent.

  5. #5
    Membre éclairé
    Homme Profil pro
    Étudiant
    Inscrit en
    Septembre 2011
    Messages
    412
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Septembre 2011
    Messages : 412
    Par défaut
    C'est bon j'ai réussi à utiliser l'API de Fiddler (J'utilisais mal Intellisense et le double "Tab"), je suis satisfait du résultat ! Cependant j'ai du développer en C# et comme je dois utiliser des Webbrowser, et quelque bidouillage pour mettre en correspondance mon programme principal qui lui est en VB.NET, j'ai un peu du mal mais avec la motivation et en tonnant, pour l'instant ça va.
    Je mettrai mon code final ainsi que le sujet résolu dès que j'ai terminé.

  6. #6
    Rédacteur/Modérateur


    Homme Profil pro
    Développeur .NET
    Inscrit en
    Février 2004
    Messages
    19 875
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2004
    Messages : 19 875
    Par défaut
    Citation Envoyé par CLeBeR Voir le message
    Cependant j'ai du développer en C#
    Pourquoi ça ? Si l'API est utilisable en C#, elle l'est aussi en VB.NET...

  7. #7
    Membre éclairé
    Homme Profil pro
    Étudiant
    Inscrit en
    Septembre 2011
    Messages
    412
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Septembre 2011
    Messages : 412
    Par défaut
    Bonjour Ethan 0x21,
    mon programme bloque déjà les sites indésirables via le hosts, ce que je souhaite ajouter c'est une analyse des textes présents sur la page que l'utilisateur est en train de consulter. Une filtre me semble une bonne solution mais cela m'a l'air très complexe pour mon niveau.

    Bonjour tomlev,
    effectivement sur un autre forum on m'a conseillé l'article de Developpez sur HTML Agility Pack.
    On m'a également conseillé de m'enregistrer comme proxy mais je ne sais pas trop comment procéder, en plus de créer le proxy il faut le configurer de façon à ce qu'il filtre le bon et le mauvais. Tu parles de Fiddler qui analyse toutes les connexions entrantes et sortantes, hier parmi mes nombreuses recherches je suis tombé sur son API dont je ne connaissais absolument pas l'existence, j'ai ensuite cherché comment l'utiliser et je suis tombé sur une vidéo où le programmeur arrive dans une listbox à avoir toutes les connexions ! C'est exactement ce qu'il me faut mais je n'arrive pas à l'utiliser car c'est du C# et le code qu'écrit le programmeur ne fonctionne pas.
    J'espère que tu pourra m'aider, voici l'API : http://fiddler2.com/fiddlercore
    ainsi que la vidéo : https://www.youtube.com/watch?v=-ZCsuJtJc_o
    Merci.

  8. #8
    Rédacteur/Modérateur


    Homme Profil pro
    Développeur .NET
    Inscrit en
    Février 2004
    Messages
    19 875
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2004
    Messages : 19 875
    Par défaut
    Bah j'ai jamais utilisé FiddlerCore, donc j'en sais pas plus que toi. Il faut explorer l'API, tatonner un peu...
    Le fait que la vidéo que tu as trouvé soit en C# ne devrait pas poser de problème, c'est facile à traduire en VB (http://www.developerfusion.com/tools.../csharp-to-vb/)

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. présentation de texte dans une page web
    Par marsew dans le forum Balisage (X)HTML et validation W3C
    Réponses: 1
    Dernier message: 31/03/2010, 19h07
  2. Récupérer seulement le texte d'une page Web
    Par amelia dans le forum Développement Web en Java
    Réponses: 1
    Dernier message: 20/02/2010, 23h13
  3. Récupérer le texte d'une page web
    Par claustro dans le forum Langage
    Réponses: 2
    Dernier message: 29/09/2008, 13h18
  4. afficher le contenu d'une zone de texte dans une page WEB
    Par tomman dans le forum Balisage (X)HTML et validation W3C
    Réponses: 6
    Dernier message: 11/06/2007, 14h55
  5. Cacher du texte d' une page web
    Par WELCOMSMAIL dans le forum Mise en page CSS
    Réponses: 6
    Dernier message: 26/10/2006, 11h02

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo