IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C# Discussion :

Expression régulière pour extraire des urls d'un code source d'une page web


Sujet :

C#

  1. #1
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Mai 2010
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France

    Informations forums :
    Inscription : Mai 2010
    Messages : 24
    Points : 21
    Points
    21
    Par défaut Expression régulière pour extraire des urls d'un code source d'une page web
    Bonjour,

    Je souhaiterais extraire des urls d'un code source d'une page web.
    blala <a href="http://fr.playstation.com/ps3/" class=l blalalalala <a href="http://fr.playstation.com/ps3/" class=l blabla

    Je souhaite extraire dans ce cas href="http://fr.playstation.com/ps3/" (entre <a et class=1)
    Ou encore mieux : http://fr.playstation.com/ps3/ mais l'expression régulière doit être plus compliquée.

    Merci d'avance.
    Thomas.

  2. #2
    Membre éclairé
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Août 2008
    Messages
    381
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Développeur .NET

    Informations forums :
    Inscription : Août 2008
    Messages : 381
    Points : 766
    Points
    766
    Par défaut
    En allant vite je dirais:

    Ton adresse est dans le Group 1.

    Je ne sais pas si tu le connais, mais voici un utilitaire pour bâtir tes expressions régulière: http://www.radsoftware.com.au/regexdesigner/
    Les fautes d'orthographes sus-citées sont déposées auprès de leurs propriétaires respectifs. Aucune responsabilité n'est engagée sur la lisibilité du message ou les éventuels dommages qu'il peut engendrer.

  3. #3
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Mai 2010
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France

    Informations forums :
    Inscription : Mai 2010
    Messages : 24
    Points : 21
    Points
    21
    Par défaut
    Merci de ton aide, mais dans mon cas cette regex ne fonctionne pas, en faite il me faudrais une regex qui me récupère une chaine commencant par <a href= et terminant par class=l

  4. #4
    Membre à l'essai
    Inscrit en
    Avril 2004
    Messages
    15
    Détails du profil
    Informations forums :
    Inscription : Avril 2004
    Messages : 15
    Points : 23
    Points
    23
    Par défaut
    pour avoir l'url seule sans utiliser des groupes
    (?<=")http://([^"]*)(?=")

    pour ton deuxième message; veut tu avoir la balise de début et tous ses attributs? ou bien juste jusqu'à "class=l" ?
    Ath. Chekroun

  5. #5
    Membre à l'essai
    Inscrit en
    Avril 2004
    Messages
    15
    Détails du profil
    Informations forums :
    Inscription : Avril 2004
    Messages : 15
    Points : 23
    Points
    23
    Par défaut
    Voilà;
    pour être un peut plus souple et tenir compte des éventuels espaces permis en html:

    1. pour avoir l'url seule:
      (?<=<\s*a\s*href\s*=\s*")http://[^">]*(?="\s*[^>]*>)
    2. pour avoir la balise de début et ses attributs:
      <\s*a\s*href\s*=\s*"http://[^">]*"\s*[^>]*>
    3. pour avoir <a href= et terminant par class=l
      <\s*a\s*href\s*=\s*"http://[^">]*"\s*class\s*=\s*l


    et là des explications s'imposent:

    - en rouge il faut ajouter les éventuels caractères inacceptables dans les urls

    - puis il faut savoir que les attributs peuvent être dans un ordre quelconque; alors faut-il tenir compte?

    - et puis en XHTML il faut ecrire class="l" ; alors en 3 : <\s*a\s*href\s*=\s*"http://[^">]*"\s*class\s*=\s*"l"

    et puis pour finir je te conseil ce merveilleux logiciel dédier aux regex: RegexBuddy et sa petit famille; et cerise sur le gâteau il intègre une bonne doc sur les regex et un très bon tutoriel et puis encore génère du C#...
    c'est pas de la pub, mais il m'a beaucoup aidé.
    Ath. Chekroun

  6. #6
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Mai 2010
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France

    Informations forums :
    Inscription : Mai 2010
    Messages : 24
    Points : 21
    Points
    21
    Par défaut
    Merci beaucoup ! Je vais essayer sa de suite ! (la 3ème solution est la mieux dans mon cas)
    Dommage que ton log soit payant
    EDIT :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
           Regex myRegex = new Regex(@"\s*a\s*href\s*=\s*"http://[^">]*"\s*class\s*=\s*l");
               return myRegex.Split(chaine);
    Mais j'obtient des erreurs

  7. #7
    Membre à l'essai
    Inscrit en
    Avril 2004
    Messages
    15
    Détails du profil
    Informations forums :
    Inscription : Avril 2004
    Messages : 15
    Points : 23
    Points
    23
    Par défaut
    je crois que tu doit utiliser l'une des méthode Matches(chaine) / Match(chaine)
    plutôt que myRegex.Split(chaine)

    car là, à mon avis, tu cherche à récupérer des parties de ta chaine non pas à la découpée, et puis il faut doubler les Guillemets dans la chaine verbatim, pour que Visuel Studio l'accepte, comme ceci:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    @"<\s*a\s*href\s*=\s*""http://[^"">]*""\s*class\s*=\s*l"
    voici un code à essayer:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
           // Deffinir l'expression régulière
            Regex myRegex = new Regex(@"<\s*a\s*href\s*=\s*""http://[^"">]*""\s*class\s*=\s*l",
                RegexOptions.Compiled | RegexOptions.IgnoreCase);
     
            // Deffinire la chaine de test
            string Chaine = @"<a href=""http://fr.playstation.com/ps3/"" class=l blalalalala <a href=""http://fr.playstation.com/ps3/"" class=l blabla";
     
            // Trouver les correspondances
            MatchCollection matches = myRegex.Matches(Chaine);
     
            // Afficher chaque match.
            foreach (Match match in matches)
            {
                Console.WriteLine(match.Value);
            }
    pour pouvoir récupérer les parties de l'url etc voici un exemple donné dans le soft proposé par PatteDePoule, avec de légères modifications:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    @"<\s*a\s*href\s*=\s*""(?<protocol>http|ftp)://(?<domain>[^/\r\n]+)(?<path>/[^\r\n>]*)?""\s*class\s*=\s*l"
    pour RegexBudy, tu peut quand même l'utilisé pendant la période d'essai de xx jours
    Ath. Chekroun

  8. #8
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Mai 2010
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France

    Informations forums :
    Inscription : Mai 2010
    Messages : 24
    Points : 21
    Points
    21
    Par défaut
    Parfait ! C'est exactement ce que je cherchais.
    Merci beaucoup !
    Thomas.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [RegEx] Expression régulière pour supprimer des doublons
    Par cbroissa dans le forum Langage
    Réponses: 5
    Dernier message: 20/05/2017, 01h59
  2. [Toutes versions] Extraire des données en ciblant des ID, dans le code source d'une page web ?
    Par Dan.exe dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 19/10/2014, 05h32
  3. [MySQL] Comment extraire des données dans un fichier .svc depuis une page web
    Par pierrot10 dans le forum PHP & Base de données
    Réponses: 1
    Dernier message: 18/12/2013, 12h02
  4. [RegEx] Expression régulière pour réduire des URL
    Par kivan666 dans le forum Langage
    Réponses: 6
    Dernier message: 11/06/2006, 21h39
  5. [RegEx] Expression régulière pour trouver des mots
    Par cbroissa dans le forum Langage
    Réponses: 7
    Dernier message: 26/05/2006, 23h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo