IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C# Discussion :

Expression régulière pour extraire des urls d'un code source d'une page web


Sujet :

C#

  1. #1
    Membre averti
    Homme Profil pro
    Inscrit en
    Mai 2010
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France

    Informations forums :
    Inscription : Mai 2010
    Messages : 24
    Par défaut Expression régulière pour extraire des urls d'un code source d'une page web
    Bonjour,

    Je souhaiterais extraire des urls d'un code source d'une page web.
    blala <a href="http://fr.playstation.com/ps3/" class=l blalalalala <a href="http://fr.playstation.com/ps3/" class=l blabla

    Je souhaite extraire dans ce cas href="http://fr.playstation.com/ps3/" (entre <a et class=1)
    Ou encore mieux : http://fr.playstation.com/ps3/ mais l'expression régulière doit être plus compliquée.

    Merci d'avance.
    Thomas.

  2. #2
    Membre chevronné
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Août 2008
    Messages
    381
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Développeur .NET

    Informations forums :
    Inscription : Août 2008
    Messages : 381
    Par défaut
    En allant vite je dirais:

    Ton adresse est dans le Group 1.

    Je ne sais pas si tu le connais, mais voici un utilitaire pour bâtir tes expressions régulière: http://www.radsoftware.com.au/regexdesigner/

  3. #3
    Membre averti
    Homme Profil pro
    Inscrit en
    Mai 2010
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France

    Informations forums :
    Inscription : Mai 2010
    Messages : 24
    Par défaut
    Merci de ton aide, mais dans mon cas cette regex ne fonctionne pas, en faite il me faudrais une regex qui me récupère une chaine commencant par <a href= et terminant par class=l

  4. #4
    Membre averti
    Inscrit en
    Avril 2004
    Messages
    15
    Détails du profil
    Informations forums :
    Inscription : Avril 2004
    Messages : 15
    Par défaut
    pour avoir l'url seule sans utiliser des groupes
    (?<=")http://([^"]*)(?=")

    pour ton deuxième message; veut tu avoir la balise de début et tous ses attributs? ou bien juste jusqu'à "class=l" ?

  5. #5
    Membre averti
    Inscrit en
    Avril 2004
    Messages
    15
    Détails du profil
    Informations forums :
    Inscription : Avril 2004
    Messages : 15
    Par défaut
    Voilà;
    pour être un peut plus souple et tenir compte des éventuels espaces permis en html:

    1. pour avoir l'url seule:
      (?<=<\s*a\s*href\s*=\s*")http://[^">]*(?="\s*[^>]*>)
    2. pour avoir la balise de début et ses attributs:
      <\s*a\s*href\s*=\s*"http://[^">]*"\s*[^>]*>
    3. pour avoir <a href= et terminant par class=l
      <\s*a\s*href\s*=\s*"http://[^">]*"\s*class\s*=\s*l


    et là des explications s'imposent:

    - en rouge il faut ajouter les éventuels caractères inacceptables dans les urls

    - puis il faut savoir que les attributs peuvent être dans un ordre quelconque; alors faut-il tenir compte?

    - et puis en XHTML il faut ecrire class="l" ; alors en 3 : <\s*a\s*href\s*=\s*"http://[^">]*"\s*class\s*=\s*"l"

    et puis pour finir je te conseil ce merveilleux logiciel dédier aux regex: RegexBuddy et sa petit famille; et cerise sur le gâteau il intègre une bonne doc sur les regex et un très bon tutoriel et puis encore génère du C#...
    c'est pas de la pub, mais il m'a beaucoup aidé.

  6. #6
    Membre averti
    Homme Profil pro
    Inscrit en
    Mai 2010
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France

    Informations forums :
    Inscription : Mai 2010
    Messages : 24
    Par défaut
    Merci beaucoup ! Je vais essayer sa de suite ! (la 3ème solution est la mieux dans mon cas)
    Dommage que ton log soit payant
    EDIT :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
           Regex myRegex = new Regex(@"\s*a\s*href\s*=\s*"http://[^">]*"\s*class\s*=\s*l");
               return myRegex.Split(chaine);
    Mais j'obtient des erreurs

  7. #7
    Membre averti
    Inscrit en
    Avril 2004
    Messages
    15
    Détails du profil
    Informations forums :
    Inscription : Avril 2004
    Messages : 15
    Par défaut
    je crois que tu doit utiliser l'une des méthode Matches(chaine) / Match(chaine)
    plutôt que myRegex.Split(chaine)

    car là, à mon avis, tu cherche à récupérer des parties de ta chaine non pas à la découpée, et puis il faut doubler les Guillemets dans la chaine verbatim, pour que Visuel Studio l'accepte, comme ceci:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    @"<\s*a\s*href\s*=\s*""http://[^"">]*""\s*class\s*=\s*l"
    voici un code à essayer:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
           // Deffinir l'expression régulière
            Regex myRegex = new Regex(@"<\s*a\s*href\s*=\s*""http://[^"">]*""\s*class\s*=\s*l",
                RegexOptions.Compiled | RegexOptions.IgnoreCase);
     
            // Deffinire la chaine de test
            string Chaine = @"<a href=""http://fr.playstation.com/ps3/"" class=l blalalalala <a href=""http://fr.playstation.com/ps3/"" class=l blabla";
     
            // Trouver les correspondances
            MatchCollection matches = myRegex.Matches(Chaine);
     
            // Afficher chaque match.
            foreach (Match match in matches)
            {
                Console.WriteLine(match.Value);
            }
    pour pouvoir récupérer les parties de l'url etc voici un exemple donné dans le soft proposé par PatteDePoule, avec de légères modifications:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    @"<\s*a\s*href\s*=\s*""(?<protocol>http|ftp)://(?<domain>[^/\r\n]+)(?<path>/[^\r\n>]*)?""\s*class\s*=\s*l"
    pour RegexBudy, tu peut quand même l'utilisé pendant la période d'essai de xx jours

  8. #8
    Membre averti
    Homme Profil pro
    Inscrit en
    Mai 2010
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France

    Informations forums :
    Inscription : Mai 2010
    Messages : 24
    Par défaut
    Parfait ! C'est exactement ce que je cherchais.
    Merci beaucoup !
    Thomas.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [RegEx] Expression régulière pour supprimer des doublons
    Par cbroissa dans le forum Langage
    Réponses: 5
    Dernier message: 20/05/2017, 01h59
  2. [Toutes versions] Extraire des données en ciblant des ID, dans le code source d'une page web ?
    Par Dan.exe dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 19/10/2014, 05h32
  3. [MySQL] Comment extraire des données dans un fichier .svc depuis une page web
    Par pierrot10 dans le forum PHP & Base de données
    Réponses: 1
    Dernier message: 18/12/2013, 12h02
  4. [RegEx] Expression régulière pour réduire des URL
    Par kivan666 dans le forum Langage
    Réponses: 6
    Dernier message: 11/06/2006, 21h39
  5. [RegEx] Expression régulière pour trouver des mots
    Par cbroissa dans le forum Langage
    Réponses: 7
    Dernier message: 26/05/2006, 23h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo