IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C# Discussion :

Expression régulière pour extraire des urls d'un code source d'une page web


Sujet :

C#

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Homme Profil pro
    Inscrit en
    Mai 2010
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : France

    Informations forums :
    Inscription : Mai 2010
    Messages : 24
    Par défaut Expression régulière pour extraire des urls d'un code source d'une page web
    Bonjour,

    Je souhaiterais extraire des urls d'un code source d'une page web.
    blala <a href="http://fr.playstation.com/ps3/" class=l blalalalala <a href="http://fr.playstation.com/ps3/" class=l blabla

    Je souhaite extraire dans ce cas href="http://fr.playstation.com/ps3/" (entre <a et class=1)
    Ou encore mieux : http://fr.playstation.com/ps3/ mais l'expression régulière doit être plus compliquée.

    Merci d'avance.
    Thomas.

  2. #2
    Membre chevronné
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Août 2008
    Messages
    381
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Développeur .NET

    Informations forums :
    Inscription : Août 2008
    Messages : 381
    Par défaut
    En allant vite je dirais:

    Ton adresse est dans le Group 1.

    Je ne sais pas si tu le connais, mais voici un utilitaire pour bâtir tes expressions régulière: http://www.radsoftware.com.au/regexdesigner/

  3. #3
    Membre averti
    Homme Profil pro
    Inscrit en
    Mai 2010
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : France

    Informations forums :
    Inscription : Mai 2010
    Messages : 24
    Par défaut
    Merci de ton aide, mais dans mon cas cette regex ne fonctionne pas, en faite il me faudrais une regex qui me récupère une chaine commencant par <a href= et terminant par class=l

  4. #4
    Membre averti
    Inscrit en
    Avril 2004
    Messages
    15
    Détails du profil
    Informations forums :
    Inscription : Avril 2004
    Messages : 15
    Par défaut
    pour avoir l'url seule sans utiliser des groupes
    (?<=")http://([^"]*)(?=")

    pour ton deuxième message; veut tu avoir la balise de début et tous ses attributs? ou bien juste jusqu'à "class=l" ?

  5. #5
    Membre averti
    Inscrit en
    Avril 2004
    Messages
    15
    Détails du profil
    Informations forums :
    Inscription : Avril 2004
    Messages : 15
    Par défaut
    Voilà;
    pour être un peut plus souple et tenir compte des éventuels espaces permis en html:

    1. pour avoir l'url seule:
      (?<=<\s*a\s*href\s*=\s*")http://[^">]*(?="\s*[^>]*>)
    2. pour avoir la balise de début et ses attributs:
      <\s*a\s*href\s*=\s*"http://[^">]*"\s*[^>]*>
    3. pour avoir <a href= et terminant par class=l
      <\s*a\s*href\s*=\s*"http://[^">]*"\s*class\s*=\s*l


    et là des explications s'imposent:

    - en rouge il faut ajouter les éventuels caractères inacceptables dans les urls

    - puis il faut savoir que les attributs peuvent être dans un ordre quelconque; alors faut-il tenir compte?

    - et puis en XHTML il faut ecrire class="l" ; alors en 3 : <\s*a\s*href\s*=\s*"http://[^">]*"\s*class\s*=\s*"l"

    et puis pour finir je te conseil ce merveilleux logiciel dédier aux regex: RegexBuddy et sa petit famille; et cerise sur le gâteau il intègre une bonne doc sur les regex et un très bon tutoriel et puis encore génère du C#...
    c'est pas de la pub, mais il m'a beaucoup aidé.

  6. #6
    Membre averti
    Homme Profil pro
    Inscrit en
    Mai 2010
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : France

    Informations forums :
    Inscription : Mai 2010
    Messages : 24
    Par défaut
    Merci beaucoup ! Je vais essayer sa de suite ! (la 3ème solution est la mieux dans mon cas)
    Dommage que ton log soit payant
    EDIT :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
           Regex myRegex = new Regex(@"\s*a\s*href\s*=\s*"http://[^">]*"\s*class\s*=\s*l");
               return myRegex.Split(chaine);
    Mais j'obtient des erreurs

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [RegEx] Expression régulière pour supprimer des doublons
    Par cbroissa dans le forum Langage
    Réponses: 5
    Dernier message: 20/05/2017, 01h59
  2. [Toutes versions] Extraire des données en ciblant des ID, dans le code source d'une page web ?
    Par Dan.exe dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 19/10/2014, 05h32
  3. [MySQL] Comment extraire des données dans un fichier .svc depuis une page web
    Par pierrot10 dans le forum PHP & Base de données
    Réponses: 1
    Dernier message: 18/12/2013, 12h02
  4. [RegEx] Expression régulière pour réduire des URL
    Par kivan666 dans le forum Langage
    Réponses: 6
    Dernier message: 11/06/2006, 21h39
  5. [RegEx] Expression régulière pour trouver des mots
    Par cbroissa dans le forum Langage
    Réponses: 7
    Dernier message: 26/05/2006, 23h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo