IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

Pb RegEx Html


Sujet :

Langage Perl

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Futur Membre du Club
    Profil pro
    Inscrit en
    Août 2005
    Messages
    4
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2005
    Messages : 4
    Par défaut Pb RegEx Html
    bonjour tout le monde j'ai quelque probleme a "parser" du HTML monoligne
    j'ai creer un script qui test la dispo de l ADSL pour des lignes telephoniques a l aide du site de degouptest doti com et wget

    j'aimerai recuperer la ligne qui dit si l adsl 512 est disponible chez wanadoo

    ma regex est comme ceci /<b>IP ADSL 512<\/b>.*><b>(\w+)<\/b><\/td><\/tr>/

    normalement dans $1 je devrai recuperer Possible ou Impossible mais il me recupere tjs Impossible, ca semble fonctionner mais pas tres clairement.

    merci d avance pour votre aide

    ci dessous la requete wget pour vous aidez a voir mieux.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     wget  --post-data "test_tiscali=off\&test_free=off\&test_cegetel=on\&test_alice=off\&test_cable=off\&tel=0479096326
    &cp=73210" 
          'http://www.degrouptest.com/test.php'

  2. #2
    Rédacteur

    Avatar de gege2061
    Femme Profil pro
    Administrateur de base de données
    Inscrit en
    Juin 2004
    Messages
    5 840
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 42
    Localisation : France

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Juin 2004
    Messages : 5 840
    Par défaut Re: Pb RegEx Html
    Bonjour,
    Citation Envoyé par PerlNooby
    ma regex est comme ceci /<b>IP ADSL 512<\/b>.*><b>(\w+)<\/b><\/td><\/tr>/
    Pour simplifier, tu peut utiliser d'autre délimiteurs pour ton expression, ça évite d'échaper les caractère / :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    m{<b>IP ADSL 512</b>.*><b>(\w+)</b></td></tr>}
    C'est pas mieu ? Attention, dans ce cas le s ou le m devant l'expression est obligatoire!
    Citation Envoyé par PerlNooby
    ci dessous la requete wget pour vous aidez a voir mieux.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     wget  --post-data "test_tiscali=off\&test_free=off\&test_cegetel=on\&test_alice=off\&test_cable=off\&tel=$1&cp=$2" \
          'http://www.degrouptest.com/test.php'
    Ce qui aiderai plus c'est le texte à analyser!

  3. #3
    Futur Membre du Club
    Profil pro
    Inscrit en
    Août 2005
    Messages
    4
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2005
    Messages : 4
    Par défaut
    Re,
    j'ai modifier la commande wget pour que vous puissiez voir le code HTML

    pour la regex je l ai changer par :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    if ( $ligne_info[0] =~ m!<b>IP ADSL 512</b>.*><b>(\w+)</b></td></tr>! )
    merci beaucoup, mais c'est toujours pareil.
    j'ai mis des points d'exclamation a la place les accollades pour eviter la confusion avec le "if"

    encore merci pour l aider je continu de chercher.

  4. #4
    Rédacteur

    Avatar de gege2061
    Femme Profil pro
    Administrateur de base de données
    Inscrit en
    Juin 2004
    Messages
    5 840
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 42
    Localisation : France

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Juin 2004
    Messages : 5 840
    Par défaut
    Citation Envoyé par PerlNooby
    merci beaucoup, mais c'est toujours pareil.
    C'est normal, c'est juste plus clair!

    Sinon j'ai trouvé ça comme ligne à tester :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    <b>IP ADSL 512</b> </span><span style="font-size:9px">(512/128 Kbps)</span></td><td style="color: #ffffff;font-size: 10px; font-variant: small-caps; background-color: #009900; text-align: center"><b>Possible</b>
    Et tu souhaite récupérer le possible ou impossible ?

  5. #5
    Futur Membre du Club
    Profil pro
    Inscrit en
    Août 2005
    Messages
    4
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2005
    Messages : 4
    Par défaut
    en faite les deux je dois determiner justement si on peux ou pas avoir l adsl dans les magasins.
    dans ton pattern il y figure le code HTML de la couleur ( possible vert ; impossible rouge )

    bref j'ai toujours pas trouver je vais etre tenter avec la page de test de wanadoo

  6. #6
    Expert confirmé
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Par défaut
    Là ta regex va bouffer presque toute la page HTML avec le ".*" (qui est glouton), et tomber sur le résultat du dernier test. Je te recommenderais donc un ".*?" à la place :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    if ( $ligne_info[0] =~ m!<b>IP ADSL 512</b>.*?<b>(\w+)</b></td></tr>! )
    Sauf si on leur demande explicitement de ne pas le faire (avec le "?" derrière), les quantificateurs "mangent" le plus possible de ta chaîne.


    --
    Jedaï

  7. #7
    Membre averti
    Inscrit en
    Août 2005
    Messages
    47
    Détails du profil
    Informations forums :
    Inscription : Août 2005
    Messages : 47
    Par défaut
    Slt,
    J'ai adapté l'un de mes scripts pour ton crawler ... chez moi ça passe, peut être que ça pourra t'aider . Tiens moi au courant ...

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
     
    #!/usr/bin/perl
    use LWP::Simple qw(get);
    use LWP::UserAgent;
     
    $PROXY="";
    $PROTOCOLE="";
    $TIMEOUT="";
    $APPARENCE="";
    $LOGIN="";
    $PASSWORD="";
    $AUTHENTIFY=0;
    $MODE=0;
     
    print "\nQuel phone number voulez vous tester ?\n";
    chomp($PHONE_NUMBER = <stdin>);
     
    $URL ="http://www.agence.francetelecom.com/servlet/ftbynet_adsl.Gp_GetReponseADSL?Support=".$PHONE_NUMBER."&OffreADSL=IPW1E";
     
    @CONTENTANDBASE = OpenDoc($URL,$MODE,$PROXY,$TIMEOUT,$PROTOCOLE,$APPARENCE,$AUTHENTIFY,$LOGIN,$PASSWORD);
    $CONTENT=@CONTENTANDBASE[1];
    @LINES = split( "\n", $CONTENT);
    foreach (@LINES) {
    	if ( $_=~ m!.+<strong>(.+)<br>! )  {
    		$STATUS=$1;
    		if ($STATUS=~ /Votre ligne est compatible avec l&acute;ADSL,/) {
    			$ELIGIBILITE="OUI";
    		}
    		elsif ($STATUS=~ /A ce jour, l&acute;ADSL n&acute;est pas/ ) {
    			$ELIGIBILITE="NON";		
    		}
    		print qq($PHONE_NUMBER\t$ELIGIBILITE\n);
    	}
     
    }
     
    #########################################################################################
    # Telecharge la réponse d'une URL. Deux modes, avec ou sans proxy
    #########################################################################################
    sub OpenDoc {
    	my $url=@_[0];
    	my $mode=@_[1];
    	my $proxy=@_[2];
    	my $timeout=@_[3];
    	my $protocole=@_[4];
    	my $apparence=@_[5];
    	my $authentify=@_[6];
    	my $login=@_[7];
    	my $password=@_[8];
    	my @contentAndBase;
    	my $base;
    	my $content;
    	my $header;
     
    	my $browser = LWP::UserAgent->new();
    	$browser->agent($apparence);
    	$browser->timeout($timeout);
     
    	if ($mode==1) {
    		$browser->proxy($protocole,$proxy);
    	}
    	my $request = HTTP::Request->new(GET => $url);
     
    	if ($authentify==1) {
    		$request->authorization_basic ("$login","$password");
    	}
     
    	my $response= $browser->request($request);
     
    	if ($response->is_error()) {
    		print FILELOG "Error with $url: " . $response->status_line . "\n";
    		print "ETL Error with $url\n" . $response->status_line . "\n";
    		$content= "ETL Error with $url\n" . $response->status_line . "\n";
    		$base= "";
    		$header="";
     
    	}
    	else {
    		$content=$response->content();
    		$base=$response->base;
    		$header=$response->header(content_type);
    	}
    	push (@contentAndBase,$base);
    	push (@contentAndBase,$content);
    	push (@contentAndBase,$header);
    	return @contentAndBase;
    }
    Si quelqu'un veut l'améliorer pas de problème car je débute,
    Panaone

  8. #8
    Expert confirmé
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Par défaut
    Quel est le rapport avec la question ?

    --
    Jedaï

  9. #9
    Membre averti
    Inscrit en
    Août 2005
    Messages
    47
    Détails du profil
    Informations forums :
    Inscription : Août 2005
    Messages : 47
    Par défaut
    Il cherchait bien à faire un agent qui récupère à partir d'un numéro de téléphone l'éligibilité de la ligne ou pas ?
    Alors je lui ai fourni une base de travail ??

    non ?

    panaone

  10. #10
    Futur Membre du Club
    Profil pro
    Inscrit en
    Août 2005
    Messages
    4
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2005
    Messages : 4
    Par défaut
    super magnifique le ? merci merci et encore merci : )

    on en apprend tout les jours j adore ce language et ce forum

    merci beaucoup a tout les deux

    l'idée de me filer ton crawler etait super sympa le mien marche maintenant donc je le garde car le script fait aussi d autre chose
    encore merci.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. supprimer toutes les balises d'un code html (regex?)
    Par le y@m's dans le forum Langage
    Réponses: 5
    Dernier message: 21/01/2014, 10h08
  2. [RegEx] supprimer <a href...</a> par regex dans pages html.
    Par moldak dans le forum Langage
    Réponses: 10
    Dernier message: 15/11/2012, 16h02
  3. [RegEx] Besoin d'aide pour une regex (html)
    Par benjamin122 dans le forum Langage
    Réponses: 10
    Dernier message: 07/09/2012, 23h33
  4. Regex : création de lien html s'il n'existe pas
    Par GregPeck dans le forum Langage
    Réponses: 3
    Dernier message: 22/11/2005, 00h21
  5. [Regex] Balises Html
    Par onegamer dans le forum Collection et Stream
    Réponses: 2
    Dernier message: 09/08/2005, 16h34

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo