comptage difficile pour débutant

**Eric5959** · 30/09/2009, 17h26

bonjour,
je fais du perl que très rarement et suis toujours au stade débutant.
c'est la suite du post regexp difficile.

j'ai 2 fichiers qui contiennent des urls avec le nombre de fois trouvé dans mes logs.
ex
fichier1
http://www.url1.com 10
http://www.url2.fr 5
fichier2
http://www.url1.com 2
http://www.url2.fr 3
mon but est donc d'avoir le résultat suivant des 2 fichiers dans un fichier résultat.txt
http://www.url1.com 12
http://www.url2.fr 8
eh bien ! je galère depuis quelques heures pour faire ça !

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
 
my $fic;
my $rep="d:/tempo/";
my $res="resultat.txt";
 
getFiles($rep,\@fichiers);
 
open F_ECRIRE,">$rep/$res"  or die "E/S : $!\n";
 
foreach $fic(@fichiers){
  open F_LIRE,"$fic" or warn "E/S : $!\n";
   my $ligne;   
 
   while($ligne = <F_LIRE>){     
            if ($ligne =~ m{http://.*?\s+(\d+)}){
 
            $h_count{$1} += $2;
            }     
   }
 
  foreach my $key (sort {$h_count{$b} <=> $h_count{$a}} keys %h_count){
    print F_ECRIRE $key."\t".$h_count{$key}."\n";
 
  }
}

mon gros problème vient de la ligne, j'ai testé pleins de solutions mais j'obtiens pas mon résultat.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
if ($ligne =~ m{http://.*?\s+(\d+)}){

merci de votre aide

**djibril** · 30/09/2009, 17h32

voici l'idée :
- tu crées un hash
- tu listes chaque fichier et tu stockes pour chaque ligne du fichier l'url en clé et le nombre en clé. Au prealable, tu vérifies que la clé n'existe pas, si oui, alors tu incrémentes la valeur avec ton le count de ton url.

A la fin du listing de tes fichiers, tu crées un nouveau fichier grâce à ton hash.

Voilà, tu as l'algorithme nécessaire.

Au boulot.

**Eric5959** · 01/10/2009, 10h28

bonjour,
OK merci mais je maîtrise vraiment pas tout, je suis encore au stade de la bidouille ! je ne comprend pas encore tout et souvent c'est dans le besoin que je fais du perl et ensuite plus rien.

j'ai testé la solution suivante:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
 
while($ligne = <F_LIRE>){     
            if ($ligne =~ m/http.*?\s+(\d+)/){
            #if ($ligne =~ m{http://.*?}) {
            print $ligne."\n";
 
            $h_count{$1} += $2;
            print $h_count."\n";

mon print $ligne me donne le résultat suivant:
http://0.channel01.facebook.com 1500
http://0.channel02.facebook.com 1600
http://google.fr 1000
http://www.shufflepoint.com HTTP 1
http://0.channel01.facebook.com 1000
http://0.channel02.facebook.com 400
http://google.fr 5000
http://0.channel10.facebook.com 5236
http://0.channel11.facebook.com 1061
http://0.channel12.facebook.com 2758
http://myspace.com 5

mais mon résultat dans mon fichier est le suivant:
1 0
1600 0
1500 0
1000 0
5236 0
5000 0
400 0
1500 0
1600 0
1 0
2758 0
1000 0
1061 0
5 0

je ne sais pas quoi faire, je patauge un peu ! et il me faut le résultat aujourd'hui donc c'est chaud !

merci de votre aide

**Eric5959** · 01/10/2009, 10h42

bonjour,

$h_count est bien ma table de hash dans lequel on stock $1 et $2 ?

on associe clé/valeur

merci

**djibril** · 01/10/2009, 11h40

Bon, donne nous ton code complet, et un exemple de 2 fichiers

**Eric5959** · 01/10/2009, 12h25

bonjour,
voici mon code complet:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
 
#!c:/perl/perl.exe 
package test;
#use warnings;
 
my $fic;
my $rep="d:/tempo/";
my $res="resultat.txt";
 
getFiles($rep,\@fichiers);
 
open F_ECRIRE,">$rep/$res"  or die "E/S : $!\n";
 
foreach $fic(@fichiers){
  open F_LIRE,"$fic" or warn "E/S : $!\n";
   my $ligne;   
 
   while($ligne = <F_LIRE>){     
            if ($ligne =~ m/http.*?\s+(\d+)/) {
            #if ($ligne =~ m{http://.*?}) {
            print $ligne."\n"; #test
 
            $h_count{$1} += $2;
            } 
   }
}  
 
foreach my $key (sort {$h_count{$b} <=> $h_count{$a}} keys %h_count){
            print $key."\n"; #test
            print F_ECRIRE $key."\t".$h_count{$key}."\n";      
}          
 
1;
 
sub getFiles{
  my $repert = shift(@_);
  local *tableau = shift(@_);
  my $fichier;
  my @sousrepertoires;
 
  if (-d $repert){
    #print "repertoire :".$repert."\n"; #TEST
    opendir (REP,$repert)  or die "E/S : $!\n";
 
    while (defined ($fichier = readdir(REP))){
        #print $fichier."\n"; #TEST
        if ((!($fichier=~m/^\./))&&(-d "$repert/$fichier")){
            #print "c est un repertoire $repert/$fichier\n"; #TEST
            push @sousrepertoires,"$repert/$fichier"; 
 
        }else{
          if ((!($fichier=~m/^\./))&&($fichier=~m/^Test/)){
           push @tableau,"$repert/$fichier"; 
           #print "ajout du fichier : $repert/$fichier\n"; #TEST
          }  
        }
    }
    foreach $fichier(@sousrepertoires){
      getFiles($fichier,\@tableau);    
    }
 }  
}

pour les fichiers voici un exemple :
fichier Test1.txt
http://0.channel01.facebook.com 1500
http://0.channel02.facebook.com 1600
http://google.fr 1000
http://www.shufflepoint.com HTTP 1
fichier Test2.txt
http://0.channel01.facebook.com 1000
http://0.channel02.facebook.com 400
http://google.fr 5000
http://0.channel10.facebook.com 5236
http://0.channel11.facebook.com 1061
http://0.channel12.facebook.com 2758
http://myspace.com 5

donc je veux le résultat suivant dans le fichier resultat.txt
http://google.fr 6000
http://0.channel10.facebook.com 5236
http://0.channel12.facebook.com 2758
http://0.channel01.facebook.com 2500
http://0.channel02.facebook.com 2000
http://0.channel11.facebook.com 1061
http://myspace.com 5
http://www.shufflepoint.com HTTP 1

merci de ton aide et des explications !

**djibril** · 01/10/2009, 12h32

C'est ton jour de chance, je vais te faire un petit script pour 14h.

**djibril** · 01/10/2009, 12h55

Pour un script aussi simple, tu n'as pas besoin de faire de l'objet, c'est inutile.

Voici ton script complétement refait. Je pense qu'il y a assez de commentaires pour que tu puisses le comprendre.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
#!/usr/bin/perl
use strict;
use warnings;
 
my $repertoire = 'd:/tempo';
my $fichier_resultat = 'resultat.txt';
 
# Récupération des fichiers dans les répertoires et sous répertoires
# on récupère les fichiers de type testX.txt
my @mes_fichiers = grep {/test\d*\.txt$/i} getFiles($repertoire);
 
# On stocke toutes les urls et leur nombre dans ce hash
my %Totalite_urls;
 
# Lecture de tous les fichiers
foreach my $fichier ( @mes_fichiers ) {
 
  # ouverture du fichier
  open( my $fh, '<', $fichier ) or die("Impossible de lire $fichier\nE/S : $!\n");
 
  # Lecture ligne à ligne
FICHIER:
  while ( my $ligne = <$fh> ) {
 
    # supression retour chariot
    chomp $ligne;
 
    # si $url et $nombre incorrect, on passe à la suite
    my ( $url, $nombre );
    unless ( ( $url, $nombre ) = $ligne =~ m{(http.*?)\s+(\d+)}i ) {
      next FICHIER;
    }
 
    # stockage de l'url
    $Totalite_urls{$url} += $nombre;
  }
 
  # Fermeture fichier
  close($fh);
}
 
# A ce stade, notre hash contient toute les urls, on les afiche
# ouverture du fichier resultat
open( my $fh_resultat, '>', $fichier_resultat )
  or die("Impossible d'ecrire dans $fichier_resultat\nE/S : $!\n");
 
# Lecture du hash en triant les urls
foreach my $url ( sort keys %Totalite_urls ) {
  print {$fh_resultat} "$url $Totalite_urls{$url}\n";
}
 
# Fermeture fichier
close($fh_resultat);
 
sub getFiles {
  my ($repertoire) = @_;
  my @fichiers;
 
  # Ouverture d'un répertoire
  opendir( my $FhRep, $repertoire )
    or die "impossible d'ouvrir le répertoire $repertoire\n";
 
  # Liste fichiers et répertoire sauf (. et ..)
  my @Contenu = grep { !/^\.\.?$/ } readdir($FhRep);
 
  # Fermeture du répertoire
  closedir($FhRep);
 
  # On récupère tous les fichiers
  foreach my $nom (@Contenu) {
 
    # Fichiers
    if ( -f "$repertoire/$nom" ) {
      push( @fichiers, "$repertoire/$nom" );
    }
 
    # Repertoires
    elsif ( -d "$repertoire/$nom" ) {
 
      # recursivité
      push( @fichiers, getFiles("$repertoire/$nom") );
    }
  }
 
  return @fichiers;
}

**Eric5959** · 01/10/2009, 14h08

bonjour,
un grand merci pour ton temps passé et tes explications.

mais j'ai un souci, c'est que le fichier résultat est vide !

merci

**djibril** · 01/10/2009, 14h23

Rajoute après cette ligne :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my @mes_fichiers = grep {/test\d*\.txt$/i} getFiles($repertoire);

ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

print "il y a ",scalar(@mes_fichiers)," fichiers dans $repertoire\n";

et teste

**Eric5959** · 01/10/2009, 15h04

bonjour,
OK
il y a 2 fichiers dans d:/tempo

j'ai ajouté
print $fichier."\n";
après
open( my $fh, '<', $fichier ) or die("Impossible de lire $fichier\nE/S : $!\n");

réponse:
d:/tempo/test1.txt
d:/tempo/test2.txt

je pense (?) que c'est plus du côté des urls , non ?
merci

**djibril** · 01/10/2009, 15h06

je me suis basé sur tes exemples, sauf si tu m'as donné de mauvais exemples ?
car moi j'obtiens bien ceci :

http://0.channel01.facebook.com 2500
http://0.channel02.facebook.com 2000
http://0.channel10.facebook.com 5236
http://0.channel11.facebook.com 1061
http://0.channel12.facebook.com 2758
http://google.fr 6000
http://myspace.com 5
http://www.shufflepoint.com HTTP 1

**Eric5959** · 01/10/2009, 15h14

bonjour,
j'ai une piste, j'avais des vieux fichiers nommés test1 et test2 ,
mes bons fichiers pour ce test commence par testxxx.txt et testxxx.txt
mais il les trouve pas

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
my @mes_fichiers = grep {/test\d*\.txt$/i} getFiles($repertoire);

il y a 0 fichiers dans d:/tempo

merci

**djibril** · 01/10/2009, 15h25

oui mais testxxx.txt et testxxx.txt

xxx= quoi ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my @mes_fichiers = grep {/test\d*\.txt$/i} getFiles($repertoire);

Essaye de comprendre la regex, elle cherche des fichiers dont le nom se termine par testX.txt avec X = un nombre ou rien.

**Eric5959** · 01/10/2009, 15h25

est-ce que c'est à cause des chiffres, mes fichiers se nomment
test051.txt et test052.txt ????

merci

**djibril** · 01/10/2009, 15h26

Envoyé par Eric5959

est-ce que c'est à cause des chiffres, mes fichiers se nomment
test051.txt et test052.txt ????

merci

Il devrait les trouver

**Eric5959** · 01/10/2009, 15h31

OK c'est bon pour le nom des fichiers mais il y a un message :
Can't use string ("http://0.channel01.facebook.com ") as a symbol ref while "strict refs" in use at D:\test_perl\test.pl line 25, <$fh> line 1.

merci

**lennelei** · 01/10/2009, 15h31

Remplace

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

 if ((!($fichier=~m/^\./))&&($fichier=~m/^Test/)){

par

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

 if ((!($fichier=~m/^\./))&&($fichier=~m/^Test/i)){

?

edit: désolé, c'était pour les histoires de nom de fichier

**djibril** · 01/10/2009, 15h35

Envoyé par Eric5959

OK c'est bon pour le nom des fichiers mais il y a un message :
Can't use string ("http://0.channel01.facebook.com ") as a symbol ref while "strict refs" in use at D:\test_perl\test.pl line 25, <$fh> line 1.

merci

ah, bizarre, elle correspond à quelle ligne ?

**Eric5959** · 01/10/2009, 15h38

en supprimant use strict;
j'ai plus le message et ça perturbe pas l'exécution.

en revanche le résultat n'est pas classé dans l'ordre décroissant !

il n'y a plus que ça et c'est fini.
merci

comptage difficile pour débutant

Langage Perl

Discussions similaires

Partager

Partager