lecture d'un fichier ligne par ligne

**Ftina** · 16/05/2017, 15h04

Bonjour à tous,

J'ai deux fichier que je veux les lire lignes par ligne, ( le premier contenant un mot par ligne et le deuxième une phrase par ligne) , donc je veux pour chaque mot du premier fichier calculer le nombre des phrases de deuxième fichier contenant ce mot,
voilà mon code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
 
#calcul le IDF d'un mot
 
    use strict;
    use warnings;
    use autodie;
    use utf8;
 
 
my $nbre_ligne = 4159480;
 
open(my $CorpusMots, '<:utf8', '/home/lenovo/Bureau/MesTravaux/IDF/test') or die "Unable to open for read: $!";
open(my $CorpusPhrases, '<:utf8', '/home/lenovo/Bureau/MesTravaux/IDF/phrases') or die "Unable to open for read: $!";
open my $fh_resultat, ">:utf8", '/home/lenovo/Bureau/MesTravaux/IDF/result';
 
 
 
 
 
my $word;
while(defined(  $word =  <$CorpusMots> )) {
chomp $word ;
$word =~ s/^\s*|\s*$//g;
my $nb_phrase = 0;
my $idf;
my $ph;
while (defined ( $ph = <$CorpusPhrases> ))
{
my @tab = split(/ /, $ph);
chomp @tab ;
foreach my $val(@tab) {
 if($word eq $val) 
{
$nb_phrase = $nb_phrase + 1;
last;
}
}
}
#calcul log 
if ($nb_phrase == 0) 
{
$idf =0;
}
else
{
$idf = (log(3/$nb_phrase))/log(10);
}
 
print $fh_resultat "$word:$idf\n";
}

Le code semble bien mais le résultat est faux, en fait l'exécution se fait seulement pour le premier mot du fichier , pourquoi ??

**LeNoobEnPerl** · 16/05/2017, 16h59

Je trouve assez pénible de lire un code non-indenté, ça passe sur celui-ci qui est plutôt simple et court, mais pour du code un peu plus compliqué, essaie d'indenter stp.
Ceci-dit, j'ai l'impression que tu te compliques énormément.
Dans ta 2nde boucle (celle qui est à l'intérieur de la première) essaie plutôt d'utiliser une expression régulière toute bête qui comptera le nombre d'occurences, et à chaque résultat qu'elle trouve, augmente ton compteur du nombre d'occurrences trouvées.
En tentant de gérer les occurrences multiples sur une ligne, tu te fais des nœuds au cerveau pour quelque chose qui ne m'a pas l'air si difficile (je peux me tromper).

**djibril** · 16/05/2017, 21h47

Bonsoir,

Merci d'apprendre à indenter proprement vos codes pour une meilleure lisibilité :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
#!/usr/bin/perl 
 
#calcul le IDF d'un mot
 
use strict;
use warnings;
use autodie;
use utf8;
 
my $nbre_ligne = 4159480;
 
open( my $CorpusMots,    '<:utf8', '/home/lenovo/Bureau/MesTravaux/IDF/test' )    or die "Unable to open for read: $!";
open( my $CorpusPhrases, '<:utf8', '/home/lenovo/Bureau/MesTravaux/IDF/phrases' ) or die "Unable to open for read: $!";
open my $fh_resultat, ">:utf8", '/home/lenovo/Bureau/MesTravaux/IDF/result';
 
my $word;
while ( defined( $word = <$CorpusMots> ) ) {
	chomp $word;
	$word =~ s/^\s*|\s*$//g;
	my $nb_phrase = 0;
	my $idf;
	my $ph;
	while ( defined( $ph = <$CorpusPhrases> ) ) {
		my @tab = split( / /, $ph );
		chomp @tab;
		foreach my $val (@tab) {
			if ( $word eq $val ) {
				$nb_phrase = $nb_phrase + 1;
				last;
			}
		}
	}
 
	#calcul log
	if ( $nb_phrase == 0 ) {
		$idf = 0;
	}
	else {
		$idf = ( log( 3 / $nb_phrase ) ) / log(10);
	}
 
	print $fh_resultat "$word:$idf\n";
}

**Lolo78** · 16/05/2017, 21h59

Envoyé par djibril

Bonsoir,

Merci d'apprendre à indenter proprement vos codes pour une meilleure lisibilité :

++.

**Lolo78** · 16/05/2017, 22h22

Bonjour Ftina,

il est très inefficace de lire ton deuxième fichier (phrases) autant de fois qu'il y a de mots dans le premier fichier. Sauf si tes fichiers sont énormes, il faut charger l'un d'eux en mémoire (tableau ou hachage), puis lire l'autre une seule fois en le comparant à chacun des éléments que tu as stocké en mémoire.

Si tu veux pour chaque mot le nombre de phrases où il apparaît (si j'ai bien compris), le plus simple est sans doute de mettre tes mots dans un hachage qui te servira de compteur.

Un truc dans ce genre (pas testé car il n'y a pas d'exemple de données):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
 
open ... # x3 -> ouverture des trois fichiers
 
my %words;   # hachage de compteurs
 
while (my $word = <$CorpusMots> ) {
    chomp $word;
    $words{$word} = 0;
}
close $CorpusMots;
 
while (my $phrase = <$CorpusPhrases>) {
    for my $word (keys %words) {
        $words{$word}++ if index ($phrase, $word) >= 0;  # fonction index bien plus rapide qu'une comparaison individuelle à chaque mot de la phrase (ou même qu'une regex)
    }
}
close $CorpusPhrases;
 
# relire le hash de compteurs et imprimer le résultat dans le fichier de sortie
for my $word (keys %words) {
    print $fh_resultat "Le mot $word apparaît dans %words{$word} phrases.\n"; # (phrase d'exemple  à remplacer par ton calcul de logarithme)
}

**Ftina** · 23/05/2017, 01h26

Envoyé par Lolo78

Bonjour Ftina,

il est très inefficace de lire ton deuxième fichier (phrases) autant de fois qu'il y a de mots dans le premier fichier. Sauf si tes fichiers sont énormes, il faut charger l'un d'eux en mémoire (tableau ou hachage), puis lire l'autre une seule fois en le comparant à chacun des éléments que tu as stocké en mémoire.

Si tu veux pour chaque mot le nombre de phrases où il apparaît (si j'ai bien compris), le plus simple est sans doute de mettre tes mots dans un hachage qui te servira de compteur.

Un truc dans ce genre (pas testé car il n'y a pas d'exemple de données):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
 
open ... # x3 -> ouverture des trois fichiers
 
my %words;   # hachage de compteurs
 
while (my $word = <$CorpusMots> ) {
    chomp $word;
    $words{$word} = 0;
}
close $CorpusMots;
 
while (my $phrase = <$CorpusPhrases>) {
    for my $word (keys %words) {
        $words{$word}++ if index ($phrase, $word) >= 0;  # fonction index bien plus rapide qu'une comparaison individuelle à chaque mot de la phrase (ou même qu'une regex)
    }
}
close $CorpusPhrases;
 
# relire le hash de compteurs et imprimer le résultat dans le fichier de sortie
for my $word (keys %words) {
    print $fh_resultat "Le mot $word apparaît dans %words{$word} phrases.\n"; # (phrase d'exemple  à remplacer par ton calcul de logarithme)
}

Bonsoir LOLO et merci beaucoup pour votre réponse,

vous voulez dire quoi par : Sauf si tes fichiers sont énormes, il faut charger l'un d'eux en mémoire (tableau ou hachage), puis lire l'autre une seule fois en le comparant à chacun des éléments que tu as stocké en mémoire. (est ce que cettesolution est efficace pour les fichiers de grande taille ? )
Merci beaucoup de me répondre

lecture d'un fichier ligne par ligne

Langage Perl

Vue hybride

Discussions similaires

Partager

Partager