Probleme de calcul de Probabilité

**étoile de mer** · 03/04/2013, 12h16

Bonjour à tous
Je suis entrain de bosser actuellement sur un script qui calcule les probabilité des séquence de mots dans 2 fichier texte et là je trouve un probleme au niveau de Perl.
Je decris la situation :
J'ai deux fichier :
fichier 1 : Fichier 2:

Bonjour les amis Good morning my friends
Bonjour Good morning

Je suis entrain de cehrcher une methose pour calculer la probabilté P(Bonjour, Good morning)
sachant que ici:
P(Bonjour, Good morning) = nombre de fois où je trouve "bonjour" et "good morning" divisé par (nombre de mot du fichier1* nombre de sequence de taille 2 du fichier2)

Je vois que c'est compliqué

Mais je garde toujours l'espoir en vos compétences.

Merci

**Lolo78** · 03/04/2013, 12h57

Je ne vois rien de bien compliqué, ou alors j'ai loupé quelque chose.

Il suffit de parcourir séquentiellement chacun des fichiers, de décompter le nombre d'occurrences des mots ou suites de mots recherchés, le nombre total de mots et le nombre de séquences.

C'est simple, mais tu ne définis pas assez précisément le problème (par ex., c'est quoi une séquence de taille 2?)

**étoile de mer** · 03/04/2013, 14h19

Envoyé par Lolo78

Je ne vois rien de bien compliqué, ou alors j'ai loupé quelque chose.

Il suffit de parcourir séquentiellement chacun des fichiers, de décompter le nombre d'occurrences des mots ou suites de mots recherchés, le nombre total de mots et le nombre de séquences.

C'est simple, mais tu ne définis pas assez précisément le problème (par ex., c'est quoi une séquence de taille 2?)

Merci Lolo, comme d'hab tu viens à mon aide

Tu pense que je dois mettre des table de hach?

**étoile de mer** · 03/04/2013, 14h42

Je trouve que c'est compliqué de ce cote
Par exemple

J'ai ce fichier 1 :

Bonjour les amis
Bonjour

Fichier 2:

Good morning friends good morning
Good morning

je veux calculer la prob P(Good morning, bonjour)
= 3/15= 1/5

C'est compliqué ca

**trex7g2** · 03/04/2013, 14h49

N'hésites pas à nous donner ton avancement actuel que l'on comprenne exactement ou est ce que tu bloques dans ton code.

Si je comprend bien il faut sommer le nombre de mots ? Tu peux le faire en faisant un split au niveau des espaces et en comptant la taille de ton tableau.
Pour savoir le nombre de fois que tu as un mot spécifique, tu peux utiliser ce même tableau, le parcourir, et rechercher quand ton mot correspond au terme de ton tableau

**étoile de mer** · 03/04/2013, 14h56

Merci trex7g2 pour votre reponse,
En fait je viens de commencer le travail sur ce scriptje bloque sur cette etape :
si jai ligne 1 fichier1 :

bonjour les amis bonjour

Ligne1 fichier2
good morning

lle blocage c'est à ce niveau de calcul de frequence où (bonjour et good) occurent ensemble:
ici on trouve quil apparaissent 2 fois

(2fois bonjour et 1 fois morning)

**trex7g2** · 03/04/2013, 15h41

quelque chose dans ce gout la ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
use strict;
my $file1="bonjour les amis bonjour";
my $file2="good morning";
my @Search=("good","bonjour");
chomp $file1;
chomp $file2;
my $NumberOfMatch=0;
my $line= $file1." ".$file2; ## je concatène pour éviter d'avoir deux tableaux, puisque ceux ci sont équivalents.
foreach my $sentence (@Search){ # je recherche mot à mot
	my $Nb= ($line =~ s/$sentence/$sentence/gi); ## je n'arrive pas a compter avec des matchs. 
	$NumberOfMatch+=$Nb
}
print "$NumberOfMatch\n";
my @Size = split (" ",$line);
print $#Size+1;
print "\n";

**étoile de mer** · 03/04/2013, 15h51

Envoyé par trex7g2

quelque chose dans ce gout la ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
use strict;
my $file1="bonjour les amis bonjour";
my $file2="good morning";
my @Search=("good","bonjour");
chomp $file1;
chomp $file2;
my $NumberOfMatch=0;
my $line= $file1." ".$file2; ## je concatène pour éviter d'avoir deux tableaux, puisque ceux ci sont équivalents.
foreach my $sentence (@Search){ # je recherche mot à mot
	my $Nb= ($line =~ s/$sentence/$sentence/gi); ## je n'arrive pas a compter avec des matchs. 
	$NumberOfMatch+=$Nb
}
print "$NumberOfMatch\n";
my @Size = split (" ",$line);
print $#Size+1;
print "\n";

Merci Trex

Mais là avec ce ptit exemple il a affiché 3 or :

"bonjour les amis bonjour";
"good morning";

alors nombre de occurence de ("good","bonjour"); = 2

**trex7g2** · 03/04/2013, 15h57

en fait je crois que je n'ai pas compris :
P(Bonjour, Good morning) = nombre de fois où je trouve "bonjour" et "good morning" divisé par (nombre de mot du fichier1* nombre de sequence de taille 2 du fichier2)

du coup j'ai juste fais la somme du nombre d'occurence de "good morning" et du nombre d'occurence de "bonjour".

**étoile de mer** · 03/04/2013, 16h01

Effectivement, le denominateur est juste
mais le probleme c'est au niveau du nominateur :
qui est "le produit cartesien" dison de apparaition dans la ligne

par exemple
good (1seule fois dans la ligne)
bonjour (1 ,1) 2 foid à ligne 1

donc le nombre (nominateur) = 1*1+1*1 =2

**étoile de mer** · 03/04/2013, 16h04

Ou encore c'est l'intersection à la place de produit cartesien
intersection entre (1,1) et (1) = 2

**trex7g2** · 03/04/2013, 16h08

han...le produit quoi.

ligne 11 remplace :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$NumberOfMatch+=$Nb

par :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$NumberOfMatch*=$Nb

(si c'est pas ça je crois que c'est parce que les maths et moi ça fait trop longtemps...

)

**étoile de mer** · 03/04/2013, 16h12

Envoyé par trex7g2

han...le produit quoi.

ligne 11 remplace :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$NumberOfMatch+=$Nb

par :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$NumberOfMatch*=$Nb

(si c'est pas ça je crois que c'est parce que les maths et moi ça fait trop longtemps...

)

oui

il affiche 0

c'est compliqué je sais

**trex7g2** · 03/04/2013, 16h24

je reste caché

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
use strict;
my $file1="bonjour les amis bonjour";
my $file2="good morning";
my @Search=("good","bonjour");
chomp $file1;
chomp $file2;
my $NumberOfMatch=0;
my $i;
my $line= $file1." ".$file2; ## je concatène pour éviter d'avoir deux tableaux, puisque ceux ci sont équivalents.
foreach my $sentence (@Search){ # je recherche mot à mot
$i++;
	my $Nb= ($line =~ s/$sentence/$sentence/gi);
	if ($i==1){
		$NumberOfMatch=$Nb;
	}
	else{
		$NumberOfMatch*=$Nb;
	}
}
print "$NumberOfMatch\n";
my @Size = split (" ",$line);
print $#Size+1;
print "\n";

**étoile de mer** · 03/04/2013, 16h32

Merci

**Lolo78** · 04/04/2013, 08h17

Etoile de mer, cela veut-il dire que ton problème est résolu? Je pose la quiestion parce que je ne suis pas sûr d'avoir parfaitement compris ton besoin et ne peux donc juger si le code satisfait ce besoin.

Une petite remarque sur le code proposé.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
foreach my $sentence (@Search){ # je recherche mot à mot
$i++;
	my $Nb= ($line =~ s/$sentence/$sentence/gi);
	if ($i==1){
		$NumberOfMatch=$Nb;
	}
	else{
		$NumberOfMatch*=$Nb;
	}
}

Ceci me semble inutilement compliqué. A moins que je manque quelque chose, la variable $i est inutile car on peut écrire dans tous les cas:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
foreach my $sentence (@Search){ # je recherche mot à mot
	my $Nb= ($line =~ s/$sentence/$sentence/gi);
	$NumberOfMatch*=$Nb;
}

à condition d'initialiser $NumberOfMatch à 1 avant d'entrer dans la boucle.

**étoile de mer** · 04/04/2013, 11h01

Oui, tu as raison Lolo, ce n'est pas encore fini.
Là on a travaillé sur un ti exemple..
mais reelemnt jai 2 fichier, et selon le parametre que l'utilisateur tape , je vais extraire des sequence de mots de tailles precisé par l(user.
Par exemple s'il tape m=2 n=2
alors
on va extraire tous les paires de mots contigues dans les 2 fichier..

**étoile de mer** · 04/04/2013, 11h08

use strict;
my $file1="bonjour les amis bonjour";
my $file2="good morning";
my @Search=("bonjour les","good");
chomp $file1;
chomp $file2;
my $NumberOfMatch=0;
my $i;
my $line= $file1." ".$file2; ## je concatène pour éviter d'avoir deux tableaux, puisque ceux ci sont équivalents.
foreach my $sentence (@Search){ # je recherche mot à mot
my $Nb= ($line =~ s/$sentence/$sentence/gi);
$NumberOfMatch*=$Nb;
}
print "$NumberOfMatch\n";
my @Size = split (" ",$line);
print $#Size+1;
print "\n";

Je ne sais pas trop , mais cette proposition donne un resultat nul ce qui est faux

**trex7g2** · 04/04/2013, 12h46

oui initialiser à 1 est bien aussi quand on fait une multiplication... Je m'en suis rendu compte après avoir fait la correction de mon script sans réfléchir

.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
 use strict;
my $file1="bonjour les amis bonjour";
my $file2="good morning";
my @Search=("bonjour les","good");
chomp $file1;
chomp $file2;
my $NumberOfMatch=1;
my $line= $file1." ".$file2; ## je concatène pour éviter d'avoir deux tableaux, puisque ceux ci sont équivalents.
foreach my $sentence (@Search){ # je recherche mot à mot
my $Nb= ($line =~ s/$sentence/$sentence/gi);
$NumberOfMatch*=$Nb;
}
print "$NumberOfMatch\n";
my @Size = split (" ",$line);
print $#Size+1;
print "\n";

De la même manière tu n'as pas besoin de faire une substitution. C'est juste "moins compréhensible" en faisant un match.

Maintenant etoile, il suffit que tu lises tes deux fichiers ligne à ligne pour remplir les variables $file1 et $file2 avec les données de ton fichier. N'hésites pas a demander si tu ne sais pas comment faire.

**étoile de mer** · 04/04/2013, 13h45

Merci Trex,
Là je suis trop perdu,
J'ai deux bouts de code que j'ai fait à part, mais jarrive pas à les integrer

Probleme de calcul de Probabilité

Langage Perl

Discussions similaires

Partager

Partager