calcul de fréquence des mots

**doceln** · 25/09/2012, 00h06

bonsoir,

alors, j'ai à traiter 150 textes sous forme.txt sous matlab.

donc les étapes 1 lire les textes un par un
2. calculer la fréquence de chaque mot dans un texte
3 trier les mot par fréquence.
j'arrive pas à calculer la frequence des mot.

SVP, quelqu'un a une idée et pourra m'aider .

je vous remercie.

Invité · 25/09/2012, 00h22

Bonsoir,

Une idée sur quoi ? C'est quoi qui te pose problème ?

Ton titre mentionne la fréquence... l'étape de la lecture est donc passée ?
Si oui, sous quelle forme obtiens-tu tes données ?
Si non sous quelle forme sont tes fichiers ?

Dans tous les cas, je te conseille la lecture de la

Lecture/écriture de fichiers

**doceln** · 25/09/2012, 18h50

Bonsoir,
mes textes (150textes) sont en arabes (chaque textes est composé de 300 mots).
pour le moment je fais un essaie sur un texte seulement, j'ai pu lire le texte,
maintenant je veux calculer la fréquence ' l’occurrence' de chaque mot dans le texte.
j'ai essayé de faire un programme:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
clc; clear all;close all;
%lire le texte;
fil_name='C:\Users\leila\Documents\tous\test.txt';
fid = fopen(fil_name, 'r', 'l', 'UTF8');
S = fscanf(fid,'%c');
fclose(fid);
% calculer la taille du texte;
 
S = [S(2:end) char(13)];
nS=length(S);
% définir tous les caractères de type espace
dellf = find(abs(S) == 13); %ligne feed delimitor
delnl = find(abs(S) == 10); %new ligne delimitor
delsp = find(abs(S) == 32); %space delimitor
del1=[dellf delnl];
del2=[dellf delnl delsp];
del_lin=sort(del1);
del_tkn=sort(del2);
nb1 = numel(del_lin);
nb2 = numel(del_tkn);
% extraction des mots
k=0;
for r = 1:nb2-1;
    deb=del_tkn(r);
    fin=del_tkn(r+1)-1;
    if or((deb+1 <fin ), and((deb+1==fin), double(S(deb+1:fin)> 32)))
        k=k+1;
        % S(deb+1:fin );
        Tkn(k) = {S(deb+1:fin)};
    end;
 
end;
 
 
%calcul la frequences des mots;
 
 
for i=1:(length(Tkn) -1)
 
    c=strcmp(Tkn(i),Tkn);
 
    v=0;
    for j=1:(length(c))
        if  c(j)==1
 
            v = v+1;
        end
 
 
    end

je veux obtenir une matrice qui calcul la fréquence des mots , car par la suite j'ai besoin de trier les mots selon leurs fréquence.
NB: je travail sur le thème 'classification thématique automatique des documents textuels".
je vous remercie.

Invité · 25/09/2012, 19h13

Une autre façon de lire ton fichier avec textscan :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
fid = fopen(fil_name, 'rt', 'l', 'UTF8');
Tkn = textscan(fid,'%s');
fclose(fid);
 Tkn = Tkn{1};

Pour le calcul du nombre d'occurrences, il te faut faire un tableau de même taille que Tkn :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
v = zeros(length(Tkn),1);
for i=1:(length(Tkn) -1)
    c=strcmp(Tkn(i),Tkn);
    v(i) = sum(c);
end

Mais en utilisant cette méthode, tu auras autant de fois tes mots qu'il y a d'occurrence.

Une autre méthode utilisant les fonctions unique et accumarray :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
[Unik m n] = unique(Tkn);
nbOccurrence = accumarray(n(:),1,[length(Unik) 1]);
[Unik(:) num2cell(nbOccurrence)]

**doceln** · 25/09/2012, 20h45

Revenons à mon problème, alors je vous remercie pour la réponse, c'est exactement ce que je cherche.
Mais peut être j'ai mal exposé mon problème, car par la suite je veux un trie (selon la fréquence des mots) des mots du texte pour prendre les 5 (par exemple) premiers mots fréquents.

Mon but est de faire une classification thématique, alors, donc si les 5 mots plus fréquents sont du thème sportif donc le texte appartient à la classe des textes sportifs.
Avez vous une idée, comment je peux faire un trie et prendre les 5 premiers mots fréquents.
Merci ;

**shaiHulud** · 26/09/2012, 12h51

Bonjour,

en utilisant le code de winjerome et la fonction sort

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

doc sort

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
[~,i]= sort(nbOccurrence );
[Unik(i) num2cell(nbOccurrence(i))]

**ol9245** · 30/09/2012, 20h12

Voici un script qui fait ce que tu demandes :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
fid = fopen('E:/Mes Documents/toto.txt', 'r') ;
Mots = textscan(fid, '%s') ;
[Dico, a, ix] = unique(Mots{1}) ;
t = accumarray(ix,1) ;
[u, s] = sort(t, 'descend') ;
 
% liste les mots les plus fréquents
Dico(s(1:5))

ceci dit, la réponse que j'obtiens sur mon fichier toto.txt est celle que j'attendais (et probablement pas toi

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
>> Dico(s(1:5))
 
ans = 
 
    'de'
    'la'
    'le'
    'du'
    'au'

Pour revenir à ton problème initial, ce dont tu as besoin c'est pas de chercher le mot le plus fréquent.
En effet, il peut y avoir 1 mot sur 10 qui a trait au sport, mais dont aucun n'est répété souvent.
Par contre, les mots clé du langage, sans connotation sémantique précise (verbes être et avoir, articles, pronoms, prépositions, conjonctions, adverbes, ...) ont toutes les chances d'être répétés souvent et dans tous les textes.

Ce dont tu as donc besoin, c'est de classer sémantiquement chaque mot, puis de regarder la classe sémantique dominante dans ton texte. Mais ça, c'est plus difficile que de compter des mots.

voir ce qui se fait sur des forums de linguistique....

**doceln** · 01/10/2012, 20h06

bonsoir, je vous remercie infiniment pour votre réponse.

j'ai une autre question svp, comment je peux supprimer( ou bien remplacer par des espaces) les caractères de ponctuation et les chiffres.

je sais comment remplacer les caractères de ponctuation sous word mais c'est un peu long.

merci

Invité · 01/10/2012, 21h27

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

doc regexprep

calcul de fréquence des mots

MATLAB

Discussions similaires

Partager

Partager