IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Delphi Discussion :

TStringList et fréquence des mots.


Sujet :

Delphi

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé
    Profil pro
    Inscrit en
    Mars 2005
    Messages
    624
    Détails du profil
    Informations personnelles :
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : Mars 2005
    Messages : 624
    Par défaut TStringList et fréquence des mots.
    Bonjour à tous,

    Est-ce que quelqu'un aurait sous la main une petite fonction qui me permette de sortir de ma TStringList qui contient des mots, un tableau avec les frequences de chaques mots ?

    Je suis sûr que quelqu'un à déjà fait cela, alors plutôt que de redevelopper la roue...

    D'avance merci pour votre aide
    Bruno

  2. #2
    Membre Expert
    Avatar de Clorish
    Profil pro
    Inscrit en
    Juin 2003
    Messages
    2 474
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2003
    Messages : 2 474
    Par défaut

    j'eu eu fut un temps une tite fonction qui splite une chaine a partir de separateurs .... masi bon c'ets pas la mer a boire non plus.

    Boucle for qui parcours les caracteres, et les concatene a une chaine. Sur detection du caractere de separation, stocker la chaine et la reinitialiser a ''.

    Apres un TStringList devrais faire l'affaire : Si le mot n'ets pas present, alors l'ajouter et compter "1" sinon incrementer la variable "compteur".
    Cette variable peut etre la property "datas" des TStringList ...

  3. #3
    Expert éminent
    Avatar de ShaiLeTroll
    Homme Profil pro
    Développeur C++\Delphi
    Inscrit en
    Juillet 2006
    Messages
    14 089
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Développeur C++\Delphi
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juillet 2006
    Messages : 14 089
    Par défaut
    Je ne l'ai pas pour TStringList mais Array of Byte, l'esprit est le même pour une chaine, je vais la transformer ... mais avec une TStringList, un Sorted devrait pour aider à faire un algo très simple
    Aide via F1 - FAQ - Guide du développeur Delphi devant un problème - Pensez-y !
    Attention Troll Méchant !
    "Quand un homme a faim, mieux vaut lui apprendre à pêcher que de lui donner un poisson" Confucius
    Mieux vaut se taire et paraître idiot, Que l'ouvrir et de le confirmer !
    L'ignorance n'excuse pas la médiocrité !

    L'expérience, c'est le nom que chacun donne à ses erreurs. (Oscar Wilde)
    Il faut avoir le courage de se tromper et d'apprendre de ses erreurs

  4. #4
    Membre éclairé
    Profil pro
    Inscrit en
    Mars 2005
    Messages
    624
    Détails du profil
    Informations personnelles :
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : Mars 2005
    Messages : 624
    Par défaut
    Salut Clorish et Le vilain Troll

    Merci pour vos conseils, je vais essayer de traduire ma TStringList en Array
    mais bon je connais pas trop donc je vais prendre mon temps, sinon si y'a d'autres methodes je suis preneur !

    Amitiés,
    Bruno

  5. #5
    Modérateur

    Homme Profil pro
    Ingénieur retraité
    Inscrit en
    Octobre 2005
    Messages
    2 396
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Ingénieur retraité

    Informations forums :
    Inscription : Octobre 2005
    Messages : 2 396
    Par défaut
    Salut Bruno, Clorish et ShailLeTroll,

    Bruno : J'allais justement te faire un message car t'avais mis un peu vite le tag résolu pour l'autre discussion. Comme le thème des stopWords m'intéresse j'ai continué en regroupant les StopWords des 7 langues dans un fichier sur lequel j'ai utilisé mon compteur de fréquences d'occurences histoire de vérifier s'il n'y a pas des redites entre une liste *.stw et toutes les autres.
    Eh ben il y'en-a une foultitude !
    - y'en a deux mots (la et en) qui apparaissent dans 4 listes
    - 5 qui apparaissent dans 3 listes
    - et une file de presque deux pages d'écran qui apparaissent dans 2 listes.
    Donc pour distinguer des langues c'est pas fameux.

    Alors si ça t'intéresse je peux t'envoyer le fichier .doc qui regroupe tout cela et qui contient A) la liste des mots de fréquence > 1 qui sont à supprimer et B) la liste des mots de fréquence = 1 où j'ai repéré les mots des autres langues qui existent dans un dico français car pour pour distinguer clairement les langues il faut également virer ce type de redondance.

    Je peux aussi te passer l'unit uVoc qui fait partie d'une de mes applis qui prend un fichier pour en compter les occurences du vocabulaire et qui sort le résultat d'abord dans deux comboBox (l'une avec les fréquences à gauche et le mot à droite, et l'inverse dans la deuxième) avec possibilité de sauver l'une et/ou l'autre sur disque.

    Sauf que tout cela dépasse le quota de *.Zips dont j'ai droit sur le forum ...donc si ça t'intéresse il faudra que te l'envoie par e-mail.

    A+
    N'oubliez pas de consulter les FAQ Delphi et les cours et tutoriels Delphi

  6. #6
    Expert confirmé
    Avatar de anapurna
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Mai 2002
    Messages
    3 491
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Mai 2002
    Messages : 3 491
    Par défaut
    salut

    pourquoi ne pas le faire directement lors de l'importation dans ta tstringlist

    il existe une methode interessante qui s'appelle addobject

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    TmysStringFreq = Classe
       nom : String;
       Frq  : integer;
       Constructor Create(Aname: string);
     end;
    ...
    TmyForm = Class(Tform)
    ...
    Private
     MyStringList : TstringList;
    Procedure AjouteFrequence(Libelle : String);
    end;
     
    ...
    Constructor TmysStringFreq.Create(Aname: string);
    begin 
      nom := Aname;
      Frq := 1;
    end;
    ...
    Procedure TmyForm.AjouteFrequence(Libelle : String);
    begin  
      pos := MyStringList.Items.IndexOf(Libelle);
      if pos = -1 Then // L'item nxiste pas 
        MyStringList.Items.AddObject(Libelle,TmysStringFreq.Create(Libelle))
      else 
        (MyStringList.Object[pos] as TmysStringFreq).Frq :=   (MyStringList.Object[pos]as TmysStringFreq).Frq+1;
    end;
    ...
    @+ Phil

  7. #7
    Expert éminent
    Avatar de ShaiLeTroll
    Homme Profil pro
    Développeur C++\Delphi
    Inscrit en
    Juillet 2006
    Messages
    14 089
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Développeur C++\Delphi
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juillet 2006
    Messages : 14 089
    Par défaut
    Bon, voici un deux version d'une fonction qui Compte la Fréquence pour chaque ligne de Source et met le résultat en texte dans Frequencies, on pourrait directement exploité Orderer, si l'on souhaite pas d'affichage mais effectué des calculs ... j'ai essayé un algo avec le CustomSort pour ne faire qu'un balayage via QuickSort mais pas concluant, la version surcharge est plus performante puis qu'il n'y plus qu'un seul parcours de la liste et non pas trois ...

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    procedure GetFrequencyWord(Source, Frequencies: TStrings);
    var
      Orderer: TStringList;
      I, K: Integer;
      S: string;
    begin
      if Assigned(Source) and Assigned(Frequencies) then
      begin
        if Source.Count > 1 then
        begin
           Orderer := TStringList.Create();
           try
             Orderer.Capacity := Source.Capacity;
             Orderer.AddStrings(Source);
             Orderer.Sort();
             K := 0;
             S := Orderer.Strings[K];
             Orderer.Objects[K] := Pointer(1);
             for I := 1 to Orderer.Count - 1 do
             begin
               if S = Orderer.Strings[I] then
               begin
                 Orderer.Objects[K] := Pointer(Cardinal(Orderer.Objects[K]) + 1);
               end else
               begin
                 K := I;
                 Orderer.Objects[K] := Pointer(1);
                 S := Orderer.Strings[K];
               end;
             end;
     
             Frequencies.BeginUpdate();
             Frequencies.Clear();
             Frequencies.Capacity := Orderer.Capacity;
             for I := 0 to Orderer.Count - 1 do
               if Cardinal(Orderer.Objects[I]) > 0 then
                 Frequencies.Add(Format('%s : %d', [Orderer.Strings[I], Cardinal(Orderer.Objects[I])]));
     
             Frequencies.EndUpdate();
           finally
             Orderer.Free();
           end;
        end else
        begin
          if Source.Count > 0 then
            Frequencies.Add(Format('%s : 1', [Source.Strings[0]]));
        end;
      end;
    end;
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    type
      TSorterStringList = class(TStringList)
      private
        FOrdored: Boolean;
        procedure SetOrdored(const Value: Boolean);
      public
        function AddObject(const S: string; AObject: TObject): Integer; override;
        property Ordored: Boolean read FOrdored write SetOrdored;
      end;
     
    { TSorterStringList }
     
    function TSorterStringList.AddObject(const S: string; AObject: TObject): Integer;
    begin
      if Ordored then
      begin
        if Find(S, Result) then
        begin
          Objects[Result] := Pointer(Cardinal(Objects[Result]) + 1);
        end else
          InsertItem(Result, S, Pointer(1));
      end else
        Result := inherited AddObject(S, AObject);
    end;
     
    procedure TSorterStringList.SetOrdored(const Value: Boolean);
    begin
      FOrdored := Value;
      if FOrdored then
      begin
        Sorted := True;
        Duplicates := dupAccept;
      end;
    end;
     
    procedure GetFrequencyWordV2(Source, Frequencies: TStrings);
    var
      Orderer: TSorterStringList;
      I, K: Integer;
      S: string;
    begin
      if Assigned(Source) and Assigned(Frequencies) then
      begin
        if Source.Count > 1 then
        begin
           Orderer := TSorterStringList.Create();
           try
             Orderer.Capacity := Source.Capacity;
             Orderer.Ordored := True;
             Orderer.AddStrings(Source);
     
             Frequencies.BeginUpdate();
             Frequencies.Clear();
             Frequencies.Capacity := Orderer.Capacity;
             for I := 0 to Orderer.Count - 1 do
               if Cardinal(Orderer.Objects[I]) > 0 then
                 Frequencies.Add(Format('%s : %d', [Orderer.Strings[I], Cardinal(Orderer.Objects[I])]));
     
             Frequencies.EndUpdate();
           finally
             Orderer.Free();
           end;
        end else
        begin
          if Source.Count > 0 then
          begin
            Frequencies.Clear();
            Frequencies.Add(Format('%s : 1', [Source.Strings[0]]));
          end;
        end;
      end;
    end;
    on peut aussi une variante en remplaçant

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
             Orderer.Capacity := Source.Capacity;
             Orderer.AddStrings(Source);
             Orderer.Sort();
    par

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
             Orderer.Capacity := Source.Capacity;
             Orderer.Sorted := True;
             Orderer.Duplicates := dupAccept;
             Orderer.AddStrings(Source);
    mais le gain de perf varie selon la "gueule" de la liste
    Aide via F1 - FAQ - Guide du développeur Delphi devant un problème - Pensez-y !
    Attention Troll Méchant !
    "Quand un homme a faim, mieux vaut lui apprendre à pêcher que de lui donner un poisson" Confucius
    Mieux vaut se taire et paraître idiot, Que l'ouvrir et de le confirmer !
    L'ignorance n'excuse pas la médiocrité !

    L'expérience, c'est le nom que chacun donne à ses erreurs. (Oscar Wilde)
    Il faut avoir le courage de se tromper et d'apprendre de ses erreurs

  8. #8
    Membre éclairé
    Profil pro
    Inscrit en
    Mars 2005
    Messages
    624
    Détails du profil
    Informations personnelles :
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : Mars 2005
    Messages : 624
    Par défaut
    Salut Gilbert, ShaiLeTroll,

    A GILBERT : Bien voloentié pour le fichier et l'unité voici mon mail bmannina chez free fr. C'est avec plaisir que je partagerais me résultats avec toi si cela t'interesse.

    A ShaiLeTroll : merci pour ces 2 fonctions, je vais les tester toutes les deux et revenir sur ce messages pour te dire ce qu'il en ai.

    Merci à tous pour votre aide si précieuse.

    Amitiés,
    Bruno

Discussions similaires

  1. calcul de fréquence des mots
    Par doceln dans le forum MATLAB
    Réponses: 8
    Dernier message: 01/10/2012, 21h27
  2. Fréquences des mots : la méthode TF-IDF
    Par pyknite dans le forum Intelligence artificielle
    Réponses: 2
    Dernier message: 25/06/2009, 09h01
  3. Mettre la première lettre des mots en majuscule
    Par seb.49 dans le forum Langage
    Réponses: 8
    Dernier message: 23/05/2003, 14h26
  4. Au sujet des mots de passe
    Par FranT dans le forum Langage
    Réponses: 6
    Dernier message: 17/09/2002, 22h16

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo