IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

Trouver l'association de mots la plus répandue dans un fichier


Sujet :

Langage Perl

  1. #1
    Membre du Club
    Inscrit en
    Décembre 2008
    Messages
    57
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 57
    Points : 41
    Points
    41
    Par défaut Trouver l'association de mots la plus répandue dans un fichier
    Bonjour à tous,

    Pour différents besoin je recherche un module, ou une solution afin de trouver l'association de mots la répandue dans un texte.

    Exemple de données:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    il a fait 5 tours de vélo à travers la ville tout les soirs pendant 10 jours, puis à pied
    les tours à vélo c'est bien pendant l'été au bord de l'eau, la marche à pied en ville par contre au bout de 5 km....
    en football il n'y a pas meilleur que lui en ville pour exécuter des tours de passe passe avec le pied même après 2h de match
    Et en résultat je cherche à avoir quelque chose dans le genre:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    tours + vélo + ville => 2 fois
    tours + pied + ville => 3 fois
    etc...
    Le but est donc de trouver la plus forte occurrence de mots commun dans une phrase

    Avez-vous une piste sur comment je pourrai m'y prendre ? où même quelque chose de ressemblant de déjà existant?

    J'ai fais quelques recherches sur l'ami G mais je ne n'ai rien vu se rapprochant de cela (ou le manque de sommeil ne m'a pas aidé à voir )

    Merci à vous

  2. #2
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    Quand tu écris :
    Le + implique-t-il un critère de distance entre les mots ?
    Si oui, quel est ce critère ?

    Par ailleurs, concernant les mots à rechercher, s'agit-il de tous les mots du texte (recherche combinatoire), ou bien de mots proposés par l'utilisateur (comptages d'occurrences prédéterminées) ?
    Plus j'apprends, et plus je mesure mon ignorance (philou67430)
    Toute technologie suffisamment avancée est indiscernable d'un script Perl (Llama book)
    Partagez vos problèmes pour que l'on partage ensemble nos solutions : je ne réponds pas aux questions techniques par message privé
    Si c'est utile, say

  3. #3
    Membre du Club
    Inscrit en
    Décembre 2008
    Messages
    57
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 57
    Points : 41
    Points
    41
    Par défaut
    Merci de ta réponse Philou,
    En effet cela aurait put être un peu plus précis ma description

    Le + n'implique pas de distance , juste le fait que ces mots soient présent dans une même ligne x fois. Il y aura une multitude de possibilités , sur lesquelles je devrai mettre un filtre pour enlever les mots très courts , et ceux qui ne reviennent pas assez souvent pour ne faire ressortir que les mots importants.

    Il n'y a pas de mots précisés par l'utilisateur , la recherche se fait sur l'ensemble du texte.


    Merci

  4. #4
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    Ce n'est pas suffisamment précis, encore : qu'entends par "une ligne" ?
    Est-ce :
    - une phrase ? (une liste de mot se terminant par un point (. ? !)
    - une ligne typographique se terminant par un retour à la ligne (\n et/ou \r) ?

    Par ailleurs, tu ne précises pas non plus de limite pour la taille du groupe de mots. S'il n'y a pas de taille min/max pour le groupe de mot, les combinaisons de mots, même en éliminant les petits mots, risquent d'êtres assez importantes. Je me demande si ta question ne relèverait pas de la programmation linéaire (dont j'avoue que c'est un lointain souvenir, mais un bon souvenir).

    Une méthode pour choisir les bons groupes de mots serait peut-être de commencer par classer les mots par occurrence. Pour cela, et en considérant qu'une ligne est une phrase terminant par un point, quelque soit le nombre de retour à la ligne, on pourrait créer une table contenant, pour chaque "ligne" (phrase), une table de hashage ou chaque mot sera associé à son nombre d'occurrence (en limitant par exemple aux mots de plus de 2 lettres).

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    #!/usr/bin/perl
     
    use warnings;
    use strict;
     
    use Data::Dumper;
    use locale;
    use POSIX qw(locale_h);
    use utf8;
     
    setlocale(LC_CTYPE, "fr_FR.ISO8859-1");
    binmode(STDOUT, ":utf8");
     
    my $text = "";
    my $phrase_nb = 0;
    my @occurrence = ();
     
    # Si l'entrée standard contient un texte, on choisit celle-ci, sinon, on prend le texte après __DATA__ dans ce fichier
    my $DATA = !-t STDIN ? *STDIN : *DATA;
     
    while (<$DATA>) {
      $text .= $_;
     
      # Supprimer les retours à la ligne (indépendant du système de fichier)
      $text =~ s/[\n\r]+/ /g;
     
      # Traiter les phrases entières
      foreach my $phrase ($text =~ /(.*?(?:\.(?:\.\.)?|\?|!))/gc) {
        $phrase =~ s/^\s*//;
        print "phrase ", $phrase_nb++, ": $phrase\n";
     
        # Compter les occurences de chaque mot
        my %mots;
        $mots{$_}++ foreach $phrase =~ /(\w{3,})/g;
        # Et enregistrer le résultat
        push @occurrence, { %mots };
      }
     
      # Récupérer le résidus qui ne constitue pas une phrase
      ($text) = $text =~ /\G(.*)$/;
      print "Résidu ", $text, "\n";
    }
     
    print Data::Dumper->Dump([\@occurrence], [qw(*occurrence)]);
     
    __DATA__
    il a fait 5 tours de vélo à travers la ville tout les soirs pendant 10 jours, puis à pied.
    les tours à vélo c'est bien pendant l'été au bord de l'eau, la marche à pied en ville par contre au bout de 5 km...
    en football il n'y a pas meilleur que lui en ville pour exécuter des tours de passe passe avec le pied même après 2h de match.
    Bien entendu, il est possible de modifier la condition déterminant une phrase. J'ai essayé avec ton texte et avec la bible. Cette partie de script fonctionne.

    Pour la suite, ta question reste très vague, car j'ai du mal à interpréter ce qu'est un groupe de mot sans définition une distance entre les mots. Par exemple, dans la phrase qui suit, quels groupes de mots prendre :
    Les tours de vélo sont des tours de vélo et ne sont pas des tours à pied, comme des tours à pied.

    Le script précédent donne la liste d'occurrence suivante :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    @occurrence = (
                    {
                      'comme' => 1,
                      'pied' => 2,
                      'tours' => 4,
                      'Les' => 1,
                      'des' => 3,
                      'sont' => 2,
                      'pas' => 1
                    }
                  );
    On pourrait alors prendre "tours des" comme un groupe apparaissant 3 fois, et "pied sont" comme un groupe apparaissant 2 fois, de même que "pied tours", "pied des", "tours sont", ...
    Bref, c'est un peut large comme définition de groupe de mot.
    Plus j'apprends, et plus je mesure mon ignorance (philou67430)
    Toute technologie suffisamment avancée est indiscernable d'un script Perl (Llama book)
    Partagez vos problèmes pour que l'on partage ensemble nos solutions : je ne réponds pas aux questions techniques par message privé
    Si c'est utile, say

  5. #5
    Membre du Club
    Inscrit en
    Décembre 2008
    Messages
    57
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 57
    Points : 41
    Points
    41
    Par défaut
    Quand je parle d'une ligne je parle bien entendu d'une ligne (\r\n) et non d'une phrase

    En effet je ne précise pas de limite pour les groupes de mots car je n'en souhaite pas. Pour limiter le nombre de résultats, il est prévu un filtre pour enlever les mots ne m'intéressant pas et ceux trop court.

    Merci pour le petit bout de script, mais je n'ai pas de difficultés avec la détection d'occurrences

    Après quand je parle de groupe de mots , il est vrai que cela n'est pas très clair, on pourrait appeler ca plus un ensemble de mot.
    Le but est juste de trouver les ensemble de mots les plus présent dans ses lignes peu importe la distance.

  6. #6
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    Citation Envoyé par ssc37 Voir le message
    Après quand je parle de groupe de mots , il est vrai que cela n'est pas très clair, on pourrait appeler ca plus un ensemble de mot.
    Le but est juste de trouver les ensemble de mots les plus présent dans ses lignes peu importe la distance.
    Dans le dernier exemple que j'ai cité, quels sont les groupes que tu voient ?
    Plus j'apprends, et plus je mesure mon ignorance (philou67430)
    Toute technologie suffisamment avancée est indiscernable d'un script Perl (Llama book)
    Partagez vos problèmes pour que l'on partage ensemble nos solutions : je ne réponds pas aux questions techniques par message privé
    Si c'est utile, say

  7. #7
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    A vrai dire, j'ai du mal à comprendre ce que tu identifies comme "groupe de mot".
    Si je suis tes explications, le simple comptage des mots devrait te révéler des groupes de mots. Exemple :
    - ville : 3x
    - pied : 2x
    - vélo : 4x
    - ballade : 6x
    devraient générer les groupes :
    - ville pied : 2x
    - ville vélo : 3x
    - ville ballade : 3x
    - pied vélo : 2x
    - pied ballade : 2x
    - vélo ballade : 4x
    - ville pied vélo : 2x
    - etc ...

    C'est ce que tu recherches vraiment ?
    Dans ce cas, c'est assez simple d'obtenir la liste complète de toutes les combinaisons possible, et pour chacune, son nombre d'occurrence (le min de chaque mot du groupe). Si tu cherches seulement le groupe le plus important, tu le trouveras en prenant les deux mots (ou plus) qui apparaissent le plus souvent.

    Ou alors, j'ai pas compris du tout ce que tu cherches à faire.
    Plus j'apprends, et plus je mesure mon ignorance (philou67430)
    Toute technologie suffisamment avancée est indiscernable d'un script Perl (Llama book)
    Partagez vos problèmes pour que l'on partage ensemble nos solutions : je ne réponds pas aux questions techniques par message privé
    Si c'est utile, say

  8. #8
    Membre du Club
    Inscrit en
    Décembre 2008
    Messages
    57
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 57
    Points : 41
    Points
    41
    Par défaut
    En effet on a du mal à se comprendre ^^

    Je déleste car je devais vraiment pas être réveillé

    Pour faire rapide:
    je me suis inspiré de ca

    Je split chaque ligne pour avoir un hash avec comme clef1 chaque mots et en clef2 le n° de la ligne

    A la fin je regarde pour tout les mots détectés (que j'ai filtrés avant) les lignes où ils étaient en commun afin de faire un comptage.

  9. #9
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    Je n'avais pas encore compris que les groupes de mots devaient être comptés sur différentes lignes, ... enfin, si j'ai bien compris.

    Je ne sais pas si j'ai bien compris, mais penses-tu que la fonction each_array du module List::MoreUtils pourrait t'être utile ?

    Peut-être, pour aider à comprendre, pourrais-tu poster ce dont tu disposes déjà, et ce qui te bloque pour continuer ?
    Plus j'apprends, et plus je mesure mon ignorance (philou67430)
    Toute technologie suffisamment avancée est indiscernable d'un script Perl (Llama book)
    Partagez vos problèmes pour que l'on partage ensemble nos solutions : je ne réponds pas aux questions techniques par message privé
    Si c'est utile, say

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [2008R2] Comment trouver quelques sont les mots le plus souvent répétées
    Par bisou007 dans le forum Développement
    Réponses: 3
    Dernier message: 01/07/2013, 16h47
  2. [MySQL] Trouver les mots les plus répétés dans un champ
    Par maxence64 dans le forum PHP & Base de données
    Réponses: 1
    Dernier message: 30/05/2011, 13h20
  3. [XL-2002] Top 10 des mots les plus fréquent dans une colonne de mots
    Par _gege_ dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 05/07/2010, 23h20
  4. Réponses: 16
    Dernier message: 24/12/2009, 19h44
  5. Trouver le mot le plus long dans une chaîne
    Par bassoum dans le forum x86 16-bits
    Réponses: 1
    Dernier message: 02/11/2008, 10h45

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo