IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Shell et commandes GNU Discussion :

Compter le nombre de mots uniques dans un fichier


Sujet :

Shell et commandes GNU

  1. #1
    Membre averti
    Homme Profil pro
    Inscrit en
    Novembre 2011
    Messages
    11
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Novembre 2011
    Messages : 11
    Par défaut Compter le nombre de mots uniques dans un fichier
    Bonjour,

    Je dois trouver une commande qui permet de compter le nombre de mots dans un fichier mais sans compter les mots identiques (pas tenir compte de la casse aussi).
    Exemple :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    cat fichier
    a1 A1 b1 b1 b2 c1
    La commande dans ce cas doit normalement retourner 2 (a1 et A1 sont vu comme identique et b1 et b1 aussi, on ne les comptes donc pas)
    J'ai essayé de voir avec les commande wc, grep ainsi qu'avec le pipe mais impossible de trouver quelque chose qui marche. En effet dans grep il faut déjà mettre un mot qu'on veux chercher.

    Merci de votre aide

  2. #2
    Modérateur
    Avatar de N_BaH
    Profil pro
    Inscrit en
    Février 2008
    Messages
    7 658
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 7 658
    Par défaut
    Bonjour,

    uniq est la commande dont tu dois lire la page man.
    il faudra auparavant afficher ton fichier sous forme d'une seule colonne.
    N'oubliez pas de consulter les cours shell, la FAQ, et les pages man.

  3. #3
    Expert confirmé Avatar de Flodelarab
    Homme Profil pro
    Inscrit en
    Septembre 2005
    Messages
    5 288
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente (Poitou Charente)

    Informations forums :
    Inscription : Septembre 2005
    Messages : 5 288
    Par défaut
    Bonjour,

    Pour faire une seule colonne:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    awk '{for (i=1;i<=NF;i++) print $i;}' fichier
    Puis sort, uniq avec les bonnes options.

  4. #4
    Expert confirmé Avatar de disedorgue
    Homme Profil pro
    Ingénieur intégration
    Inscrit en
    Décembre 2012
    Messages
    4 349
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur intégration
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Décembre 2012
    Messages : 4 349
    Par défaut
    Bonjour,

    @Flodelarab: Si on passe par awk pour la mise en colonne, autant qu'il fasse tout, non ?

    Sinon, une version sans awk ou sed:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    tr -s "[[:space:]]" "\n" fichier | sort -f | uniq -i -u | wc -l
    Après, qu'appelle-t-on un mot dans ton cas ?
    Ici, on considère qu'un mot est uniquement ce qui est séparé par la classe espace (espace,tabulation,...)

    Après, selon la volumétrie du fichier à parser, une version awk sera plus rapide mais plus couteuse en mémoire...

  5. #5
    Membre averti
    Homme Profil pro
    Inscrit en
    Novembre 2011
    Messages
    11
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Novembre 2011
    Messages : 11
    Par défaut
    Ok merci beaucoup !

    Par contre je ne dois pour l'instant pas utiliser de boucle for mais la méthode de disedorgue marche très bien, enfin j'ai juste fais une modif :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    cat fichier | tr -s "[:space:]" "\n" | sort -f | uniq -ui | wc -l
    J'ai appris les commandes tr et uniq qui sont bien utile :)

    Merci.

  6. #6
    Expert confirmé Avatar de disedorgue
    Homme Profil pro
    Ingénieur intégration
    Inscrit en
    Décembre 2012
    Messages
    4 349
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur intégration
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Décembre 2012
    Messages : 4 349
    Par défaut
    Autant pour moi, il est vrai que tr ne travail que sur l'entrée standart, donc le passage par un cat est utile si plusieurs fichiers sinon pour juste un fichier,une simple redirection est suffisant:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    tr -s "[[:space:]]" "\n" < fichier | sort -f | uniq -i -u | wc -l

  7. #7
    Modérateur
    Avatar de N_BaH
    Profil pro
    Inscrit en
    Février 2008
    Messages
    7 658
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 7 658
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    xargs -n1 < fichier | sort | uniq -iu
    N'oubliez pas de consulter les cours shell, la FAQ, et les pages man.

  8. #8
    Expert confirmé Avatar de Flodelarab
    Homme Profil pro
    Inscrit en
    Septembre 2005
    Messages
    5 288
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente (Poitou Charente)

    Informations forums :
    Inscription : Septembre 2005
    Messages : 5 288
    Par défaut
    Citation Envoyé par disedorgue Voir le message
    @Flodelarab: Si on passe par awk pour la mise en colonne, autant qu'il fasse tout, non ?
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    $ echo "a1 A1 b1 b1 b2 c1"| awk '{for (i=1;i<=NF;i++){nb[tolower($i)]++;}} END{for (i in nb) if (nb[i]==1) total++; print total;}'
    2

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 2
    Dernier message: 17/09/2014, 16h45
  2. [XL-2007] Compter le nombre de valeurs uniques dans un range (macro)
    Par richard_sraing dans le forum Macros et VBA Excel
    Réponses: 2
    Dernier message: 19/09/2012, 09h42
  3. compter le nombre de mots dans une chaine en php
    Par hadjiphp dans le forum Langage
    Réponses: 6
    Dernier message: 22/04/2009, 21h20
  4. Réponses: 4
    Dernier message: 04/03/2009, 10h18
  5. compter le nombre de mot dans une ligne fichier sous shell
    Par ninsekh dans le forum Shell et commandes GNU
    Réponses: 7
    Dernier message: 18/12/2008, 17h54

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo