IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

suppression de doublons d'une liste


Sujet :

Langage Perl

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Inscrit en
    Mars 2010
    Messages
    157
    Détails du profil
    Informations forums :
    Inscription : Mars 2010
    Messages : 157
    Par défaut suppression de doublons d'une liste
    Bonjour Tout le monde

    J'ai réalisé un script permettant de lir un fichier de ce format et de supprimer de chaque documeny entre les balises <DOC n> et </DOC> les DOUBLONS

    ex de fichier en entréé:

    Code xml : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    <DOC 1>
    tchécoslovaquie
    pourquoi
    tchécoslovaquie
    tchécoslovaquie
    slovaquie
    tchèque
    </DOC>
    <DOC 2>
    comment
    guerre
    bosnie
    musulmans
    croates
    </DOC>
    <DOC 3>
    quel
    sida
    france
    </DOC>
    <DOC 4>
    allemagne
    comment
    allemagne
    allemagne
    xénophobie
    etranger
    </DOC>

    exemple de sortie:

    Code xml : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    <DOC 1>
    tchécoslovaquie
    slovaquie
    tchèque
    </DOC>
    <DOC 2>
    guerre
    bosnie
    musulmans
    croates
    </DOC>
    <DOC 3>
    quel
    sida
    france
    </DOC>
    <DOC 4>
    allemagne
    xénophobie
    etranger
    </DOC>

    Voila le code que j'ai réalisé
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    #!/usr/bin/perl
    print "bonjour\n";
    open(FIC, $ARGV[0]);
    $i=0;
    $k=0;
    $h=0;
     
    #---------------------------------------------------
    # debut du programme, choix du nom du fichier en sortie
    #---------------------------------------------------
    print "choisis un nom de fichier pour contenir les termes extraits\n";
    my $fic=<STDIN>;
    #---------------------------------------------------
    # initialisation des variables
    #---------------------------------------------------
    open(FIC1, ">$fic");
     
    while (<FIC>) {
    my $ligne=$_;
    my @liste=$ligne;
     
    #affectation du tableau avec répétition
    @b[$k].=$liste[0]."";
    if (@liste[0]=~/<\/DOC\>/){
     
     
    $k++;
    }
    }
     
    for($i=0;$i<$k;++$i){
     
    my @liste1=split(/\n/,@b[$i]);
     
     
     
    #@out contient la liste sans doublons
     
    my (%saw,@out)=(); 
    undef %saw; 
    @out = sort(grep(!$saw{$_}++, @liste1)); 
     
    print FIC1 @out;
     
    }
    Mais le problème que cet algorithme retourne le résultat trié et ne garde pas le format des documents a savoir les BALISES


    QUESTION :y at-il une solution ?
    Sachantb qu'on peut utiliser la fonction uniq


    MERCI

  2. #2
    Expert confirmé
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Par défaut
    Il y a un point qu'il faudrait éclaircir : la suppression des doublons est-elle globale ou bloc par bloc ? En d'autre terme :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    <DOC 1>
    double
    double
    </DOC>
    <DOC 2>
    double
    </DOC>
    devient-il :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    <DOC 1>
    double
    </DOC>
    <DOC 2>
    double
    </DOC>
    ou bien :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    <DOC 1>
    double
    </DOC>
    <DOC 2>
    </DOC>
    --
    Jedaï

  3. #3
    Membre confirmé
    Inscrit en
    Mars 2010
    Messages
    157
    Détails du profil
    Informations forums :
    Inscription : Mars 2010
    Messages : 157
    Par défaut
    Merci pour l'aide
    J'ai résolu ce problème
    Donc il s'agit de supprimer les doublons par bloc

    il suffit donc d'utiliser le module uniq list;il faut écrire la commande au début du programme après avoir installé le module uniq

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    use List::Uniq qw(:all);
    Merci pour l'intêret

    Donc c'est en ajoutant cette commande que le code est fonctionnel:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    #!/usr/bin/perl
    use List::Uniq qw(:all);
     
    print "bonjour\n";
    open(FIC, $ARGV[0]);
    $i=0;
    $k=0;
    $h=0;
     
    #---------------------------------------------------
    # debut du programme, choix du nom du fichier en sortie
    #---------------------------------------------------
    print "choisis un nom de fichier pour contenir les termes extraits\n";
    my $fic=<STDIN>;
    #---------------------------------------------------
    # initialisation des variables
    #---------------------------------------------------
    open(FIC1, ">$fic");
     
    while (<FIC>) {
    my $ligne=$_;
    my @liste=$ligne;
     
    #affectation du tableau avec répétition
    @b[$k].=$liste[0]."";
    if (@liste[0]=~/<\/DOC\>/){
     
     
    $k++;
    }
    }
     
    for($i=0;$i<$k;++$i){
     
    my @liste1=split(/\n/,@b[$i]);
     
     
     
     
    my @uniq_list = uniq(@liste1);
     
    foreach my $line(@uniq_list) {
            print FIC1 "$line\n";
    }
     
    }
    merci

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 3
    Dernier message: 20/11/2014, 22h36
  2. suppression de doublon dans une liste
    Par jeje644 dans le forum Excel
    Réponses: 1
    Dernier message: 12/10/2014, 22h49
  3. suppression de doublons dans une liste
    Par awalter1 dans le forum Général Python
    Réponses: 4
    Dernier message: 31/07/2012, 15h27
  4. Suppression de doublons dans une table partionnée
    Par ludmillaj dans le forum Oracle
    Réponses: 10
    Dernier message: 27/12/2005, 14h34
  5. [Lisp] Suppression des parenthèses dans une liste
    Par bourdaillet dans le forum Lisp
    Réponses: 3
    Dernier message: 19/12/2004, 21h02

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo