IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

comparaison de chaînes de caractères sans tenir compte des espaces


Sujet :

R

  1. #1
    Membre régulier
    Profil pro
    Inscrit en
    Janvier 2009
    Messages
    219
    Détails du profil
    Informations personnelles :
    Âge : 38
    Localisation : France

    Informations forums :
    Inscription : Janvier 2009
    Messages : 219
    Points : 97
    Points
    97
    Par défaut comparaison de chaînes de caractères sans tenir compte des espaces
    Bonjour,

    Je cherche un moyen de comparer des chaînes de caractères sans tenir compte des espaces qui s'y trouvent.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
     
    liste_Ancienne[1]
    [1] "EHI_065250"
    > liste[75]
    [1] "EHI_065250  "
    liste_Ancienne[1]==liste[75]
    [1] FALSE
    Je compare chaque liste à une liste globale contenant de manière unique chaque élément des deux listes. J'utilise alors grepl pour la comparaison, mais je dois "éliminer" les espaces.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
     
    liste_complete=c(liste,liste_Ancienne)
    liste_complete=unique(liste_complete)
     
    m=length(liste_complete)
    g1=rep(0,m)
    g2=rep(0,m)
     
    for (i in 1:m)
    {
    g1[i]=sum(grepl(liste_complete[i],liste))
    g2[i]=sum(grepl(liste_complete[i],liste_Ancienne))
    }
    Pour être insensible à la case, on peut utiliser ignore.case=FALSE dans grep. Y-aurait-il un équivalent pour les espaces ?
    Merci

  2. #2
    Membre expert
    Avatar de pitipoisson
    Homme Profil pro
    Chercheur
    Inscrit en
    Septembre 2006
    Messages
    1 942
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 942
    Points : 3 378
    Points
    3 378
    Par défaut
    Bonjour,
    Citation Envoyé par jane40 Voir le message
    Pour être insensible à la case, on peut utiliser ignore.case=FALSE dans grep. Y-aurait-il un équivalent pour les espaces ?
    Non, pas directement à ma connaissance.

    Mais tu peux facilement contourner le problème en supprimant les espaces à la volée :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    g1[i]=sum(grepl(gsub(" ", "", liste_complete[i]), 
                    gsub(" ", "", liste)))
    Forum LaTeX : pour des réponses rapides et appropriées, pensez à poster un
    ECM = Exemple (reproduit le problème) Complet (document compilable) Minimal (ne postez pas votre thèse !)

    Une solution vous convient ? N'oubliez pas le tag


    )><))))°>

  3. #3
    Membre régulier
    Profil pro
    Inscrit en
    Janvier 2009
    Messages
    219
    Détails du profil
    Informations personnelles :
    Âge : 38
    Localisation : France

    Informations forums :
    Inscription : Janvier 2009
    Messages : 219
    Points : 97
    Points
    97
    Par défaut
    ça marche très bien ! Merci !

  4. #4
    Membre expert
    Avatar de pitipoisson
    Homme Profil pro
    Chercheur
    Inscrit en
    Septembre 2006
    Messages
    1 942
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 942
    Points : 3 378
    Points
    3 378
    Par défaut
    Une petite remarque qui n'a rien à voir avec la question de départ : plutôt que d'utiliser des boucles for, peu efficace en R, tu pourrais utiliser les fonctions de la famille des apply.

    Par exemple :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    g1 <- sapply(X=gsub(" ", "", liste_complete[i]),
                 FUN=function(x)
             {
                 grepl(pattern=x, 
                       x=gsub(pattern=" ", replacement="", x=liste))
             })
    ou bien
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    g1 <- sapply(X=gsub(" ", "", liste_complete[i]),
                 FUN=function(x, y) {grepl(x, y)},
                 y=gsub(pattern=" ", replacement="", x=liste))
    Peut-être n'en as-tu pas directement l'utilité, mais dès lors que tu travailles sur de gros jeux de données, la différence devient sensible.

    La syntaxe n'est pas très intuitive, mais on s'y habitue.
    Forum LaTeX : pour des réponses rapides et appropriées, pensez à poster un
    ECM = Exemple (reproduit le problème) Complet (document compilable) Minimal (ne postez pas votre thèse !)

    Une solution vous convient ? N'oubliez pas le tag


    )><))))°>

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 4
    Dernier message: 09/11/2010, 07h20
  2. Réponses: 4
    Dernier message: 12/08/2009, 14h14
  3. Réponses: 2
    Dernier message: 17/07/2008, 20h31
  4. Réponses: 2
    Dernier message: 11/01/2007, 11h28
  5. Réponses: 4
    Dernier message: 04/11/2006, 20h36

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo