IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Naturel, chaîne et stockage


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éprouvé

    Profil pro
    Account Manager
    Inscrit en
    Décembre 2006
    Messages
    2 301
    Détails du profil
    Informations personnelles :
    Localisation : France, Savoie (Rhône Alpes)

    Informations professionnelles :
    Activité : Account Manager

    Informations forums :
    Inscription : Décembre 2006
    Messages : 2 301
    Par défaut Naturel, chaîne et stockage
    Bonsoir,
    j'ai une question toute bête mais bon... Je planche, pour le moment d'un point de vue théorique, sur un module pour faire de l'auto-complétion. Une solution m'a été donnée dans ce post.

    Ceci m'a donné l'idée d'une autre méthode qui consiste, dans sa première version, à construire le dictionnaire suivant :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    {
    'a': ['art', 'artiste', 'article'],
    'ar': ['art', 'artiste', 'article'],
    'art': ['artiste', 'article'],
    'artis': ['artiste', 'article'],
    'artist': ['artiste'],
    'artic': ['article'],
    'articl': ['article'],
    'w': ['when', 'who', 'whendy'],
    'wh': ['when', 'who', 'whendy'],
    'whe': ['when', 'whendy'],
    'when': ['whendy'],
    'whend': ['whendy']
    }
    pour la liste de mots suivante :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    ['art', 'artiste', 'article', 'when', 'who', 'whendy']
    Le problème avec cette méthode est la répétition du stockage de chaînes de caractères. Du coup, je voudrais faire quelque chose comme ci-dessous où on utilise les index dans la liste des mots:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    {
    'a': [0, 1, 2],
    'ar': [0, 1, 2],
    'art': [1, 2],
    'artis': [1, 2],
    'artist': [1],
    'artic': [2],
    'articl': [2],
    'w': [3, 4, 5],
    'wh': [3, 4, 5],
    'whe': [3, 5],
    'when': [5],
    'whend': [5]
    }
    L'utilisation de naturels vaut-elle le coup ?

  2. #2
    Membre Expert
    Homme Profil pro
    Inscrit en
    Mars 2007
    Messages
    941
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Mars 2007
    Messages : 941
    Par défaut
    Je ne pense pas. A moins d'une grosse bêtise dans l'implémentation, les différentes copies d'une même chaîne de caractères seront des références à une seule et même chaîne stockée en mémoire. En fait, pour cette raison il est même fort possible que ton implémentation sous forme de {'préfixe' : 'mot'} utilise moins de mémoire que la forme {'préfixe' : 'suffixe'} vu qu'il y aura plus de répétitions d'une même chaîne et donc plus d'opportunités d'aliasing (càd de références multiples pointant sur un même objet).

    Je peux me tromper, il faudrait tester pour en être sûr. Mais n'est-ce pas beau quand la solution la plus simple est aussi la plus efficace ?

  3. #3
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 761
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 761
    Par défaut
    Salut,

    Question qui me turlupine.
    Pourquoi ne pas travailler directement sur la liste: ['art', 'artiste', article', when', 'who', 'whendy'] - i.e. l'utiliser en tant que 'structure de données' parcourue par... - ?

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  4. #4
    Membre Expert
    Homme Profil pro
    Inscrit en
    Mars 2007
    Messages
    941
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Mars 2007
    Messages : 941
    Par défaut
    Citation Envoyé par wiztricks Voir le message
    Pourquoi ne pas travailler directement sur la liste: ['art', 'artiste', article', when', 'who', 'whendy'] - i.e. l'utiliser en tant que 'structure de données' parcourue par... - ?
    Cela m'a fait penser à ceci: si la liste est triée, e.g. ['art', 'article', 'artiste', 'when', 'whendy', 'who'], il suffit de pointer sur le premier élément qui a un préfixe donné, et de parcourir ensuite la liste tant que le préfixe est identique.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    {
    'a': 0,
    'ar': 0,
    'art': 0,
    'arti': 1,
    'artic': 1,
    'articl': 1,
    'article': 1,
    'artis': 2,
    'artist': 2,
    'artiste': 2,
    'w': 3,
    'wh': 3,
    'whe': 3,
    'when': 3,
    'whend': 4
    'whendy': 4
    'who': 5
    }
    (j'ai considéré qu'un mot est préfixe de lui-même, mais ce n'est qu'un choix)

  5. #5
    Membre Expert
    Homme Profil pro
    Inscrit en
    Mars 2007
    Messages
    941
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Mars 2007
    Messages : 941
    Par défaut
    Voici une implémentation de ce que je décris dans mon post précédent:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    class Completer(object):
        def __init__(self, words):
            self._indexes = {}
            self._words = list(words)
            self._words.sort()
            for idx, word in enumerate(self._words):
                for i in xrange(len(word)+1):
                    self._indexes.setdefault(word[:i], idx)
     
        def __getitem__(self, prefix):
            if prefix in self._indexes:
                idx = self._indexes[prefix]
                words = self._words
                while idx < len(words) and words[idx].startswith(prefix):
                    yield words[idx]
                    idx += 1
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    >>> c = Completer(['art', 'artiste', 'article', 'when', 'who', 'whendy'])
    >>> list(c['wh'])
    ['when', 'whendy', 'who']
    >>> list(c['art'])
    ['art', 'article', 'artiste']

  6. #6
    Membre éprouvé

    Profil pro
    Account Manager
    Inscrit en
    Décembre 2006
    Messages
    2 301
    Détails du profil
    Informations personnelles :
    Localisation : France, Savoie (Rhône Alpes)

    Informations professionnelles :
    Activité : Account Manager

    Informations forums :
    Inscription : Décembre 2006
    Messages : 2 301
    Par défaut
    Citation Envoyé par dividee Voir le message
    il suffit de pointer sur le premier élément qui a un préfixe donné, et de parcourir ensuite la liste tant que le préfixe est identique
    Je vais ordonner la liste de mots et pour un préfixe donné garder le 1er indice et le dernier indice possible. C'est plus simple. Je posterais un truc ce soir ou demain.

    Pour ta classe, ce n'est pas trop dans l'esprit de ce que je vais faire car j'aurais des données statiques. Ceci étant dit, je me dis en tapant ces lignes qu'en fait ta classe pourrait permettre de proposer une auto-complétion dynamique : par exemple, pour compléter des noms de variables ou autres friandises. Je garde cela sous le coude.

  7. #7
    Membre éprouvé

    Profil pro
    Account Manager
    Inscrit en
    Décembre 2006
    Messages
    2 301
    Détails du profil
    Informations personnelles :
    Localisation : France, Savoie (Rhône Alpes)

    Informations professionnelles :
    Activité : Account Manager

    Informations forums :
    Inscription : Décembre 2006
    Messages : 2 301
    Par défaut
    Finalement, j'ai fait ceci :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    def dicoForAutoComplete(listOfWords, depth = 3):
    # We clean double words and then sort the list.
        listOfWords = list(set(listOfWords))
        listOfWords = sorted(listOfWords)
     
    # We build the dico.
        theDico = { 'words': listOfWords,
                    'completions' : {}
                  }
     
        for i_word, oneWord in enumerate(listOfWords):
            for i in range( min(depth,len(oneWord)) ):
                onePrefix = oneWord[:i+1]
     
                if onePrefix in theDico['completions']:
                    theDico['completions'][onePrefix][1] = i_word + 1
                else:
                    theDico['completions'][onePrefix] = [i_word, i_word + 1]
     
        return theDico
     
     
    def listOfMatchingWords(dicoForAutoComplete, prefixToFind):
        if prefixToFind in dicoForAutoComplete['completions']:
            firstIndex = dicoForAutoComplete['completions'][prefixToFind][0]
            lastIndex = dicoForAutoComplete['completions'][prefixToFind][1]
     
            return dicoForAutoComplete['words'][ firstIndex: lastIndex ]
     
     
    if __name__ == "__main__":
        keywords = [ 'article',
                     'artiste',
                     'art',
                     'when',
                     'who',
                     'whendy',
                     'bar',
                     'barbie',
                     'barbier',
                     'bar',
                     'barré'
                   ]
     
        print("keywords")
        print(keywords)
     
        dicoForCompletions = dicoForAutoComplete( listOfWords = keywords,
                                                  depth = 4 )
     
        print()
        print("dicoForCompletions")
        import pprint
        pp = pprint.PrettyPrinter(indent = 0)
        pp.pprint(dicoForCompletions)
     
        print()
        print("Searching for 'bar'")
        print(listOfMatchingWords(dicoForCompletions, 'bar'))
    Ceci renvoie :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    keywords
    ['article', 'artiste', 'art', 'when', 'who', 'whendy', 'bar', 'barbie', 'barbier', 'bar', 'barré']
     
    dicoForCompletions
    {'completions': {'a': [0, 3],
                   'ar': [0, 3],
                   'art': [0, 3],
                   'arti': [1, 3],
                   'b': [3, 7],
                   'ba': [3, 7],
                   'bar': [3, 7],
                   'barb': [4, 6],
                   'barr': [6, 7],
                   'w': [7, 10],
                   'wh': [7, 10],
                   'whe': [7, 9],
                   'when': [7, 9],
                   'who': [9, 10]},
    'words': ['art',
             'article',
             'artiste',
             'bar',
             'barbie',
             'barbier',
             'barré',
             'when',
             'whendy',
             'who']}
     
    Searching for 'bar'
    ['bar', 'barbie', 'barbier', 'barré']
    Toute critique est la bienvenue.

  8. #8
    Membre éprouvé

    Profil pro
    Account Manager
    Inscrit en
    Décembre 2006
    Messages
    2 301
    Détails du profil
    Informations personnelles :
    Localisation : France, Savoie (Rhône Alpes)

    Informations professionnelles :
    Activité : Account Manager

    Informations forums :
    Inscription : Décembre 2006
    Messages : 2 301
    Par défaut
    Citation Envoyé par dividee Voir le message
    Je ne pense pas. A moins d'une grosse bêtise dans l'implémentation, les différentes copies d'une même chaîne de caractères seront des références à une seule et même chaîne stockée en mémoire.
    La chose que j'ai omise de dire est que le dictionnaire sera créé puis stocké via Pickle.

    Citation Envoyé par dividee Voir le message
    Je peux me tromper, il faudrait tester pour en être sûr.
    C'est vrai. Mais là je n'ai pas trop le temps d'où ma question mais je ferais des tests quand je mettrais réellement les mains dans le cambouis...

    Citation Envoyé par wiztricks Voir le message
    Pourquoi ne pas travailler directement sur la liste: ['art', 'artiste', article', when', 'who', 'whendy'] - i.e. l'utiliser en tant que 'structure de données' parcourue par... ?
    Que se passera-t-il avec 100 ou 1000 mots ? L'intérêt du dictionnaire tout fait est que l'on fait appel aux procédures "rapides" de Python du type if a in dico:...

    Merci pour ces remarques. Je travaillais sur ce code et celui de l'auto-complétion la semaine prochaine.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 8
    Dernier message: 12/02/2013, 01h08
  2. Réponses: 4
    Dernier message: 15/12/2011, 16h59
  3. Réponses: 4
    Dernier message: 04/06/2009, 09h38
  4. Comptage de mots dans une chaîne
    Par kikinou dans le forum Pascal
    Réponses: 10
    Dernier message: 01/01/2003, 02h27
  5. Réponses: 3
    Dernier message: 09/05/2002, 01h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo