IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

Extraction d'un identifiant unique d'une chaine de caractères


Sujet :

Algorithmes et structures de données

  1. #1
    Futur Membre du Club
    Profil pro
    Directeur technique
    Inscrit en
    Avril 2009
    Messages
    10
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Directeur technique
    Secteur : High Tech - Électronique et micro-électronique

    Informations forums :
    Inscription : Avril 2009
    Messages : 10
    Points : 9
    Points
    9
    Par défaut Extraction d'un identifiant unique d'une chaine de caractères
    Bonjour,

    Je cherche une méthode, un algo, qui me permettrait de créer un identifiant unique, disons sur 4 ou 5 caractères, à partir d'une autre chaine (max 32 caractères), dans le but d'obtenir un codage normalisé pour identifier des clients.
    Exemples :
    • "Boucherie SANZOT" --> BHST
    • "Boucherie DUPONT" --> BHDN


    Évidemment, le principal problème serait d'avoir suffisamment d'entropie avec 32 chars max et j'ai exploré les algos de hash mais ils génèrent des chaines trop longues (ex. SHA256(Boucherie SANZOT) = 41F787F3ADC2C6825D249D6D7A42C28BB1E1AF1DE44C77EF95F874DD7FDB2811). A moins qu'il soit possible de "brider" de tels algos...

    Merci d'avance pour toute suggestion !

  2. #2
    Rédacteur/Modérateur

    Homme Profil pro
    Ingénieur qualité méthodes
    Inscrit en
    Décembre 2013
    Messages
    4 050
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur qualité méthodes
    Secteur : Conseil

    Informations forums :
    Inscription : Décembre 2013
    Messages : 4 050
    Points : 9 386
    Points
    9 386
    Par défaut
    C'est forcément sujet à risque.

    Tu as des mots qui font jusqu'à 32 lettres. Des milliards de mots différents possibles.
    Et tu veux des mots de 4 ou 5 lettres qui vont te permettre de 'raccourcir' les mots d'origine. 4 ou 5 caractères, ça veut dire en gros 1 million de mots possibles.
    Donc forcément, il y aura plein de mots qui donneront le même résultat dans ta procédure de raccourcissement.

    Si dans tes mots de 4 ou 5 lettres, tu acceptes les minuscules, les majuscules et les chiffres, et pourquoi pas quelques caractères de ponctuation, ça limite les problèmes, mais sans les supprimer totalement.

    Et enfin, j'oubliais l'essentiel. A partir de ton identifiant sur 4 ou 5 caractères, est-ce que tu veux une espèce de formule de calcul pour retrouver le mot de départ ?
    Si tu veux cette formule, si tu veux pouvoir faire la transformation dans un sens comme dans l'autre, alors c'est mort.
    N'oubliez pas le bouton Résolu si vous avez obtenu une réponse à votre question.

  3. #3
    Expert confirmé

    Homme Profil pro
    Directeur de projet
    Inscrit en
    Mai 2013
    Messages
    1 324
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Directeur de projet
    Secteur : Service public

    Informations forums :
    Inscription : Mai 2013
    Messages : 1 324
    Points : 4 134
    Points
    4 134
    Par défaut Petits mais maouss costaux
    Bonjour,

    Il y a bien la solution du Tardis (plus grand à l'intérieur qu'à l'extérieur) mais je ne crois pas son propriétaire enclin à s'en dessaisir. Qui ?

    Plus sérieux, ce qui a déjà été dit est tout à fait exact.

    Mais quitte à utiliser 4 octets pour l'identifiant, un entier sur 32 bits limitera les risques de collision car 4 milliards est un peu plus que 457 milles (26^4).

    L'autre critère est le nombre d'objets à identifier. Par exemple, avec 32 bits, 1 million d'enregistrements auront 1 "chance" sur 4000 d'avoir des collisions (en fait c'est pire car les noms ne sont pas répartis uniformément). En général, à la création de l'identifiant on vérifie qu'il n'est pas déjà en service, si oui on modifie l'identifiant. Et on revérifie ! Quand le nombre d'objets se rapprochent du nombre possible d'identifiant cela peut prendre du temps.

    Salutations
    Ever tried. Ever failed. No matter. Try Again. Fail again. Fail better. (Samuel Beckett)

  4. #4
    Futur Membre du Club
    Profil pro
    Directeur technique
    Inscrit en
    Avril 2009
    Messages
    10
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Directeur technique
    Secteur : High Tech - Électronique et micro-électronique

    Informations forums :
    Inscription : Avril 2009
    Messages : 10
    Points : 9
    Points
    9
    Par défaut
    Bonjour,

    Désolé pour le retard au suivi, mais le site ne m'a pas notifié des réponses reçues ! 🤨

    Une précision que j'aurais dû apporter dans mon message initial : le résultat du "compactage" de chaine sert à élaborer une référence client, dont dérive directement une adresse mail. En gros, nous signons un contrat avec "Etablissements DURAND" -> nous générons un "tag" client = ETDD, qui sera par exemple utilisé pour lui envoyer ses factures (i.e. référence comptable FAC.ETDD.2022.01.001), lui créer un compte sur une plateforme de services (ETDD-admin) ou une adresse pour contacter notre équipe support (ETDD-support@mybusiness.com). J'espère que cela clarifie mon besoin.

    Citation Envoyé par tbc92 Voir le message
    4 ou 5 caractères, ça veut dire en gros 1 million de mots possibles.
    Pas un problème pour moi : chaque utilisateur A va a son tour avoir quelques dizaines de clients, et même si une référence dans le contexte [User_A] est similaire à une référence [User_B], cela ne crée strictement aucune perturbation.

    Citation Envoyé par tbc92 Voir le message
    Si dans tes mots de 4 ou 5 lettres, tu acceptes les minuscules, les majuscules et les chiffres, et pourquoi pas quelques caractères de ponctuation, ça limite les problèmes, mais sans les supprimer totalement.
    Non, car le résultat du compactage sert à créer une adresse email.

    Citation Envoyé par tbc92 Voir le message
    est-ce que tu veux une espèce de formule de calcul pour retrouver le mot de départ ?
    Non, aucun besoin !

    Je pense répondre aussi aux questions de @Guesset...

    Citation Envoyé par Guesset Voir le message
    un entier sur 32 bits limitera les risques de collision car 4 milliards est un peu plus que 457 milles (26^4).
    Non, impossible, j'ai besoin de 4 ou 5 caractères alphabétiques !

    Citation Envoyé par Guesset Voir le message
    L'autre critère est le nombre d'objets à identifier.
    Non, comme indiqué plus haut, on parle de quelques dizaines de mots dans le contexte de chaque client, mais j'accepte de signer 1 million de clients ! 😁

    Merci encore pour toute piste d'investigation !

  5. #5
    Expert éminent sénior
    Homme Profil pro
    Responsable Données
    Inscrit en
    Janvier 2009
    Messages
    5 197
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Responsable Données

    Informations forums :
    Inscription : Janvier 2009
    Messages : 5 197
    Points : 12 772
    Points
    12 772
    Par défaut
    Bonjour,
    Tu peux par exemple prendre la première consonne du premier mot, tu supprimes cette consonne.
    Tu passes au deuxième mot, et tu fais la même chose.
    Quand tu arrives "dépasse" le dernier mot, tu boucles.

    Si tu tombes sur un code déjà existant, tu peux par exemple annuler la dernière affectation, et continuer.

    Dans le premier exemple, "Boucherie SANZOT" donnerait donc "BSCN", et Boucherie "DUPONT BDCP".

    Autre solution, tu calcules le nombre de lettre à prendre par mot, et tu fais un peu la même chose.
    Ici il te faudrait 2 lettres par mot, donc Boucherie SANZOT donnerait BCSN et "Boucherie DUPONT" "BCDP".
    Reste à voir comment par exemple gérer le cas d'un nom avec 3 "mots" pour générer un code de 5 lettres. 2 lettres sur les deux premier mots, et une seule sur le dernier ?
    Pour la gestion des doublons => même faute, même punition.

    Dans les deux cas, s'il n'y a pas assez de consonnes, il reste encore les voyelles.

    Tatayo.

  6. #6
    Rédacteur/Modérateur

    Homme Profil pro
    Ingénieur qualité méthodes
    Inscrit en
    Décembre 2013
    Messages
    4 050
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur qualité méthodes
    Secteur : Conseil

    Informations forums :
    Inscription : Décembre 2013
    Messages : 4 050
    Points : 9 386
    Points
    9 386
    Par défaut
    Tu es sur un nombre de clés limités.
    Tu bâtis une règle (supprimer les voyelles, c'est assez courant dans ces problématiques là).
    Et tu ajoutes une procédure pour dire : si l'identifiant généré existe déjà dans la base, alors recommencer, en modifiant un peu la règle ... tant que nécessaire.

    Apparemment, tu crées un identifiant par nouveau client, tu n'as donc pas des milliers d'identifiants à créer, tu peux même créer 3 ou 4 identifiants, vérifier que ces identifiants ne sont pas déjà utilisés, et proposer à l'utilisateur de choisir quel identifiant il veut, via un écran de saisie.

    Le cordonnier NARCISSE n'a peut-être pas envie que l'identifiant généré automatiquement soit composé des 2 premières lettres de sa profession suivies des 3 premières lettres de son nom.
    N'oubliez pas le bouton Résolu si vous avez obtenu une réponse à votre question.

  7. #7
    Futur Membre du Club
    Profil pro
    Directeur technique
    Inscrit en
    Avril 2009
    Messages
    10
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Directeur technique
    Secteur : High Tech - Électronique et micro-électronique

    Informations forums :
    Inscription : Avril 2009
    Messages : 10
    Points : 9
    Points
    9
    Par défaut
    Citation Envoyé par tbc92 Voir le message
    Le cordonnier NARCISSE n'a peut-être pas envie que l'identifiant généré automatiquement soit composé des 2 premières lettres de sa profession suivies des 3 premières lettres de son nom.
    Exemple très parlant ! 😁

    En effet, je vois se profiler une règle simple, implémentable même dans Excel... Pour les noms composés de plus de 2 mots, je peux commencer par une réduction des espaces et concaténer les différents mots pour ne garder que 2 chaines initiales...

    Merci à tous pour vos bonnes idées, je vais coder dans ce sens ! 👍

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [XL-2013] identifier et déterminer une chaine de caractères
    Par thomanneca dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 10/04/2018, 12h32
  2. [XL-2016] Identifier et extraire une chaine de caractère
    Par Invité dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 04/02/2018, 10h42
  3. Réponses: 2
    Dernier message: 05/07/2010, 15h06
  4. Réponses: 5
    Dernier message: 02/01/2006, 22h16
  5. Extraction d'une chaine de caractères
    Par megane dans le forum Langage
    Réponses: 2
    Dernier message: 05/01/2004, 14h52

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo