Nettoyage de noms avec RE

**BioKore** · 20/05/2021, 18h19

Bonjour à tous,

Je cherche présentement à "nettoyer" deux listes de noms dont le formatage est différent, afin de pouvoir créer une liste unique de correspondance.
Concrètement, voici des exemples de formatage:

Table 1	Table 2	résultat attendu
Bob_Leponge	Leponge, Bob	leponge_bob
Marie-Pier_Josee	Jose, MariePier	josee_marie-pier
Justin_De-L'Arbre	De L'Arbre, Justin	de-l'arbre, Justin

Pour info, j'ai intégré le "résultat attendu" de manière purement arbitraire. L'idéal est avant tout de pouvoir séparer les noms et prénoms (facile), puis de reformater chacun d'eux.

À moins qu'une solution plus efficace existe, j'ai pensé à réaliser ce reformatage par RegEx (via la bibliothèque RE). Cependant, je débute à peine sur les RegEx et j'ai encore un peu du mal à saisir les paterns à employer.
Aussi, bien que le fait de n'utiliser qu'un seul patern serait idéal, j'ai la possibilité de traiter les deux tables indifféremment, donc possibilité d'employer plusieurs paterns.

Pour le moment, voici ce que j'ai essayé (trouvé durant la rédaction de ce post):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
import re 
pattern = re.compile(r"([A-Z][^A-Z\-\s]*)")

Qui fonctionne bien, sauf pour le dernier à cause de l'apostrophe. En effet, ceci me sépare le "L'" de "Arbre" ce qui est problématique lors du l'appel à '-'.join(pattern.findall(input)).
Sauriez-vous m'indiquer dans quelle mesure je peux modifier mon regex afin que ce dernier ne sépare pas majuscules séparées d'un apostrophe ( "AbcD" -» ["Abc", "D"], mais "L'AbcD" -» ["L'Abc", "D"]) ?

Je vous remercie par avance de votre expertise et savoir faire, qui me seront fort utile dans l'automatisation des tâches que j'entreprends.
Bonne journée !

**BufferBob** · 20/05/2021, 19h10

salut,

en intercalant un groupe non-capturant optionnel on arrive bien à ce que tu veux avec "L'AbcD" :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
>>> re.findall(r"([A-Z](?:\'[A-Z])?[^A-Z\-\s]*)", "L'AbcD")
["L'Abc", 'D']

mais en l'état ça n'est pas généralisable aux autres exemples que tu montres, il doit falloir raffiner ou donner des exemples plus précis.

**BioKore** · 20/05/2021, 19h59

Salut, Merci pour cette réactivité.

J'ai fait le test et tout semble correct de mon côté ;
Voici la fonction utilisée :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
pattern = re.compile(r"([A-Z](?:\'[A-Z])?[^A-Z\-\s]*)")
def process_name(input):
    if ", " in input:
        x, y = input.split(", ")
    else:
        y, x = input.split("_")
 
    first = '-'.join(pattern.findall(y)).lower()
    last = '-'.join(pattern.findall(x)).lower()
 
    return last, first
 
for v in names:  
    grp = process_name(v)
    print(grp)

Il me reste à essayer de l'appliquer sur l'ensemble de mes listes pour un test plus probant, mais sur une 10 d'entrées prises au hasard, ça semble bien fonctionner (incluant les apostrophes).

Merci encore donc. Je ferais savoir si je rencontre des spécificités différentes. Je dois me perfectionner sur le langage RegEx aussi

**wiztricks** · 20/05/2021, 20h40

Salut,

C'est bien de vouloir le "mieux" mais quand même la différence entre vos chaines de caractères c'est "nom_prenom" et "prenom, nom".

Vous avez plutôt intérêt à trouver une forme "canonique", par exemple le tuple (prénom, nom) et comparer les variants à ce tuple "canonique".

Après, le rendu de (prénom, nom) en "prénom_nom" ou "nom, prénom", c'est juste une transformation en chaine de caractères pour les humains.

- W

**BioKore** · 20/05/2021, 21h42

Bonjour,

Je n'ai pas vraiment de problèmes avec la forme "nom_prénom" ou "prénom, nom". Comme tu le vois d'ailleurs dans ma précédente fonction, les first et last représentent justement le tuple (prénom, nom). Globalement, un split fait l'affaire.
Le vrai problème que j'avais étais plus de l'ordre technique, visant à trouver un moyen de dire que "Pré-NomS" == "Prénoms" == "PréNoms".

Et il est vrai que plusieurs solutions s'offrent à cette question. Passer par un RegEx me semble être intéressant car offre, dans le cas présent, la possibilité de traiter les noms/prénoms composés à ma guise.

Nettoyage de noms avec RE

Python

Vue hybride

Discussions similaires

Partager

Partager