Bonjour à tous,

J’ai des données sur les noms d’écoles et de diplômes qui sont rentrées manuellement.

Je dois rapprocher avec les noms d’écoles référentiel. La même chose pour les diplômes ressortir le niveau et le domaine.

Les données proviennent d'une plateforme en ligne où l'on peut soit entrer manuellement les informations sur les diplômes, écoles, etc, soit les récupérer automatiquement à partir du CV par parsing ou les importer via Linkedin.

Ensuite, je génère des rapports sous format Excel ou CSV avec les données personnelles des personnes, les informations sur les diplômes (intitulé diplôme, type, date d'obtention, école).

Exemple d'écoles:
Dans le référentiel : Université Panthéon Sorbonne
Dans le fichier depuis la plateforme : Université Paris 1 Panthéon Sorbonne, Sorbonne University, Paris 1 Panthéon Sorbonne, École de Management Panthéon Sorbonne, IAE Panthéon Sorbonne, Paris 1 La Sorbonne, etc.
II existe encore une vingtaine de variantes avec des mots en plus ou en moins, des caractères -, où /, les doubles diplômes.

En ce qui concerne les diplômes, certains mentionnent le niveau suivi du domaine (comme Master en Management, Master of Business Administration), tandis que d'autres indiquent uniquement le domaine. Certains diplômes sont en anglais, et il existe également des certifications MOOC où ils écrivent une phrase sur le sujet.

Le but est d'obtenir le bon nom pour les écoles et, pour les diplômes, de récupérer le niveau et le domaine s'ils sont mentionnés, sinon seulement le domaine. Il y a aussi des doubles diplômes dans une même ligne qui ne sont pas séparés. Je précise qu'un diplôme + école équivaut à une ligne, donc chaque diplôme a sa propre ligne.

Pourriez vous m’aider à trouver une solution pour structurer ces données.

Merci d’avance