Bonjour,
Mon but est de lire dans un fichier texte et de détecter des noms de personnes ou compagnie qui se trouvent dans des dictionnaires xml. Ces fichiers xml sont préformatés comme cela :
Mon objectif est de récupéré le type, la version normalizé et la version alternative, si dans le texte on détecte la version alternative d'un mot alors celui-ci devient la version normalisé. Mais le problème n'est pas la.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10 <inst type="Person" normalized="Annette Knardahl Ruud "> <alt>Annette Knardahl Ruud</alt> </inst> <inst type="Person" normalized="Annette Knutsdotter Medhus "> <alt>Annette Knutsdotter Medhus</alt> </inst> <inst type="Person" normalized="Annette Kuhn "> <alt>Annette Kuhn</alt> </inst>
Ma question est : comment peut-on récupérer ce triplet ?
J'ai bien pensé au pattern mais j'ai un dictionnaire conséquent, ça risque d'être long. Si utiliser les regex est le seul moyen, quelle est la pattern à utiliser ?
merci d'avance
Partager