IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Rapprochement Données Equivalente


Sujet :

Python

  1. #1
    Membre régulier
    Profil pro
    Inscrit en
    février 2010
    Messages
    555
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : février 2010
    Messages : 555
    Points : 97
    Points
    97
    Par défaut Rapprochement Données Equivalente
    Bonjour,

    J'ai 2 fichiers .csv me donnant 2 bases de données sur les clubs de Football.
    Je cherche à rapprocher ces 2 bases de données qui n'ont bien évidement pas de clé unique permettant d'identifier les différent clubs dans chaque base.

    Connaissez vous en python un moyen de faire ce rapprochement ?
    Parfois les noms des clubs sont "FC Montreuil" dans une base et "Montreil Football Club" dans une autre
    Un humain peut faire le rapprochement mais l'ordinateur ?

    PS : La faute d'orthographe dans Montreil est expres puisque cela peut se présenter ...

    Thais

  2. #2
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    février 2006
    Messages
    12 129
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : février 2006
    Messages : 12 129
    Points : 29 587
    Points
    29 587
    Billets dans le blog
    1
    Par défaut
    Bonjour
    Citation Envoyé par thais781 Voir le message
    PS : La faute d'orthographe dans Montreil est expres puisque cela peut se présenter ...
    Bon ben... je crois que cette phrase clôt à elle seule le débat. Chez-nous on appelle ça la règle du "ça dépend" et généralement quand ça nous arrive on renvoie le demandeur dans ses buts en lui demandant des contraintes plus modélisables.

    Citation Envoyé par thais781 Voir le message
    Connaissez vous en python un moyen de faire ce rapprochement ?
    Python n'est pas "le truc magique qui fait tout", ça reste un langage. Langage puissant, souple, sympa, mais se cantonant aux algos généralistes.
    Après, en utilisant des outils toujours généralistes mais que toi tu vas cibler particulièrement tu peux arriver à faire des trucs précis, mais tu devras te créer tes outils.

    Par exemple avec des regex tu peux créer un outil disant "est-ce que Montreuil égal Montreil" et qui te répondra un truc style "match 78%" (c'est ce que fait par exemple chardet, qui peut sniffer un encoding de fichier texte et renvoie l'encoding le plus probable avec sa probabilité). Et de là tu pourras alors programmer un algo qui fait des choses avec tes deux bdd. Mais voilà, ça reste à toi de le créer. C'est trop particulier à "ton souci" pour que quelqu'un ait eu besoin de l'écrire et surtout d'en faire un outil récupérable. Et surtout ça ne pourra jamais gérer tous les écarts avec certitude.
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  3. #3
    Expert confirmé
    Avatar de popo
    Homme Profil pro
    Analyste programmeur Delphi / C#
    Inscrit en
    mars 2005
    Messages
    2 441
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Analyste programmeur Delphi / C#
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : mars 2005
    Messages : 2 441
    Points : 4 700
    Points
    4 700
    Par défaut
    Je rejoins Sve@r à 100%
    Un programme peut difficilement comparer des choux et des carottes mêmes s'ils sont tous les deux des légumes.

  4. #4
    Membre chevronné
    Homme Profil pro
    Développeur informatique
    Inscrit en
    février 2003
    Messages
    1 535
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Industrie

    Informations forums :
    Inscription : février 2003
    Messages : 1 535
    Points : 1 902
    Points
    1 902
    Par défaut
    Une analyse humaine est le passage obligé ici.

    A défaut d'avoir des clés uniques qui puissent être rapprochées entre les deux bases, il faut déterminer quels sont les éléments pouvant matcher entre elles et un oeil humain qui se pose sur ces éléments pour déterminer des clés de matching.

    Si "FC Montreuil" dans une base correspond à "Montreil Football Club" dans l'autre, seul toi le sait et tu peux déjà utiliser ces valeurs dans un script Python. Mais ça signifie tout balayer, tout scruter.

    J'ai souvent des données à rapprocher entre plusieurs fichiers csv dans mon boulot. Le point de départ, à chaque fois, c'est de rassembler les morceaux : qui va avec qui ?

  5. #5
    Membre expert Avatar de papajoker
    Homme Profil pro
    Développeur Web
    Inscrit en
    septembre 2013
    Messages
    1 890
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nièvre (Bourgogne)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : septembre 2013
    Messages : 1 890
    Points : 3 985
    Points
    3 985
    Par défaut
    bonjour

    ici ce qui me parait le plus compliqué à comparer c'est "FC" avec "Football Club"

    Il n'y a pas de différences dans le même fichier csv ? uniquement entre les 2 fichiers ?
    Tu n'as alors qu'une simple conversion 1<->1 à faire sur 20..22 équipes, donc rien de difficile en python. Dans un premier temps, faire un set() des noms et il ne reste qu'à relier (manuellement) ces 2 ensembles
    $moi= ( !== ) ? : ;

  6. #6
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    février 2006
    Messages
    12 129
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : février 2006
    Messages : 12 129
    Points : 29 587
    Points
    29 587
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par papajoker Voir le message
    ici ce qui me parait le plus compliqué à comparer c'est "FC" avec "Football Club"
    Ca peut toujours se faire via une table d'équivalences à créer style
    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    translate=(
    	("FC", "Football Club"),
    	...,
    )
    C'est ce que j'ai fait pour mon convertisseur Qt5 vers Qt6. L'avantage c'est qu'une fois l'algo créé, il suffit de faire évoluer juste la table au fur et à mesure qu'on trouve des nouveaux cas et le code s'y adapte automatiquement
    On peut même, si on veut être super souple, mettre la table dans un fichier CSV indépendant et lu en début de programme, ainsi le programme n'a même plus à changer.
    Après il reste le souci des fautes d'orthographe qui devraient, à mon avis, être traitées à part pour remettre la bdd au propre (c'est quand-même plus sain)...
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  7. #7
    Membre expert Avatar de papajoker
    Homme Profil pro
    Développeur Web
    Inscrit en
    septembre 2013
    Messages
    1 890
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nièvre (Bourgogne)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : septembre 2013
    Messages : 1 890
    Points : 3 985
    Points
    3 985
    Par défaut
    c'est parfois un peu plus compliqué, par exemple nous avons

    TFC = Toulouse football club
    Stade Rennais F.C. = Stade Rennais = Stade Rennais FC ***
    ...
    et je suppose qu'il n'y a pas que des "football club" (Sporting Club)
    $moi= ( !== ) ? : ;

  8. #8
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    février 2006
    Messages
    12 129
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : février 2006
    Messages : 12 129
    Points : 29 587
    Points
    29 587
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par papajoker Voir le message
    c'est parfois un peu plus compliqué
    Oui je comprends. J'essaye d'apporter ma pierre mais bon, à un moment, la règle du "ça dépend" ben... ça dépend quoi...
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  9. #9
    Membre régulier
    Profil pro
    Inscrit en
    février 2010
    Messages
    555
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : février 2010
    Messages : 555
    Points : 97
    Points
    97
    Par défaut
    Merci pour votre aide ... on est donc dans la même situation

    Je vais regarder du coté de Fuzzy, SequenceMatcher si ca peut donner quelque chose ....

  10. #10
    Expert éminent
    Avatar de fred1599
    Homme Profil pro
    Lead Dev Python
    Inscrit en
    juillet 2006
    Messages
    3 424
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations professionnelles :
    Activité : Lead Dev Python
    Secteur : Alimentation

    Informations forums :
    Inscription : juillet 2006
    Messages : 3 424
    Points : 6 249
    Points
    6 249
    Par défaut
    Bonjour,

    À mon sens on peut le faire ! Certes ça ne sera pas aussi parfait que si il y avait un contrôle humain pour vérifier que les données sont correctes en modifiant selon interprétation, mais c'est ce que font les IA actuellement en utilisant des techniques du NLP.

    @thais781,

    Regarde du côté du module levenshtein et sa fonction ratio.

    Tu as des exemples avec... il suffit que tu définisses à partir de quelle valeur de ratio, on peut considérer que deux chaînes sont identiques.

    Et par exemple pour la comparaison entre FC et Football Club, levenstein n'est évidemment pas suffisant, on peut regarder du côté du module spacy par exemple.

    En tout cas ça ne sera pas simple, il faudra faire des tests unitaires pour jauger des meilleures stratégies à appliquer, mais c'est faisable !
    Celui qui trouve sans chercher est celui qui a longtemps cherché sans trouver.(Bachelard)
    La connaissance s'acquiert par l'expérience, tout le reste n'est que de l'information.(Einstein)

  11. #11
    Membre expert Avatar de papajoker
    Homme Profil pro
    Développeur Web
    Inscrit en
    septembre 2013
    Messages
    1 890
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nièvre (Bourgogne)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : septembre 2013
    Messages : 1 890
    Points : 3 985
    Points
    3 985
    Par défaut
    Citation Envoyé par thais781 Voir le message
    on est donc dans la même situation
    Si tu ne fais aucun regroupement de ton côté, cela ne risque pas d'avancer

    récupérer la colonne nom et faire 2 set() en python sur les 2 fichiers n'a vraiment rien de compliqué

    regarder du coté de Fuzzy, SequenceMatcher
    Sans intérêt si tu ne fais pas le travail préalable

    Et comme écrit plus haut, si tu n'as que 2 ensembles de 20 équipes, alors faire la liaison "manuellement" sera 100 fois plus rapide.
    En tout cas ça ne sera pas simple, il faudra faire des tests unitaires pour jauger des meilleures stratégies à appliquer
    "Manuellement" : bien sûr je parle de la technique de Sver
    $moi= ( !== ) ? : ;

  12. #12
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    février 2006
    Messages
    12 129
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : février 2006
    Messages : 12 129
    Points : 29 587
    Points
    29 587
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par thais781 Voir le message
    Merci pour votre aide ... on est donc dans la même situation
    Ben... comme disait Spock dans Star Trek VI Terre Inconnue, même la logique doit s'effacer devant la physique.
    L'informatique est basée sur la décidabilité mathématique d'une assertion formulée par Hilbert (une assertion ne peut avoir que "vrai" ou "faux"). Si l'assertion "Montril == Montreuil" n'est pas décidable, rien dans l'informatique ne pourra le décider à ta place...

    Citation Envoyé par thais781 Voir le message
    Je vais regarder du coté de Fuzzy, SequenceMatcher si ca peut donner quelque chose ....
    Tu peux regarder où tu veux. Beaucoup d'outils pourront t'apporter ce qu'on appelle une "aide à la décision" mais aucun ne te donnera de certitude style "ceci correspond à cela".
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  13. #13
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    juin 2008
    Messages
    20 778
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : juin 2008
    Messages : 20 778
    Points : 35 870
    Points
    35 870
    Par défaut
    Citation Envoyé par thais781 Voir le message
    Un humain peut faire le rapprochement mais l'ordinateur ?
    Vous êtes à la recherche d'un algorithme/heuristique.
    Poser la question dans le bon forum serait déjà un bon début.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  14. #14
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    février 2006
    Messages
    12 129
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : février 2006
    Messages : 12 129
    Points : 29 587
    Points
    29 587
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par wiztricks Voir le message
    Poser la question dans le bon forum serait déjà un bon début.
    A sa décharge, il a demandé au tout début si on connaissait un outil Python pouvant faire le job. Il ne savait pas que ce job dépend plus des heuristiques que de Python.
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  15. #15
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    juin 2008
    Messages
    20 778
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : juin 2008
    Messages : 20 778
    Points : 35 870
    Points
    35 870
    Par défaut
    Citation Envoyé par Sve@r Voir le message
    A sa décharge, il a demandé au tout début si on connaissait un outil Python pouvant faire le job. Il ne savait pas que ce job dépend plus des heuristiques que de Python.
    Désolé mais utiliser des outils dont je n'ai aucune idée de comment ils fonctionnent n'a pas trop de sens pour moi...
    De plus, j'ai rarement l'impression de me lancer dans quelque chose de très original et je regarde sur Internet ce qu'on pu faire d'autres confrontés au même problème - ce qui peut être intéressant ici est lorsqu'on ne trouve rien car cela peut donner des tas d'informations sur notre façon (erronée) de poser le problème.
    Ici, par exemple, on va pouvoir trouver ce genre d'article... qui donne des idées d'algo. et de modules Python à rechercher.


    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  16. #16
    Expert éminent
    Avatar de jurassic pork
    Homme Profil pro
    Bidouilleur
    Inscrit en
    décembre 2008
    Messages
    3 643
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Bidouilleur
    Secteur : Industrie

    Informations forums :
    Inscription : décembre 2008
    Messages : 3 643
    Points : 8 690
    Points
    8 690
    Par défaut
    Hello,
    dans tes fichiers csv as-tu d'autres renseignements par ligne que le nom du club (ex: la ville, le code postal etc ...). Parce que par exemple il existe plusieurs Montreuil en France qui ont un club de football :
    Nom : Montreuil_FFF.png
Affichages : 51
Taille : 18,7 Ko
    Ami calmant, J.P
    Jurassic computer : Sinclair ZX81 - Zilog Z80A à 3,25 MHz - RAM 1 Ko - ROM 8 Ko

  17. #17
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    juin 2008
    Messages
    20 778
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : juin 2008
    Messages : 20 778
    Points : 35 870
    Points
    35 870
    Par défaut
    Citation Envoyé par jurassic pork Voir le message
    Parce que par exemple il existe plusieurs Montreuil en France qui ont un club de football :
    Il y a aussi probablement des clubs de foot dont le nom n'a rien à voir avec la ville et plusieurs clubs pour une même ville... mais la question reste: comment fabriquer un identifiant à partir d'une ligne d'une table qui soit comparable à l'identifiant d'une ligne d'une autre table.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  18. #18
    Expert éminent
    Avatar de jurassic pork
    Homme Profil pro
    Bidouilleur
    Inscrit en
    décembre 2008
    Messages
    3 643
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Bidouilleur
    Secteur : Industrie

    Informations forums :
    Inscription : décembre 2008
    Messages : 3 643
    Points : 8 690
    Points
    8 690
    Par défaut
    et la question qui tue : quel est le petit rigolo qui a entré les données ?
    Jurassic computer : Sinclair ZX81 - Zilog Z80A à 3,25 MHz - RAM 1 Ko - ROM 8 Ko

  19. #19
    Membre expert Avatar de papajoker
    Homme Profil pro
    Développeur Web
    Inscrit en
    septembre 2013
    Messages
    1 890
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nièvre (Bourgogne)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : septembre 2013
    Messages : 1 890
    Points : 3 985
    Points
    3 985
    Par défaut
    Citation Envoyé par jurassic pork Voir le message
    quel est le petit rigolo qui a entré les données ?
    mais même sans cela, ces changements sont normaux !
    J'ai bossé 2 ans sur un soft de résultats sportifs (foot, hand, basket,...) : d'une année sur l'autre :
    - un club peut être renommé pour raison administrative (Association Sportive de Truc -> Amicale de Truc -> Club pro de Truc )
    - 2 villages sont fusionnés et le club change de nom (donc peut-être plus aucune lettre commune entre les 2 !)
    - Chaque année des clubs descendent/montent donc disparaissent (temporairement ou pas) : donc non trouvé ne signifie même pas une erreur de super algo (donc intervention manuelle obligatoire)

    De mon expérience perso, il est 100 fois plus rapide de faire une petite table de conversion classique que de pondre un super algo. L'année suivante, (si un seul changement) c'est maxi 5 minutes par championnat de travail, par contre si il faut re-pondre un nouvel algo chaque an ... (Amicale Toulousaine qui devient Club des mousquetaires , bon courage)
    Donc même avec un algo, il faut une table de conversion ! et si ici, il y a peu de changements entre ces 2 fichiers, le travail supplémentaire n'a pas d'intérêt (pour le savoir, il faut que thais781 ressorte déjà les 2 ensembles).
    $moi= ( !== ) ? : ;

Discussions similaires

  1. [XL-2013] Copier des données d'un fichier excel vers un autre en les rapprochant
    Par katouche dans le forum Macros et VBA Excel
    Réponses: 0
    Dernier message: 17/03/2018, 20h26
  2. [2016] Faire le rapprochement de données de 2 sources
    Par Trady dans le forum Développement
    Réponses: 2
    Dernier message: 27/12/2017, 18h26
  3. Conditions pour rapprocher les données de deux colonnes
    Par operaq dans le forum Macros et VBA Excel
    Réponses: 5
    Dernier message: 03/03/2014, 16h45
  4. [2008] Problème de rapprochement de données
    Par la_fouine1806 dans le forum SSIS
    Réponses: 1
    Dernier message: 24/06/2011, 09h47
  5. Identification d'une donnée lors d'un rapprochement
    Par NewYork dans le forum Macros et VBA Excel
    Réponses: 3
    Dernier message: 01/01/2011, 17h13

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo