J'ai 684 doublons (donc 1368 lignes) dans une table que j'aimerais fusionner.
Sans entrer dans le détail de la composition exacte de ma table (issue d'un fichier texte), disons qu'elle est composée des colonnes a, b, c et d.
Soit un doublon représenté par les lignes suivantes :
----a----||----b----||----c----||----d----
---DE---||--id1--||----------||--infod--
---FR---||--id1--||--infoc--||----------
On voit ci-dessus que le doublon est défini par le fait que les deux lignes ont id1 dans la colonne b.
Sachant qu'au final, je ne garderai que la ligne avec FR en colonne a, je souhaiterais récupérer infod de la colonne d pour compléter ma ligne à garder.
S'il n'y avait que quelques doublons, je le ferais à la main. Mais 684 doublons dans une table de 35 millions de lignes, je cherche plutôt un système automatique pour le faire.
En gros le principe c'est :
- si j'ai une ligne de doublon avec FR, je récupère les infos manquantes de ma ligne à garder à partir de la ligne à détruire.
- si j'ai deux lignes FR ou deux lignes pas FR, je garde une ligne en la complétant le plus possible avec les infos de l'autre.
Une idée ?
Partager