Gérer les doublons d'un CSV
Bonjour, je suis bloquer a la derniere etape de mon programme qui doit maintenant gerer les doublons.
J'ai pensé a lire ligne par ligne mon fichier csv pour les ajouter dans un tableau, ensuite comparer chaque element de mon tableau entre eux, mais le probleme est que mes doublons ne sont pas forcement EXACTEMENT identique.
En gros, mon fichier CSV contient des infos sur les eleves de plusieurs ecoles.
les 5 colonnes de mon CSV : NOM, PRENOM, CLASSE, Code_ECOLE, NOM_ECOLE
Les doublons ne se trouve pas au niveau de la ligne entiere, mais seulement pour le prenom et nom. Car certains eleves se sont inscrits dans plusieurs ecoles, mais les 3 dernieres colonnes ne sont complétés que dans l'ecole où il a été accepté.
Du coup je ne dois pas comparer les lignes entre elles, ni une seule colonne avec une autre, mais 2 colonnes ( NOM et PRENOM ) et si il y a doublon, je dois supprimez la ligne entiere.
Ca fait 2h que j'essaie mais je suis bloqué et a court d'idée :/
Apercu de mon fichier CSV :
Code:
1 2 3 4
|
"Nom";"Prénom";"Classe";"code_ecole","nom_ecole"
"Washington";"George";"";"0086508H";"MACHIN"
"Washington";"George";"TPS";"0086508H";"MACHIN" |
Dans cet exemple, j'aimerais supprimez la premiere ligne, car c'est tout le temps la ligne la plus basse qu'il faut garder.
EDIT : Je viens d'avoir une idée, mais je n'arrive pas a la mettre en place : je voulais d'abord comparer les noms entre eux, si il y a un doublon de nom, alors regarder le prenom ( car il peut y avoir des freres et soeurs )
Pour ca, je lis ligne par ligne, j'ajoute les 2 premieres colonnes dans une arrayList.
Ensuite je compare les elements de l'arraylist en incrementant de 2 afin de ne tomber que sur les noms. Si doublons je compare les 2 prenoms. Mais comment faire pour ensuite aller supprimez la ligne correspondante ?