Précédent   Forum des professionnels en informatique > Logiciels > Microsoft Office > Excel > Macros et VBA Excel
Macros et VBA Excel Vos questions relatives aux macros Excel, à l'utilisation de VBA et à l'automatisation de vos classeurs Excel.
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 13/09/2011, 17h40   #1
Invité régulier
 
Inscription : janvier 2009
Messages : 39
Détails du profil
Informations forums :
Inscription : janvier 2009
Messages : 39
Points : 6
Points : 6
Par défaut Doublons et presqu'doublons

Bonjour a tous,

Je souhaiterais savoir s'il serait possible de creer une macro qui analyserait le contenu de 200 000 lignes afin de determiner des doublons parfaits et des cellules ou il y aurait des similitudes, genre 2 mots sur 3 identiques.

La possibilite aussi d'ignorer certains mots, afin qu'ils n'apparaissent pas comme des doublons, genre sarl, spa, gmbh, etc.

Est-ce que cela est realisable et est-ce que cela prend beaucoup de temps a coder ?

Merci pour d'avance.
merlinus3000 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 13/09/2011, 17h58   #2
Membre actif
 
Inscription : novembre 2008
Messages : 188
Détails du profil
Informations forums :
Inscription : novembre 2008
Messages : 188
Points : 194
Points : 194
Oui, c'est possible et pour le temps ça dépend de ton expérience en VBA.

Par contre, vu ce que tu veux faire je te recommande chaudement d'utiliser plutôt Access. C'est prévu pour, tu n'auras pas besoin de faire de macros et ça ira plus vite!
Sclarckone est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 13/09/2011, 17h59   #3
Invité régulier
 
Inscription : janvier 2009
Messages : 39
Détails du profil
Informations forums :
Inscription : janvier 2009
Messages : 39
Points : 6
Points : 6
Merci pour la reponse.

Aucune experience en VBA.

Meme pour les cellules qui auraient des similitudes ?
merlinus3000 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 13/09/2011, 18h10   #4
Membre actif
 
Inscription : novembre 2008
Messages : 188
Détails du profil
Informations forums :
Inscription : novembre 2008
Messages : 188
Points : 194
Points : 194
Citation:
Envoyé par merlinus3000 Voir le message
Meme pour les cellules qui auraient des similitudes ?
Oui, que ce soit avec Excel ou Access.

Dans Access, il y a une fonction permettant d'importer des données depuis un fichier Excel. Si la structure de ton fichier Excel le permet et si ce n'est pas trop compliqué, il est même possible de traiter ça simplement et d'un seul coup à l'import du fichier en définissant correctement une clé primaire (qui peut porter sur plusieurs champs à la fois).
Sclarckone est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 14/09/2011, 00h15   #5
Invité régulier
 
Inscription : janvier 2009
Messages : 39
Détails du profil
Informations forums :
Inscription : janvier 2009
Messages : 39
Points : 6
Points : 6
Le fichier source est un fichier CSV. Donc autant l'importer directement de là, surtout que j'ai Excel 2003, et qu'il a une limite en nombre de lignes.

Je dois arriver à définir les doublons, leur quantité, et les pseudo-doublons (2-3 points communs). L'idéal est que j'arrive une liste propre, une liste avec les doublons et leur quantité et une liste de sociétés apparentés.

Pourrais-tu m'indiquer sous Access la commande à utiliser ? Merci d'avance !
merlinus3000 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 14/09/2011, 05h43   #6
Membre habitué
 
Inscription : mars 2009
Messages : 86
Détails du profil
Informations forums :
Inscription : mars 2009
Messages : 86
Points : 100
Points : 100
Bonjour

Je ne crois pas qu'il y ait une commande pour cela.

En effet, je ne crois pas qu'Access te donnera cela tout cuit. A mon avis il va falloir jouer sur des requêtes de regroupements pour avoir le compte de doublons et joueur sur des parcours et comparaisons d'enregistrements (méthode DAO) pour les 2 - 3 point communs.

En gros, à mon avis, rien de simple, mais je ne suis pas un expert sur Access.
__________________
PeyePo
PeyePo est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 14/09/2011, 10h31   #7
Expert Confirmé
 
Inscription : décembre 2007
Messages : 1 908
Détails du profil
Informations personnelles :
Localisation : France

Informations forums :
Inscription : décembre 2007
Messages : 1 908
Points : 3 708
Points : 3 708
Quelle que soit la solution technique choisie, je verrais bien ça en trois passes :

la première passe élimine tous les mots non significatifs(dont on a fait une liste préalable) et stocke le résultat dans une nouvelle colonne.

la deuxième applique le dédoublonnage sur cette nouvelle colonne.

la troisième élimine cette nouvelle colonne.

La deuxième étape est assez complexe, pour entrer dans le détail il faudrait avoir une règle exacte(tous les mots sauf 1? 2 mots sur 3? Arrondi à l'inférieur, au supérieur?)
__________________
Les 4 règles d'airain du développement informatique sont, d'après Michael C. Kasten :
1)on ne peut pas établir un chiffrage tant qu'on a pas finalisé la conception
2)on ne peut pas finaliser la conception tant qu'on a pas complètement compris toutes les exigences
3)le temps de comprendre toutes les exigences, le projet est terminé
4)le temps de terminer le projet, les exigences ont changé
Et le serment de non-allégiance :
Je promets de n’exclure aucune idée sur la base de sa source mais de donner toute la considération nécessaire aux idées de toutes les écoles ou lignes de pensées afin de trouver celle qui est la mieux adaptée à une situation donnée.
el_slapper est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 14/09/2011, 10h58   #8
Membre actif
 
Inscription : novembre 2008
Messages : 188
Détails du profil
Informations forums :
Inscription : novembre 2008
Messages : 188
Points : 194
Points : 194
Citation:
Envoyé par merlinus3000 Voir le message
Je dois arriver à définir les doublons, leur quantité, et les pseudo-doublons (2-3 points communs). L'idéal est que j'arrive une liste propre, une liste avec les doublons et leur quantité et une liste de sociétés apparentés.

Pourrais-tu m'indiquer sous Access la commande à utiliser ? Merci d'avance !
@el_slapper: je pense que c'est encore plus simple de supprimer les doublons lors de l'import (cf. la suite de mon poste), non?

Pour ce qui est des doublons, il faut savoir comment tu les définis (contenu d'une seule colonne, combinaison de plusieurs colonnes). Une fois que c'est bien clair, tu définis cette/ces colonne(s) comme indexées sans doublons lors du paramétrage de l'import. Du coup lorsque le fichier va être importé, si un index existe déjà dans la table (parmi ceux qui ont donc déjà été importés) alors l'enregistrement correspondant se fera jeter (ne sera pas ajouté à la table).

A côté, tu peux faire un import brut dans une autre table (sans te préoccuper des doublons) et tu pourras alors savoir combien tu avais de doublons en comparant le nombre de lignes (mais de toute façon, quand tu feras ton import sans doublons, Access te dira combien d'enregistrements il a jeté).

Il y a un assistant pour l'importation de table (Fichier -> Données externes -> Importer) donc tu devrais t'en sortir.

Une fois que tu auras fait cela, on verra pour la suite.
Sclarckone est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 00h25.


 
 
 
 
Partenaires

Hébergement Web