[débutant] Data mining : choix d'algorithme

**nemesisTHEone** · 25/11/2009, 16h36

Bonsoirs,
Étant nouveau dans le data mining, et suite a ma lécture sur wikipedia:

Pourquoi tant d'algorithmes ? [modifier]

Parce que nous venons de voir qu'ils n'ont pas tous le même objet, parce qu'aucun n'est optimal dans tous les cas, parce qu'ils s'avèrent en pratique complémentaires les uns des autres et parce qu'en les combinant intelligemment (en construisant ce que l'on appelle des modèles de modèles ou métamodèles) il est possible d'obtenir des gains de performance très significatifs, si l'on prend bien garde d'éviter des problèmes de sur-ajustement des modèles ainsi obtenus (voir à ce sujet l'article Arbre de décision et son paragraphe traitant du problème de sur-ajustement des modèles). Encore faut-il être en mesure de réaliser ces combinaisons facilement, ce que permettent les logiciels ateliers de Data Mining, par opposition aux outils de statistiques classiques dans lesquels l'opération est beaucoup plus délicate en pratique.

je sollicite votre aide afin de m'orienter vers les algorithmes que je dois apprendre affin de répondre a la problématique suivante:

J'ai des critères(différentes variables) et des notes (des appréciations) et je dois selon les données récoltés (Critères + notes associer) affiner mes critères de référence.

Un exemple plus parlant: J'ai une expérience X qui est faite par une grande population (ou chaque individu doit positionner les différents paramètres en entrés), cette expérience donne des résultats différent pour chaque individu.
Je voudrai choisir en fonction des résultats le meilleur paramétrage de mon expérience sans pour autant oublier que les résultats peuvent être erroné (les gens peuvent mentir).

Merci d'avoir pris la peine de me lire.
Cordialement Nemesis.

**Clercq** · 26/11/2009, 10h31

Bonjour,

Je ne comprends pas vraiment ta question, la phrase :

Je voudrai choisir en fonction des résultats le meilleur paramétrage de mon expérience sans pour autant oublier que les résultats peuvent être erroné (les gens peuvent mentir).

M'est totalement ... Flou ...

En fait, qu'est que tu veux faire avec tes données ?

- De l'apprentissage : ex : Apprendre une relation population-critère de choix réalisé, pour pouvoir classé automatiquement une personne dans tels ou tels population.

- Du clustering : En fonction de critère récolté, définir des groupes de population.

- De la décision : En fonction de critère de choix choisir telle ou telle solution.
-> Remarque, ici ce n'est plus du data mining mais de la décision, qui est un domaine bien distinct.

**nemesisTHEone** · 27/11/2009, 01h30

Bonsoir,
tout d'abord merci de ta réponse, j'avoue que je suis moi même un peu perdu, je vais donc essayer avec un exemple plus concret:
Imaginons que je demande à plusieurs personne d'élevé un mouton, et que je leurs demande à intervalle régulier d'enregistrer quelques paramètres comme le taux d'humidité, la température du mouton, le taux de co2 dans l'air...;
Après deux mois j'aurai dans ma base de donnée, pour chaque personne les différent paramètres enregistré ainsi que la taille du mouton et son poids.

Ce que je veux faire c'est qu'en fonction de ses données et en utilisant les critères (taille et poids) choisir quelques sont les meilleurs valeurs (taux humidité, température, taux co2) pour avoir le plus grand et le plus lourd, sachant que je ne fais pas confiance à 100% a chacun des utilisateurs (les données entré pourrait être erroné).

En gros j'ai des expériences et du feedback et j'aimerai exploiter ce feedback afin d'extraire les meilleurs paramètres pour mon system.

J'espère que c'est un peu plus claire.

Merci bien.

**Clercq** · 27/11/2009, 09h46

En effet c'est un peu plus clair

Envoyé par nemesisTHEone

Ce que je veux faire c'est qu'en fonction de ses données et en utilisant les critères (taille et poids) choisir quelques sont les meilleurs valeurs (taux humidité, température, taux co2) pour avoir le plus grand et le plus lourd, sachant que je ne fais pas confiance à 100% a chacun des utilisateurs (les données entré pourrait être erroné).

D'après ce que tu dis la, je dirais que l'on se trouve dans un cas clair de décision multi-critère.

Pour répondre a ta question il faut choisir une fonction d'agrégation de tes résultats qui réponds au mieux a ce que tu veux (pondération ...).

Il y en a de plusieurs type, comme la dominance de Pareto (qui prends le ensemble de critère), le vote pondère, OWA, et j'en passe.

Il existe de bon cour sur ce sujet (cf Patrice Perny).

Ça peut paraitre rude au début, mais c'est super intéressant

.

**ToTo13** · 27/11/2009, 11h04

Bonjour,

commence par une simple méthode linéaire, comme la régression logistique. Avec les scores de Chi2 tu auras une idée de l'importance de chaque variable dans ton modèle.
Toutefois, cela ne t'empêche en aucun cas de commencer comme il se doit :
- analyse des distributions.
- analyse mono-variable.
- étude des corrélations.

**nemesisTHEone** · 27/11/2009, 17h21

Bonjour,

Merci de vos réponses maintenant je sais ou creuser, donc je vais marquer le topic comme résolu.

Merci encore.

**cauroir** · 27/11/2009, 06h46

Envoyé par nemesisTHEone

Bonsoirs,

J'ai des critères(différentes variables) et des notes (des appréciations) et je dois selon les données récoltés (Critères + notes associer) affiner mes critères de référence.
Cordialement Nemesis.

Bonjour,
Ce que vous décrivez est caractéristique des problemes de datamining.
Vous pouvez également tenter des regressions statistiques mais moins bon à priori.
Vous devriez donc avoir des bons resultats si les variables decrivent bien votre probleme. Pour vous aider, le mieux est d'utiliser un logiciel de datamining.
Il en existe des open source : un francais : sipina et tanagra, sinon, il y a weka.
Ces outils vous permettront de faire l'analyse
Didier Nakache

**GALAXIE000** · 08/07/2010, 12h13

salut pour tous,
s'il vous plait s'il y a quelqu'un qui peut m'aider sur :comment on peut faire l'élagage(pruning) avec l'outil SIPINA de création des arbre de décision ?

merci pour tous

**ToTo13** · 08/07/2010, 14h37

Euh... là tu parles d'un logiciel bien particulier.
La méthode d'élagage dépend de l'arbre que tu construits : pour chaque type d'arbre, le choix de la meilleure caractéristique pour chaque noeud et la méthode d'élagage lui sont propres.

[débutant] Data mining : choix d'algorithme

Intelligence artificielle

Vue hybride

Discussions similaires

Partager

Partager