IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

[débutant] Data mining : choix d'algorithme


Sujet :

Intelligence artificielle

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Inscrit en
    Mai 2007
    Messages
    38
    Détails du profil
    Informations forums :
    Inscription : Mai 2007
    Messages : 38
    Par défaut [débutant] Data mining : choix d'algorithme
    Bonsoirs,
    Étant nouveau dans le data mining, et suite a ma lécture sur wikipedia:
    Pourquoi tant d'algorithmes ? [modifier]

    Parce que nous venons de voir qu'ils n'ont pas tous le même objet, parce qu'aucun n'est optimal dans tous les cas, parce qu'ils s'avèrent en pratique complémentaires les uns des autres et parce qu'en les combinant intelligemment (en construisant ce que l'on appelle des modèles de modèles ou métamodèles) il est possible d'obtenir des gains de performance très significatifs, si l'on prend bien garde d'éviter des problèmes de sur-ajustement des modèles ainsi obtenus (voir à ce sujet l'article Arbre de décision et son paragraphe traitant du problème de sur-ajustement des modèles). Encore faut-il être en mesure de réaliser ces combinaisons facilement, ce que permettent les logiciels ateliers de Data Mining, par opposition aux outils de statistiques classiques dans lesquels l'opération est beaucoup plus délicate en pratique.
    je sollicite votre aide afin de m'orienter vers les algorithmes que je dois apprendre affin de répondre a la problématique suivante:

    J'ai des critères(différentes variables) et des notes (des appréciations) et je dois selon les données récoltés (Critères + notes associer) affiner mes critères de référence.

    Un exemple plus parlant: J'ai une expérience X qui est faite par une grande population (ou chaque individu doit positionner les différents paramètres en entrés), cette expérience donne des résultats différent pour chaque individu.
    Je voudrai choisir en fonction des résultats le meilleur paramétrage de mon expérience sans pour autant oublier que les résultats peuvent être erroné (les gens peuvent mentir).


    Merci d'avoir pris la peine de me lire.
    Cordialement Nemesis.

  2. #2
    Membre éprouvé
    Inscrit en
    Mai 2006
    Messages
    196
    Détails du profil
    Informations forums :
    Inscription : Mai 2006
    Messages : 196
    Par défaut
    Bonjour,

    Je ne comprends pas vraiment ta question, la phrase :
    Je voudrai choisir en fonction des résultats le meilleur paramétrage de mon expérience sans pour autant oublier que les résultats peuvent être erroné (les gens peuvent mentir).
    M'est totalement ... Flou ...

    En fait, qu'est que tu veux faire avec tes données ?

    - De l'apprentissage : ex : Apprendre une relation population-critère de choix réalisé, pour pouvoir classé automatiquement une personne dans tels ou tels population.

    - Du clustering : En fonction de critère récolté, définir des groupes de population.

    - De la décision : En fonction de critère de choix choisir telle ou telle solution.
    -> Remarque, ici ce n'est plus du data mining mais de la décision, qui est un domaine bien distinct.

  3. #3
    Membre averti
    Inscrit en
    Mai 2007
    Messages
    38
    Détails du profil
    Informations forums :
    Inscription : Mai 2007
    Messages : 38
    Par défaut
    Bonsoir,
    tout d'abord merci de ta réponse, j'avoue que je suis moi même un peu perdu, je vais donc essayer avec un exemple plus concret:
    Imaginons que je demande à plusieurs personne d'élevé un mouton, et que je leurs demande à intervalle régulier d'enregistrer quelques paramètres comme le taux d'humidité, la température du mouton, le taux de co2 dans l'air...;
    Après deux mois j'aurai dans ma base de donnée, pour chaque personne les différent paramètres enregistré ainsi que la taille du mouton et son poids.

    Ce que je veux faire c'est qu'en fonction de ses données et en utilisant les critères (taille et poids) choisir quelques sont les meilleurs valeurs (taux humidité, température, taux co2) pour avoir le plus grand et le plus lourd, sachant que je ne fais pas confiance à 100% a chacun des utilisateurs (les données entré pourrait être erroné).

    En gros j'ai des expériences et du feedback et j'aimerai exploiter ce feedback afin d'extraire les meilleurs paramètres pour mon system.

    J'espère que c'est un peu plus claire.

    Merci bien.

  4. #4
    Membre éprouvé
    Inscrit en
    Mai 2006
    Messages
    196
    Détails du profil
    Informations forums :
    Inscription : Mai 2006
    Messages : 196
    Par défaut
    En effet c'est un peu plus clair

    Citation Envoyé par nemesisTHEone Voir le message
    Ce que je veux faire c'est qu'en fonction de ses données et en utilisant les critères (taille et poids) choisir quelques sont les meilleurs valeurs (taux humidité, température, taux co2) pour avoir le plus grand et le plus lourd, sachant que je ne fais pas confiance à 100% a chacun des utilisateurs (les données entré pourrait être erroné).
    D'après ce que tu dis la, je dirais que l'on se trouve dans un cas clair de décision multi-critère.

    Pour répondre a ta question il faut choisir une fonction d'agrégation de tes résultats qui réponds au mieux a ce que tu veux (pondération ...).

    Il y en a de plusieurs type, comme la dominance de Pareto (qui prends le ensemble de critère), le vote pondère, OWA, et j'en passe.

    Il existe de bon cour sur ce sujet (cf Patrice Perny).

    Ça peut paraitre rude au début, mais c'est super intéressant .

  5. #5
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Par défaut
    Bonjour,

    commence par une simple méthode linéaire, comme la régression logistique. Avec les scores de Chi2 tu auras une idée de l'importance de chaque variable dans ton modèle.
    Toutefois, cela ne t'empêche en aucun cas de commencer comme il se doit :
    - analyse des distributions.
    - analyse mono-variable.
    - étude des corrélations.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  6. #6
    Membre averti
    Inscrit en
    Mai 2007
    Messages
    38
    Détails du profil
    Informations forums :
    Inscription : Mai 2007
    Messages : 38
    Par défaut
    Bonjour,

    Merci de vos réponses maintenant je sais ou creuser, donc je vais marquer le topic comme résolu.

    Merci encore.

  7. #7
    Invité de passage
    Profil pro
    Inscrit en
    Février 2005
    Messages
    1
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 1
    Par défaut
    Citation Envoyé par nemesisTHEone Voir le message
    Bonsoirs,

    J'ai des critères(différentes variables) et des notes (des appréciations) et je dois selon les données récoltés (Critères + notes associer) affiner mes critères de référence.
    Cordialement Nemesis.
    Bonjour,
    Ce que vous décrivez est caractéristique des problemes de datamining.
    Vous pouvez également tenter des regressions statistiques mais moins bon à priori.
    Vous devriez donc avoir des bons resultats si les variables decrivent bien votre probleme. Pour vous aider, le mieux est d'utiliser un logiciel de datamining.
    Il en existe des open source : un francais : sipina et tanagra, sinon, il y a weka.
    Ces outils vous permettront de faire l'analyse
    Didier Nakache

  8. #8
    Nouveau candidat au Club
    Profil pro
    Inscrit en
    Juillet 2010
    Messages
    2
    Détails du profil
    Informations personnelles :
    Localisation : Tunisie

    Informations forums :
    Inscription : Juillet 2010
    Messages : 2
    Par défaut
    salut pour tous,
    s'il vous plait s'il y a quelqu'un qui peut m'aider sur :comment on peut faire l'élagage(pruning) avec l'outil SIPINA de création des arbre de décision ?

    merci pour tous

  9. #9
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Par défaut
    Euh... là tu parles d'un logiciel bien particulier.
    La méthode d'élagage dépend de l'arbre que tu construits : pour chaque type d'arbre, le choix de la meilleure caractéristique pour chaque noeud et la méthode d'élagage lui sont propres.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Choix de la variable de prédiction - Data Mining
    Par student 7 dans le forum SSAS
    Réponses: 0
    Dernier message: 03/08/2011, 16h06
  2. [Data Mining] Quel algorithme choisir?
    Par haizara dans le forum SSAS
    Réponses: 4
    Dernier message: 13/05/2011, 16h40
  3. Pseudocode d'algorithme data mining
    Par mannana dans le forum Intelligence artificielle
    Réponses: 11
    Dernier message: 26/03/2010, 15h15
  4. SSAS - Algorithmes Data Mining
    Par moukoko dans le forum MS SQL Server
    Réponses: 0
    Dernier message: 10/04/2008, 11h19
  5. algorithme APRIORI data mining
    Par InfoGen dans le forum Langage
    Réponses: 3
    Dernier message: 18/01/2008, 13h56

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo