IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Méthodes prédictives Discussion :

Quel algorithme de classification supervisée avec des données mixtes ?


Sujet :

Méthodes prédictives

  1. #1
    Nouveau Candidat au Club
    Homme Profil pro
    Data Scientist
    Inscrit en
    Novembre 2016
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Data Scientist
    Secteur : Conseil

    Informations forums :
    Inscription : Novembre 2016
    Messages : 3
    Points : 0
    Points
    0
    Par défaut Quel algorithme de classification supervisée avec des données mixtes ?
    Bonjour chère communauté,

    Pour mon PFE dont le sujet est la mise en place d'un système de classification supervisée (on connait quelles seront nos classes).
    Je me trouve face à plusieurs difficultés et pour lesquelles je sollicite votre aide, brièvement le projet consiste à :

    Créer un classificateur pouvant classifier automatiquement des données, ces données sont décrites par (x1,.....,x10) variables qualitatives et quantitatives, pour lesquelles on souhaite associer des classes de type (y1,y2,y3).

    petite explication :
    classe y1 contient 100 modalités.
    classe y2 contient 38 modalités.
    classe y3 contient 28 modalités.

    A l'heure actuelle je possède un échantillon de classification stocké dans une table appelée base d'apprentissage (x1,............,x10; y1,y2,y3) en colonnes et n lignes.

    Je possède aussi des nouvelles données qui ont le format (x1,.....,x10) en colonnes et n lignes auxquelles notre classificateur devrait prédire pour chaque ligne les valeurs de y1,y2,y3.

    Ma question est : quel algorithme devrais-je utiliser pour répondre à ce besoin spécifique? comment l'adapter à mes données mixtes (qualit,quant)?

    J'espère ne pas avoir été très brouillant et reste dans l'attente de vos conseils.

    SOS
    Cdt;

  2. #2
    Membre habitué
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Mars 2011
    Messages
    262
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2011
    Messages : 262
    Points : 157
    Points
    157
    Par défaut
    je penses que l'outils weka peut te faciliter le travail.

  3. #3
    Responsable Qt & Livres


    Avatar de dourouc05
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Août 2008
    Messages
    26 619
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2008
    Messages : 26 619
    Points : 188 601
    Points
    188 601
    Par défaut
    Weka est très loin d'être un algorithme…

    En soi, rien de particulier : tes variables qualitatives sont simplement des classes, que tu peux alors encoder comme des nombres (comme si elles étaient quantitatives). Si tu préfères garder leur nature qualitative, tu peux regarder des algorithmes à base d'arbres de décision, vu qu'ils ne fonctionnent que de manière discrète (et ne sont pas prévus à l'origine pour des données quantitatives, même si ça ne pose plus aucun problème) — y compris forêts aléatoires et autres variantes des arbres de décision.
    Vous souhaitez participer aux rubriques Qt (tutoriels, FAQ, traductions) ou HPC ? Contactez-moi par MP.

    Créer des applications graphiques en Python avec PyQt5
    Créer des applications avec Qt 5.

    Pas de question d'ordre technique par MP !

  4. #4
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Il n'y a malheureusement pas de réponse universelle quant au choix de l'algorithme d'apprentissage à utiliser.
    Par principe (mais ce n'est pas une règle), je commence toujours par une régression logistique car c'est très rapide et efficace si tu un problème proche de quelque chose de linéaire.
    Ensuite, les algorithmes les plus utilisés actuellement sont :
    - Support Vector Machine (SVM)
    - Random Forests (forêts aléatoires)
    - Réseaux de neurones, mais attention à toutes les contraintes que ça implique. Ces derniers sont très puissants, mais aussi très délicats à utiliser car on tombe TRES facilement dans le sur-apprentissage
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  5. #5
    Nouveau Candidat au Club
    Homme Profil pro
    Data Scientist
    Inscrit en
    Novembre 2016
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Data Scientist
    Secteur : Conseil

    Informations forums :
    Inscription : Novembre 2016
    Messages : 3
    Points : 0
    Points
    0
    Par défaut
    Merci pour vos retours,

    Alors pour bien cadrer ma question, qu'est-ce-que vous me conseillé de faire en premier temps,quelles sont les étapes que je dois suivre?

    Car honnêtement je suis débutant dans le domaine du data science et le Machine learning, actuellement je possède des données et je ne sais pas quoi en faire.

    En termes de technologies mon entreprise a une préférence vers tout ce qui est microsoft.(c#, cortana, azure machine learning...)
    Je sais que les algorithmes de classification existent déjà dans ces plateformes mais je n'ai pas pu les adapter au format de mes données.

    Merci encore une fois pour vos conseils,

    Cdt;

  6. #6
    Nouveau Candidat au Club
    Homme Profil pro
    Data Scientist
    Inscrit en
    Novembre 2016
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Data Scientist
    Secteur : Conseil

    Informations forums :
    Inscription : Novembre 2016
    Messages : 3
    Points : 0
    Points
    0
    Par défaut RE : CLASSIFICATION SUPERVISEE
    Rebonjour la communauté,

    Pour vous faciliter la compréhension du problème je vous prie de trouver ci-dessous le format de mes données:

    L'échantillon de classification déjà préparé par l'humain correspond à ce qui suit:
    Nom : Qdatatrain.png
Affichages : 1120
Taille : 54,8 Ko


    et les nouvelles données que nous souhaitions classifier ressemble à ça:

    Nom : Qnewdata.png
Affichages : 1178
Taille : 52,7 Ko


    Dans l'attente de votre HELP.
    Merci infiniment par avance.

    Cdt;

Discussions similaires

  1. Réponses: 6
    Dernier message: 11/07/2006, 10h56
  2. INNER JOIN avec des données de sélection
    Par EK1_ dans le forum Langage SQL
    Réponses: 2
    Dernier message: 17/05/2006, 18h40
  3. [VBA-A]Remplir une textbox avec des données de tables.
    Par cuicui08 dans le forum VBA Access
    Réponses: 1
    Dernier message: 24/03/2006, 10h28
  4. [datagrid]lier avec des données
    Par Alex35 dans le forum VB 6 et antérieur
    Réponses: 7
    Dernier message: 11/12/2005, 10h10
  5. Créer du xml avec des données Oracle
    Par Baumont dans le forum Oracle
    Réponses: 3
    Dernier message: 23/11/2005, 15h35

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo