IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Méthodes prédictives Discussion :

apprentissage et les algorithme utilisés


Sujet :

Méthodes prédictives

  1. #1
    Membre à l'essai
    Profil pro
    Inscrit en
    Juillet 2008
    Messages
    29
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2008
    Messages : 29
    Points : 10
    Points
    10
    Par défaut apprentissage et les algorithme utilisés
    Bonjour tout le monde;

    j'ai un projet en apprentissage supervisée dans le but de traiter des jeux de données et je dois choisir 2 parmi 4 méthodes de l'apprentissage et comparer les résultats obtenus.

    ces méthodes sont les suivantes:
    (a) K-plus proches voisins
    (b) Analyse discriminante linéaire
    (c) Régression logistique
    (d) Arbres de décision

    Est ce que vous avez une idée comment je peux choisir les meilleurs méthodes?

    Merci d'avance.

  2. #2
    Alp
    Alp est déconnecté
    Expert éminent sénior

    Avatar de Alp
    Homme Profil pro
    Inscrit en
    Juin 2005
    Messages
    8 575
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : Juin 2005
    Messages : 8 575
    Points : 11 860
    Points
    11 860
    Par défaut
    Il faudrait plus de détails ...

    Que représenteront les données ?
    Que devra en faire l'algorithme ?
    Quelle est l'ordre de grandeur de la quantité de données ?

  3. #3
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonjour,

    note qu'a part les kPPV, tu proposes des méthodes linéaires... As tu un problème linéaire ?
    As tu regardé tes données au préalable ?
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  4. #4
    Membre à l'essai
    Profil pro
    Inscrit en
    Juillet 2008
    Messages
    29
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2008
    Messages : 29
    Points : 10
    Points
    10
    Par défaut apprentissage et algorithmz utilisé
    le langage de programmation est R, un peu proche de matlab, et les donnée sont les suivants
    (effectuer 2 algorithmes pour chaque données)
    donnée crabs:

    library(MASS)
    data(crabs)
    Crabs$data <- crabs[,4:8]

    données voyelles:
    un ensemble de mesures éffectuées lors de la prononciation des voyelles par différents locuteurs.

    sachant que les locuteurs dans l'ensemble d'apprentissage ne sont pas les mêmes dans l'ensemble de test.
    sinon comment on peux choisir une méthode si on a des variables quantitatifs ou qualitatifs?

  5. #5
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonjour,

    il me semble que les méthodes que tu cites s'en sortent bien avec ces deux types de variables (j'en suis sûr pour kPPV, RL et presque certain pour les arbres).

    Pour ce qui est de choisir les deux meilleures méthodes, on a souvent du mal avant de les tester (au moins grossièrement). Au plus tu auras certaines intuitions.
    Pour un problème comme le tien, j'ai un doute pour les kPPV. Cette méthode est bien si les données sont particulièrement bien regroupées dans l'espace des caractéristiques. Sinon...
    J'ai un faible pour la régression logistique qui est une méthode dont la puissance est reconnue et de plus en plus utilisée au détriment de l'analyse discriminante car elle offre plus de souplesse et d'avantage.

    Je te conseille quand même de commencer par faire une étude de tes données (c'est la base de tout travail de classification) : distribution, analyse mono variable, corrélations, ...
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  6. #6
    Membre à l'essai
    Profil pro
    Inscrit en
    Juillet 2008
    Messages
    29
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2008
    Messages : 29
    Points : 10
    Points
    10
    Par défaut
    Bonjour,

    Est ce que vous connaissez un lien d'internet, pour bien comprendre comment procéder vers un exemple peut être, parce que là, ce n'est pas très clair, je suis débutante dans ce domaine et je ne sais pas ce que vous vouliez dire par "étudier les données"!!

    Merci

  7. #7
    Membre expérimenté
    Avatar de Rakken
    Homme Profil pro
    Inscrit en
    Août 2006
    Messages
    1 257
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Août 2006
    Messages : 1 257
    Points : 1 341
    Points
    1 341
    Par défaut
    Après, le but de l'exercice n'est visiblement pas de trouver les deux meilleures méthodes (sinon, il faudrait effectivement faire un test, même minimal, sur les quatres), c'est juste d'en tester deux pour les comparer.
    Le meilleur choix est peut-être encore de prendre les deux méthodes les plus éloignées l'une de l'autre en terme de fonctionnement, où celles qui sont les plus succeptibles de se retrouver dans d'autres problèmes, non ?
    Rakken

    Oneira, un monde imaginaire d'Heroic Fantasy.

    Parce que la présomption d'innocence est un des fondements de notre pays et qu'elle doit le rester, dans tous les domaines : http://www.laquadrature.net/

  8. #8
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonjour,

    Citation Envoyé par hakemass Voir le message
    Est ce que vous connaissez un lien d'internet, pour bien comprendre comment procéder vers un exemple peut être, parce que là, ce n'est pas très clair, je suis débutante dans ce domaine et je ne sais pas ce que vous vouliez dire par "étudier les données"!!
    Je l'ai marqué au dessus. Je te conseille de regarder comment sont réparties les données et surtout de voir si tu peux les caractériser. Est ce que tu saurais faire le travail à la main ?, ...

    Sinon le meilleur livre sur la Data Mining est sans aucun doute (à mon sens) : "Data Mining et statistique décisionnelle" de Stéphane Tufféry.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  9. #9
    Membre à l'essai
    Profil pro
    Inscrit en
    Juillet 2008
    Messages
    29
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2008
    Messages : 29
    Points : 10
    Points
    10
    Par défaut
    Bonjour ,

    En fait je suis débutante, et je suis un peu perdue, donc je ne sais pas faire ça à la main, je sais faire l'ACP, mais d'autre chose pas trop.

    merci

  10. #10
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonjour,

    je suis étonné que tu aies un travail à faire sans aucune notion préalable Soit c'est de l'anti-pédagogie, soit il te manque des cours.

    Pour pouvoir utiliser une méthode de classification, il faut au préalable décrire chaque individu par un vecteur caractéristique qui doit représenter au mieux l'individu.
    Quelles caractéristiques utilises tu pour décrire tes individus ?
    Et puis d'abord, quel type de données as tu ?
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  11. #11
    Membre à l'essai
    Profil pro
    Inscrit en
    Juillet 2008
    Messages
    29
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2008
    Messages : 29
    Points : 10
    Points
    10
    Par défaut apprentissage et ses application
    Bonjour,

    en fait mes prérequis sont du probabilités et statistiques, et lire le doc pour "apprentissage supervisé et non supervisé", n'est pas impossible pour moi, il me manque du méthodologie.
    donc mes données correspondent à un ensemble de mesures effectu´ees lors de la prononciation de voyelles par diff´erents locuteurs. Chaque voyelle est prononcée plusieurs fois, par plusieurs locuteurs diff´erents ; en particulier, les locuteurs (et donc les distributions) ne sont pas les mˆemes dans l’ensemble d’apprentissage et dans l’ensemble de test
    voici une ligne de mes données voyelles :
    -3.639000 0.418000 -0.670000 1.779000 -0.168000 1.627000 -0.388000 0.529000 -0.874000 -0.814000 1.000000

    Merci

  12. #12
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    bonjour,

    si tu n'y connais rien... et que tu ne veux pas apprendre... tu n'as qu'à tester toutes les méthodes et voir celle qui marche le mieux.
    Dans ce genre de cas, les k-plus proches voisins apportent des fois des résultats étonnant (utilisation similaire dans les OCR).
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  13. #13
    Membre à l'essai
    Profil pro
    Inscrit en
    Juillet 2008
    Messages
    29
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2008
    Messages : 29
    Points : 10
    Points
    10
    Par défaut
    Bonjour,

    En fait, dans mon ensemble de variables, j'ai pris des échantillons comme ensemble d'apprentissage et un autre pour ensemble de test, et j'ai des résultats proches proches de la bonne classification, mais je ne sais pas comment choisir la bonne méthodes, et surtout sur quel critères les méthodes sont différentes ou mieux adaptées ?

    Merci d'avance

  14. #14
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonjour,

    la meilleure méthode c'est celle sur laquelle tu obtiens le meilleur pourcentage de prédiction (sur l'échantillon de validation).

    Comment as tu construit tes échantillon d'apprentissage et de validation ?
    Et surtout, quelle est la distribution des individus dans les classes ? Cette répartition est elle déséquilibrée ?
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  15. #15
    Membre à l'essai
    Profil pro
    Inscrit en
    Juillet 2008
    Messages
    29
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2008
    Messages : 29
    Points : 10
    Points
    10
    Par défaut
    oui,
    le pourcentage des données de chaque classes dans l'ensemble d'apprentissage et l'ensemble de test est égale, j'ai constitué mes 2 ensembles d'apprentissage et de test en utilisant un échantillonnage aléatoire mais en prenant le même nombre d'individus de chaque classe.

    merci pour ta conseil.

    J'ai une autre question:
    avant d'étudier l'apprentissage non supervisé, tu as dit qu'on doit étudier les données , est ce que cela revient à dire de chercher l'ACP, et les histogrammes et les coefficients de corrélation??

    et comment cela aide t-il ,dans le choix de la méthode pour faire l'apprentissage non supervisé ??
    Merci

    voilà en pièce jointe ,ce que j'ai obtenue après l'analyse de l'ACP, sachant que mes variables sont(FL,RW,CL,CW,BD) et j'ai 4 classes, et dans chaque classe il y a 50 individus.

    ce que je n'ai pas compris :
    -comment les variables sont représentés sous forme de vecteurs dans le plan des composantes principales?
    -comment je peux extraire l'information de l'ACP que j'ai trouvé pour mon étude de l'apprentissage supervisé?

    merci d'avance
    Fichiers attachés Fichiers attachés

  16. #16
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Citation Envoyé par hakemass Voir le message
    le pourcentage des données de chaque classes dans l'ensemble d'apprentissage et l'ensemble de test est égale, j'ai constitué mes 2 ensembles d'apprentissage et de test en utilisant un échantillonnage aléatoire mais en prenant le même nombre d'individus de chaque classe.
    Ok, mais as tu créé des classes suffisamment grandes ? La plupart du temps, plus il y a d'individus, mieux c'est.



    Citation Envoyé par hakemass Voir le message
    tu as dit qu'on doit étudier les données , est ce que cela revient à dire de chercher l'ACP, et les histogrammes et les coefficients de corrélation??
    Oui, c'est un peu ça l'idée, mais sans faire pour autant une ACP, bien que si tu as le temps cela peut être une très bonne chose.
    L'ACP peut te permettre de voir si réduire certains groupe de variable et classer à partir de ces réductions t'apporte de bonnes solutions. Voire, il est parfois intéressant de réduire des groupes de variables à deux dimensions et de regarder alors leur répartition. Il arrive souvent que la répartition soit très nette et facilement séparable par une droite alors que ce n'était pas le cas avec toutes les caractéristiques.

    C'est souvent bien de faire aussi une étude mono variable afin de voir l'efficacité de chaque variable. Par exemple faire une régression logistique pour chaque variable (Fonction Fit Y by X de JMP).

    L'étude des corrélations entre les variables est TRES importante afin de réduire le vecteur caractéristique.
    Des méthodes beaucoup plus complexes comme les réseaux de neurones peuvent faire ressortir des corrélations non linéaires entres les variables.

    En tout cas, faire tout cela est une très bonne chose avant de commencer à travailler car cela te permet d'appréhender ton environnement d'étude et surtout les outils.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  17. #17
    Membre à l'essai
    Profil pro
    Inscrit en
    Juillet 2008
    Messages
    29
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2008
    Messages : 29
    Points : 10
    Points
    10
    Par défaut
    Citation Envoyé par ToTo13 Voir le message
    L'ACP peut te permettre de voir si réduire certains groupe de variable et classer à partir de ces réductions t'apporte de bonnes solutions.
    Est ce que tu veux dire par ça que c'est bien de tester si la construction d'un ensemble d'apprentissage en ne prenant pas en compte quelques variables, si cela donne des résultats proches en prenant ces variables en compte?
    Citation Envoyé par ToTo13 Voir le message
    Voire, il est parfois intéressant de réduire des groupes de variables à deux dimensions et de regarder alors leur répartition.
    est cela veut dire que chaque paire de composante principale représente un espace des variables de départ ?
    c'est qui la différence entre la représentation des variables de départ dans chaque espace engendré par chaque paire de composante principale?
    Citation Envoyé par ToTo13 Voir le message
    Il arrive souvent que la répartition soit très nette et facilement séparable par une droite alors que ce n'était pas le cas avec toutes les caractéristiques.
    je sais que l'ACP sert à la réduction des données, quand j'ai vu les docs je n'ai pas fait attention, mais par exemple dans mon cas , j'ai 5 variables et j'ai trouvé 5 composantes principale avec les mêmes longueurs que les variables(donc une matrice dont les lignes sont les individus et les colonnes les composantes principales), ce que je ne comprend pas: comment cela signifie "une réduction", pour moi j'ai obtenue à la fin une matrice qui a les mêmes dimensions que la matrice d'origine.
    Citation Envoyé par ToTo13 Voir le message
    C'est souvent bien de faire aussi une étude mono variable afin de voir l'efficacité de chaque variable. Par exemple faire une régression logistique pour chaque variable (Fonction Fit Y by X de JMP).
    je n'ai pas trop compris ce que vous dite là, ce que je sais , est que la régression logistique est une méthode pour l'apprentissage non-supervisé, je ne vois pas trop comment je peux utiliser cette méthode pour faire l'étude monovariable?
    Citation Envoyé par ToTo13 Voir le message
    L'étude des corrélations entre les variables est TRES importante afin de réduire le vecteur caractéristique.
    j'ai obtenu une matrice de covariance et de corrélation, mais je ne sais pas comment je peux représenter mon nuage de point car cette une matrice !!!!!

  18. #18
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonsoir,

    Citation Envoyé par hakemass Voir le message
    Est ce que tu veux dire par ça que c'est bien de tester si la construction d'un ensemble d'apprentissage en ne prenant pas en compte quelques variables, si cela donne des résultats proches en prenant ces variables en compte?
    En général, c'est pas parce que l'on a N variables, qu'il faut toutes les utiliser dans le classifieur. Pour les problèmes que je résous par exemple, je cherche de manière exhaustive (lorsque c'est possible dans un temps raisonnable) le meilleur sous ensemble de variable parmi la totalité.


    Citation Envoyé par hakemass Voir le message
    est cela veut dire que chaque paire de composante principale représente un espace des variables de départ ?
    c'est qui la différence entre la représentation des variables de départ dans chaque espace engendré par chaque paire de composante principale?
    Une ACP permet d'obtenir la meilleure représentation (au sens de la projection) de tes variables dans un espace de dimension inférieure. En revanche, tu ne peux retrouver la valeur de la variable de départ à partir de sa projection dans l'espace inférieur => perte d'information dans la transformation.



    Citation Envoyé par hakemass Voir le message
    je sais que l'ACP sert à la réduction des données, quand j'ai vu les docs je n'ai pas fait attention, mais par exemple dans mon cas , j'ai 5 variables et j'ai trouvé 5 composantes principale avec les mêmes longueurs que les variables(donc une matrice dont les lignes sont les individus et les colonnes les composantes principales), ce que je ne comprend pas: comment cela signifie "une réduction", pour moi j'ai obtenue à la fin une matrice qui a les mêmes dimensions que la matrice d'origine.
    Prenons un exemple en 2D : tu as une forme binaire, tu calcules la matrice d'inertie (en utilisant les coordonnées des pixels), tu calcules les vecteurs propres et celui qui a la norme la plus grande est le vecteur directeur de l'axe principal (axe passant par le barycentre). Donc l'axe principal (dimension 1) est l'hyperplan (plan de dimension N-1) de la forme, c'est le meilleur représentant de ta forme dans une dimension inférieure : ici dimension 2 réduite à 1. Tu peux ensuite calculer la coordonnée de chaque pixel de la forme en le projetant sur l'axe principal, ce qui te donnera une répartition différente des valeurs des deux variables.




    Citation Envoyé par hakemass Voir le message
    je n'ai pas trop compris ce que vous dite là, ce que je sais , est que la régression logistique est une méthode pour l'apprentissage non-supervisé, je ne vois pas trop comment je peux utiliser cette méthode pour faire l'étude monovariable?
    STOP !!! La régression logistique, les kPPV et toutes les méthodes que tu as présenté, sont des méthodes par apprentissage supervisé !!! Elles ont besoin d'un échantillon classé pour apprendre.
    Donc tu fais une régression logistique en utilisant les variables une par une, afin d'observer leur comportement. Sinon, tu utilises la fonction de JMP que je cite avant.


    Citation Envoyé par hakemass Voir le message
    j'ai obtenu une matrice de covariance et de corrélation, mais je ne sais pas comment je peux représenter mon nuage de point car cette une matrice !!!!!
    (A vérifier) Si tu veux réduire en deux dimensions : lorsque tu obtiens tes vecteurs propres, tu gardes les deux qui ont les normes les plus grandes. C'est les vecteurs qui portent l'axe principal et l'axe secondaire. Tu calcules les coordonnées des points dans ce nouveau repère. Ces coordonnées sont les nouvelles coordonnées des points dans un espace à deux dimension.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  19. #19
    Membre à l'essai
    Profil pro
    Inscrit en
    Juillet 2008
    Messages
    29
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2008
    Messages : 29
    Points : 10
    Points
    10
    Par défaut
    Citation Envoyé par ToTo13 Voir le message
    Bonsoir,
    Une ACP permet d'obtenir la meilleure représentation (au sens de la projection) de tes variables dans un espace de dimension inférieure. En revanche, tu ne peux retrouver la valeur de la variable de départ à partir de sa projection dans l'espace inférieur => perte d'information dans la transformation.
    dans l'ACP, les composantes principales sont classées de tel sorte que les valeurs propres sont ordonnées dans l'ordre décroissant, et quand je veux tracer les données dans le plan principal, il choisi automatiquement les 2 premiers axes, est ce que ce la a une relation avec l'ordre des valeurs propres ? et comment?, est ce que cela veut dire que les 2 premiers axes sont les axes qui représentent mieux mes variables ?

  20. #20
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonjour,

    quelque soit l'algorithme utilisé pour trouver les valeurs propres et vecteurs propres, on les obtient toujours dans le désordre.
    Il faut les classer par ordre décroissant, mais heureusement, les deux familles étant liées, on a besoin de faire le travail qu'une fois. Donc la réponse à ta première question est oui : les vecteurs propres et valeurs propres sont liées. Tu peux étudier les algorithmes de calcul dans l'incontournable "numerical recipes". Le vecteur propre avec la norme la plus grande aura la valeur propre associée la plus grande également.

    Sinon, oui, plus la norme du vecteur propre est grande, plus l'axe est important et donc il doit être prioritaire sur les autres. C'est l'axe principal qui représentera le mieux tes données en dimension 1 et ainsi de suite...
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

Discussions similaires

  1. Réponses: 0
    Dernier message: 05/11/2013, 13h20
  2. Apprentissage en utilisant les algorithmes génétiques
    Par shadow07 dans le forum Algorithmes et structures de données
    Réponses: 4
    Dernier message: 23/05/2011, 08h56
  3. [Débutant] les algorithmes utilisés par la fonction solve
    Par rafrouf2010 dans le forum MATLAB
    Réponses: 3
    Dernier message: 18/02/2011, 15h47
  4. Logiciel permettant de connaitre les fichiers utilisés
    Par Mut dans le forum Autres Logiciels
    Réponses: 3
    Dernier message: 14/02/2004, 18h19
  5. recherches des cours ou des explications sur les algorithmes
    Par Marcus2211 dans le forum Algorithmes et structures de données
    Réponses: 6
    Dernier message: 19/05/2002, 23h18

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo