IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Classifications de données


Sujet :

R

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Profil pro
    Inscrit en
    Janvier 2011
    Messages
    18
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2011
    Messages : 18
    Par défaut Classifications de données
    Bonjour à tous,
    j'ai un tableau dont les lignes correspondent à des individus et dans les colonnes j'ai des données tel que l'activité d'une proteine.

    J'aimerai trouver des méthodes de classification pour déterminé si tel ou tel individu est dans tel catégorie, en fonction de l'activité de la proteine (chaque catégorie correspond en fait à un génotype). Je sais pas du tout vers quoi me diriger. Si vous aviez des idées ce serai vraiment bien et ça me permettrai de me débloquer ^^.

    J'espère avoir une réponse

    Merci d'avance

  2. #2
    Membre averti
    Profil pro
    Inscrit en
    Avril 2008
    Messages
    33
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2008
    Messages : 33
    Par défaut
    Tu peux essayer la méthode des K-Means ou un Clustering hiérarchique. Les 2 sont très simples à faire sous R :
    - pour les kmeans : fonction kmeans(..)
    - pour le clustering hiérarchique : fonction hclust(..)

    Par contre, le résultat n'est pas garanti. Surtout lorsqu'il s'agit de données biologiques ; autrement dit, des données avec plus ou moins de variations, des données continues, voir des données manquantes ... C'est pas gagné !

    Il faut savoir que le clustering (ou méthode de classification) est un très gros domaine d'étude à la fois en informatique et en mathématique...

  3. #3
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 37
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Par défaut
    Bonjour,


    Quand tu parles des catégories de tes individus, est-ce que tu disposes de données pour lesquelles tu connais, et la catégorie de l'individu, et les autres informations concernant l'activité des protéines par exemple? I.e., est-ce que tu as un tableau où les lignes représentent des individus, les colonnes les activités des protéines par exemple, plus une colonne donnant la catégorie des individus? J'espère que ma question est claire

    Si oui, dans ce cas tu peux te tourner vers des méthodes telles que l'analyse discriminante ou la régression logistique. Si tu as des questions à ce sujet, n'hésite pas.

    Bonne continuation


    Cordialement,

    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  4. #4
    Membre averti
    Profil pro
    Inscrit en
    Janvier 2011
    Messages
    18
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2011
    Messages : 18
    Par défaut
    Quand tu parles des catégories de tes individus, est-ce que tu disposes de données pour lesquelles tu connais, et la catégorie de l'individu, et les autres informations concernant l'activité des protéines par exemple?
    En fait, les informations que j'ai c'est :
    - phénotype de l'individu (activité de la proteine)
    - génotype (du type AA ou AB ou BB)
    - la quantité de substrat (qui va réagir avec la proteine) qu'on met.
    note : le génotype est influe sur l'activité de la protéine

    Merci pour toutes ces infos, je vais étudier ces méthodes pour les tester sur la base de donnée. Mais si vous avez des conseil en plus (en voyant les nouvelles informations) n'hesitez pas a les postez. Elles serons les bien venues ;p

    A tout hazard, connaîtriez vous un endroit où je peux trouver des rapport officiels de laboratoires ou autre qui parlent de ce genre de méthodes. (je doit quand même trouver des références^^)

    Merciii^^

  5. #5
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 37
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Par défaut
    Bonjour,

    Donc si j'ai bien compris, tu disposes de 3 variables : phénotype de l'individu et quantité de substrat qui sont tes variables explicatives, et génotype qui est ta variable "réponse" de type qualitative avec 3 modalités (AA , AB ou BB). C'est bien cela?

    Petite question subsidiaire : quels sont les types des 2 variables explicatives : quantitative (= numérique), qualitative (= catégorielle) ?

    Enfin, en ce qui concerne l'objectif de ton étude, tu cherches une méthode qui te permette de déterminer le génotype de nouveaux individus pour lesquels tu ne disposerais que des informations : phénotype + quantité de substrat. Est-ce bien cela?

    Si tel est le cas, alors tu peux t'orienter vers les méthodes que je t'avais conseillées plus haut, à savoir l'analyse discriminante ou bien la régression logistique polytomique.
    Si tu as des questions sur ces méthodes, n'hésite pas car je travaille dessus actuellement

    Bonne continuation,

    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  6. #6
    Membre averti
    Profil pro
    Inscrit en
    Avril 2008
    Messages
    33
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2008
    Messages : 33
    Par défaut
    Donc si j'ai bien compris, tu disposes de 3 variables : phénotype de l'individu et quantité de substrat qui sont tes variables explicatives, et génotype qui est ta variable "réponse" de type qualitative avec 3 modalités (AA , AB ou BB). C'est bien cela?
    Moi j'ai plutôt compris qu'en fait il possède 3 variables explicatives :
    - l'activité protéique (qui devrait être quantitative)
    - la quantité de substrat (qui devrait également quantitative)
    - le génotype de l'individu (qualitative)

    Enfin, en ce qui concerne l'objectif de ton étude, tu cherches une méthode qui te permette de déterminer le génotype de nouveaux individus pour lesquels tu ne disposerais que des informations : phénotype + quantité de substrat. Est-ce bien cela?
    Ce que j'ai compris, c'est qu'il aimerait simplement regrouper les différents individus en plusieurs classes (au moins 3 je suppose, vu qu'il y a 3 génotypes). Je n'ai pas l'impression qu'il veuille faire de la prédiction ...

    Il s'agirait alors d'une classification non supervisée...

    .. Enfin, tout ça demande confirmation ..

Discussions similaires

  1. Base de données test pour classification
    Par Gualdim dans le forum Intelligence artificielle
    Réponses: 5
    Dernier message: 03/06/2011, 21h46
  2. Réseau de neurones : classification de données
    Par a7med85 dans le forum Méthodes prédictives
    Réponses: 2
    Dernier message: 13/06/2010, 11h58
  3. Classification de données
    Par Jayrome dans le forum Statistiques, Data Mining et Data Science
    Réponses: 9
    Dernier message: 12/11/2008, 12h58
  4. Réponses: 2
    Dernier message: 17/04/2008, 00h56
  5. classification d'une base de données des connexion réseau
    Par jour_j dans le forum Développement
    Réponses: 0
    Dernier message: 30/11/2007, 15h22

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo