IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Classifications de données


Sujet :

R

  1. #1
    Membre averti
    Profil pro
    Inscrit en
    Janvier 2011
    Messages
    18
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2011
    Messages : 18
    Par défaut Classifications de données
    Bonjour à tous,
    j'ai un tableau dont les lignes correspondent à des individus et dans les colonnes j'ai des données tel que l'activité d'une proteine.

    J'aimerai trouver des méthodes de classification pour déterminé si tel ou tel individu est dans tel catégorie, en fonction de l'activité de la proteine (chaque catégorie correspond en fait à un génotype). Je sais pas du tout vers quoi me diriger. Si vous aviez des idées ce serai vraiment bien et ça me permettrai de me débloquer ^^.

    J'espère avoir une réponse

    Merci d'avance

  2. #2
    Membre averti
    Profil pro
    Inscrit en
    Avril 2008
    Messages
    33
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2008
    Messages : 33
    Par défaut
    Tu peux essayer la méthode des K-Means ou un Clustering hiérarchique. Les 2 sont très simples à faire sous R :
    - pour les kmeans : fonction kmeans(..)
    - pour le clustering hiérarchique : fonction hclust(..)

    Par contre, le résultat n'est pas garanti. Surtout lorsqu'il s'agit de données biologiques ; autrement dit, des données avec plus ou moins de variations, des données continues, voir des données manquantes ... C'est pas gagné !

    Il faut savoir que le clustering (ou méthode de classification) est un très gros domaine d'étude à la fois en informatique et en mathématique...

  3. #3
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 37
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Par défaut
    Bonjour,


    Quand tu parles des catégories de tes individus, est-ce que tu disposes de données pour lesquelles tu connais, et la catégorie de l'individu, et les autres informations concernant l'activité des protéines par exemple? I.e., est-ce que tu as un tableau où les lignes représentent des individus, les colonnes les activités des protéines par exemple, plus une colonne donnant la catégorie des individus? J'espère que ma question est claire

    Si oui, dans ce cas tu peux te tourner vers des méthodes telles que l'analyse discriminante ou la régression logistique. Si tu as des questions à ce sujet, n'hésite pas.

    Bonne continuation


    Cordialement,

    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  4. #4
    Membre averti
    Profil pro
    Inscrit en
    Janvier 2011
    Messages
    18
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2011
    Messages : 18
    Par défaut
    Quand tu parles des catégories de tes individus, est-ce que tu disposes de données pour lesquelles tu connais, et la catégorie de l'individu, et les autres informations concernant l'activité des protéines par exemple?
    En fait, les informations que j'ai c'est :
    - phénotype de l'individu (activité de la proteine)
    - génotype (du type AA ou AB ou BB)
    - la quantité de substrat (qui va réagir avec la proteine) qu'on met.
    note : le génotype est influe sur l'activité de la protéine

    Merci pour toutes ces infos, je vais étudier ces méthodes pour les tester sur la base de donnée. Mais si vous avez des conseil en plus (en voyant les nouvelles informations) n'hesitez pas a les postez. Elles serons les bien venues ;p

    A tout hazard, connaîtriez vous un endroit où je peux trouver des rapport officiels de laboratoires ou autre qui parlent de ce genre de méthodes. (je doit quand même trouver des références^^)

    Merciii^^

  5. #5
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 37
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Par défaut
    Bonjour,

    Donc si j'ai bien compris, tu disposes de 3 variables : phénotype de l'individu et quantité de substrat qui sont tes variables explicatives, et génotype qui est ta variable "réponse" de type qualitative avec 3 modalités (AA , AB ou BB). C'est bien cela?

    Petite question subsidiaire : quels sont les types des 2 variables explicatives : quantitative (= numérique), qualitative (= catégorielle) ?

    Enfin, en ce qui concerne l'objectif de ton étude, tu cherches une méthode qui te permette de déterminer le génotype de nouveaux individus pour lesquels tu ne disposerais que des informations : phénotype + quantité de substrat. Est-ce bien cela?

    Si tel est le cas, alors tu peux t'orienter vers les méthodes que je t'avais conseillées plus haut, à savoir l'analyse discriminante ou bien la régression logistique polytomique.
    Si tu as des questions sur ces méthodes, n'hésite pas car je travaille dessus actuellement

    Bonne continuation,

    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  6. #6
    Membre averti
    Profil pro
    Inscrit en
    Avril 2008
    Messages
    33
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2008
    Messages : 33
    Par défaut
    Donc si j'ai bien compris, tu disposes de 3 variables : phénotype de l'individu et quantité de substrat qui sont tes variables explicatives, et génotype qui est ta variable "réponse" de type qualitative avec 3 modalités (AA , AB ou BB). C'est bien cela?
    Moi j'ai plutôt compris qu'en fait il possède 3 variables explicatives :
    - l'activité protéique (qui devrait être quantitative)
    - la quantité de substrat (qui devrait également quantitative)
    - le génotype de l'individu (qualitative)

    Enfin, en ce qui concerne l'objectif de ton étude, tu cherches une méthode qui te permette de déterminer le génotype de nouveaux individus pour lesquels tu ne disposerais que des informations : phénotype + quantité de substrat. Est-ce bien cela?
    Ce que j'ai compris, c'est qu'il aimerait simplement regrouper les différents individus en plusieurs classes (au moins 3 je suppose, vu qu'il y a 3 génotypes). Je n'ai pas l'impression qu'il veuille faire de la prédiction ...

    Il s'agirait alors d'une classification non supervisée...

    .. Enfin, tout ça demande confirmation ..

  7. #7
    Inactif  


    Homme Profil pro
    Inscrit en
    Novembre 2008
    Messages
    5 288
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 49
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Secteur : Santé

    Informations forums :
    Inscription : Novembre 2008
    Messages : 5 288
    Par défaut
    J'aimerai trouver des méthodes de classification pour déterminé si tel ou tel individu est dans tel catégorie, en fonction de l'activité de la proteine (chaque catégorie correspond en fait à un génotype).
    Donc le génotype est bien la variable à expliquer.

    Donc comme A. D., je pense qu'on s'oriente vers une méthode supervisée avec 2 variables explicatives continues.

    Je conseille un passage sur wikipédia pour la description des algorithmes les plus courants : Exploration de données. Tu y trouveras en particulier 2 grands tableaux résumé.

    Tu as comme méthode descriptive les analyses factorielles (en particulier l'ACP) et comme méthodes prédictives les régressions (ANOVA, analyse discriminante, régression logistiques)

    Je rappelle quelques sources : http://www.developpez.net/forums/d98...m/#post5649666. Tu as particulier le lien vers les cours BioStatistiques Lyon, avec en particulier une rubrique de cours appelé "évolution moléculaire" donc lequel on trouve, en autre, des cours de "Pratique de l'AFC inter-intra sur données génomique" et "Pratique de l'AFC discriminante sur données protéomiques et génomiques"
    De plus, pour la bioinformatique avec R, la référence, c'est bioconductor.

    Pour les références bibliographiques, tu devrais trouver ton bonheur sur pubmed... mais ton bonheur sera bien caché au milieu de millions d'autres articles Essaies avec "proteomics biomarker validation review" par exemple.

    Ça ressemble à de l'elisa ou de la spectrométrie de masse ça...

Discussions similaires

  1. Base de données test pour classification
    Par Gualdim dans le forum Intelligence artificielle
    Réponses: 5
    Dernier message: 03/06/2011, 21h46
  2. Réseau de neurones : classification de données
    Par a7med85 dans le forum Méthodes prédictives
    Réponses: 2
    Dernier message: 13/06/2010, 11h58
  3. Classification de données
    Par Jayrome dans le forum Statistiques, Data Mining et Data Science
    Réponses: 9
    Dernier message: 12/11/2008, 12h58
  4. Réponses: 2
    Dernier message: 17/04/2008, 00h56
  5. classification d'une base de données des connexion réseau
    Par jour_j dans le forum Développement
    Réponses: 0
    Dernier message: 30/11/2007, 15h22

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo