IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Réduction de dimensions via l'ACM


Sujet :

R

  1. #1
    Membre à l'essai
    Femme Profil pro
    Étudiant
    Inscrit en
    Février 2015
    Messages
    17
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 34
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2015
    Messages : 17
    Points : 24
    Points
    24
    Par défaut Réduction de dimensions via l'ACM
    Bonjour tout le monde,

    Je travaille sur un jeu de données de 4000000 lignes et 1000000 de colonnes.

    Pouvez-vous m'éclaircir un peu le processus suivi par l'Analyse des Correspondances Multiples(ACM) et me dire si je pourrai utiliser l'ACM sous R(package FactomineR) pour effectuer une réduction de dimensions d'un tel jeu de données.

    Merci de me répondre

  2. #2
    Membre habitué
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Décembre 2015
    Messages
    72
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Décembre 2015
    Messages : 72
    Points : 180
    Points
    180
    Par défaut
    Bonjour Ransou,

    Je ne sais pas quelle est ta problématique par rapport à ton jeu de données et pourquoi tu désires réaliser une ACM dessus.

    Sache que l'ACM est assez gourmande par rapport aux nombres de dimensions (donc pour le calcul). En effet, ce qui est déterminant est le nombre de modalités que tu as, pas le nombre de variables. Par exemple, dans ton cas, si toutes tes variables ont 4 modalités, tu n'auras pas 1 millions mais 4 millions de dimensions sur les variables (sachant que le nombre limite est le minimum entre le nombre de modalités et le nombre d'individus).

    Si tu peux faire tourner l'ACM, son objectif est de résumer ton information par des variables "orthogonales". Pour faire simple, elle sont totalement indépendantes. Suite à l'ACM, tu peux savoir la quantité d'information (en %) résumé par un certain nombre de variable, qui peut te permettre de travailler sur beaucoup moins, notamment pour faire une classification après.

    J'espère avoir répondu à ta question

    VV

  3. #3
    Membre à l'essai
    Femme Profil pro
    Étudiant
    Inscrit en
    Février 2015
    Messages
    17
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 34
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2015
    Messages : 17
    Points : 24
    Points
    24
    Par défaut
    Merci bien VonVelten pour votre éclaircissement.
    Je sais que l'ACM permet de concentrer l'information sur les premières dimensions factorielles. En ce sens, elle "réduit" les données mais je n'arrive pas à déterminer les premières dimensions factorielles de mon jeu de données pour le faire sachant que toutes les variables sont de type qualitatif et un traitement en 1000000 colonnes est trop lourd pour la machine.

  4. #4
    Membre habitué
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Décembre 2015
    Messages
    72
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Décembre 2015
    Messages : 72
    Points : 180
    Points
    180
    Par défaut
    Malheureusement je ne suis pas sur que FactoMineR ne permette de traiter des jeux de données si important. Tout du moins avec un ordinateur classique.

    Une hypothèse peut-être de faire une démarche semblable à l'AFM (Analyse Factorielle Multiple). En découpant le jeu de données en 10 tableaux (de 100 000 variables), puis en en ne conservant que ces données sur certains axes factoriels, ré-concaténer les résultats et refaire une ACP ? La différence serait de ne pas pondérer par les valeurs propres. Je ne sais pas si cela marcherait, il faudrait tester sur de petits jeu de données et tester les résultats.

  5. #5
    Membre averti
    Homme Profil pro
    Data scientist
    Inscrit en
    Février 2017
    Messages
    211
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Data scientist
    Secteur : Conseil

    Informations forums :
    Inscription : Février 2017
    Messages : 211
    Points : 343
    Points
    343
    Par défaut Facto
    Bonjour,

    Le principe de l'ACP est de réduire la dimension de ta base de données sans perdre beaucoup d'information. Pour ce jeu de données un "Big" je ne suis pas sur que votre programme puisse tourner. Essaye le package h2o. ca pourrait etre une alternative. ou sinon prendre un échantillon aléatoire de ta base de données et essayer de voir qu'il y a quelque chose qui sort.

Discussions similaires

  1. Réponses: 8
    Dernier message: 16/12/2015, 18h08
  2. Réduction de Dimension
    Par medchok dans le forum Méthodes exploratoires
    Réponses: 16
    Dernier message: 13/01/2010, 17h58
  3. Réponses: 34
    Dernier message: 06/09/2007, 12h42
  4. Réponses: 7
    Dernier message: 30/01/2007, 10h48
  5. Réponses: 8
    Dernier message: 25/04/2006, 17h08

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo