IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

avec Java Discussion :

Calculs statistiques dans une multimap


Sujet :

avec Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Profil pro
    Inscrit en
    Décembre 2009
    Messages
    44
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2009
    Messages : 44
    Par défaut Calculs statistiques dans une multimap
    Bonjour à tous,

    Je reviens vers vous car je bloque vraiment sur ces histoires de MultiMap et calcul d'occurrences pour plusieurs données différentes de la MultiMap tout en conservant un certain ordre rigoureux. Je vous explique.
    J'ai un fichier texte où j'extrais un certain nombre de données. Sur chaque ligne, je récupère des identifiants de séquence, des noms de gènes avec leurs allèles correspondants et enfin optionnellement des commentaires sur les séquences. Le but de mon travail est de regrouper toutes ces données, à savoir dans un premier temps tous les allèles par gène commun. Par exemple (le fichier est beaucoup plus compliqué mais c'est juste pour simplifier):

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
     
    Séquence 1 Gène A    Allèle 1, Allèle 2, Allèle 3    Commentaires
    Séquence 1 Gène A    Allèle 1, Allèle 2, Allèle 3    Commentaires
    Séquence 2 Gène B    Allèle 1, Allèle 2, Allèle 3    Aucun
    Séquence 3 Gène C    Allèle 1, Allèle 2, Allèle 3    Commentaires 
    Séquence 4 Gène D    Allèle 1, Allèle 2, Allèle 3    Commentaires
    Séquence 5 Gène A    Allèle 1, Allèle 5, Allèle 6    Commentaires
    Séquence 6 Gène E    Allèle 1, Allèle 2, Allèle 3    Aucun
    Séquence 7 Gène C    Allèle 4, Allèle 5, Allèle 6    Commentaires
    Donc il faudrait que dans un 1er temps j'ai quelque chose comme ça:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    1
    Gène A ={[Allèle 1, Allèle 2, Allèle 3, Allèle 5, Allèle 6] 
    Gène C ={[Allèle 1, Allèle 2, Allèle 3, Allèle 4, Allèle 5, Allèle 6] 
    etc
    Cela est facile avec une Multimap où je prends en paramètres un string (le gène en clé) et une arraylist qui contient la liste des allèles regroupés par gènes.

    Là où cela se complique vraiment, c'est lorsque je dois calculer pour chaque différent allèle:
    -le nombre de séquences totales où ils apparaissent
    -le nombre de séquences redondantes
    -le nombre de séquences non redondantes
    -le nombre de commentaires sur les séquences.

    En gros, une fois le fichier parcouru, je dois être capable de dire pour un allèle donné, à combien de séquences il est associé au total (cela est facile en faisant juste le calcul d'occurrence de chaque allèle) mais aussi, parmi l'ensemble de ces séquences par allèle, je dois être capable de dire combien il y a de doublons et combien il y a de séquences distinctes et combien de séquences ont des commentaires....
    Le tout, en conservant l'ordre établi la 1ère fois, à savoir le regroupement des allèles par gènes. o_O

    A la fin, j'aurais quelque chose comme ça:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    Gène A 
          Allèle 1: Séquences Totales : 3
                    Séquences Redondantes : 1
                    Séquences Non redondantes : 1
                    Commentaires : 2
    Comment feriez-vous à ma place? Plusieurs multimaps que vous regroupez à la fin ou une seule multimap constitués de plusieurs arraylists?

    J'avoue que c'est un problème qui me dépasse.

    Merci à ceux qui pourront m'aiguiller sur la bonne direction.

    Bien amicalement.

  2. #2
    Rédacteur
    Avatar de CyberChouan
    Homme Profil pro
    Directeur technique
    Inscrit en
    Janvier 2007
    Messages
    2 752
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Directeur technique
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Janvier 2007
    Messages : 2 752
    Par défaut
    J'ai l'impression qu'il s'agit d'un pur problème de manipulation de données.

    A ta place, j'utiliserais un outil dédié (ETL) comme "Talend Open Studio" par exemple...
    Avant de poster, pensez à regarder la FAQ, les tutoriaux, la Javadoc (de la JRE que vous utilisez) et à faire une recherche
    Je ne réponds pas aux questions techniques par MP: les forums sont faits pour ça
    Mes articles et tutoriaux & Mon blog informatique

  3. #3
    Membre averti
    Profil pro
    Inscrit en
    Décembre 2009
    Messages
    44
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2009
    Messages : 44
    Par défaut
    Bonjour et merci pour ta réponse.

    Est ce que tu pourrais me donner un exemple stp? Je suis vraiment nouvelle en java et je ne connais pas du tout ces outils mais je suis preneuse car je sais que mon problème ici est l'architecture de ma classe. J'ai pensé à créer une classe mère où je stockerai les attributs et les méthodes que j'utiliserai lors du parsage et du tri ainsi que des calculs des occurrences mais ce n'est pas chose aisée. Je vais quand même chercher sur google.

Discussions similaires

  1. Calcul heure dans une requête
    Par Accessbeotien dans le forum Requêtes et SQL.
    Réponses: 3
    Dernier message: 07/09/2007, 10h12
  2. calcul pourcentage dans une requete imbriquée
    Par timal78 dans le forum Langage SQL
    Réponses: 1
    Dernier message: 10/07/2007, 14h28
  3. Réponses: 5
    Dernier message: 15/03/2007, 10h08
  4. [FB 1.5] calculs date dans une ps
    Par jlf dans le forum SQL
    Réponses: 7
    Dernier message: 28/12/2006, 19h32
  5. Calculs complexes dans une requête
    Par ARRG dans le forum Langage SQL
    Réponses: 5
    Dernier message: 06/06/2005, 19h11

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo