IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Java Discussion :

Type de données sur 2 bits


Sujet :

Langage Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre actif
    Inscrit en
    Décembre 2009
    Messages
    95
    Détails du profil
    Informations forums :
    Inscription : Décembre 2009
    Messages : 95
    Par défaut Type de données sur 2 bits
    Bonjour,

    Je travail actuellement sur un projet de bioinformatique m'amenant à traiter de grandes quantité de données en rapport avec l'ADN.
    J'ai donc besoin de stocker des séquences de caractères utilisant un alphabet de 4 lettres (A,C,G ou T, les 4 différentes nucléotides d'un brin d'ADN).

    J'ai lu a plusieurs reprises qu'il était possible de les stocker avec 2 bits ( 00, 01, 11, 10 ) or le type qui prend le moins de place en Java, c'est le Byte (8 bits). J'ai été faire un tour sur BioJava mais leur système de séquence d'ADN utilise plus de place pour stocker un caractère qu'un Char en Java ...

    Une idée peut-être ?
    Au passage, j'ai cherché aussi mais si vous connaissez des HashMap ou HashSet optimisé pour les grandes quantité de donnée, je suis preneur

    Merci à vous.
    Bonne soirée

  2. #2
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    vous n'aurez aucune optimisation en cherchant comment coder 1 élément. Ce qui importe c'est la quantité d'éléments (beaucoup il semble) et surtout comment vous compter les agencer:

    un séquence continue de 5 millions de nucléotides et on parcoure à la main? Dans ce cas je stockerais dans un tableau de long (64 bits donc 32 nucléotides par entrée)

    puis des méthodes qui permettraient de récupérer un élément, style

    char getElementAt(int index)

    et enfin pour faciliter le travail, j'en ferais une implémentation de Iterable pour pouvoir l'utiliser en itération un peu partout. Le but étant au final de cacher un peu partout ce que vous faites.

    Maintenant ce stockage est bon pour un lecture séquencielle ou une lecture aléatoire, il est peut être moins bon pour appliquer facilement des algorithmes particulier recherchant des séquences précises. Genre comment implémenter un truc genre find("ACGTTAAACGTGCCAAACTACCCCAAAAAAAATCGACTTACCCAGCT")

    a noter que faire un byte[size/8], un long[size/64] ou un int[size/32] reviens à la meme chose coté consommation mémoire. Par contre, plus il y a de "place" par cas, moins vous devrez accéder au tableau, ce qui peux jouer au niveau perfs en cas de lecture séquencielle! (accéder à un tableau en java implique inévitablement un vérification des limites )

Discussions similaires

  1. extraire le n'ème bit d'une donnée sur 32 bits
    Par mariem2 dans le forum Débuter
    Réponses: 6
    Dernier message: 21/04/2011, 18h20
  2. utilisation d'un type de variable sur 64 bit
    Par thhomas dans le forum Langage
    Réponses: 4
    Dernier message: 16/09/2010, 15h01
  3. Probleme type de données sur SQLSERVER
    Par xMs3Do dans le forum MS SQL Server
    Réponses: 1
    Dernier message: 30/04/2008, 00h50
  4. [Access 2003]Probleme type de donnée sur requete DELETE
    Par pottiez dans le forum Langage SQL
    Réponses: 12
    Dernier message: 09/08/2006, 09h39
  5. Réponses: 1
    Dernier message: 27/07/2006, 16h58

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo