Bonjour à toutes et à tous !
J'ai besoin de manipuler une structure de données qui a cette forme :
Chaque ligne représente un individu récolté à une coordonnée pas forcément unique dans le jeu de données. Pour chaque individu on a une valeur associée à l'allèle A1 (ou A2) d'un locus ( = un point du génome) auquel est attribué un joli nom (locus DJRD456 par exemple). Taille actuelle : 300 ind x 20 locus x 2 alleles
J'ai bien fait un truc qui marche (mais crado, trop compliqué, très certainement pas du tout efficace, un peu comme mon tableau ci-dessus
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8 ------------------------------------------------------------------------------ ____| coords | nom locus 1 || nom locus 2 || ... ____|___________| A1 A2 || A1 A2 || ... ------------------------------------------------------------------------------- 1 | (44 ; 1.5) | 123 154 || 211 456 || ... 2 | (44 ; 1.5) | 211 456 || 123 211 || ... 3 | (39 ; 3.5) | 434 111 || 434 154 || ...) et évidemment je galère à lui filer une interface sympatoche.
Je suis très mauvais dans la manipulation des structures de données. Quels réflexes vous viennent ici spontanément à l'esprit ?
En vous remerciant,





) et évidemment je galère à lui filer une interface sympatoche.
Répondre avec citation





Veux-tu dire que fabriquer une grosse matrice contenant tous les nombres serait une mauvaise idée et qu'il vaudrait mieux structurer tout ça en faisant une structure "individu" qui contient des structures locus qui contiennent des allèles ?
Dans un premier temps chaque duplication/traitement aura lieu dans une boucle for. Cela dit, chaque itération duplication/traitement est indépendante de la suivante, et à un moment va falloir se poser la question de comment optimiser ça sur le cluster de mon labo. Toutes les itérations utilisent des données communes constantes.

).
Partager