Bonjour ! Biologiste de formation j'ai quelques notions de biostatistique mais ça commence a dater (une quinzaine d'années) ! Même un peu d'aide pourrait grandement m'aider a y voir claire !
Voilà l'histoire : Je fais de la photo-identification (on prend une photo d'un individu pour le reconnaître à la prochaine rencontre). Je peux ainsi avoir un catalogue d'individu (une bonne centaine). Pour chaque rencontre, je note la date et l'heure de la rencontre. Mon but est maintenant de connaitre les liens entre les individus et définir des groupes familiaux.
J'ai bidouillé un peu sur Excel, et quelques logiciels de socio (socprog) mais j'ai atteins certaines limites !
En mots, je veux identifier les liens entre les individus (classification hiérarchique ascendante je pense) mais il y a un biais que j'aimerais réduire. En effet, comme je travaille sur de la donnée opportuniste, il se peut que deux individus observés le même jour ne soit pas de la même famille parce qu'observé avec trop de temps entre les observations (exemple : matin / après midi).
Si ID01 est observé le même jour que ID02 alors ils seront considéré de la même famille mais il faudrait exclure les observations avec un écart d'heure trop important. Plus les heures sont proches, plus les individus ont une chance d'être de la même famille. Il y a un curseur écologique à définir évidement mais peut être peut-il se calculer.
En gros la première partie j'y arrive a peu près, mais la deuxième variable (heure) me pose problème puisque elle est forcement lier à la date.
Ce que j'aimerais c'est donc de pouvoir programmer tout ça pour éviter de passer X jours sur X logiciels différents et réduire les biais.
J'espère être assez claire dans mon explication, parler en terme "mathématique" n'est pas toujours évident pour moi biologiste !
Merci !
Partager