Bonjour à tous,
Je vous écrit ici car je suis en plein démêlé avec python que je ne connais pas encore. Bon j'ai un bon niveau dans d'autre langages mais l'on ne s'improvise pas développeur python si facilement, cependant il y a un début a tout et là je débute probablement avec un gros projet - je vous explique :
Contexte : J'ai récemment rencontré une personne tétraplégique, n'ayant plus que l'usage de ses yeux et lèvres pour communiquer.
Avant de la rencontrer il m'a été demandé si il existait dans le monde de l'informatique un moyen de permettre a une personne dans cette situation de contrôler un ordinateur, et la réponse est oui, par le biais de l'eyes tracking.
Cette solution couplée avec des logiciels d'aides a la communication (regardez la société tobii) permettraient a cette personne de contrôler son environnement (télé ordinateur ...) par le regard.
Encore faut il tester l'eyes tracking en lui même afin de voir si c'est suffisent (admettons puisque c'est commercialisé et même implémenté dans le jeu vidéo).
Même avec une précision grossière (de l'ordre de 2 à 4 cm), cet outils peut se révéler être une porte d'entrée dans le monde pour un tétraplégique, c'est un bout de frontière qui disparaît, la personne peut décider d'allumer ou non la télé (...), voir même peut crier a l'aide, ce qui n'est pas rien. Partant de là il deviens aisé d'imaginer de développer un programme simple (la recherche étant l’efficacité et le repos visuel maximum car la personne fatigue vite) qui permettrait d'offrir une télécommande adaptée aux contraintes de l'eyes tracking et qui serait assez simple d'utilisation.
Mais après ma première rencontre avec cette personne, il m'a semblé totalement décalé de lui proposer uniquement de l'eyes tracking car il ne lui manque que le son de ses cordes vocales, les lèvres bougent et forment les lettre syllabes mots phrases...
Du coup ni une ni deux j'ai fouillé si il existait un logiciel de lecture sur les lèvres, mais hors mis de la recherche fondamentalement il n'y a pas.
D’après ce que j'ai lut, l'angle d'attaque des développeurs google et/ou lipnet est de lire sur les lèvres avec un échantillon large d'individus, c'est a dire que le programme tente de comprendre tout le monde, mais ce n'est pas mon objectif. Le mien est de comprendre Une personne et donc de calibrer l'outils sur cette personne unique pour ensuite transmettre a l'assistance vocale les phrases détectées et de les dires.
Lipnet a annoncé un taux de 95% de réussite dans la compréhension, reste a tester. Il est développé en python, mais déjà premier problème, impossible de faire tourner leur programme.
J'ai beau faire les instals a la mano, utiliser anaconda nada, rien!
Du coup je me suis mis a regarder python de prés pour debugger le code éventuellement et en parallèle j'ai regardé la librairie Dlib et ses "facial landmarks", mais bon, il y a moult angles de recherche possible...
Du coup je viens vous demander votre avis ici, voir si vous avez des pistes a me donner (voir carrément si vous arrivez a faire tourner lipnet)
Donc grosso modo, voila ce que je cherche a réaliser :
1 - capturer une vidéo de la personne qui parle
2 - analyser les images pour déterminer les mots phrases (...)
3 - restituer un texte
Evidemment là c'est une approche simpliste car si c'est réalisable il peut être intéressant de coupler l'eyes tracking avec un tel programme afin d'affiner/rectifier si besoin.
Autre point, c'est que cette personne sera H24 devant ce dispositif, et de ce fait il y a la possibilité d'obtenir beaucoup de données pour affiner avec le temps, donc il me semblais eventuellement interessant d'ajouter une dose d'IA afin que ce processus se realise de lui même.
Que pensez vous de tout cela?
Auriez vous des pistes ou seriez vous prêt a me filer un coud de main?
Et si qq arrive il a faire tourner lipnet (dispo sur git) qui d'ailleurs a publié dans un pdf ses algos.
Merci de votre aide
Partager