Meta AI lance CoTracker, un modèle permettant de suivre n'importe quel point (pixel) sur une vidéo.
CoTracker est une architecture qui suit conjointement plusieurs points sur l'ensemble d'une vidéo. Cette architecture est basée sur plusieurs idées issues de la littérature sur le flux optique et le suivi, et les combine dans une conception nouvelle, flexible et puissante. Elle repose sur un réseau de transformateurs qui modélise la corrélation de différents points dans le temps par le biais de couches d'attention spécialisées.
Les méthodes de prédiction du mouvement vidéo permettent soit d'estimer conjointement le mouvement instantané de tous les points d'une image vidéo donnée à l'aide du flux optique, soit de suivre le mouvement de points individuels tout au long de la vidéo, mais de manière indépendante. Cette dernière solution est vraie même pour les méthodes d'apprentissage profond puissantes qui peuvent suivre les points à travers les occlusions. Le suivi individuel des points ignore la forte corrélation qui peut exister entre les points, par exemple lorsqu'ils proviennent du même objet physique, ce qui peut nuire aux performances.
Le transformateur est conçu pour mettre à jour itérativement une estimation de plusieurs trajectoires. Il peut être appliqué de manière glissante à des vidéos très longues, pour lesquelles il est conçu une boucle d'apprentissage déroulée. Il se compare favorablement aux méthodes de suivi de points les plus récentes, à la fois en termes d'efficacité et de précision.
Points sur une grille uniforme
On suit des points échantillonnés sur une grille régulière à partir de l'image vidéo initiale. Les couleurs représentent l'objet (magenta) et l'arrière-plan (cyan).
Pour les PIP, de nombreux points sont suivis de manière incorrecte et finissent par être "coincés" sur l'avant de l'objet ou sur le côté de l'image lorsqu'ils sont occultés. Les prédictions RAFT ont moins de bruit, mais le modèle ne parvient pas à gérer les occlusions, ce qui entraîne la perte de points ou leur blocage sur l'objet. Les prédictions TAPIR sont assez précises pour les points non occlus. Lorsqu'un point est occulté, le modèle peine à estimer sa position. CoTracker produit des traces plus nettes et plus "linéaires", ce qui est exact car le mouvement principal est une homographie (l'observateur ne se déplace pas).
Points individuels
On suit le même point avec différentes méthodes et on visualise sa trajectoire à l'aide d'un codage couleur basé sur le temps. La croix rouge (❌) indique les coordonnées du point de vérité au sol.
Liens connexes
Plusieurs travaux concurrents ont été développés à peu près en même temps que CoTracker :
TAPIR est un suiveur de points en amont avec une étape de correspondance inspirée de TAP-Vid et une étape de raffinement inspirée de PIPs. Le modèle démontre un suivi précis des points visibles. Cependant, il peine à prédire les positions des points occultés.
Tracking Everything Everywhere All At Once optimise une représentation volumétrique pour chaque vidéo pendant la durée du test, en affinant les correspondances estimées dans un espace canonique. Le modèle est actuellement basé sur les pistes RAFT et est moins précis que CoTracker, mais il peut potentiellement être utilisé pour affiner les pistes CoTracker.
Le suivi multi-flux effectue une estimation du flux optique entre des images distantes et choisit la chaîne de flux optiques la plus fiable.
Source : Meta AI
Et vous ?
Pensez-vous que nouvelle solution soit utile, si oui à quoi ?
Quel est votre avis sur cet outil ?
Voir aussi :
Meta AI présente Megabyte, une architecture IA capable de modéliser des millions d'octets en se passant de la tokenisation. Les chercheurs y voient le début d'une révolution de l'IA générative
Meta déclare que son nouveau modèle d'IA de synthèse vocale est beaucoup trop dangereux pour être rendu public. Il pourrait être utilisé pour perfectionner les deepfakes ou dans des escroqueries
Meta lance Segment Anything, un modèle d'IA capable d'identifier et de découper des objets dans des images et publie la base de données de 11 millions d'images utilisée pour entrainer le modèle
Partager