LaboFnac

Nvidia utilise l’IA pour transformer des vidéos classiques en slow-motion

Nvidia annonce que ses chercheurs ont développé un système basé sur le deep learning qui permet de produire des ralentis à 240 images par seconde à partir d'une vidéo classique à 30 images par seconde. Avec cette technologie, les utilisateurs pourraient ralentir leurs vidéos après les avoir enregistrées sans passer par un mode slow-motion.

Nvidia multiplie les outils basés sur l’intelligence artificielle. La société américaine est surtout connue du grand public pour ses solutions, mais elle se fait également remarquer avec ses technologies de l’IA capables de retoucher des images ou de s’inviter dans les futures voitures autonomes de Volvo. Nvidia utilise aussi l’intelligence artificielle pour créer des ralentis à partir de vidéos classiques. Des chercheurs de la firme au caméléon ont ainsi développé un système basé sur le deep learning capable de produire des vidéos au ralenti à partir d’une vidéo tournée à 30 ou 60 images par seconde. Contrairement à de nombreux smartphones – on pense notamment à Sony ou Samsung – ou appareils photo qui proposent des modes ralenti ou super ralenti, le traitement est ici logiciel et se fait à partir d’une vidéo classique.

Nvidia SloMo

© Nvidia

Super SloMo, le slow motion façon Nvidia

Nvidia explique s’être appuyé sur des GPU Tesla V100 et la bibliothèque de deep learning NVIDIA cuDNN accélérée par le framework PyTorch, pour développer ce système. Ce dernier a ensuite été entraîné sur plus de 11 000 vidéos d’activités quotidiennes et sportives tournées à 240 images par seconde. Une fois entraîné, le réseau neuronal est capable de prédire les images supplémentaires et le constructeur en a profité pour publier une vidéo de démonstration.

Avec cette méthode, il est possible de transformer une vidéo à 30 images par secondes en un a ralenti à 240 images par secondes. À partir d’une vidéo à 60 images par seconde, on pourra également obtenir un ralenti à 480 images par seconde. Les chercheurs Nvidia expliquent : « Notre méthode peut générer de multiples trames intermédiaires qui sont cohérentes dans l’espace et dans le temps ». « Bien qu’il soit possible de prendre des vidéos de 240 images par seconde avec un téléphone, tout enregistrer à des fréquences d’images élevées est peu pratique, car cela nécessite de grandes quantités de mémoire et de puissance pour les appareils mobiles« , ajoutent-ils. Les chercheurs présenteront leurs avancés lors de la conférence annuelle Computer Vision and Pattern Recognition (CVPR) de Salt Lake City.


Contenus associés

Partager cet article :

Attention, vous avez déjà 3 produits dans le comparateur : supprimez un de ces produits pour rajouter celui-ci au comparateur.