Según el sitio web oficial de Microsoft, VASA significa Virtual Avatar Speech Animation, un marco revolucionario diseñado para generar caras parlantes realistas a partir de imágenes estáticas individuales y clips de audio.
VASA-1, su modelo insignia, tiene la capacidad de sincronizar perfectamente los movimientos de los labios con el audio mientras captura un espectro de matices faciales y movimientos naturales de la cabeza, otorgando autenticidad y vivacidad a los personajes virtuales.
Las innovaciones clave incluyen una dinámica facial holística y un modelo de generación de movimiento de la cabeza que opera en el espacio latente facial, así como el desarrollo de dicho espacio latente facial expresivo y desenredado mediante videos.
«A través de extensos experimentos, incluida la evaluación de un conjunto de nuevas métricas, demostramos que nuestro método supera significativamente a los métodos anteriores en varias dimensiones», dijo Microsoft.
“Nuestro método no solo ofrece alta calidad de video con dinámicas faciales y de cabeza realistas, sino que también admite la generación en línea de videos de 512 x 512 a hasta 40 FPS con una latencia de inicio insignificante. Allana el camino para interacciones en tiempo real con avatares realistas que imitan la conversación humana. comportamientos”, añade.
«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».
También te puede interesar
-
Mujer de Delhi agradece a Tim Cook que el Apple Watch le salve la vida. el ha respondido
-
Apple trabaja para solucionar el problema de alarma del iPhone | Manzana
-
El Aston Martin Vanquish volverá este año con un nuevo V12 de 824 CV
-
Interrupción de Google: millones no pueden acceder a la búsqueda durante horas
-
Los mejores teléfonos inteligentes lanzados en India este mes