Según el sitio web oficial de Microsoft, VASA significa Virtual Avatar Speech Animation, un marco revolucionario diseñado para generar caras parlantes realistas a partir de imágenes estáticas individuales y clips de audio.
VASA-1, su modelo insignia, tiene la capacidad de sincronizar perfectamente los movimientos de los labios con el audio mientras captura un espectro de matices faciales y movimientos naturales de la cabeza, otorgando autenticidad y vivacidad a los personajes virtuales.
Las innovaciones clave incluyen una dinámica facial holística y un modelo de generación de movimiento de la cabeza que opera en el espacio latente facial, así como el desarrollo de dicho espacio latente facial expresivo y desenredado mediante videos.
«A través de extensos experimentos, incluida la evaluación de un conjunto de nuevas métricas, demostramos que nuestro método supera significativamente a los métodos anteriores en varias dimensiones», dijo Microsoft.
“Nuestro método no solo ofrece alta calidad de video con dinámicas faciales y de cabeza realistas, sino que también admite la generación en línea de videos de 512 x 512 a hasta 40 FPS con una latencia de inicio insignificante. Allana el camino para interacciones en tiempo real con avatares realistas que imitan la conversación humana. comportamientos”, añade.
«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».
También te puede interesar
-
Samsung podría dividir notificaciones y configuraciones rápidas en Android 15
-
Los primeros videos de desmontaje del Galaxy Z Flip6 muestran las baterías más grandes y la nueva cámara de vapor
-
Google TV en televisores, la aplicación de Android ya no permite comprar programas de TV
-
[Video] Ajuste ángulos de forma remota, capture hasta los detalles más pequeños: nuevas formas de crear – Samsung Newsroom México
-
El iPhone SE 4 podría compartir el mismo diseño que el iPhone 16, sugiere una nueva filtración