Ponle audio a un rostro y lo hablará perfectamente en tiempo real, Microsoft presenta VASA

abril 22, 2024

VASA-1 convierte rostros en personajes hablantes impulsados por un audio, un efecto generado en tiempo real con comportamientos humanos. La futura herramienta de Microsoft ofrece alta calidad de video con dinámicas faciales y de cabeza realistas. Así funciona.

VASA-1 es una herramienta para generar caras hablantes realistas de personajes virtuales con impresionantes habilidades afectivas visuales, a partir de una única imagen estática y un clip de audio de voz.
Este modelo produce movimientos de labios perfectamente sincronizados con el audio, capturando un amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad.

“Las innovaciones principales incluyen una dinámica facial holística y un modelo de generación de movimiento de la cabeza que funciona en un espacio latente del rostro, y el desarrollo de un espacio latente del rostro tan expresivo y desenredado mediante vídeos”, explica Microsoft.

Te puede interesar: Maestro, lo nuevo de Amazon Music para crear listas de música con IA

VASA promete alta calidad de video con dinámicas faciales y de cabeza realistas, permitiendo la generación en línea con formato 512×512 hasta 40 FPS; con una latencia inicial insignificante. “Allana el camino para interacciones en tiempo real con avatares realistas que emulan comportamientos conversacionales humanos”.

Las imágenes de retratos en la página de Microsoft son identidades virtuales inexistentes generadas por StyleGAN2 o DALL·E-3, excepto la de Mona Lisa. En ellas se explora la generación de habilidades afectivas visuales para personajes virtuales e interactivos, sin hacerlos pasar por personas en el mundo real.

Se producen con una gran sincronización de audio entre labios, y un amplio espectro de matices faciales expresivos y movimientos naturales de la cabeza. Se maneja un audio de longitud arbitraria y se genera de manera estable, sin interrupciones.

Te puede interesar: Meta AI anuncia mejora con ampliación de datos de entrenamiento Llama 3, abarcando más de 30 idiomas

El modelo de difusión acepta señales opcionales como condición, la dirección de la mirada principal y la distancia de la cabeza (hacia adelante, hacia la izquierda, hacia la derecha y hacia arriba); y compensaciones de emociones (neutral, felicidad, ira y sorpresa).

La herramienta administra bien las entradas de fotos y audio que están fuera de la distribución del entrenamiento. Por ejemplo, puede manejar fotografías artísticas, audios de canto y habla en idiomas distintos del inglés.

Sobre los riesgos y consideraciones responsables de la IA, la investigación de la compañía “se centra en generar habilidades afectivas visuales para avatares virtuales de IA, con el objetivo de aplicaciones positivas. No tiene como objetivo crear contenido que se utilice para inducir a error o engañar. Sin embargo, al igual que otras técnicas de generación de contenido relacionadas, aún podría utilizarse indebidamente para hacerse pasar por humanos”.

Microsoft se opone a cualquier comportamiento que cree contenidos engañosos o dañinos de personas reales y señala que están interesados en aplicar la técnica para avanzar en la detección de falsificaciones. Actualmente, los videos generados por este método todavía contienen artefactos identificables, y el análisis numérico muestra que todavía hay una brecha para lograr la autenticidad de los videos reales.

Imagen: Microsoft

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Ponle audio a un rostro y lo hablará perfectamente en tiempo real, Microsoft presenta VASA

Te puede interesar: Maestro, lo nuevo de Amazon Music para crear listas de música con IA

Te puede interesar: Meta AI anuncia mejora con ampliación de datos de entrenamiento Llama 3, abarcando más de 30 idiomas

Digna Irene Urrea

Relacionados

AliExpress ya está en la app de Claro: conozca cómo comprar directamente desde la plataforma

“Las marcas solo pagan si venden y los usuarios ganan por comprar”: María del Pilar Correa sobre la tienda virtual de Nequi

7 apps con IA que te ayudan a trabajar mejor, más rápido y con menos esfuerzo

Truecaller lanza en Colombia su “Plan Familiar”, así funciona

¿Publicidad en WhatsApp? Así funcionan y por qué ahora están apareciendo en la pestaña Novedades

¿Puedo usar Nequi fuera de Colombia? Esto es lo que sí y lo que no permite la app si estás en el exterior

Lo más leído de la semana

Netflix se reinventa, ahora emitirá canales de televisión tradicionales: así funciona

Fórmate gratis en IA, datos y nube con ONE de Oracle: certificación, empleabilidad y guía para inscribirte

Amazon estrena su primer Prime Day en Colombia: así funciona y qué pueden esperar los usuarios

Reforma laboral: lo que quería Petro, lo que aprobó el Senado y cómo impacta a los trabajadores

Microsoft lanza la actualización Windows 11, versión 24H2: disponibilidad, mejoras y cómo obtenerla

Se filtran 16 mil millones de contraseñas: datos de Google, Facebook y Apple entre los más expuestos

‘El juego del calamar’ se toma Calamar, Bolívar: así fue la grabación más macondiana del año

Los 5 carros que más valor pierden al salir del concesionario

Archivos

Ponle audio a un rostro y lo hablará perfectamente en tiempo real, Microsoft presenta VASA

Te puede interesar: Maestro, lo nuevo de Amazon Music para crear listas de música con IA

Te puede interesar: Meta AI anuncia mejora con ampliación de datos de entrenamiento Llama 3, abarcando más de 30 idiomas

Digna Irene Urrea

You may also like

Relacionados

Lo más leído de la semana

Archivos