Crea videos de personas hablando solo utilizando fotos: Así funciona VLOGGER, IA de Google

El modelo VLOGGER permite generar videos fotorrealistas de duración variable; un ser humano hablando con gestualidad corporal solo utilizando fotos. La IA de Google produce estos audiovisuales a partir de un tema original (imágenes), con mucho movimiento y realismo. Así funciona.


VLOGGER, una de las AI de Google, opera en dos etapas basada en modelos de difusión estocástica (aleatoria, al azar) para modelar el habla de un video a partir de fotos. La primera red toma como entrada una forma de audio para generar controles intermedios de movimiento corporal, crear la mirada, las expresiones faciales y las poses durante el audiovisual.

La segunda es la traducción temporal de imagen a imagen para extender modelos de difusión de imágenes grandes, tomando los controles corporales ingresados para generar fotogramas. La identidad particular la otorga la red, tomando una imagen de referencia de una persona.

Te  puede interesar: Así es el primer laboratorio de inteligencia artificial de Microsoft en Colombia

Según Google, este «modelo genera una distribución diversa de videos del tema original, con una cantidad significativa de movimiento y realismo». En el lado derecho de la herramienta web, se muestra la diversidad de píxeles obtenida a partir de 80 vídeos generados.

La persona a animar, puede mover significativamente la cabeza y el cuerpo. El color rojo indica una mayor diversidad en el color de los píxeles, mientras el fondo se mantiene fijo. A pesar de la diversidad, todos los videos parecen realistas.

VLOGGER puede tomar una fotografía de alguien y generar clips en alta fidelidad y de diferentes longitudes, con expresiones faciales y lenguaje del cuerpo: parpadeo y gesticulación de labios.

Te puede interesar: IA vence habilidad física humana: años de experiencia vapuleados por horas de práctica

También puede hacer un vídeo cambiando la expresión del sujeto, aprovechando la flexibilidad del modelo de difusión al pintar partes de la imagen que deberían cambiar, haciendo que las ediciones de video sean consistentes con los píxeles originales sin cambios; avatares de alta fidelidad.

Los humanos sintéticos que hablan de apariencia muy realista, pueden «desarrollar empatía», permitiendo casos de uso completamente nuevos, como comunicación en línea mejorada, educación o asistentes virtuales personalizados.
Según el comunicado de VLOGGER, «La creación de vídeos realistas de humanos todavía es compleja y está repleta de artefactos», y el equipo de Corona apunta a desafiar las imprecisiones del estado del arte en avatares.

Imagen: Captura de pantalla

Digna Irene Urrea

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Archivos