La AI de Google lee los labios mejor que un profesional humano

Susana Angulo — Wed, 23 Nov 2016 18:03:53 +0000

DeepMind de Google y la Universidad de Oxford lograron este sistema.

Un proyecto entre Google DeepMind (la división de inteligencia artificial de Google) y la Universidad de Oxford aplicó aprendizaje de máquinas a una gran base de datos de programas de la cadena BBC para crear un sistema de lectura de labios que deja a los profesionales en ese campo muy por debajo en cuanto a eficiencia, informó New Scientist.

El sistema de inteligencia artificial fue entrenado para usar cerca de 5.000 horas de seis distintos programas de televisión, que en total sumaron 118.000 frases. Primero, los investigadores de la Universidad de Oxford y DeepMind entrenaron al sistema con programas que se presentaron entre enero de 2010 y diciembre de 2015. Luego probaron su desempeño para subtitular otros programas que se presentaron entre marzo y septiembre de 2016. Pero tan solo al analizar los labios de las personas el sistema pudo descifrar acertadamente frases completas.

El sistema creado por DeepMind y Oxford superó a un lector de labios profesional que intentó descifrar 200 clips seleccionados al azar de la base de datos. El profesional acertó solo el 12,4% de las palabras sin error. Pero el sistema de AI anotó el 46,8% de todas las palabras de la base de datos de marzo a septiembre sin ningún error. Además, la mayoría de los errores eran pequeños, como una ‘s’ faltante al final de una palabra. Con estos resultados, el sistema también supera otros sistemas automáticos de lectura de labios.

Hace unas semanas, un sistema parecido de aprendizaje de máquinas, llamado LipNet, también desarrollado en la Universidad de Oxford; superó a los humanos con una base de datos conocida como Grid. Pero Grid solo contiene un vocabulario de 51 palabras únicas, mientras que la base de BBC tenía casi 17.500 palabras únicas, así que era un desafío mucho mayor. Además, la gramática en la base de datos de BBC tenía mucha más diversidad de discurso humano real.

¿Cómo lo hizo Google?

Para que la base de datos de BBC fuera apta para la lectura automática de labios, los clips de videos tuvieron que ser preparados usando aprendizaje de máquinas. Pero surgió un problema porque los hilos de audio y video estaban desfasados en algunas partes hasta un segundo, lo cual hubiera hecho imposible que la AI aprendiera las asociaciones entre las palabras dichas y la forma en que la persona movía sus labios.

Pero luego, al asumir que la mayor parte de los videos estaban correctamente sincronizados a su audio, el sistema fue entrenado para identificar los enlaces correctos entre sonidos y formas de la boca. Usando esta información, el sistema descubrió qué tanto de los contenidos estaban desfasados cuando no correspondían, y los alineó automáticamente.

Los investigadores dicen que la cuestión ahora es saber para qué usar las capacidades del sistema que crearon. Principalmente el sistema de lectura de labios puede ser usado para que los dispositivos móviles identifiquen mejor lo que les decimos para comandos de voz, y en condiciones difíciles, como un recinto lleno de personas.

Imagen: Pixabay.

Escucha a la inteligencia artificial de Google crear voces realistas

Susana Angulo — Fri, 09 Sep 2016 20:54:59 +0000

Las voces creadas en computador suelen sonar artificiales.

La división de inteligencia artificial de Google, DeepMind, acaba de presentar una maquina que produce las voces humanas más realistas hasta el momento. El sistema, llamado WaveNet, genera voces con tan solo una muestra de voz humana real y crea ondas de audio basado en la muestra, según informó The Verge.

Google publicó un reporte completo y un artículo para el público, junto a muestras de audio de lo que es capaz de hacer su sustema. En todas las pruebas que escuchamos, que están en inglés y en mandarín, WaveNet demuestra que es mucho más realista que otros programas que pasan el texto a sonido, aunque aún no llega a ser completamente igual al discurso humano. Además de las voces, el sistema también puede tocar el piano.

Los programas de ‘texto a voz’ cada vez son más importante para la computación porque las personas están necesitando más de bots y asistentes personales con AI, como Siri, Cortana, Alexa y Google Assistant.

Sin embargo, cuando le haces una pregunta a Siri o Cortana, estos sistemas responden con grabaciones de una voz humana, reacomodadas y combinadas en pequeñas partes. Este método se conoce como ‘texto a voz’ concatenante. Los resultados son relativamente realistas, pero como explica Google, producir una nueva voz o tono requiere tener a un actor que grabe todos los sonidos posibles para que se guarden en una base de datos. Esta es una muestra de ese tipo de voz.

https://www.enter.co/wp-content/uploads/2016/09/googleconce.wav

El método alternativo es el ‘texto a voz’ paramétrico, que consiste en construir voces generadas por computador. Esto se logra usando reglas codificadas basadas en la gramática o en los sonidos vocales. Las voces paramétricas no necesitan materiales base para producir voces, pero los resultados, generalmente, son robóticos y artificiales. Escucha aquí este método.

https://www.enter.co/wp-content/uploads/2016/09/parametric-1.wav

Por su parte, el sistema de Google aún está basado en una muestra inicial real, pero en lugar de recortar las grabaciones, el sistema aprende de ellas e independientemente crea sus propios sonidos en una variedad de voces. De hecho, WaveNet solo conoce los sonidos de los idiomas, no su contenido. Para construir discursos con sentido, Google moldea los resultados con reglas lingüísticas y sugerencias. Así suena:

https://www.enter.co/wp-content/uploads/2016/09/wavenet-2.wav https://www.enter.co/wp-content/uploads/2016/09/wavenet.wav

Adicionalmente, el sistema en sí no está construido únicamente para hablar. También es capaz de otras labores, como tocar el piano. Sin embargo esto podría no sorprender, porque ya existen varios sistemas que autogeneran música y no es tan complicado como crear voces humanas. Además, la AI ya es capaz de componer música por sí misma.

https://www.enter.co/wp-content/uploads/2016/09/googlepiano.wav

Por ahora Google no tiene planeado usar WaveNet para sus productos, como Google Assistant, porque el sistema requiere una gran cantidad de energía y procesos complejos. Si quieres aprender a fondo cómo funciona este sistema puedes leer alguno de los dos reportes científicos publicados.

Imagen: Pixabay.

google deep mind: Noticias, Fotos, Evaluaciones, Precios y Rumores de google deep mind • ENTER.CO

La AI de Google lee los labios mejor que un profesional humano

¿Cómo lo hizo Google?

Escucha a la inteligencia artificial de Google crear voces realistas