¿Qué hay en esta foto? Pregúntale a Google

Google sabe muchas cosas, y desde el martes, sabe una mas: describir fotografías. En un post en el blog oficial de su equipo de investigación, publicado este martes, la empresa detalló su más reciente algoritmo de reconocimiento de imágenes, que permite que una máquina describa automáticamente el contenido de una fotografía.

Google dice que la imagen a continuación, por ejemplo, fue descrita por el software como «dos pizzas puestas sobre una estufa«. El software omitió la copa de vino, pero para no haber intervención humana es muy impresionante.

reconocimiento de imágenes
Rico, ¿no?

El software de reconocimiento de imágenes implementa un proceso que permite que la máquina aprenda a describir las imágenes y mejore las descripciones a medida que se entrena más. Tiene dos capas: una primera, entrenada para ‘ver’ y distinguir clases de objetos dentro de una imagen, y una red neuronal recurrente, que puede convertir información gráfica en palabras.

reconocimiento de imágenes
Aquí no acertó.

El resultado, aunque no es perfecto, impresiona mucho. Algunas imágenes son descritas con toda precisión, mientras que en otras aun falla bastante. En la que está a la izquierda, por ejemplo, el sistema vio «un perro que salta para agarrar un ‘frisbee’«.

En las pruebas BLEU, diseñadas para medir la precisión de un sistema de reconocimiento de imágenes, el algoritmo suele obtener un puntaje de entre 27 y 59 puntos –según reporta Techcrunch–, mientras que los seres humanos tienen un puntaje medio de 69 puntos.

Los investigadores de Google que participaron en el proyecto aseguran que «esta clase de sistema, eventualmente, podría ayudar a quienes tienen discapacidad visual a entender imágenes, proveer texto en lugar de imágenes en partes del mundo en el que las conexiones son lentas, y hacer que las búsquedas en Google Imágenes sean más fáciles para todos«. Aunque el software no está disponible para todos los usuarios, se espera que sea implementado pronto en algunos servicios de la empresa.

Si quieren leer el artículo académico en inglés en el que se detalla el algoritmo y el modelo computacional que dio origen al software, aquí está.

Imágenes: Chase Elliott Clark (vía Flickr), Google

José Luis Peñarredonda

José Luis Peñarredonda

Un día me preguntaron sobre mis intereses y no supe por dónde empezar. Decidí entonces ponerlos en orden y dibujé un diagrama de Venn para agruparlos a todos: Internet, cine, periodismo, literatura, narración, música, ciencia, fotografía, diseño, política, escritura, filosofía, creatividad... Me di cuenta de que en toda la mitad de ese diagrama, en el punto en el que todos estos círculos confluyen, está la tecnología. Eso me llevó a ENTER.CO. Estudié Periodismo y Filosofía en la U. del Rosario. PGP: http://bit.ly/1Us3JoT

View all posts

Archivos