deep learning: Noticias, Fotos, Evaluaciones, Precios y Rumores de deep learning • ENTER.CO

Mira este video musical dirigido por inteligencia artificial

Susana Angulo — Wed, 28 Feb 2018 13:30:57 +0000

¿Quién diría que la inteligencia artificial sería capaz de crear un video musical? Resulta que es posible y que no es un proceso demasiado complicado. Así lo logró un grupo musical llamado Hardcore Anal Hydrogen, que toca música metal, electrónica y electroacústica. Ellos están armando un proyecto de videos musicales usando tecnología de procesamiento de imágenes con inteligencia artificial.

Ya sea que no te guste el género musical de este grupo, no podemos negar que lo que lograron hacer con imágenes es increíble. Además, Hardcore Anal Hydrogen explicó paso a paso cómo construyó los efectos con inteligencia artificial en su sitio web. Entre las herramientas que usaron encontramos software de inteligencia artificial como Deep Dream. Y también Neural Style Transfer y Optical Flow. Mira aquí el video musical.

¿Cómo se logra un video artístico con inteligencia artificial?

El grupo explica en su sitio web que usar inteligencia artificial puede parecer complicado pero que en realidad no lo es. Para usar esta tecnología se requieren dos pasos principales: entrenar y luego aprovechar. Es lo mismo que cuando una persona aprende qué es un objeto. Primero se le muestran muchas imágenes de un mismo objeto,por ejemplo, un árbol. Luego de que aprende, siempre que vea un árbol podrá decir que se trata de ese objeto, incluso si nunca ha visto alguno de ese tipo.

Para el caso de la herramienta Deep Dream, la inteligencia artificial ‘sueña’ algo relacionado sobre una foto que se sube como inspiración. El sistema dibuja imágenes según lo que ha aprendido. Y lo mejor de esta plataforma es que existen modelos entrenados en línea para ser descargados en Github.

Imagen: captura de pantalla.

AWS presentó plataforma y cámara para desarrollar inteligencia artificial

Susana Angulo — Thu, 30 Nov 2017 14:00:10 +0000

Durante el discurso de apertura del congreso anual de AWS, re:Invent, la compañía anunció cinco nuevos servicios de ‘machine learning’ (aprendizaje automatizado) y una cámara habilitada con ‘deep learning’ para desarrolladores.

Andy Jassy, CEO de AWS, presentó estos nuevos servicios y explicó que la gran intención detrás de ellos es hacer de la inteligencia artificial una tecnología accesible a la mayor cantidad de personas posible, no solo a desarrolladores especializados.

Para eso, se lanzó la plataforma SageMaker, un servicio pensado para desarrolladores y científicos de datos. Con ella, se pueden construir, desplegar y administrar rápidamente, modelos propios de ‘machine learning’. La compañía también presentó la cámara DeepLens, que ejecuta modelos de visión de computación en tiempo real.

Además, se lanzaron cuatro nuevos servicios de aplicación. Uno que permite transcribir audio a textos (Amazon Transcribe) y otro para traducir textos a otros idiomas (Amazon Translate). En tercer lugar, se presentó el servicio Amazon Rekognition Video, con el que se pueden analizar videos en tiempo real. Y finalmente, Amazon Comprehend, que permite entender lenguaje natural.

SageMaker, la llave para el aprendizaje de máquinas

Hoy en día, el proceso para implementar ‘machine learning’ es bastante complejo y se necesitan habilidades y conocimientos especializados. Incluso los modelos más simples requieren grandes cantidades de tiempo para ser entrenados y desplegados. Además, las compañías deben contratar varios equipos dedicados únicamente a desarrollar y administrar las máquinas. “Hasta el momento, el aprendizaje automático ha estado fuera del alcance de la mayoría de desarrolladores”, dijo Jassy.

Es por eso que AWS decidió hacer SageMaker, un servicio que le quita el trabajo pesado a los desarrolladores. La plataforma hace que construir modelos de ‘machine learning’ sea más fácil, porque ofrece catálogos prefabricados, algoritmos optimizados y mucha asistencia para desplegar un sistema de aprendizaje de máquinas.

“Nuestra visión original para AWS es permitir que cualquier persona en su habitación o garaje pueda tener acceso a la misma tecnología, herramientas, escalabilidad e infraestructura, que las grandes compañías en el mundo. Y nuestra visión para aprendizaje de máquinas no es distinta”, dijo Swami Sivasubramanian, vicepresidente de ‘machine learning’ de AWS. Con esta herramienta, cualquier desarrollador en el mundo puede desplegar una solución con aprendizaje de máquinas, dice la compañía.

DeepLens, un hardware de inteligencia artificial

AWS ha lanzado hardware en ocasiones anteriores, como su Snowmobile, un servicio de transferencia de grandes cantidades de datos. Y este año también se esperaba otra pieza tangible de productos de AWS, pero la diferencia es que se anunció por primera un producto relacionado con inteligencia artificial. Se trata de la cámara DeepLens, diseñada para ayudar a los desarrolladores a tener una experiencia física en construir, entrenar y desplegar modelos. Esto se logra al emparejar el dispositivo con los modelos de aprendizaje de máquinas que se pueden construir con SageMaker.

¿Qué cosas se pueden hacer con esta cámara? La idea con DeepLens es que los desarrolladores puedan hacer lo que su creatividad les dicte. El sistema se empareja con los modelos de aprendizaje realizados con Sagemaker, y otras plataformas como TensorFlow.

Así, se pueden detectar y reconocer objetos, como clasificar comida o animales, por ejemplo. También tiene reconocimiento facial, y puede reconocer una actividad como lavarse los dientes o tomar una bebida. Matt Wood, gerente general de inteligencia artificial de AWS, nos mostró un ejemplo de las capacidades de la cámara. Mostró un álbum en físico a la cámara y sonrió. La cámara inmediatamente conoció que era ‘The Dark Side of the Moon’ de Pink Floyd. Además, reconoció que la cara de Wood tenía una expresión positiva, porque estaba sonriendo.

Deep Lens estará disponible para preórdenes desde comienzos de 2018, y costará 249 dólares en Amazon.

Aplicaciones con inteligencia artificial

Jassy explicó en su discurso que para los desarrolladores que no quieren construir sus modelos de aprendizaje, pero que de todas formas están interesados en usar tecnologías de inteligencia artificial; están las aplicaciones. En esta ocasión la compañía presentó cuatro nuevos servicios: Amazon Transcribe, Amazon Translate, Amazon Comprehend y Amazon Rekognition Video.

Amazon Transcribe convierte audios en texto. Y, a diferencia de varios productos en el mercado, arroja textos precisos y con puntuación completa. Es capaz de reconocer varias personas hablando en el audio y, hasta el momento, está disponible en español e inglés únicamente. Por su parte, Amazon Translate, usa técnicas de ‘redes neuronales’ para traducir textos de un idioma a otro, y hasta el momento soporta siete idiomas: inglés, árabe, francés, alemán, portugués, chino y español.

Amazon Comprehend, otra de las aplicaciones presentadas, puede entender textos que están en documentos, publicaciones de redes sociales o cualquier otro dato textual almacenado en AWS. El sistema usa técnicas de ‘deep learning’ para identificar personas, lugares, fechas, organizaciones, marcas, entre otros. También puede identificar los sentimientos expresados en el texto, frases clave, conceptos y adjetivos. Este servicio permite reconocer cómo se sienten los usuarios frente a un producto, o un sitio web, por ejemplo.

Finalmente, Amazon Rekognition Video, es capaz de identificar personas, actividades, objetos, rostros, celebridades, contenidos inapropiados, dentro del contenido de millones de videos. Provee reconocimiento facial en tiempo real entre millones de rostros en videos en tiempo real. El sistema puede catalogar con etiquetas secciones específicas de los videos, según ubicaciones, actividades, por ejemplo. Este servicio puede ser útil para agencias de seguridad, que quieren seguir a personas de interés para ellos.

Imágenes: ENTER.CO y Amazon.

Esta herramienta gratuita hace transcripciones de audio en inglés

Susana Angulo — Tue, 10 Oct 2017 21:59:46 +0000

Con Deepgram, las horas de transcripción se convierten en segundos.

Deepgram, una herramienta para transcribir audios a texto, es gratis para todos a partir de hoy. Esta plataforma funciona aplicando aprendizaje de máquinas a datos de audio, según reportó TechCrunch. Ya no tendremos que pasar horas eternas transcribiendo audios a texto, o pagar servicios costosos como el de Trint (que cuesta desde 12 dólares la hora).

Aunque la plataforma solo funciona para audios en inglés, es una herramienta útil para muchas labores de estudio o de trabajo. Por ejemplo, puedes transcribir en segundos, una entrevista, o el audio de un discurso para hacer un estudio académico.

Deepgram te permite subir un audio que tengas guardado en tu computador, o incluso pegar un enlace de un video de YouTube. Dependiendo del peso del archivo, el sistema se demora unos cuantos segundos procesando el audio. Luego te muestra el texto que logró captar, dividido en cada minuto de la duración.

La plataforma usa ‘deep learning’, una especie más compleja de aprendizaje de máquinas, que funciona con redes neuronales (similar al funcionamiento del cerebro). Eso quiere decir que los desarrolladores han estado ‘entrenando’ al sistema con palabras en inglés para que sea capaz de reconocerlas y ponerlas en texto. Es por eso que Deepgram solo funciona para audios en inglés.

¿Cómo quedan las transcripciones?

La versión gratis es muy rústica. Eso quiere decir que no asimila signos de puntuación y ciertos términos, como marcas o productos. Para que el sistema logre esas particularidades, sí tocaría pagar una mensualidad. Pero ¿qué es poner un par de puntos y comas en comparación con horas de transcripción?

Otras limitaciones de la plataforma tienen que ver con los tonos de las voces. Estuvimos probando con algunos audios y para el caso de las canciones, el sistema no es muy hábil a la hora de reconocer la ‘letra’.

Tampoco parece captar discursos con un tono artístico. Por ejemplo, intentamos con un fragmento del famoso discurso ‘Yo tengo un sueño’ de Martin Luther King, pero el sistema no reconoció más que un par de frases de un audio de dos minutos.

En cambio, subimos un audio de una entrevista a Barack Obama con Ellen Degeneres. El tono es más convencional y el audio es limpio. Por lo tanto, la transcripción salió tal como esperábamos:

¿Cómo funciona la plataforma?

Deepgram tiene un navegador que te permite buscar palabras clave. Esto es particularmente útil para transcripciones largas. El reporte de TechCrunch dice que el sistema es hábil a la hora de buscar dentro del texto. Por ejemplo, en una entrevista de una hora, el periodista dice que solo le tomó dos intentos encontrar el segmento del diálogo que estaba buscando.

“La ASR [reconocimiento autómata de voz] aún no está resuelta… está lista para sets específicos de datos pero con datos con acentos o ruidosos, cualquier servicio hará un mal trabajo”, le dijo al medio Scott Stephenson, cofundador y CEO de Deepgram. Vale la pena decir que en una de mis pruebas, subí el audio de una entrevista en la que hablo en inglés, con un acento latino moderado, y reconoció mis palabras a la perfección.

Finalmente, la oferta gratis tiene un límite: si usas más de un millón de minutos, te comenzarán a cobrar. La computación es costosa, así que tendría sentido cobrar si pones a un sistema a procesar un archivo de audio de 50 terabytes.

Imágenes: capturas de pantalla y Wikipedia.

El MIT creó una máquina de produce pesadillas con AI

Susana Angulo — Mon, 31 Oct 2016 20:33:20 +0000

La ciencia al servicio del terror.

Justo para la celebración de Halloween, el MIT presentó su Máquina de Pesadillas (Nightmare Machine), que está diseñada para estudiar las imágenes y situaciones que nos dan miedo. El sistema usa inteligencia artificial para generar imágenes miedosas, según explicó la Commonwealth Scientific and Industrial Research Organization (CSIRO), aliada del MIT para este proyecto, en una publicación de blog.

¿Cuál es el objetivo de la Máquina de Pesadillas? Todos le tenemos miedo a algo, ya sean payasos, hablar en público, las arañas o al dentista. Pero algunos estímulos, racionales o irracionales, evocan distintas respuestas psicológicas, así que el MIT y la Csiro quieren estudiar las características físicas que caras y lugares que nos dan miedo, informó PCMagazine.

La Máquina de Pesadillas fue desarrollada por los equipos de los laboratorios Data61 y Media Lab del MIT. Se usan dos algoritmos de ‘deep learning’ (aprendizaje de máquinas) para transformar escenarios bellos y comunes, como el Taj Mahal o un catálogo de muebles, en un matadero o una casa embrujada.

En primer lugar, los algoritmos examinan casas embrujadas, pueblos fantasma y ciudades ‘tóxicas’, y luego aplican el estilo que aprenden de esas escenas a lugares famosos, como el Coliseo en Roma o el puente Golden Gate. El algoritmo es capaz de extraer los elementos ‘miedosos’ de las muestras y plantarlos en esos lugares para que asusten.

Los investigadores están motivando al público para que vayan al sitio y califiquen las imágenes según su factor de ‘terror’. Cada clic genera más datos para que los algoritmos aprendan. El equipo ha recolectado más de 200.000 evaluaciones individuales de las imágenes generadas a computador.

Si entras al sitio web, el sistema te pide en primer lugar que califiques 10 fotos de caras ‘modificadas’ como ‘scary’ o ‘not scary’ (miedosa o no miedosa). La idea es que el algoritmo aprenda qué tipo de caras dan más miedo que otras. Al final de la prueba recibes un ‘collage’ de imágenes modificadas que puedes compartir en Twitter.

Y en segundo lugar, el sistema de muestra cómo su algoritmo es capaz de modificar lugares emblemáticos en escenarios de terror. Hay distintos ‘temas’ de terror que se aplican a sitios famosos alrededor del mundo. Por ejemplo, está el tema de casa embrujada, o de ‘Noche Estrellada’ de la obra de Van Gogh, o de matadero o de pueblo fantasma. Si haces clic en las imágenes puedes ver la foto original y cómo el sistema la convirtió en un escenario terrorífico.

Imágenes: capturas de pantalla.

Hormiga virtual de Google hace goles aunque no sepa jugar fútbol

Susana Angulo — Mon, 20 Jun 2016 18:10:32 +0000

Google puede enseñarle a sus máquinas a jugar videojuegos sin haberles leído las instrucciones.

DeepMind, el laboratorio de inteligencia artificial de Google, presentó el pasado viernes 17 de junio una actualización de sus más recientes logros en aprendizaje de máquinas. Dentro de los avances de AI de Google está un experimento en el que lograron entrenar a una hormiga virtual para que juegue fútbol, según informó VentureBeat.

Mediante una publicación en el blog del laboratorio, David Silver explicó los más recientes avances de la tecnología de AI de Google, dentro de los que está un algoritmo avanzado que permite a una hormiga virtual jugar fútbol sin ningún conocimiento previo del deporte.

DeepMind usa un sistema llamado ‘aprendizaje de reforzamiento’ (RL) que consiste en aprender por prueba y error a través de recompensas o castigos. Junto a RL también se usa ‘deep learning’, que consiste en entrenar redes neuronales artificiales con mucha información para que luego el sistema haga inferencias propias y produzca nueva información.

Con RL, y sus evoluciones, Google ha logrado que sus agentes jueguen videojuegos con la misma capacidad de un humano y sin necesidad de entrenarlos en las dinámicas de los juegos, sino en habilidades de solución de problemas y de recibir recompensas.

Google ha logrado que sus máquinas jueguen igual que un humano e incluso son capaces de ganarles en juegos de estrategia. Google tiene un programa llamado AlphaGo, con el que se le enseñó a un agente de AI a jugar un juego llamado ‘Go’, un juego chino antiguo parecido al ajedrez. Hace unos meses Google enfrentó a AlphaGo con el mejor jugador de ‘Go’ del mundo, Lee Se-dol y le ganó. El sistema mezcla una red neuronal y un árbol de decisión para saber cómo moverse en el juego. Pero antes el programa había analizado las partidas de los mejores jugadores del mundo para aprender a jugar.

Para entender mejor cómo hace esta hormiga deportista, es necesario hacer un pequeño repaso de lo que ha hecho hasta el momento Google en AI.

Aprender a comportarse

Los agentes de AI de DeepMind deben realizar juicios constantemente para seleccionar buenas acciones sobre las incorrectas. Ese conocimiento se representa a través de un algoritmo llamado ‘Q-network’ que estima la recompensa total que un agente espera recibir luego de ejecutar una acción determinada.

Hace dos años el laboratorio presentó el primero de estos algoritmos de RL. La idea era combinar los algoritmos de ‘Q-network’ con redes neuronales artificiales. Las redes neuronales artificiales son sistemas que simulan la forma en que funcionan las neuronas de los seres vivos.

Los intentos anteriores de combinar estos dos sistemas presentaron algunos inconvenientes, como aprendizaje inconstante. Para solucionar estas inestabilidades, los algoritmos ‘Deep Q-Networks’ de Google (DQN) almacena todas las experiencias de entrenamiento del agente de AI y después toma muestras al azar de ellas. Luego las reproduce de forma aleatoria para que el agente obtenga información diversa de entrenamiento.

La ‘máquina’ gana

Luego de hacer este entrenamiento, Google aplicó el DQN para que el agente aprendiera a jugar videojuegos en la consola Atari 2600. El sistema observa los pixeles que componen el juego en la pantalla, luego correlaciona esa información con los datos que previos de la recompensa que le genera cierto puntaje adquirido dentro del juego. A partir de esa correlación selecciona qué hacer en el videojuego.

A través de un reporte, Google demostró que pudo entrenar varios agentes con DQN para que jugaran 50 juegos diferentes sin tener ningún conocimiento previo del juego como tal. Incluso el sistema logró un desempeño parecido al de un humano en casi la mitad de los juegos.

Con estos algoritmos Google construyó un sistema masivo de RL que llamaron Gorila, que usa la plataforma de Google Cloud para acelerar el tiempo de entrenamiento de los agentes de AI. Gorila se ha aplicado a algunos sistemas dentro de Google.

‘Multitasking’ en su máxima expresión

Google no se conformó con Gorila para seguir desarrollando su método de aprendizaje por recompensas. Así que recientemente presentó otro método que es más práctico y efectivo basados en órdenes asincrónicas de RL. La idea es que el agente de AI pueda ejecutar varias acciones en pararelo. Esto provee una alternativa para que los agentes solucionen mejor los problemas que se presentan en videojuegos.

El algoritmo asincrónicas, llamado A3C, combina algunos algoritmos de ‘Q-network’ con la tecnología de ‘deep learning’ para seleccionar las mejores acciones, es decir las que le den mejores recompensas al agente. La diferencia es que necesita muy poco tiempo de entrenamiento, comparado con DQN, y muchos menos recursos de energía de los que usa Gorila.

Con A3C Google lanzó Labyrinth, una suite de navegación en 3D de laberintos y juegos de rompecabezas. Los agentes son capaces de resolver estos juegos con la mismo rendimiento que un humano. El mismo algoritmo de Labyrinth le permite a la hormiga meter goles sin necesidad de haber entrenado al agente para jugar fútbol. El agente solo necesita saber qué acciones le darán más recompensas. Para eso, el agente también crea un sistema de estrategias que le permiten ejecutar varias acciones al tiempo, y junto a una estrategia de prioridades dentro del juego, la hormiga no falla ningún tiro al arco.

Imagen: captura de pantalla.