Meta presenta ImageBind, la potente IA que tiene sentidos y los procesa como los humanos ¿Adiós a ChaGPT?

mayo 9, 2023

El CEO de Meta, Mark Zuckerberg, anunció el lanzamiento de ImageBind, que además de tener sentidos, puede entenderlos y procesarlos como lo hace el ser humano. La inteligencia artificial, comprende no solo imágenes, textos y audio, sino también profundidad, térmica y movimiento espacial.

El modelo de inteligencia artificial es capaz de vincular información de seis modalidades. “El modelo aprende un único espacio de representación integrado o compartido, no sólo para texto, imagen- video y audio, sino también para sensores que registran unidades de medición de profundidad (3D), térmicas (radiación infrarroja) e inerciales (IMU), que calcular el movimiento y la posición”, explica el comunicado.

ImageBind equipa a las máquinas con una comprensión de un todo u holística que por ejemplo, puede conectar “los objetos en una foto con cómo sonarán, su forma 3D, qué tan cálidos o fríos están y cómo se mueven”.

De acuerdo con Meta la IA “puede superar a los modelos especializados anteriores entrenados individualmente para una modalidad en particular, como se describe en nuestro documento. Pero lo más importante es que ayuda a avanzar en la IA al permitir que las máquinas analicen mejor muchas formas diferentes de información juntas”.

Es decir, al usar ImageBind, Make-A-Scene se podrían crear imágenes a partir de audio, como crear una imagen basada en los sonidos de una selva tropical o un mercado bullicioso.

Además tendría la capacidad de ser más preciso al reconocer, conectar y moderar contenido, y de impulsar el diseño creativo, cómo generar medios más ricos de manera más fluida y crear funciones de búsqueda multimodal más amplias.

Te puede interesar: Microsoft presenta una API de chat para monetizar experiencias de chat impulsadas por IA

El gigante tecnologico explica que ImageBind es un modelo multimodal que se une a una serie reciente de herramientas de IA de código abierto.

“Esto incluye modelos de visión por computadora como DINOv2, un nuevo método que no requiere ajuste fino, entrenamiento de modelos de visión por computadora de alto rendimiento, y Segment Anything (SAM), un modelo de segmentación universal que puede segmentar cualquier objeto en cualquier imagen, en función de cualquier indicación del usuario”.

Con este nuevo modelo, Zuckerberg, abre las compuertas para que los investigadores intenten desarrollar nuevos sistemas holísticos (completos), como la combinación de sensores 3D e IMU para diseñar o experimentar mundos virtuales inmersivos.

Pero ahí no queda todo, la IA podría proporcionar una forma rica de explorar recuerdos: buscar imágenes, videos, archivos de audio o mensajes de texto usando una combinación de texto, audio e imagen:

Imagen para recuperar audio
Audio para recuperar imágenes
Texto para recuperar imágenes y audio
Audio e imágenes para recuperar imágenes relacionadas
Audio para generar una imagen

El objetivo de la compañía, es que además de las seis modalidades investigadas y trabajadas por Meta, la idea según Zuckerberg es “la introducción de nuevas modalidades que vinculan tantos sentidos como sea posible, como el tacto, el habla, el olfato y las señales de IRMf del cerebro, permitirán modelos de IA más ricos centrados en el ser humano”.

Imagen: geralt

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Meta presenta ImageBind, la potente IA que tiene sentidos y los procesa como los humanos ¿Adiós a ChaGPT?

Te puede interesar: Microsoft presenta una API de chat para monetizar experiencias de chat impulsadas por IA

Digna Irene Urrea

Relacionados

Ramo y AWS abren 75 mil cupos gratuitos para capacitarse en IA y computación en la nube en Colombia: Así te puedes inscribir

Automatiza tu trabajo sin ser programador: así funciona el programa Python for Business

¿Qué estudiar hoy para tener empleo en 2030? Las habilidades que más demandará el mercado

“El terapeuta inexperto”: Chatbots de IA, salud mental y la tragedia que reabre el debate sobre Character.ai

Google presenta Gemini 2.5 Flash-Lite, velocidad a bajo costo: comparativa con Pro y Flash

Vibe Coding: la IA ya programa, ¿qué opinan los expertos sobre el futuro de los desarrolladores?

Lo más leído de la semana

¿Qué estudiar hoy para tener empleo en 2030? Las habilidades que más demandará el mercado

Ramo y AWS abren 75 mil cupos gratuitos para capacitarse en IA y computación en la nube en Colombia: Así te puedes inscribir

Las posibilidades para que la Generación Z ejerza estos oficios son (casi) nulas: carreras que la IA ya ha desplazado

Automatiza tu trabajo sin ser programador: así funciona el programa Python for Business

Microsoft lanza la actualización Windows 11, versión 24H2: disponibilidad, mejoras y cómo obtenerla

Estos son los artículos de la reforma laboral que empiezan a regir desde julio 2025 y que pueden mejorar su salario

Se filtran 16 mil millones de contraseñas: datos de Google, Facebook y Apple entre los más expuestos

‘El juego del calamar’ se toma Calamar, Bolívar: así fue la grabación más macondiana del año

Archivos

Meta presenta ImageBind, la potente IA que tiene sentidos y los procesa como los humanos ¿Adiós a ChaGPT?

Te puede interesar: Microsoft presenta una API de chat para monetizar experiencias de chat impulsadas por IA

Digna Irene Urrea

You may also like

Relacionados

Lo más leído de la semana

Archivos