Así es V- JEPA un modelo de IA predictivo de Meta capaz de comprender y razonar igual que los humanos

inteligencia artificial pensando

Meta lanzó V- JEPA, un modelo de inteligencia artificial (IA) que  representaría un avance importante al ser capaz de generar una comprensión más sólida del mundo físico, destacando por su habilidad para detectar y entender interacciones detalladas entre objetos. ¿Qué significa esto?

Por ejemplo, cuando vemos a un bebé tirar varios objetos de una mesa, observa que lo que sube debe bajar. Este proceso de aprendizaje a través de la observación es similar a cómo funciona V-JEPA. 

De acuerdo con Meta, la particularidad de este modelo radica en su capacidad para realizar «evaluaciones congeladas», es decir,  que después del entrenamiento previo, ciertas partes del modelo no se modifican. Esto facilita la adaptación a nuevas tareas mediante el entrenamiento de capas específicas, brindando flexibilidad y eficiencia.

Te puede interesar: Google lanza Gemini 1.5 Pro ¿Comprende mejor y razona?

A diferencia de modelos anteriores que necesitaban ajustes completos para especializarse en tareas específicas, V-JEPA permite entrenar el modelo una vez, sin datos etiquetados, y reutilizar partes clave para diversas tareas. Puede realizar desde clasificación de acciones hasta reconocimiento de interacciones detalladas de objetos y localización de actividades.

Según explica la compañía, este es un modelo no generativo, aprende prediciendo partes enmascaradas de un video en un espacio de representación abstracta. Su eficiencia se destaca al descartar información impredecible, mejorando significativamente tanto el entrenamiento como la eficiencia de la muestra. 

Fue Lanzado bajo la licencia Creative Commons CC BY-NC, V-JEPA impulsa la ciencia abierta responsable, alentando a otros investigadores a explorar y ampliar este innovador trabajo en inteligencia artificial.

¿Qué es el enmascaramiento?

De acuerdo con Meta, es un  enfoque fundamental en la metodología de V-JEPA. La compañía explica que al ocultar partes del video en el espacio y el tiempo, el modelo se ve desafiado a aprender de manera más profunda y desarrollar una comprensión completa de la escena. Esto, combinado con la capacidad del modelo para hacer predicciones en un espacio de representación abstracta, permite que se centre en la información conceptual de nivel superior sin preocuparse por detalles menos relevantes.

Te puede interesar: NVIDIA lanza IA: ‘Chat With RTX’ que te permite personalizar tu propio contenido en PC

Cabe aclarar que V-JEPA no fue entrenado para comprender un tipo específico de acción, sino que se basó en capacitación autosupervisada en una variedad de videos. Los investigadores se aseguraron que  para el modelo ninguna tarea de resultará  demasiado fácil y que el modelo no aprendiera nada significativo.

El vicepresidente y científico jefe de IA de Meta, Yann LeCun, asegura  que V-JEPA es un paso crucial hacia una comprensión más sólida del mundo. Lo que pretenden es construir  una inteligencia artificial avanzada que pueda aprender de manera similar a los humanos, formando modelos internos del mundo para razonar, adaptarse y planificar eficientemente en la realización de tareas complejas.

Imagen: ARCHIVO ENTER.CO

Digna Irene Urrea

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Archivos