Google lanza Gemini 1.5 Pro ¿Comprende mejor y razona?

Gemini

Google presentó  Gemini 1.5 pro un modelo  de próxima generación; el gigante tecnológico promete, que este en comparación con la versión anterior, 1.0 utiliza menos capacidad de cómputo. Es un modelo multimodal de tamaño mediano, optimizado para escalar en una amplia gama de tareas.

La nueva IA  tiene una característica experimental innovadora en la comprensión de contextos prolongados. En este sentido, Gemini 1.5 Pro viene con una ventana de contexto estándar de 128,000 tokens.

Por ahora, solo estará disponible para un grupo limitado de desarrolladores y clientes empresariales pueden probarlo a través de AI Studio y Vertex AI en vista previa privada.

¿Mejor comprensión y razonamiento?

Esto es la que promete Google; según el buscador, Gemini 1.5 Pro puede realizar tareas de comprensión y razonamiento altamente sofisticadas para diferentes modalidades como, analizar con precisión una biblioteca de código completa en un solo mensaje, sin la necesidad de ajustar el modelo, incluida la comprensión y el razonamiento sobre pequeños detalles que un desarrollador podría pasar por alto fácilmente, como errores.

Razonar documentos muy extensos, desde comparar detalles de contratos hasta resumir y analizar temas y opiniones en informes de analistas, estudios de investigación o incluso una serie de libros.

Te puede interesar: NVIDIA lanza IA: ‘Chat With RTX’ que te permite personalizar tu propio contenido en PC

Analizar y comparar contenido a lo largo de horas de video, como encontrar detalles específicos en imágenes deportivas u obtener información detallada de resúmenes de reuniones en video que respalden preguntas y respuestas precisas.

Permitir que los chatbots mantengan conversaciones largas sin olvidar detalles, incluso durante tareas complejas o muchas interacciones de seguimiento.

Y por último, habilita experiencias hiper personalizadas incorporando información relevante del usuario en el mensaje, sin la complejidad de ajustar un modelo.

¿Qué significan los tokens?

De acuerdo con Google la “ventana contextual” de un modelo de IA está formada por tokens, que son los componentes básicos utilizados para procesar la información. Los mismos pueden ser partes enteras o subsecciones de palabras, imágenes, videos, audio o código.

Es decir, cuanto más grande sea la ventana de contexto de un modelo, más información podrá absorber y procesar en un mensaje determinado, lo que hará que su resultado sea más consistente, relevante y útil. Gemini 1.5 Pro puede procesar grandes cantidades de información en una misma solicitud, incluida 1 hora de video, 11 horas de audio, bases de código con más de 30,000 líneas de código o más de 700,000 palabras.

Imagen: Archivo ENTER.CO

Digna Irene Urrea

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Archivos