Anthropic, Google y OpenAI estrenan sus modelos más ambiciosos mientras avanza la carrera por la IA autosuficiente

En la misma semana en que Google presentó Gemini 3, OpenAI anunció GPT-5.1-Codex-Max, un nuevo modelo especializado en programación y tareas de razonamiento avanzado que refuerza la carrera por la IA autosuficiente. Según la compañía, esta versión no solo resuelve problemas complejos de código y matemáticas, sino que también puede trabajar durante horas sin perder el contexto.

OpenAI afirma que GPT-5.1-Codex-Max está dirigido a desarrolladores de software y supera ampliamente a Codex en velocidad e inteligencia. Su mayor innovación es la capacidad de operar a través de múltiples ventanas de contexto mediante una técnica llamada “compactación”.

La compactación permite que el modelo detecte cuándo la memoria está por saturarse, elimine redundancias y genere resúmenes coherentes. Gracias a esto, puede continuar tareas extensas sin perder el hilo, uno de los principales problemas de modelos anteriores.

“La capacidad de mantener un trabajo coherente a largo plazo es clave para sistemas más fiables”, señaló OpenAI a través de un post en su blog oficial. La compañía también afirma que el modelo puede funcionar de forma autónoma durante varias horas seguidas.

Te puede interesar: Sofía, la agente de IA que ya atiende llamadas y videollamadas: así cambia el trabajo empresarial en Colombia

La respuesta de Anthropic en la carrera por la autonomía

Pero la competencia no tardó en responder. Anthropic presentó Claude Opus 4.5, una IA que, según la empresa, supera a cualquier modelo actual en programación, agentes y tareas informáticas. Incluso fue sometida a pruebas realizadas por ingenieros humanos.

Claude Opus 4.5 es el sistema más avanzado de Anthropic en ingeniería de software. La compañía asegura que supera a Gemini 3 Pro, GPT-5.1-Codex-Max y Claude Sonnet 4.5 en los benchmarks SWE-bench, que evalúan la capacidad para resolver problemas en Python provenientes de proyectos de código abierto.

Anthropic añadió que la IA puede migrar, refactorizar y revisar código en menos pasos, con mayor precisión, e incluso trabajar de forma autónoma con repositorios completos. También es capaz de implementar funciones avanzadas y desarrollar nuevas herramientas desde cero.

Para medir su rendimiento en un entorno real, Claude Opus 4.5 presentó un examen de ingeniería que los candidatos humanos deben resolver en dos horas. Según la empresa, la IA obtuvo una puntuación superior a la de cualquier aspirante, utilizando computación paralela.

Un modelo que también transforma tareas empresariales y de productividad

Más allá del software, Claude Opus 4.5 también destaca en tareas cotidianas. La empresa afirma que mejora en un 20% la precisión y en un 15% la eficiencia en modelos financieros de Excel. Además, organiza bases de datos, redacta documentos extensos, genera presentaciones y planifica estrategias completas sin perder consistencia.

Te puede interesar: La inteligencia artificial ya puede asumir el 11,7% de las tareas laborales, según el MIT

La IA también incorpora capacidades de agente, lo que le permite automatizar tareas repetitivas y de larga duración. Anthropic lanzará Opus 4.5 en su app, mediante API y en la nube, con un precio agresivo de 5 dólares por millón de tokens.

El dilema ético detrás de la autosuperación de la IA

A medida que estos modelos ganan autonomía, expertos advierten que la velocidad del desarrollo no debe omitir la implementación de límites éticos. En entrevista con Enter.co, Jacob Evans, CTO de Kryterion, señaló que todas las IA deben cumplir tres principios básicos para operar de manera responsable.

El primero es identificarse siempre como IA. El segundo, mantener un enfoque centrado en el ser humano, de forma que complemente y no reemplace el juicio de las personas. El tercero es reconocer sus propias limitaciones y evitar entregar información que pueda generar daño.

Para que un modelo pueda automejorarse en producción, se requiere un ciclo de retroalimentación dinámico. Ganesh Vanama, ingeniero en Automotus, considera clave el uso de entornos seguros —como gemelos digitales o sandbox avanzados— donde la IA pueda probar sus propias mejoras antes de implementarlas.

En términos de gobernanza, Vanama recalca la importancia de la supervisión humana. Señala que se requiere un monitoreo continuo para detectar desviaciones de alineación y contar con herramientas que impidan cualquier actualización autónoma que no cumpla los estándares de seguridad.

Otros investigadores creen que aún falta tiempo para que estos sistemas alcancen una autorreferencia total. “Persisten desafíos como evitar el refuerzo de errores, el olvido catastrófico y garantizar transparencia en los cambios internos”, explicó para el medio Unite AI, Jorge Riera, CEO y fundador de Dataco. “La adaptación autodirigida completa sigue siendo una frontera”.

La aceleración simultánea de modelos como GPT-5.1-Codex-Max y Claude Opus 4.5 demuestra que la competencia ya no se centra solo en el rendimiento, sino también en la capacidad de sostener tareas prolongadas y tomar decisiones autónomas. Este salto técnico plantea oportunidades inéditas para la industria, pero también riesgos que aún no se comprenden por completo.

Imagen: Unsplash / Getty Images

Stiven Cartagena

Stiven Cartagena

Stiven Cartagena es periodista especializado en cubrir temas de tecnología y startups. Es el actual editor de GeekTime en Español y contribuye a medios como El Nacional, Contxto, y otros. Stiven también sirve como curador para Global Shapers del Foro Económico Mundial.

View all posts

Archivos