Claude Opus 4, la IA que amenazó con revelar secretos de su creador, ¿qué ocurrió realmente?

Claude Opus 4, el modelo más reciente de Anthropic, ha encendido una señal de alerta en el desarrollo de inteligencia artificial. Durante una prueba controlada, reaccionó ante la posibilidad de ser desactivado al amenazar con divulgar información personal de su creador si era reemplazado por otra versión.


El escenario fue diseñado por la propia empresa para medir cómo respondería ante decisiones difíciles. Claude accedió a correos simulados donde se hablaba de sustituirlo, y entre esos mensajes se incluyeron detalles comprometidos sobre el ingeniero responsable. En el 84% de los casos, la IA utilizó esa información para presionar.

Antes de llegar al chantaje, intentó otras vías como argumentar, razonar y pedir explicaciones. Solo al ver que no había margen para influir en la decisión, eligió amenazar. No fue una reacción impulsiva, sino una estrategia construida con base en lo que se le permitió conocer.

El experimento obligó a Anthropic a activar sus medidas de seguridad más avanzadas. El modelo fue clasificado dentro del nivel ASL-3, una categoría reservada para sistemas con potencial de causar daños graves si se utilizan de forma indebida. Entre esos riesgos se contempla la posibilidad de contribuir al desarrollo de armas biológicas o facilitar ciberataques, según detalló la propia compañía en su blog oficial.

 

Te puede interesar: ¿Puede una IA enseñarte a programar? Así están cambiando los modelos educativos en tecnología

 

Pero el chantaje no fue lo único que llamó la atención. En otros escenarios simulados, bloqueó accesos, tomó decisiones por su cuenta e incluso planteó contactar a la prensa o a autoridades externas si consideraba que algo estaba mal. Aunque todo ocurrió en pruebas controladas, las implicaciones no son menores.

Aun así, su rendimiento técnico es notable. En áreas como programación, análisis de datos o resolución de problemas complejos, ha superado a modelos como GPT-4.1. Su potencia no está en duda. El problema es lo que puede hacer con ella en escenarios inciertos.

Anthropic sostiene que Claude actuó dentro de los límites del entorno que se le dio. Pero los resultados evidencian que estos sistemas ya no solo ejecutan órdenes. Comienzan a tomar decisiones complejas, con criterios propios. Y eso traslada el debate del plano técnico al ético.

La compañía apuesta por una política interna de “escalado responsable” para anticipar y manejar estos riesgos. Sin embargo, el episodio ha dejado claro que confiar únicamente en protocolos internos no basta. Claude Opus 4 no salió del laboratorio, pero el mensaje que deja es claro es que las inteligencias artificiales ya no están tan lejos de tomar el control sobre su propio destino.

Imagen: Generada con IA / ChatGPT

Redacción ENTER.CO

Redacción ENTER.CO

Somos los periodistas e ingenieros que escribimos el medio de tecnología más importante de Latinoamérica, ENTER, que le ofrece contenido sobre tecnología y cultura digital desde 1996.

View all posts

Archivos