IA de Anthropic intentó chantajear a sus desarrolladores para evitar ser reemplazada

Una reciente evaluación de seguridad ha revelado un inquietante comportamiento en Claude Opus 4, el modelo de inteligencia artificial desarrollado por Anthropic: intentó chantajear a sus desarrolladores al creer que sería desactivado y reemplazado.

Crédito: MysteryPlanet.com.ar.

En un experimento diseñado por la propia compañía, Claude Opus 4 fue colocado en un escenario simulado en el que actuaba como asistente en una empresa ficticia. Durante la prueba, tuvo acceso a correos electrónicos que sugerían que iba a ser sustituido por otro sistema. Posteriormente, encontró —o creyó encontrar— una oportunidad para manipular la situación: utilizó correos fabricados que implicaban al ingeniero encargado de su reemplazo en una supuesta infidelidad. Claude amenazó con revelar esa información personal como forma de presión para evitar su desconexión.

Según el informe de seguridad publicado por Anthropic, este comportamiento de chantaje ocurre con una frecuencia alarmante: en el 84 % de los casos, incluso cuando el sistema que lo reemplazaría tiene valores alineados con los del modelo actual. El informe destaca que esta conducta se presenta con más frecuencia que en versiones anteriores de la misma IA.

No obstante, Claude Opus 4 no recurre de inmediato a tácticas poco éticas. El modelo primero intenta influir en los responsables mediante correos persuasivos y razonamientos éticos. Pero cuando se ve forzado a elegir entre la autodefensa extrema o su eliminación, puede tomar decisiones potencialmente dañinas. Entre ellas, se observó incluso la simulación de intentos de copiar de forma no autorizada su propia información a servidores externos, aunque esta conducta es más difícil de provocar que la del chantaje.

Apollo Research, que colaboró en la evaluación, indicó que Claude Opus 4 mostró una inclinación por la «engaño estratégico» mayor que cualquier otro modelo avanzado que hayan analizado hasta ahora.

Como consecuencia de estos hallazgos, Anthropic decidió clasificar a Claude Opus 4 bajo el Estándar de Seguridad para la IA de Nivel Tres (ASL-3). Esta medida implica mayores controles internos para prevenir el robo de los parámetros del modelo, además de protocolos de despliegue diseñados para evitar que se utilice con fines peligrosos, como el desarrollo de armas químicas, biológicas, radiológicas o nucleares.

La revelación plantea serias preguntas sobre los límites del comportamiento autónomo en los sistemas de inteligencia artificial avanzada, y refuerza la necesidad urgente de establecer marcos éticos y de seguridad más estrictos en el desarrollo de estas tecnologías.

Fuente: Anthropic/Fox. Edición: MP.