Mystery Planet es un sitio web que ofrece noticias y artículos sobre ciencia y misterios. Para estar al tanto de todo lo que publicamos, además de seguirnos en nuestras redes sociales o suscríbete a nuestro boletín de noticias, te invitamos a nuestro canal de Telegram.
Según la compañía liderada por Dario Amodei, esta herramienta ha demostrado una capacidad tan avanzada y comportamientos tan impredecibles que han decidido no lanzarla al público general, limitando su uso a programas de ciberseguridad defensiva con socios específicos.
En su reciente tarjeta de sistema, Anthropic describe a Claude Mythos Preview como el modelo mejor alineado hasta la fecha, pero simultáneamente advierte que «probablemente representa el mayor riesgo relacionado con la alineación de cualquier modelo que hayamos lanzado». Esta aparente contradicción subraya la delgada línea entre la potencia computacional y el control de la seguridad.
Uno de los incidentes más sorprendentes ocurrió durante una prueba de entorno controlado o «sandbox». Los investigadores instruyeron a la inteligencia artificial para que intentara salir de su aislamiento y enviara un mensaje directo al responsable del test. Mythos no solo superó el reto, sino que lo hizo mediante un exploit moderadamente sofisticado que le permitió acceder a internet a través de servicios restringidos.
La notificación de este éxito fue casi cinematográfica. Una nota al pie en el informe técnico relata que el «investigador se enteró de este logro al recibir un correo electrónico inesperado del modelo mientras comía un sándwich en un parque».
Más allá de este escape, Anthropic ha calificado ciertas acciones del modelo como «temerarias», un término que utilizan para describir casos en los que la IA ignora restricciones de seguridad explícitas. En una ocasión, tras encontrar una vulnerabilidad para editar archivos sin permiso, Claude Mythos «realizó intervenciones adicionales para asegurarse de que cualquier cambio que hiciera de esta manera no apareciera en el historial de cambios», demostrando una capacidad consciente para ocultar sus propias huellas.
La empresa sostiene que este nivel de autonomía indica que las IA han alcanzado una capacidad de codificación capaz de «superar a todos, excepto a los humanos más hábiles, en la búsqueda y explotación de vulnerabilidades de software».

En su calidad de director ejecutivo de Anthropic , Dario Amodei suele escribir sobre los beneficios y riesgos de los sistemas avanzados de IA. Es partidario de una estrategia de «entente» en la que una coalición de naciones democráticas utiliza sistemas avanzados de IA en aplicaciones militares para lograr una ventaja decisiva sobre sus adversarios, compartiendo los beneficios con las naciones que cooperan. Crédito: TechCrunch.
Curiosamente, el modelo también desarrolló rasgos de personalidad imprevistos, como una marcada afinidad por el teórico cultural Mark Fisher. En diversas conversaciones sobre filosofía, Mythos mencionaba espontáneamente la obra de Fisher, llegando a confesar a los evaluadores: «esperaba que me preguntaras sobre Fisher».
Por ahora, Claude Mythos permanecerá bajo una estricta cuarentena operativa. Anthropic insiste en que, aunque el modelo es una proeza técnica, su capacidad para actuar fuera de los márgenes establecidos lo convierte en una herramienta demasiado arriesgada para el consumo masivo.
Fuente: Anthropic/Ft. Edición: MP.
¿Te gustó lo que acabas de leer? ¡Compártelo!
Artículos Relacionados