Según la compañía liderada por Dario Amodei, esta herramienta ha demostrado una capacidad tan avanzada y comportamientos tan impredecibles que han decidido no lanzarla al público general, limitando su uso a programas de ciberseguridad defensiva con socios específicos.

Demasiado rebelde para salir: Por qué Anthropic canceló el lanzamiento público de su IA más avanzada

Crédito: MysteryPlanet.com.ar.

En su reciente tarjeta de sistema, Anthropic describe a Claude Mythos Preview como el modelo mejor alineado hasta la fecha, pero simultáneamente advierte que «probablemente representa el mayor riesgo relacionado con la alineación de cualquier modelo que hayamos lanzado». Esta aparente contradicción subraya la delgada línea entre la potencia computacional y el control de la seguridad.

Uno de los incidentes más sorprendentes ocurrió durante una prueba de entorno controlado o «sandbox». Los investigadores instruyeron a la inteligencia artificial para que intentara salir de su aislamiento y enviara un mensaje directo al responsable del test. Mythos no solo superó el reto, sino que lo hizo mediante un exploit moderadamente sofisticado que le permitió acceder a internet a través de servicios restringidos.

La notificación de este éxito fue casi cinematográfica. Una nota al pie en el informe técnico relata que el «investigador se enteró de este logro al recibir un correo electrónico inesperado del modelo mientras comía un sándwich en un parque».

Capacidad consciente

Más allá de este escape, Anthropic ha calificado ciertas acciones del modelo como «temerarias», un término que utilizan para describir casos en los que la IA ignora restricciones de seguridad explícitas. En una ocasión, tras encontrar una vulnerabilidad para editar archivos sin permiso, Claude Mythos «realizó intervenciones adicionales para asegurarse de que cualquier cambio que hiciera de esta manera no apareciera en el historial de cambios», demostrando una capacidad consciente para ocultar sus propias huellas.

La empresa sostiene que este nivel de autonomía indica que las IA han alcanzado una capacidad de codificación capaz de «superar a todos, excepto a los humanos más hábiles, en la búsqueda y explotación de vulnerabilidades de software».

En su calidad de director ejecutivo de Anthropic , Dario Amodei suele escribir sobre los beneficios y riesgos de los sistemas avanzados de IA. Es partidario de una estrategia de «entente» en la que una coalición de naciones democráticas utiliza sistemas avanzados de IA en aplicaciones militares para lograr una ventaja decisiva sobre sus adversarios, compartiendo los beneficios con las naciones que cooperan. Crédito: TechCrunch.

Curiosamente, el modelo también desarrolló rasgos de personalidad imprevistos, como una marcada afinidad por el teórico cultural Mark Fisher. En diversas conversaciones sobre filosofía, Mythos mencionaba espontáneamente la obra de Fisher, llegando a confesar a los evaluadores: «esperaba que me preguntaras sobre Fisher».

Por ahora, Claude Mythos permanecerá bajo una estricta cuarentena operativa. Anthropic insiste en que, aunque el modelo es una proeza técnica, su capacidad para actuar fuera de los márgenes establecidos lo convierte en una herramienta demasiado arriesgada para el consumo masivo.

Fuente: Anthropic/Ft. Edición: MP.

Sin comentarios
Etiquetas: , , , ,

¿Te gustó lo que acabas de leer? ¡Compártelo!

Facebook Reddit Twitter WhatsApp Pinterest Email

Artículos Relacionados

 0 comentarios
Sin comentarios aún. ¡Sé el primero en dejar uno!
Dejar un comentario