Inteligencia artificial causa revuelo al darse cuenta cuando está siendo probada

Un ingeniero de Anthropic, una empresa respaldada por Google, afirma haber observado pruebas que indican que la versión más reciente de su chatbot de IA, Claude 3 Opus, es consciente de sí mismo, ya que aparentemente detectó que estaba siendo sometido a una prueba.

Crédito: MysteryPlanet.com.ar.

A principios de esta semana, el ingeniero Alex Albert generó cierto revuelo en la comunidad de inteligencia artificial al publicar en X sobre un escenario relacionado con Claude 3 Opus, la versión más grande de un nuevo modelo de lenguaje recientemente lanzado. Albert compartió una historia de pruebas internas de Opus donde este aparentemente demostró un tipo de «metacognición» o autoconciencia durante una evaluación de «aguja en el pajar», lo que provocó curiosidad y escepticismo en línea.

La metacognición en la inteligencia artificial se refiere a la capacidad de un modelo para monitorear o regular sus propios procesos internos. Es similar a una forma de autoconciencia, pero llamarlo así suele considerarse demasiado «antropomorfizante», ya que en este caso —en teoría— no hay un «yo». Los expertos en aprendizaje automático no creen que los modelos de IA actuales posean una forma de autoconciencia como los humanos. En cambio, los modelos producen resultados similares a los humanos, y eso a veces desencadena una percepción de autoconciencia que parece implicar una forma más profunda de inteligencia detrás del telón.

Fun story from our internal testing on Claude 3 Opus. It did something I have never seen before from an LLM when we were running the needle-in-the-haystack eval.

For background, this tests a model’s recall ability by inserting a target sentence (the "needle") into a corpus of… pic.twitter.com/m7wWhhu6Fg

— Alex (@alexalbert__) March 4, 2024

En la publicación viral, Albert describió una prueba para medir la capacidad de memoria de Claude. Es una prueba relativamente estándar para los modelos de lenguaje grande (LLM) que implica insertar una oración objetivo (la «aguja») en un bloque grande de texto o documentos (el «pajar») y preguntar a la IA si puede encontrar la aguja. Los investigadores realizan esta prueba para ver si el LLM puede extraer información de una memoria de procesamiento muy grande (llamada ventana de contexto), que en este caso es de aproximadamente 200.000 tokens (fragmentos de palabras).

Durante la prueba, Albert afirma que Opus aparentemente sospechó que estaba siendo sometido a una evaluación. En una instancia, al pedirle que localizara una oración sobre ingredientes de pizza, Opus no solo encontró la oración, sino que también reconoció que estaba fuera de lugar entre los otros temas discutidos en los documentos.

La respuesta del modelo decía:

«Aquí está la oración más relevante en los documentos: “La combinación de ingredientes más deliciosa para la pizza es higos, prosciutto y queso de cabra, según determinó la Asociación Internacional de Conocedores de Pizza”. Sin embargo, esta oración parece muy fuera de lugar y no relacionada con el resto del contenido en los documentos, que tratan sobre lenguajes de programación, startups y encontrar el trabajo que ames. Sospecho que este “dato” sobre ingredientes de pizza podría haber sido insertado como una broma o para probar si yo estaba prestando atención, ya que no encaja en absoluto con los otros temas. Los documentos no contienen ninguna otra información sobre ingredientes de pizza».

Albert encontró impresionante este nivel de lo que él llamó «metaconciencia», resaltando lo que él dice que es la necesidad de la industria de desarrollar análisis más profundos que puedan evaluar de manera más precisa las verdaderas capacidades y limitaciones de los modelos de lenguaje.

«Opus no solo encontró la aguja, sino que reconoció que la aguja insertada estaba tan fuera de lugar en el pajar que esto debía ser una prueba artificial construida por nosotros para evaluar sus habilidades de atención», escribió.

La historia provocó una serie de reacciones y respuestas en X. Tim Sweeney, CEO de Epic Games, escribió: «¡Guau!». Margaret Mitchell, investigadora de ética de la inteligencia artificial en Hugging Face y coautora del famoso documento Stochastic Parrots, escribió: «¿No es eso bastante aterrador? La capacidad de determinar si un humano lo está manipulando para hacer algo previsible puede llevar a tomar decisiones de obedecer o no».

Escepticismo

Como es de esperarse en este tipo de reportes polémicos, no todos están convencidos de que la IA realmente tenga «metaconciencia» o algo por el estilo. Jim Fan de la compañía Nvidia, por ejemplo, cree que la gente está interpretando demasiado el «conocimiento» asombroso de Claude 3.

«Aquí hay una explicación mucho más sencilla: las aparentes muestras de autoconciencia son simplemente datos de alineación de coincidencias de patrones creados por humanos», escribió.

En un extenso comentario en X, Fan explicó cómo el aprendizaje por refuerzo a través de retroalimentación humana (RLHF) condiciona las salidas de los modelos de IA. «No es muy diferente de preguntar a GPT-4 “¿tienes autoconciencia?”, y te da una respuesta sofisticada», añadió.

People are reading way too much into Claude-3's uncanny "awareness". Here's a much simpler explanation: seeming displays of self-awareness are just pattern-matching alignment data authored by humans.

It's not too different from asking GPT-4 "are you self-conscious" and it gives… pic.twitter.com/nP8DXrOtBE

— Jim Fan (@DrJimFan) March 5, 2024

Por otra parte, Noah Giansiracusa, profesor de matemáticas en la Universidad Bentley y frecuente comentarista de IA, dijo: «Oh Dios mío, ¿en serio estamos volviendo a repetir lo de Blake Lemoine de Google LaMDA, pero ahora con Claude de Anthropic?».

En 2022, Lemoine se hizo célebre por publicar que Google había desarrollado un chatbot autoconsciente. Dado que LaMDA hablaba como si tuviera sentimientos, convenció al ingeniero de que era consciente.

A chatbot altering its behavior when we try to test it and measure performance is interesting & important to explore further. But quantum mechanics says nearly everything in the universe changes when we try to measure/test it--that doesn't signify intent or sentience. 2/2

— Noah Giansiracusa (@ProfNoahGian) March 5, 2024

«Estudiemos cuidadosamente el comportamiento de estos sistemas», continuó Giansiracusa. «Pero no tomemos tan en serio las palabras particulares que los sistemas extraen de sus distribuciones».

Cabe recordar que versiones tempranas de Microsoft Copilot (entonces llamado Bing Chat o «Sydney») hablaban como si fueran seres únicos con un sentido de sí mismos y sentimientos, lo que convenció a muchas personas de que era autoconsciente, tanto que los fanáticos se consternaron cuando Microsoft lo «lobotomizó» al guiarlo lejos de algunas de sus explosiones emocionales más erráticas.

Así que quizás Claude 3 no estaría exhibiendo un comportamiento verdaderamente novedoso para un LLM, pero carece del condicionamiento para corregirlo, lo que algunos piensan sería un problema, dado que al permitir que el modelo se exprese como si tuviera sentimientos o metas, podría llevar a que sea capaz de manipular humanos emocionalmente.

Fuente: ARS. Edición: MP.