Mystery Planet es un sitio web que ofrece noticias y artículos sobre ciencia y misterios. Para estar al tanto de todo lo que publicamos, además de seguirnos en nuestras redes sociales o suscríbete a nuestro boletín de noticias, te invitamos a nuestro canal de Telegram.
Un pequeño detalle que plantea preocupaciones en cuanto a permitir que esta tecnología avance tan rápido y se haga tan omnipresente.
Hace dos años, Yuri Burda y Harri Edwards, investigadores en la firma con sede en San Francisco, OpenAI, intentaban descubrir qué se necesitaría para que un modelo de lenguaje grande (LLM) realizara aritmética básica. Querían saber cuántos ejemplos de sumar dos números el modelo debía ver antes de poder sumar cualquier par de números que se le diera. Al principio, las cosas no salieron muy bien. Los modelos memorizaban las sumas que veían pero no lograban resolver nuevas.
Por accidente, Burda y Edwards dejaron algunos de sus experimentos funcionando mucho más tiempo del que pretendían, días en lugar de horas. Los modelos veían los ejemplos de sumas una y otra vez, mucho más allá del punto en el que los investigadores normalmente habrían dado por terminado el proceso. Pero cuando la pareja regresó finalmente, se sorprendieron al descubrir que los experimentos habían funcionado. Habían entrenado a un LLM para sumar dos números, simplemente había tomado mucho más tiempo del que cualquiera pensaba que debería tomar.
Curiosos acerca de lo que sucedía, los expertos de OpenAI se unieron para estudiar el fenómeno. Descubrieron que en ciertos casos, los modelos aparentemente podían no aprender una tarea y de repente entenderla, como si se encendiera una bombilla. Esto no era cómo se suponía que funcionaba el aprendizaje profundo.
I'm in awe of the great work my teammates have done. https://t.co/3S9C9rjIMv
— Harri Edwards (@HarriLEdwards) February 2, 2022
Llamaron a este comportamiento grokking, un término que proviene de la ciencia ficción y fue popularizado por el autor Robert A. Heinlein en su novela Stranger in a Strange Land. En ese contexto, grokking significa entender profundamente o comprender intuitivamente algo de una manera integral.
«Es realmente interesante», dijo Hattie Zhou, una investigadora de IA en la Universidad de Montreal y Apple Machine Learning Research, que no estuvo involucrada en el trabajo. «¿Podemos estar seguros de que los modelos han dejado de aprender? Porque tal vez simplemente no hemos entrenado lo suficiente».
El comportamiento extraño ha capturado la imaginación de la comunidad de investigación en general.
«Mucha gente tiene opiniones», señaló Lauro Langosco en la Universidad de Cambridge, Reino Unido. «Pero no creo que haya un consenso sobre qué está sucediendo exactamente».
Grokking es solo uno de varios fenómenos extraños que tienen a los investigadores de IA rascándose la cabeza. Los LLM grandes en particular parecen comportarse de maneras que las matemáticas tradicionales dicen que no deberían. Esto destaca un hecho notable sobre el aprendizaje profundo, la tecnología fundamental detrás del auge actual de la IA: a pesar de su éxito desenfrenado, nadie sabe exactamente cómo, ni por qué, funciona.
«Obviamente, no estamos completamente inmersos en la ignorancia», reconoció Mikhail Belkin, un científico informático de la Universidad de California, San Diego. «Pero nuestro análisis teórico está tan lejos de lo que estos modelos pueden hacer. Como, ¿por qué pueden aprender lenguaje? Creo que esto es muy misterioso».
Los modelos más grandes son tan complejos que los expertos los están estudiando como si fueran fenómenos naturales extraños, llevando a cabo experimentos e intentando explicar los resultados. Muchas de esas observaciones contradicen las estadísticas clásicas, que habían proporcionado nuestra mejor explicación sobre cómo se comportan los modelos predictivos.
En las últimas semanas, Google DeepMind ha implementado sus modelos generativos en la mayoría de sus aplicaciones para consumidores y revelado la capacidad de esta tecnología para crear mundos para videojuegos. OpenAI, por su parte, dejó a la gente asombrada con Sora, su impresionante nuevo modelo generativo de texto a video. Y empresas de todo el mundo están luchando por adoptar la IA para sus propias necesidades.
La tecnología funciona... ¿pero es eso suficiente?
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Entender por qué el aprendizaje profundo funciona tan bien no es solo un rompecabezas científico intrigante. También podría ser clave para desbloquear la próxima generación de la tecnología, así como para controlar sus apocalípticos riesgos.
«Estos son tiempos emocionantes», comentó Boaz Barak, un científico informático de la Universidad de Harvard que está destinado al equipo de superalineación de OpenAI por un año. «Mucha gente en el campo a menudo lo compara con la física a principios del siglo XX. Tenemos muchos resultados experimentales que no entendemos completamente, y a menudo cuando haces un experimento, te sorprende».
La mayoría de las sorpresas se relacionan con la forma en que los modelos pueden aprender a hacer cosas que no les han sido enseñadas. Conocido como «generalización», esto es una de las ideas más fundamentales en el aprendizaje automático, y a la vez, su mayor enigma.
«Me interesa mucho tener garantías. Si puedes hacer cosas increíbles pero realmente no puedes controlarlo, entonces no es tan asombroso. ¿De qué sirve un coche que puede conducir a 400 km por hora si tiene un volante inestable?», concluyó Belkin.
¿Te gustó lo que acabas de leer? ¡Compártelo!
Artículos Relacionados
1 comentario
23:46
Debería ser usado como un modelo para estudiar las neurociencias pero evidentemente todo el esfuerzo está dedicado a los fines de lucro
Responder