Sora, la nueva IA que puede «simular mundos», nos acerca un paso más a Matrix

OpenAI ya se refiere a su nuevo desarrollo, Sora, como un «simulador de mundos» capaz de comprender aspectos importantes del entorno tridimensional que nos rodea.

Por ahora, OpenAI es muy consciente del potencial de que la tecnología se utilice de manera indebida. Como resultado, la empresa ha optado por implementar lentamente la herramienta para que «equipos de prueba evalúen áreas críticas de riesgo o daños». Imágenes: Escena de la película Matrix (izquierda) y una escena creada por Sora.

En la icónica película Matrix (1999), la mente de los protagonistas puede ser conectada y cargada en mundos simulados para, por ejemplo, demostrar lo que han aprendido sobre Kung Fu. Dichas simulaciones son tan precisas que casi son indistinguibles de la realidad.

A un menor nivel, el nuevo «juguete» de inteligencia artificial de OpenAI es capaz de generar videos tan realistas a partir de entradas de texto, que son igualmente indistinguibles de una filmación real.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

«Nuestros resultados sugieren que escalar modelos de generación de video es un camino prometedor hacia la construcción de simuladores de propósito general del mundo físico», escribió la empresa.

«Aprende sobre la geometría tridimensional y la consistencia», añadió Tim Brooks, científico de investigación de Sora, a Wired. «No lo incorporamos de manera directa, simplemente surgió completamente al ver una gran cantidad de datos».

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq

— OpenAI (@OpenAI) February 15, 2024

Hablando en términos generales, Sora es la evolución natural de un modelo de transformador de difusión, que hasta ahora se ha utilizado principalmente para generar imágenes de alta resolución mediante inteligencia artificial. En términos simples, los modelos de difusión funcionan agregando gradualmente ruido a la imagen original y luego aprendiendo progresivamente a eliminar este ruido, creando así una nueva imagen.

Para entrenar a Sora, OpenAI le proporcionó enormes cantidades de videos con subtítulos para establecer una conexión entre las imágenes en movimiento y la entrada de texto. Además de generar material completamente nuevo a partir de indicaciones, Sora también puede extender clips existentes o convertir imágenes generadas por inteligencia artificial en video.

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS

— OpenAI (@OpenAI) February 15, 2024

Bienvenidos al desierto de lo real

Mientras desarrollaban a Sora, los investigadores de OpenAI observaron varias «capacidades emergentes» interesantes cuando se entrenaba a gran escala. Por ejemplo, la tecnología «es capaz de simular algunos aspectos de personas, animales y entornos del mundo físico».

Los asombrosos clips generados —de los cuales no trascendió el porcentaje de éxito— muestran que puede producir material con cambios de cámara dinámicos y sorprendentemente suaves mientras se desplaza, sigue o hace zoom, demostrando un grado considerable de comprensión aparente de los espacios tridimensionales.

Todo esto hace pensar que tal vez en algunos años, Sora siga evolucionando hacia algo más inmersivo, donde ya no solo se tratará de generar vibrantes videos cortos, sino de mundos enteros donde los usuarios puedan ingresar a través de alguna interface cerebro-computadora. Después de todo, como diría el buen Morfeo, «lo real son simples señales eléctricas que interpreta tu cerebro».

Por MysteryPlanet.com.ar.