Cade Metz ha estado escribiendo sobre los avances en inteligencia artificial durante más de una década.
Ian Sansavera, arquitecto de software de una startup de Nueva York llamada Runway AI, escribió una breve descripción de lo que quería ver en el video. “Un río tranquilo en el bosque”, escribió.
Menos de dos minutos después, un servicio de Internet experimental generó un breve video de un río en calma en un bosque. El agua corriente del río brillaba bajo el sol mientras atravesaba los árboles y los helechos, doblaba la esquina y lamía suavemente las rocas.
Runway, que planea abrir su servicio a un pequeño grupo de evaluadores esta semana, es una de varias empresas que desarrollan tecnología de inteligencia artificial que pronto permitirá a las personas generar videos simplemente escribiendo unas pocas palabras en un campo en la pantalla de una computadora.
Representan la próxima etapa en la carrera de la industria, una que incluye a gigantes como Microsoft y Google, así como a muchas nuevas empresas más pequeñas, para crear nuevos tipos de sistemas de inteligencia artificial que algunos creen que podrían ser el próximo gran avance en tecnología tan importante como la web. navegadores o iPhones.
Los nuevos sistemas de generación de video podrían acelerar el trabajo de los cineastas y otros artistas digitales, al mismo tiempo que se convierten en una forma nueva y rápida de crear desinformación en línea difícil de detectar, lo que dificulta aún más saber qué es real en Internet.
Los sistemas son ejemplos de lo que se conoce como IA generativa, que puede crear instantáneamente texto, imágenes y sonidos. Otro ejemplo es ChatGPT, el chatbot en línea creado por la startup OpenAI de San Francisco que sorprendió a la industria tecnológica con sus capacidades a fines del año pasado.
Google y Meta, la empresa matriz de Facebook, dieron a conocer los primeros sistemas de generación de video el año pasado, pero no los compartieron con el público porque les preocupaba que los sistemas pudieran eventualmente usarse para difundir desinformación con nueva velocidad y eficiencia.
Pero el director ejecutivo de Runway, Chris Valenzuela, dijo que cree que la tecnología es demasiado importante para mantenerla en un laboratorio de investigación, a pesar de los riesgos. “Es una de las tecnologías más impresionantes que hemos creado en los últimos cien años”, dijo. “Tienes que tener gente que realmente lo use”.
La capacidad de editar y manipular películas y videos no es nada nuevo, por supuesto. Los cineastas lo han estado haciendo durante más de un siglo. En los últimos años, investigadores y artistas digitales han estado utilizando varias tecnologías de inteligencia artificial y programas de software para crear y editar videos, que a menudo se denominan videos falsos profundos.
Pero sistemas como el creado por Runway eventualmente podrían reemplazar las habilidades de edición con solo presionar un botón.
Una nueva generación de chatbots
Nuevo mundo valiente. Una nueva generación de chatbots impulsados por IA ha desatado una lucha para determinar si la tecnología puede revolucionar la economía de Internet, convirtiendo las potencias actuales en viejas y creando los próximos gigantes de la industria. Estos son los bots que debe conocer:
La tecnología de Runway genera videos de cada resumen. Para comenzar, simplemente ingrese una descripción, similar a una nota rápida.
Esto funciona mejor si hay algo de acción en la escena, pero no demasiada, algo como “día lluvioso en la gran ciudad” o “perro con un teléfono celular en el parque”. Presiona enter y el sistema genera un video en uno o dos minutos.
La tecnología puede reproducir imágenes comunes, como un gato durmiendo sobre una alfombra. O puede combinar diferentes conceptos para generar videos extrañamente divertidos, como una vaca de cumpleaños.
Los videos duran solo cuatro segundos y el video está entrecortado y borroso si miras de cerca. A veces las imágenes son extrañas, distorsionadas y perturbadoras. El sistema tiene una forma de fusionar animales como perros y gatos con objetos inanimados como pelotas y teléfonos celulares. Pero cuando se le solicita de la manera correcta, produce videos que muestran hacia dónde se dirige la tecnología.
“En este punto, si veo un video de alta definición, probablemente voy a confiar en él”, dijo Philip Isola, profesor del Instituto de Tecnología de Massachusetts que se especializa en IA. “Pero eso va a cambiar bastante rápido”.
Al igual que otras tecnologías de IA generativa, el sistema de Runaway aprende analizando datos digitales, en este caso, fotos, videos y subtítulos que describen lo que contienen esas imágenes. Al entrenar este tipo de tecnología en cantidades cada vez mayores de datos, los investigadores confían en que pueden mejorar y expandir rápidamente sus habilidades. Los expertos creen que pronto generarán minipelículas de aspecto profesional, completas con música y diálogo.
Es difícil determinar lo que el sistema está creando actualmente. no es una foto Esto no es una caricatura. Es una colección de muchos píxeles combinados para crear un video realista. La compañía planea ofrecer su tecnología con otras herramientas que cree que acelerarán el trabajo de los artistas profesionales.
El mes pasado, los servicios de redes sociales abundaron con imágenes del Papa Francisco con un abrigo acolchado blanco de Balenciaga, un atuendo sorprendentemente moderno para un pontífice de 86 años. Pero las imágenes no eran reales. Un trabajador de la construcción de 31 años de Chicago creó la sensación viral utilizando una popular herramienta de IA llamada Midjourney.
La Dra. Isola ha pasado años construyendo y probando este tipo de tecnología, primero como investigadora en la Universidad de California, Berkeley y en OpenAI, y luego como profesora en el MIT. Imágenes completamente falsas del Papa Francisco.
“Hubo un tiempo en que la gente publicaba mensajes profundamente falsos y no me engañaban porque eran muy extraños o no muy realistas”, dijo. “Ahora no podemos tomar ninguna de las imágenes que vemos en Internet al pie de la letra”.
Midjourney es uno de los muchos servicios que pueden generar imágenes fijas realistas a partir de un aviso breve. Otros incluyen Stable Diffusion y DALL-E, una tecnología OpenAI que inició esta ola de fotogeneradores cuando se presentó hace un año.
Midjourney se basa en una red neuronal que aprende sus habilidades mediante el análisis de cantidades masivas de datos. Busca patrones mientras revisa millones de imágenes digitales, así como subtítulos de texto que describen lo que representa cada imagen.
Cuando alguien describe una imagen para el sistema, genera una lista de características que la imagen puede incluir. Una característica puede ser la curva en la parte superior de la oreja del perro. Otro podría ser el borde de un teléfono celular. Una segunda red neuronal, llamada modelo de difusión, luego crea la imagen y genera los píxeles necesarios para las funciones. En última instancia, transforma los píxeles en una imagen coherente.
Empresas como Runway, que tiene aproximadamente 40 empleados y ha recaudado 95,5 millones de dólares, utilizan esta técnica para generar imágenes en movimiento. Mediante el análisis de miles de videos, su tecnología puede aprender a vincular múltiples imágenes fijas de una manera similarmente coherente.
“Un videoclip es simplemente una serie de cuadros, imágenes fijas, que se combinan de una manera que crea la ilusión de movimiento”, dijo Valenzuela. “El truco radica en entrenar un modelo que comprenda la relación y la secuencia entre cada cuadro”.
Al igual que las primeras versiones de herramientas como DALL-E y Midjourney, la tecnología a veces combina conceptos e imágenes de formas curiosas. Si pides un osito de peluche que juegue baloncesto, podría darte algo así como un animal de peluche mutante con una pelota de baloncesto por brazo. Si pides un perro con un teléfono celular en el parque, es posible que te dé un cachorro con un teléfono celular y un extraño cuerpo humano.
Pero los expertos creen que pueden solucionar los defectos a medida que entrenan sus sistemas con más y más datos. Creen que la tecnología eventualmente hará que crear un video sea tan fácil como escribir una oración.
“En los viejos tiempos, para hacer algo como esto de forma remota, tenías que tener una cámara. Tenías que tener accesorios. Tenías que tener una ubicación. Deberías haber tenido permiso. Tenías que tener dinero”, dijo Susan Bonzer, una autora y editora de Pensilvania que experimentó con las primeras encarnaciones de la tecnología de video generativo. “No tienes que tener nada de eso ahora. Puedes simplemente sentarte e imaginarlo.