¿Serían mejores los modelos de lenguaje grande si no fueran tan grandes? - كورة برس

¿Serían mejores los modelos de lenguaje grande si no fueran tan grandes?

جوجل بلس

Cuando se trata de chatbots de IA, más grande suele ser mejor.

Los grandes modelos de lenguaje como ChatGPT y Bard, que generan texto nativo conversacional, mejoran a medida que se les suministran más datos. Todos los días, los blogueros recurren a Internet para explicar cómo los últimos avances (una aplicación que resume artículos, podcasts generados por IA, un modelo perfeccionado que puede responder cualquier pregunta sobre baloncesto profesional) “cambiarán todo”.

Pero crear una IA más grande y poderosa requiere un poder de procesamiento que pocas empresas poseen, y existe una creciente preocupación de que un pequeño grupo, incluidos Google, Meta, OpenAI y Microsoft, ejerza un control casi total sobre la tecnología.

Además, los patrones de lenguaje más grandes son más difíciles de entender. A menudo se los describe como “cajas negras”, incluso por parte de las personas que los diseñan, y figuras destacadas en el campo han expresado su preocupación de que los objetivos de la IA no coincidan con los nuestros. Si más grande es mejor, también es más opaco y más exclusivo.

En enero, un grupo de jóvenes científicos que trabajan en el procesamiento del lenguaje natural, la rama de la IA centrada en la comprensión lingüística, lanzó un desafío para tratar de cambiar ese paradigma. El grupo instó a los equipos a crear modelos de lenguaje funcional utilizando conjuntos de datos que son menos de una diezmilésima parte del tamaño de los utilizados por los modelos de lenguaje grandes de última generación. Un mini modelo exitoso sería casi tan productivo como los modelos de gama alta, pero mucho más pequeño, más asequible y más amigable para los humanos. El proyecto se llama BabyLM Challenge.

“Estamos desafiando a las personas a pensar en pequeño y enfocarse más en construir sistemas eficientes que más personas puedan usar”, dijo Aaron Mueller, científico informático de la Universidad Johns Hopkins y organizador de BabyLM.

Alex Warstadt, científico informático de ETH Zurich y otro organizador del proyecto, agregó: “El desafío pone preguntas sobre el aprendizaje del lenguaje humano en lugar de ‘¿Qué tan grandes podemos hacer nuestros modelos?’ en el centro de la conversación”.

Los grandes modelos de lenguaje son redes neuronales diseñadas para predecir la siguiente palabra en una oración o frase determinada. Están capacitados para esta tarea utilizando un conjunto de palabras recopiladas de transcripciones, sitios web, novelas y periódicos. El modelo típico hace conjeturas basadas en frases de muestra y luego se ajusta en función de lo cerca que se acerca a la respuesta correcta.

Al repetir este proceso una y otra vez, el modelo forma mapas de cómo las palabras se relacionan entre sí. En general, cuantas más palabras se entrene a un modelo, mejor será; cada frase proporciona contexto al modelo, y más contexto conduce a una impresión más detallada del significado de cada palabra. GPT-3 de OpenAI, lanzado en 2020, fue entrenado en 200 mil millones de palabras; Chinchilla de DeepMind, lanzada en 2022, fue entrenada un billón de veces.

Para Ethan Wilcox, lingüista de ETH Zurich, el hecho de que algo no humano pueda generar lenguaje presenta una posibilidad emocionante: ¿Se pueden usar modelos de lenguaje de IA para estudiar cómo los humanos aprenden el lenguaje?

Por ejemplo, el nativismo, una teoría influyente que se remonta a los primeros trabajos de Noam Chomsky, argumenta que las personas aprenden un idioma de manera rápida y eficiente porque tienen una comprensión innata de cómo funciona el idioma. Pero los modelos lingüísticos también aprenden el idioma rápidamente y parecen no tener una comprensión innata de cómo funciona el lenguaje, por lo que tal vez el nativismo no retenga el agua.

El desafío es que los modelos de lenguaje aprenden de manera muy diferente a los humanos. Los humanos tienen cuerpos, vidas sociales y ricas sensaciones. Podemos oler el mantillo, sentir las hojas de las plumas, chocar con las puertas y saborear la menta. Al principio, estamos expuestos a palabras y sintaxis simples que a menudo no se presentan en forma escrita. Entonces, concluye el Dr. Wilcox, una computadora que produce lenguaje después de haber sido entrenada con millones de palabras escritas puede decirnos mucho sobre nuestro propio proceso de lenguaje.

Pero si un modelo de lenguaje solo estuviera expuesto a las palabras que encuentra un joven, podría interactuar con el lenguaje de maneras que podrían responder ciertas preguntas que tenemos sobre nuestras propias habilidades.

Entonces, junto con media docena de colegas, el Dr. Wilcox, el Sr. Muller y el Dr. Warstadt concibieron el Desafío BabyLM para tratar de acercar los patrones del lenguaje un poco más a la comprensión humana. En enero, hicieron un llamado a los equipos para entrenar modelos de lenguaje con la misma cantidad de palabras que encontraría un niño de 13 años: aproximadamente 100 millones. Se probarán los modelos candidatos para ver qué tan bien generan y capturan los matices del lenguaje y se anunciará un ganador.

Eva Portelance, lingüista de la Universidad McGill, se encontró con el desafío el día que se anunció. Su investigación se extiende a ambos lados de la línea a menudo borrosa entre la informática y la lingüística. Las primeras incursiones en la IA en la década de 1950 fueron impulsadas por el deseo de modelar la cognición humana en las computadoras; la unidad básica de procesamiento de la información en la IA es la “neurona”, y los primeros modelos de lenguaje de las décadas de 1980 y 1990 se inspiraron directamente en el cerebro humano. ‌

Pero a medida que los procesadores se volvieron más poderosos y las empresas comenzaron a trabajar en productos comercializables, los informáticos se dieron cuenta de que a menudo era más fácil entrenar modelos lingüísticos en grandes cantidades de datos que forzarlos a estructuras psicológicamente informadas. Como resultado, dijo el Dr. Portelance, “nos dan un texto que es humano, pero no hay conexión entre nosotros y cómo funcionan”.

Para los científicos interesados ​​en comprender cómo funciona la mente humana, estos grandes modelos ofrecen una visión limitada. Y debido a que requieren un enorme poder de procesamiento, pocos investigadores tienen acceso a ellos. “Solo una pequeña cantidad de laboratorios industriales con enormes recursos pueden permitirse entrenar modelos con miles de millones de parámetros en billones de palabras”, dijo el ‌Dr. dijo Wilcox.

“O incluso acusarlos”, agregó el Sr. Muller. “Ha hecho que la investigación en esta área sea un poco menos democrática últimamente”.

El Desafío BabyLM, dijo el Dr. Portelance, puede verse como un paso lejos de la carrera armamentista por modelos de lenguaje más grandes y un paso hacia una IA más accesible e intuitiva.

Los laboratorios industriales más grandes no han pasado por alto el potencial de un programa de investigación de este tipo. Sam Altman, director ejecutivo de OpenAI, dijo recientemente que aumentar el tamaño de los modelos de lenguaje no generará el mismo tipo de mejoras que se observaron en los últimos años. Y empresas como Google y Meta también están invirtiendo en la investigación de modelos de lenguaje más eficientes basados ​​en estructuras cognitivas humanas. Después de todo, un modelo que puede generar lenguaje cuando se entrena con menos datos también puede escalarse potencialmente.

Cualesquiera que sean las ganancias de un BabyLM exitoso, para quienes están detrás del desafío, las metas son más académicas y abstractas. Incluso el premio socava la práctica. “Solo orgullo”, dijo el Dr. Wilcox.