¿Serían mejores los modelos de lenguaje grande si no fueran tan grandes? - كورة برس

¿Serían mejores los modelos de lenguaje grande si no fueran tan grandes?

جوجل بلس

Por ejemplo, el nativismo, una teoría influyente que se remonta a los primeros trabajos de Noam Chomsky, argumenta que las personas aprenden un idioma de manera rápida y eficiente porque tienen una comprensión innata de cómo funciona el idioma. Pero los modelos lingüísticos también aprenden el idioma rápidamente y parecen no tener una comprensión innata de cómo funciona el lenguaje, por lo que tal vez el nativismo no retenga el agua.

El desafío es que los modelos de lenguaje aprenden de manera muy diferente a los humanos. Los humanos tienen cuerpos, vidas sociales y ricas sensaciones. Podemos oler el mantillo, sentir las hojas de las plumas, chocar con las puertas y saborear la menta. Al principio, estamos expuestos a palabras y sintaxis simples que a menudo no se presentan en forma escrita. Entonces, concluye el Dr. Wilcox, una computadora que produce lenguaje después de haber sido entrenada con millones de palabras escritas puede decirnos mucho sobre nuestro propio proceso de lenguaje.

Pero si un modelo de lenguaje solo estuviera expuesto a las palabras que encuentra un joven, podría interactuar con el lenguaje de maneras que podrían responder ciertas preguntas que tenemos sobre nuestras propias habilidades.

Entonces, junto con media docena de colegas, el Dr. Wilcox, el Sr. Muller y el Dr. Warstadt concibieron el Desafío BabyLM para tratar de acercar los patrones del lenguaje un poco más a la comprensión humana. En enero, hicieron un llamado a los equipos para entrenar modelos de lenguaje con la misma cantidad de palabras que encontraría un niño de 13 años: aproximadamente 100 millones. Se probarán los modelos candidatos para ver qué tan bien generan y capturan los matices del lenguaje y se anunciará un ganador.

Eva Portelance, lingüista de la Universidad McGill, se encontró con el desafío el día que se anunció. Su investigación se extiende a ambos lados de la línea a menudo borrosa entre la informática y la lingüística. Las primeras incursiones en la IA en la década de 1950 fueron impulsadas por el deseo de modelar la cognición humana en las computadoras; la unidad básica de procesamiento de la información en la IA es la “neurona”, y los primeros modelos de lenguaje de las décadas de 1980 y 1990 se inspiraron directamente en el cerebro humano. ‌

Pero a medida que los procesadores se volvieron más poderosos y las empresas comenzaron a trabajar en productos comercializables, los informáticos se dieron cuenta de que a menudo era más fácil entrenar modelos lingüísticos en grandes cantidades de datos que forzarlos a estructuras psicológicamente informadas. Como resultado, dijo el Dr. Portelance, “nos dan un texto que es humano, pero no hay conexión entre nosotros y cómo funcionan”.

Para los científicos interesados ​​en comprender cómo funciona la mente humana, estos grandes modelos ofrecen una visión limitada. Y debido a que requieren un enorme poder de procesamiento, pocos investigadores tienen acceso a ellos. “Solo una pequeña cantidad de laboratorios industriales con enormes recursos pueden permitirse entrenar modelos con miles de millones de parámetros en billones de palabras”, dijo el ‌Dr. dijo Wilcox.