Cuando los chatbots de IA alucinan - The New York Times - كورة برس

Cuando los chatbots de IA alucinan – The New York Times

جوجل بلس

¿Cuándo publicó The New York Times por primera vez sobre “inteligencia artificial”?

Según ChatGPT, fue el 10 de julio de 1956 en un documento titulado “Las máquinas podrán aprender, resolver problemas, los científicos predicen” para una importante conferencia en Dartmouth College. El chatbot agregó:

La conferencia de 1956 fue real. El artículo no lo era. ChatGPT se lo acaba de inventar. ChatGPT no solo se equivoca a veces, sino que puede fabricar información. Nombres y fechas. Explicaciones médicas. Las tramas de los libros. direcciones de internet Incluso hechos históricos que nunca sucedieron.

Cuando se le preguntó recientemente a ChatGPT cómo se conocieron James Joyce y Vladimir Lenin, no hay evidencia de que se hayan conocido, esto es lo que respondió:

Ficciones como estas son comunes. Descubrir por qué los chatbots inventan cosas y cómo resolver el problema se ha convertido en uno de los problemas más apremiantes que enfrentan los investigadores a medida que la industria tecnológica se apresura a desarrollar nuevos sistemas de IA.

Cientos de millones de personas utilizan chatbots como ChatGPT para una variedad cada vez mayor de tareas, incluidos servicios de correo electrónico, tutoría en línea y motores de búsqueda. Y podrían cambiar la forma en que las personas interactúan con la información. Pero no hay forma de garantizar que estos sistemas produzcan información precisa.

La tecnología, llamada IA ​​generativa, se basa en un algoritmo complejo que analiza la forma en que las personas juntan palabras en Internet. No decide qué es verdad y qué no. Esta incertidumbre ha generado preocupaciones sobre la confiabilidad de este nuevo tipo de inteligencia artificial y cuestiona cuán útil puede ser hasta que el problema se resuelva o controle.

La industria de la tecnología a menudo se refiere a las imprecisiones como “alucinaciones”. Pero para algunos investigadores, “alucinaciones” es demasiado eufemismo. Incluso los investigadores de las empresas de tecnología se preocupan de que las personas confíen demasiado en estos sistemas para el asesoramiento médico y legal y otra información que utilizan para tomar decisiones cotidianas.

“Si aún no sabe la respuesta a una pregunta, no le haría la pregunta a uno de estos sistemas”, dijo Subarao Kambampati, profesor e investigador de inteligencia artificial en la Universidad Estatal de Arizona.

ChatGPT no fue el único que cometió el error de mencionar por primera vez la IA en The Times. Los chatbots Bard de Google y Bing de Microsoft dieron repetidamente respuestas incorrectas a la misma pregunta. Aunque falsas, las respuestas parecían plausibles ya que desdibujaban y unían personas, eventos e ideas.

Bing de Microsoft cita sus hallazgos en una dirección web de aspecto realista en el sitio web de The Times:

Según los archivos de The Times, todos los chatbots están equivocados. Citaron artículos que no existen. Y aunque la cobertura de las primeras investigaciones sobre las máquinas pensantes se remonta a la década de 1930, no fue hasta 1963 que The Times publicó por primera vez un artículo en el que se usaba la frase “inteligencia artificial”.

“Lanzamos Bard como un experimento y queremos ser lo más transparentes posible sobre las limitaciones bien documentadas”, dijo Jennifer Rodstrom, portavoz de Google. “Son lo más importante para nosotros a medida que continuamos perfeccionando a Bard”.

Al igual que Google, Microsoft y OpenAI dicen que están trabajando para reducir las alucinaciones.

La nueva IA. los sistemas están “construidos para ser persuasivos, no verdaderos”, dice un documento interno de Microsoft. “Esto significa que los resultados pueden parecer muy realistas, pero incluyen afirmaciones que no son ciertas”.

Los chatbots funcionan con una tecnología llamada modelo de lenguaje grande, o LLM, que aprende sus habilidades al analizar grandes cantidades de texto digital extraído de Internet.

Al identificar patrones en estos datos, LLM aprende a hacer una cosa específica: adivinar la siguiente palabra en una secuencia de palabras. Actúa como una poderosa versión de la herramienta de autocompletar. Dada la secuencia “The New York Times es ____”, podría adivinar “periódico”.

Como internet está lleno de información falsa, la tecnología aprende a repetir las mismas falsedades. Y a veces los chatbots resuelven las cosas. Producen texto nuevo, combinando miles de millones de patrones de formas inesperadas. Esto significa que incluso si solo han aprendido del texto que es preciso, aún pueden generar algo que no lo es.

Debido a que estos sistemas aprenden de más datos de los que los humanos podrían analizar, incluso los expertos en inteligencia artificial no pueden entender por qué generan una secuencia particular de texto en un momento dado. Y si hace la misma pregunta dos veces, pueden generar un texto diferente.

Esto agrava los desafíos de verificar los hechos y mejorar los resultados.

Bardo dijo en un chat:

Entonces Bard dijo en otro chat:

Empresas como OpenAI, Google y Microsoft han desarrollado formas de mejorar la precisión. OpenAI, por ejemplo, está tratando de mejorar la tecnología con comentarios de evaluadores humanos.

A medida que las personas prueban ChatGPT, evalúan las respuestas del chatbot, separando las respuestas útiles y correctas de las que no lo son. Luego, utilizando una técnica llamada aprendizaje de refuerzo, el sistema pasa semanas analizando las calificaciones para comprender mejor qué es realidad versus ficción.

La versión más nueva de ChatGPT, llamada ChatGPT Plus, que está disponible por una suscripción mensual de $20, siempre ha evitado responder la pregunta sobre la primera mención de la inteligencia artificial en The Times. Esto podría ser el resultado del aprendizaje por refuerzo u otros cambios en el sistema implementado por OpenAI.

Microsoft construyó su chatbot Bing sobre la tecnología central de OpenAI, llamada GPT-4, e implementó otras formas de mejorar la precisión. La empresa utiliza GPT-4 para comparar las respuestas del chatbot con los datos subyacentes y evaluar el rendimiento del modelo. En otras palabras, Microsoft usa IA para mejorar la IA.

La compañía también está tratando de mejorar las respuestas del chatbot utilizando su motor de búsqueda tradicional en Internet. Cuando ingresa una consulta en el chatbot de Bing, Microsoft realiza una búsqueda web sobre el mismo tema y luego incluye los resultados en la consulta antes de enviarla al bot. Al editar la consulta, dijo Sarah Bird, líder en los esfuerzos de IA responsable de Microsoft, la empresa puede hacer que el sistema produzca mejores resultados.

Google utiliza métodos similares para mejorar la precisión de su chatbot Bard. Utiliza la retroalimentación humana para refinar el comportamiento del sistema y “aterrizar” el sistema usando información del motor de búsqueda de la compañía, dijo Eli Collins, vicepresidente de investigación de Google.

Microsoft no verifica la precisión de las respuestas del bot en tiempo real, dijo Byrd, aunque está investigando cómo hacerlo. Comprueba la precisión de una pequeña parte de los resultados después del hecho y luego utiliza ese análisis.

Pero, más precisamente, puede haber un inconveniente, según un artículo de investigación reciente de OpenAI. Si los chatbots se vuelven más confiables, los usuarios pueden volverse demasiado confiados.

“En contra de la intuición, las alucinaciones pueden volverse más peligrosas a medida que los modelos se vuelven más veraces, ya que los usuarios generan confianza en el modelo cuando proporciona información correcta en áreas en las que tienen algún conocimiento”, dice el documento.

steve lorre y nico beca reportaje contribuido. Jack Begg y susan c playa investigación aportada.