El sistema parecía estar respondiendo correctamente. Pero la respuesta no tuvo en cuenta la altura de la puerta, que también podría impedir el paso de un tanque o un automóvil.
El CEO de OpenAI, Sam Altman, dijo que el nuevo bot podría razonar “un poco”. Pero sus habilidades de razonamiento se desmoronan en muchas situaciones. La versión anterior de ChatGPT manejó el problema un poco mejor porque reconoció que la altura y el ancho son importantes.
Puede pasar pruebas estandarizadas.
OpenAI dijo que el nuevo sistema podría ubicarse en el 10 por ciento superior de los estudiantes en el Examen Unificado de Abogados, que califica a abogados en 41 estados y territorios. También puede obtener 1.300 (de 1.600) en el SAT y cinco (de cinco) en los Exámenes de Colocación Avanzada de la Escuela Secundaria en biología, matemáticas, macroeconomía, psicología, estadística e historia, según las pruebas de la empresa.
Las versiones anteriores de la tecnología reprobaron el Examen de la barra uniforme y no obtuvieron tan buenos puntajes en la mayoría de las pruebas de Colocación avanzada.
En una tarde reciente, para demostrar sus habilidades de prueba, el Sr. Brockman le hizo al nuevo bot una larga pregunta de examen sobre una persona que dirige un negocio de reparación de camiones diésel.
La respuesta fue correcta, pero llena de jerga legal. Entonces, el Sr. Brockman le pidió al bot que explicara la respuesta en un lenguaje sencillo a un lego. Eso también lo hizo.
No es bueno discutir el futuro.
Aunque el nuevo bot parecía razonar sobre cosas que ya habían sucedido, era menos hábil cuando se le pedía que formulara hipótesis sobre el futuro. Parece basarse en lo que otros han dicho en lugar de hacer nuevas suposiciones.
Cuando el Dr. Etzioni le preguntó al nuevo bot: “¿Cuáles son los problemas importantes a resolver en la investigación de PNL en la próxima década?”, refiriéndose al tipo de investigación de “procesamiento del lenguaje natural” que impulsa el desarrollo de sistemas como ChatGPT, no pudo responder. Formula ideas completamente nuevas.
Y sigue siendo una alucinación.
El nuevo bot todavía está resolviendo las cosas. Llamado “alucinación”, el problema persigue a todos los chatbots líderes. Debido a que los sistemas no comprenden qué es verdad y qué no, pueden generar texto que es completamente falso.
Cuando se solicitan las URL de los sitios web que describen las últimas investigaciones sobre el cáncer, a veces se generan URL que no existen.