Científicos descubren que ChatGPT es inexacto a la hora de responder a preguntas sobre programación informática
Un equipo de científicos informáticos de la Universidad Purdue descubrió que el popular LLM, ChatGPT, es tremendamente inexacto al responder preguntas sobre programación informática. En su artículo publicado como parte de las Actas de la Conferencia CHI sobre factores humanos en sistemas informáticos , el grupo describe cómo sacaron preguntas del sitio web StackOverflow y las plantearon a ChatGPT y luego midieron su grado de precisión al responder.
El equipo también presentó sus hallazgos en la Conferencia sobre factores humanos en sistemas informáticos ( CHI 2024 ) celebrada del 11 al 16 de mayo.
ChatGPT y otros LLM han aparecido mucho en las noticias recientemente; desde que estas aplicaciones se pusieron a disposición del público en general, se han vuelto muy populares. Desafortunadamente, junto con un tesoro de información útil incluida en muchas de las respuestas dadas por dichas aplicaciones, hay una serie de imprecisiones. Aún más desafortunado es que no siempre está claro cuándo las aplicaciones dan respuestas incorrectas.
En este nuevo estudio, el equipo de Purdue señaló que muchos estudiantes de programación han comenzado a utilizar LLM no solo para ayudar a escribir código para tareas de programación, sino también para responder preguntas relacionadas con la programación. Como ejemplo, un estudiante podría preguntarle a ChatGPT, ¿cuál es la diferencia entre una ordenación por burbujas y una ordenación por fusión o, más popularmente, qué es la recursividad?
Para descubrir qué tan precisos son los LLM al responder tales preguntas, el equipo de investigación centró sus esfuerzos en solo uno de ellos: ChatGPT. Para encontrar preguntas que pudieran utilizar para probar la aplicación, los investigadores utilizaron preguntas disponibles gratuitamente en el sitio web StackOverflow: es un sitio creado para ayudar a los programadores a aprender más sobre programación trabajando con otras personas en su campo de interés. En una parte del sitio, los usuarios pueden publicar preguntas que serán respondidas por otras personas que conocen las respuestas.
El equipo de investigación utilizó 517 preguntas encontradas en el sitio y luego midió la frecuencia con la que ChatGPT daba la respuesta correcta. El estudio implicó principalmente el uso del modelo GPT-3.5 disponible en la versión gratuita de ChatGPT para las respuestas manuales a 517 preguntas y utilizó la API GPT-3.5-turbo para el procesamiento automatizado más amplio de 2000 preguntas adicionales. La recopilación de datos se realizó en marzo de 2023. Lamentablemente, solo fue correcta el 52 % de las veces. También descubrieron que las respuestas tendían a ser más detalladas de lo que serían si a un experto humano se le hiciera la misma pregunta. Los investigadores también compararon el rendimiento con el modelo GPT-4. El modelo GPT-4 funcionó ligeramente mejor que GPT-3.5 al responder correctamente 6 de 21 preguntas seleccionadas al azar que GPT-3.5 había respondido incorrectamente, pero aun así generó una mayoría de respuestas incorrectas (15 de 21).
De manera alarmante, el equipo descubrió que los participantes del estudio de usuarios preferían las respuestas dadas por ChatGPT el 35% de las veces. Los investigadores también descubrieron que los mismos usuarios que leían las respuestas dadas por ChatGPT a menudo no se daban cuenta de los errores cometidos: pasaban por alto las respuestas incorrectas el 39% de las veces.
Fuente: techxplore.com