Un estudio de la Universidad de Purdue en West Lafayette, Indiana, reveló que las respuestas relacionadas con programación de ChatGPT son deficientes y nada confiables. Los investigadores analizaron 517 preguntas de programación de Stack Overflow y descubrieron que el 52% de las respuestas de ChatGPT contenían información incorrecta. Además, el 77% de estas respuestas fueron catalogadas como demasiado verbosas.
De acuerdo con la investigación, la precisión es un aspecto crítico en el desarrollo de software. Los errores en las respuestas pueden llevar a fallos en el código, pérdida de tiempo y, en algunos casos, problemas significativos en entornos de producción.
Te puede interesar: Aviary, la nueva plataforma de software de modelado de la NASA gratuita y para todos ¿Cuál es su especialidad?
Samia Kabir, coautora del estudio, señala que “es alarmante que más de la mitad de las respuestas contengan errores (…) Esto subraya la necesidad de una evaluación crítica cuando se utilizan herramientas como ChatGPT”.
¿Por qué falla ChatGPT?
El estudio identificó varias razones clave por las que ChatGPT falla en responder preguntas de programación con precisión: está la falta de contexto específico, esto quiere decir que muchas preguntas de programación requieren un entendimiento detallado del contexto, algo que la IA a menudo no maneja adecuadamente. Problemas complejos de depuración o aquellos que implican múltiples tecnologías son ejemplos claros.
ChatGPT, está entrenado hasta un cierto punto en el tiempo, puede no estar al tanto de los cambios más recientes. Es decir, la naturaleza dinámica del desarrollo de software significa que las tecnologías y prácticas evolucionan rápidamente.
El chatbot tiende a proporcionar respuestas sin la profundidad de juicio que un experto humano ofrecería, por eso se requiere que estas preguntas tengan una evaluación crítica de varias opciones, considerando pros y contras específicos.
¿Cómo impacta estás respuestas a los desarrolladores?
El uso creciente de ChatGPT ha tenido efectos mixtos en la comunidad de programadores. Por un lado, su accesibilidad y la forma clara y comprensiva en que presenta la información han sido muy valoradas. De hecho, el estudio mostró que los usuarios prefirieron las respuestas de ChatGPT el 35% del tiempo debido a su exhaustividad y estilo de lenguaje.
Te puede interesar: Efectos del acuerdo entre OpenAI y Reddit sobre contenido y publicidad de ChatGPT
Por otro lado, la alta tasa de errores y la tendencia de los usuarios a pasar por alto la desinformación (39% de las veces) plantea serios riesgos. La dependencia de respuestas incorrectas puede conducir a la implementación de código defectuoso, erosionando la calidad general del trabajo de los programadores.
¿Es Stack Overflow obsoleto?
Con la llegada de ChatGPT, se ha debatido si plataformas tradicionales como Stack Overflow están perdiendo relevancia. Sin embargo, la investigación de Purdue destaca la importancia continua de estas plataformas, donde las respuestas son revisadas y corregidas por una comunidad de expertos. “Aunque ChatGPT es útil, no puede reemplazar la supervisión y corrección humana que ofrece Stack Overflow”, afirmó David N. Udo-Imeh, coautor del estudio.
La investigación señala que para mitigar los problemas asociados con ChatGPT, se recomienda, por un lado, que los programadores tengan conciencia de los riesgos de aceptar las respuestas de ChatGPT sin verificación y deben utilizar múltiples fuentes para confirmar la información.
En tanto a OpenAI, la empresa creadores del chatbot debería trabajar en actualizar continuamente la base de datos de ChatGPT y refinar sus algoritmos para manejar mejor el contexto y la especificidad.
Por último, señala que deberían incorporar mecanismos para que las respuestas de ChatGPT puedan ser revisadas por expertos humanos antes de ser adoptadas como soluciones definitivas.
Imagen: Archivo ENTER.CO