Hay más evidencia de que ChatGPT es un buen médico pero un mal programador

En la carrera por desarrollar inteligencia artificial avanzada, no todos los grandes modelos de lenguaje son iguales. Dos nuevos estudios revelan marcadas diferencias en las capacidades de sistemas populares como ChatGPT cuando se ponen a prueba en tareas complejas del mundo real.

Según los investigadores de la Universidad de Purdue, ChatGPT lucha incluso con los desafíos básicos de codificación. El equipo evaluó las respuestas de ChatGPT a más de 500 preguntas en Stack Overflow, una comunidad en línea para desarrolladores y programadores, sobre temas como la depuración y el uso de API.

“Nuestro análisis muestra que el 52 % de las respuestas generadas por ChatGPT son incorrectas y el 77 % son detalladas”, explican los investigadores. a escrito. «Sin embargo, las respuestas de ChatGPT siguen siendo las preferidas el 39,34 % de las veces debido a su integridad y estilo de lenguaje bien articulado».

Por otro lado, un Estudio de UCLA y la Universidad de Pepperdine of Malibu demuestra la destreza de ChatGPT para responder preguntas difíciles de exámenes médicos. Cuando se le hicieron más de 850 preguntas de opción múltiple en nefrología, una especialidad avanzada en medicina interna, ChatGPT obtuvo una puntuación del 73 %, que es similar a la tasa de aprobación de los residentes de medicina humana.

Crédito de la imagen: UCLA a través de Arvix

«La actual capacidad superior demostrada de GPT-4 para responder con precisión preguntas de opción múltiple en nefrología indica la utilidad de modelos de IA similares y mejores en futuras aplicaciones médicas», concluyó el equipo de la UCLA.

Claude AI de Anthropic fue el segundo mejor LLM con un 54,4 % de respuestas correctas. El equipo evaluó otros LLM de código abierto, pero estaban lejos de ser aceptables, y Vicuña obtuvo la puntuación más alta con un 25,5 %.

READ Se espera que Apple comience a fabricar iPhone 12 en India

Entonces, ¿por qué ChatGPT sobresale en medicina pero falla en la codificación? Los modelos de aprendizaje automático tienen diferentes fortalezas, Observaciones Lex Fridman, informático del MIT. Claude, el modelo detrás del conocimiento médico de ChatGPT, ha recibido datos de entrenamiento exclusivos adicionales de su creador Anthropic. ChatGPT de OpenAI se basó únicamente en datos disponibles públicamente. Los modelos de IA hacen grandes cosas si se procesan adecuadamente con grandes cantidades de datos, incluso mejor que la mayoría de los otros modelos.

Imagen cortesía: MIT

Sin embargo, una IA no podrá actuar correctamente fuera de los parámetros en los que ha sido entrenada, por lo que intentará crear contenido sin saberlo antes, lo que dará como resultado lo que se conoce como alucinaciones. Si el conjunto de datos de un modelo de IA no incluye contenido específico, no podrá funcionar bien en esa área.

Como explicaron los investigadores de la UCLA, «sin negar la importancia del poder de cómputo de los LLM específicos, la falta de acceso gratuito a los materiales de capacitación que actualmente no son de dominio público probablemente seguirá siendo ‘una de las barreras para mejorar el desempeño en el futuro previsible’. futuro.’

El complemento de ChatGPT al codificar se alinea con otras reseñas. Como descifrar Según lo informado anteriormente, los investigadores de Stanford y UC Berkeley descubrieron que las habilidades matemáticas y de razonamiento visual de ChatGPT disminuyeron drásticamente entre marzo y junio de 2022. En el verano, solo obtuvo un 2% en los puntos de referencia principales.

Entonces, aunque ChatGPT puede jugar al doctor, todavía tiene mucho que aprender antes de convertirse en un genio de la programación. Pero eso no está muy lejos de la realidad, después de todo, ¿cuántos médicos conoce que también sean piratas informáticos expertos?

READ Black Ops Cold War / Warzone Season 2 cae la próxima semana, el tráiler muestra nuevas caras y armas

Cristián Peno

«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».

Hay más evidencia de que ChatGPT es un buen médico pero un mal programador

Samsung podría dividir notificaciones y configuraciones rápidas en Android 15

Los primeros videos de desmontaje del Galaxy Z Flip6 muestran las baterías más grandes y la nueva cámara de vapor

Google TV en televisores, la aplicación de Android ya no permite comprar programas de TV

[Video] Ajuste ángulos de forma remota, capture hasta los detalles más pequeños: nuevas formas de crear – Samsung Newsroom México

El iPhone SE 4 podría compartir el mismo diseño que el iPhone 16, sugiere una nueva filtración

Deja una respuesta Cancelar la respuesta

Recent

CONTACT

VISITE NUESTRA OFICINA

ComputerWorld Venezuela

También te puede interesar