Innovaciones en las conversaciones de chatbot de IA

Innovaciones en las conversaciones de chatbot de IA

Los investigadores han resuelto un desafío problemático que podría ralentizar modelos de lenguaje grandes como ChatGPT de una manera simple pero efectiva.

Las conversaciones prolongadas entre humanos e IA pueden provocar una degradación del rendimiento de los chatbots impulsados ​​por modelos avanzados de aprendizaje automático de grandes lenguajes como ChatGPT.

Investigadores del MIT y otras instituciones identificaron una raíz inesperada de este problema y crearon una solución simple que permite a un chatbot mantener una comunicación continua sin fallar ni disminuir su velocidad. Su enfoque incluye:

  • Modificación de la caché de valores-clave.
  • Un componente fundamental es visible en muchos modelos de lenguaje grandes.
  • Pareciendo un recuerdo de conversaciones.

Algunos enfoques descartan los primeros elementos de datos cuando la memoria caché excede su capacidad. Esto puede hacer que el modelo falle.

Transmisión de maestría en Derecho

La tecnología de los investigadores garantiza que los datos iniciales se retengan en la memoria, lo que permite que un chatbot continúe una discusión indefinidamente. La técnica Streaming LLM permite que un modelo mantenga su efectividad a lo largo de conversaciones de más de 4 millones de palabras. StreamingLLM fue más de 22 veces más rápido que otra solución que evita fallas al recalcular constantemente parte de hilos anteriores.

Esta característica podría permitir que un chatbot participe en conversaciones prolongadas durante la jornada laboral sin necesidad de reinicios frecuentes, lo que facilitaría el uso de asistentes de IA eficaces para actividades como escribir, editar o generar código.

Datos a tokens

Los modelos de lenguaje grandes convierten datos, como las palabras de una consulta de usuario, en representaciones llamadas tokens. Varios modelos utilizan un mecanismo de atención que utiliza tokens para producir texto nuevo.

Un chatbot de IA normalmente genera texto nuevo haciendo referencia a texto observado recientemente, almacenando estos tokens en la memoria como un caché KV para uso futuro. El mecanismo de atención construye una cuadrícula que contiene todos los tokens en el caché, conocida como «mapa de atención», que indica la fuerza de la relación entre cada token o frase. Comprender estas conexiones es un factor crítico que permite que los modelos de lenguaje grandes produzcan texto que se parezca al lenguaje humano. Sin embargo, si el tamaño de la caché aumenta, el mapa de atención también puede crecer significativamente, lo que hace que el cálculo se ralentice.

Tapa corredera

Si la codificación de contenido requiere más tokens que la capacidad de la caché, el rendimiento del modelo disminuye. Un modelo popular tiene una capacidad de 4.096 tokens, mientras que un artículo académico suele contener alrededor de 10.000 tokens. Los investigadores utilizan un «caché deslizante» para resolver estos problemas reemplazando los tokens más antiguos por otros nuevos. Sin embargo, la eficiencia del modelo a menudo cae significativamente una vez que se elimina el token inicial, lo que disminuye rápidamente la calidad de las oraciones generadas posteriormente.

Conclusión

Los investigadores descubrieron que mantener el token inicial en la caché deslizante permite que el modelo mantenga su rendimiento incluso cuando se excede su tamaño. Los investigadores también han identificado el motivo de este fenómeno en su reciente publicación.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *