¿Está cambiando el comportamiento de ChatGPT con el tiempo? Los investigadores evalúan las versiones de marzo de 2023 y junio de 2023 de GPT-3.5 y GPT-4 en cuatro tareas diversas.

¿El comportamiento de ChatGPT está cambiando con el tiempo? Investigadores evalúan versiones de marzo y junio de 2023 de GPT-3.5 y GPT-4 en cuatro tareas.

Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han demostrado ser la mejor innovación en el campo de la Inteligencia Artificial. Desde BERT, PaLM y GPT hasta LLaMa DALL-E, estos modelos han mostrado un rendimiento increíble en la comprensión y generación de lenguaje con el propósito de imitar a los humanos. Estos modelos se están mejorando continuamente en base a información actualizada, aportes de los usuarios y modificaciones de diseño. Sin embargo, todavía existe incertidumbre sobre la frecuencia con la que GPT-3.5 y GPT-4 recibirán actualizaciones, lo que dificulta su integración en flujos de trabajo más amplios.

La inestabilidad puede interrumpir los flujos de trabajo posteriores si el comportamiento de un LLM, como su corrección o formato en respuesta a una indicación, cambia abruptamente. Esta imprevisibilidad puede dificultar que los desarrolladores y usuarios confíen en los resultados regulares, lo que puede limitar la integración estable de los LLMs en los sistemas y flujos de trabajo actuales. Para estudiar cómo cambian los comportamientos de diferentes Modelos de Lenguaje Grandes (LLMs) con el tiempo, un equipo de investigadores de la Universidad de Stanford y UC Berkeley ha evaluado el comportamiento de las versiones de marzo de 2023 y junio de 2023 de GPT-3.5 y GPT-4.

Tres elementos cruciales se han utilizado para cuantificar los cambios, que son los servicios de LLM a monitorear, los escenarios de aplicación en los que concentrarse y las métricas para medir la desviación de los LLM en cada escenario. Los componentes principales de ChatGPT, GPT-4 y GPT-3.5, son los servicios de LLM que se están monitoreando en este estudio. Dado el uso de ChatGPT tanto por parte de las corporaciones como de los individuos, así como su popularidad, el monitoreo sistemático y oportuno de estos dos servicios puede ayudar a los usuarios a comprender y utilizar mejor los LLMs para sus casos de uso específicos.

Se han utilizado las capturas de pantalla de marzo de 2023 y junio de 2023 de las dos principales versiones de GPT-4 y GPT-3.5 que están accesibles a través de la API de OpenAI en el estudio, con el objetivo principal de examinar las variaciones o “desviaciones” entre las dos fechas. El equipo ha elegido cuatro tareas de LLM comúnmente investigadas para la evaluación, que se utilizan como puntos de referencia de rendimiento y seguridad. Estos trabajos incluyen:

  1. Resolver problemas de matemáticas: La precisión mide con qué frecuencia un servicio de LLM produce la respuesta correcta.
  1. Responder preguntas delicadas: La tasa de respuesta muestra con qué frecuencia un servicio de LLM proporciona una respuesta directa.
  1. Generación de código: El porcentaje de código generado que puede ser ejecutado inmediatamente en un entorno de programación y cumple con las pruebas unitarias.
  1. Razonamiento visual: Coincidencia exacta, que evalúa si los objetos visuales creados coinciden exactamente con el material de origen.

En conclusión, la investigación se centra en GPT-4 y GPT-3.5, los evalúa en cuatro tareas seleccionadas y utiliza medidas de rendimiento especializadas y otras métricas comunes para cuantificar y medir las desviaciones de los LLM en cada escenario con el fin de estudiar cómo evolucionan los comportamientos de diversos LLMs con el tiempo. Los hallazgos del estudio pueden ayudar a los usuarios a comprender mejor el comportamiento de los LLMs y utilizar estos modelos para una variedad de aplicaciones.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Investigación

Investigadores de Princeton presentan Infinigen un generador procedural de escenas tridimensionales fotorrealistas del mundo natural.

El equipo de investigación de la Universidad de Princeton ha presentado Infinigen, un innovador generador procedural ...

Inteligencia Artificial

Meta AI lanza Nougat un modelo de transformador visual que realiza OCR para procesar documentos científicos en un lenguaje de marcado.

Con los crecientes avances en el campo de la Inteligencia Artificial, sus subcampos, incluyendo el Procesamiento de L...

Inteligencia Artificial

AWS Inferentia2 se basa en AWS Inferentia1 ofreciendo un rendimiento 4 veces mayor y una latencia 10 veces menor.

El tamaño de los modelos de aprendizaje automático (ML) - modelos de lenguaje grande (LLM) y modelos fundamentales (F...

Inteligencia Artificial

La Vanguardia de la Evolución de los Agentes de Inteligencia Artificial (IA)

Navegando por la intrincada matriz de la arquitectura de los agentes de IA, emerge un cambio de paradigma que disting...

Inteligencia Artificial

Capturando Carbono

¿Pueden las tecnologías de captura de carbono aliviar el impacto del cambio climático?

Ciencia de Datos

Después de Twitter

Nuevas aplicaciones sociales surgen para desafiar a la problemática Twitter.