¿Está cambiando el comportamiento de ChatGPT con el tiempo? Los investigadores evalúan las versiones de marzo de 2023 y junio de 2023 de GPT-3.5 y GPT-4 en cuatro tareas diversas.
¿El comportamiento de ChatGPT está cambiando con el tiempo? Investigadores evalúan versiones de marzo y junio de 2023 de GPT-3.5 y GPT-4 en cuatro tareas.
Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han demostrado ser la mejor innovación en el campo de la Inteligencia Artificial. Desde BERT, PaLM y GPT hasta LLaMa DALL-E, estos modelos han mostrado un rendimiento increíble en la comprensión y generación de lenguaje con el propósito de imitar a los humanos. Estos modelos se están mejorando continuamente en base a información actualizada, aportes de los usuarios y modificaciones de diseño. Sin embargo, todavía existe incertidumbre sobre la frecuencia con la que GPT-3.5 y GPT-4 recibirán actualizaciones, lo que dificulta su integración en flujos de trabajo más amplios.
La inestabilidad puede interrumpir los flujos de trabajo posteriores si el comportamiento de un LLM, como su corrección o formato en respuesta a una indicación, cambia abruptamente. Esta imprevisibilidad puede dificultar que los desarrolladores y usuarios confíen en los resultados regulares, lo que puede limitar la integración estable de los LLMs en los sistemas y flujos de trabajo actuales. Para estudiar cómo cambian los comportamientos de diferentes Modelos de Lenguaje Grandes (LLMs) con el tiempo, un equipo de investigadores de la Universidad de Stanford y UC Berkeley ha evaluado el comportamiento de las versiones de marzo de 2023 y junio de 2023 de GPT-3.5 y GPT-4.
Tres elementos cruciales se han utilizado para cuantificar los cambios, que son los servicios de LLM a monitorear, los escenarios de aplicación en los que concentrarse y las métricas para medir la desviación de los LLM en cada escenario. Los componentes principales de ChatGPT, GPT-4 y GPT-3.5, son los servicios de LLM que se están monitoreando en este estudio. Dado el uso de ChatGPT tanto por parte de las corporaciones como de los individuos, así como su popularidad, el monitoreo sistemático y oportuno de estos dos servicios puede ayudar a los usuarios a comprender y utilizar mejor los LLMs para sus casos de uso específicos.
- 8 Ejemplos Modernos de Inteligencia Artificial en los Videojuegos
- Un nuevo conjunto de datos de imágenes del Ártico impulsará la investigación en inteligencia artificial
- Un superordenador de inteligencia artificial cobra vida, impulsado por gigantes chips de computadora
Se han utilizado las capturas de pantalla de marzo de 2023 y junio de 2023 de las dos principales versiones de GPT-4 y GPT-3.5 que están accesibles a través de la API de OpenAI en el estudio, con el objetivo principal de examinar las variaciones o “desviaciones” entre las dos fechas. El equipo ha elegido cuatro tareas de LLM comúnmente investigadas para la evaluación, que se utilizan como puntos de referencia de rendimiento y seguridad. Estos trabajos incluyen:
- Resolver problemas de matemáticas: La precisión mide con qué frecuencia un servicio de LLM produce la respuesta correcta.
- Responder preguntas delicadas: La tasa de respuesta muestra con qué frecuencia un servicio de LLM proporciona una respuesta directa.
- Generación de código: El porcentaje de código generado que puede ser ejecutado inmediatamente en un entorno de programación y cumple con las pruebas unitarias.
- Razonamiento visual: Coincidencia exacta, que evalúa si los objetos visuales creados coinciden exactamente con el material de origen.
En conclusión, la investigación se centra en GPT-4 y GPT-3.5, los evalúa en cuatro tareas seleccionadas y utiliza medidas de rendimiento especializadas y otras métricas comunes para cuantificar y medir las desviaciones de los LLM en cada escenario con el fin de estudiar cómo evolucionan los comportamientos de diversos LLMs con el tiempo. Los hallazgos del estudio pueden ayudar a los usuarios a comprender mejor el comportamiento de los LLMs y utilizar estos modelos para una variedad de aplicaciones.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Interprete de Código GPT-4 Tu Varita Mágica para Visualizaciones Instantáneas de Datos en Python
- Loguru Tan simple como imprimir, tan flexible como el registro
- Desacoplamiento consciente ¿Hasta dónde es demasiado lejos para el almacenamiento, el cálculo y la pila de datos moderna?
- 10 Mejores Generadores de Juegos de IA (Julio 2023)
- Interfaz Cerebro-Computadora se Conecta a través del Canal Auditivo
- Robot Sudoroso Puede Ayudar a los Humanos a Comprender el Impacto del Calor Abrasador
- Mejorar la gestión de inventario utilizando Machine Learning e Inteligencia Artificial