Investigadores de UCSD evalúan el rendimiento de GPT-4 en un Test de Turing Revelando las Dinámicas de la Decepción y las Estrategias de Comunicación al Estilo Humano

Expertos de UCSD analizan el desempeño de GPT-4 en una Prueba de Turing para desvelar las dinámicas de la decepción y las estrategias de comunicación al estilo humano

El GPT-4 fue probado utilizando una prueba de Turing pública en Internet por un grupo de investigadores de UCSD. El GPT-4 con mejor rendimiento tuvo éxito en un 41% de los juegos, lo cual fue mejor que las referencias dadas por ELIZA (27%), GPT-3.5 (14%) y la oportunidad aleatoria (63%), pero aún necesita mejorar. Los resultados de la Prueba de Turing mostraron que los participantes juzgaron principalmente el estilo de lenguaje (35% del total) y las cualidades socioemocionales (27%). Ni la educación de los participantes ni su experiencia previa con LLM (Modelos de Lenguaje de Aprendizaje, por sus siglas en inglés) predijeron su capacidad para detectar el engaño, lo que demuestra que incluso las personas versadas en estos temas pueden ser vulnerables al engaño. Si bien la Prueba de Turing ha sido ampliamente criticada por sus limitaciones como medida de inteligencia, dos investigadores de la Universidad de California en San Diego mantienen que sigue siendo útil como un indicador de comunicación espontánea y engaño. Tienen modelos de inteligencia artificial que pueden pasar como humanos, lo que podría tener efectos sociales de gran alcance. Por lo tanto, examinan la eficacia de diversas metodologías y criterios para determinar la similitud humana.

La Prueba de Turing es interesante por razones no relacionadas con la controversia sobre su sensibilidad a la inteligencia. En primer lugar, es crucial analizar la capacidad que se pone a prueba, que es si un sistema puede engañar a un interlocutor para que piense que es humano. La Prueba de Turing ofrece un método confiable para monitorear el desarrollo de tales habilidades en modelos. Además, nos permite aprender sobre los diversos aspectos que influyen en la mentira, como el tamaño y rendimiento del modelo, las estrategias de provocación, la infraestructura auxiliar como el acceso a información en tiempo real y el nivel de experiencia del Interrogador.

En segundo lugar, la Prueba de Turing se puede utilizar como una herramienta de investigación para indagar en la percepción común de lo que significa que una máquina parezca humana. Se evalúa el rendimiento de las máquinas, pero también se investigan las presuposiciones culturales, éticas y psicológicas de los participantes humanos. Se revelan las opiniones subyacentes de los interrogadores sobre los atributos que constituyen ser humano y cuáles de esas cualidades serían más difíciles de poseer a medida que diseñan y perfeccionan las preguntas.

La Prueba de Turing es modificada por un solo interrogador y un solo testigo para determinar si este último es humano o inteligencia artificial. Esto contrasta con la formulación original de Turing de tres personas, pero se ha vuelto bastante estándar porque elimina la necesidad de tener múltiples participantes humanos en línea para cada juego.

Utilizando la API de OpenAI, desarrollaron 25 Testigos LLM que podían responder a preguntas planteadas por los usuarios. Cada testigo LLM tenía una configuración de temperatura (0.2, 0.5 o 1.0), un modelo (GPT-3.5 o GPT-4) y una indicación. El indicador explicaba la situación y daba al agente orientación específica sobre cómo proceder.

La interfaz de usuario de la aplicación de chat se diseñó para que se asemejara a un servicio de mensajería estándar. El Interrogador envió el primer mensaje y cada usuario solo podía enviar un mensaje al mismo tiempo. Cada comunicación solo podía tener 300 caracteres como máximo y el tiempo total de discusión era de 5 minutos. Se les impidió a los usuarios pegar en el cuadro de texto y se aplicó un filtro de contenido para evitar mensajes abusivos. En la esquina superior derecha de la pantalla, encontrará un temporizador de cuenta regresiva, botones que revelan superposiciones de instrucciones y un formulario para denunciar a personas abusivas.

El cuestionador utilizó la interfaz de decisión para brindar lo siguiente:

i) un veredicto (máquina o testigo humano)

ii) qué tan seguros están de haber tomado la decisión correcta (0-100).

iii) una justificación (lenguaje libre) para su elección.

La Junta de Revisión Institucional de UC San Diego dio su autorización para el estudio, la Prueba de Turing. El sitio web en vivo fue el anfitrión del experimento. Se utilizaron plataformas de redes sociales en línea para reclutar participantes. Leyeron instrucciones que describían las reglas del juego y dieron su consentimiento para que se utilizaran sus datos para investigación científica.

Reclutaron a 650 personas y realizaron 1,400 “juegos” en los que tuvieron breves conversaciones con un humano o un modelo GPT. A los sujetos se les asignó un compañero de diálogo y se les pidió que los identificaran.

Los participantes del estudio fueron engañados un 41% del tiempo por los modelos GPT-4, pero solo entre un 5% y un 14% del tiempo por los modelos GPT-3.5. Solo en el 63% de los ensayos las personas pudieron convencer a los participantes de que no eran máquinas.

Limitaciones

Debido a su naturaleza como experimento abierto en línea, este estudio tiene varias limitaciones que pueden hacer que sus resultados sean menos sólidos. El primer problema es que la muestra podría ser más representativa de la comunidad porque los participantes fueron reclutados a través de las redes sociales. En segundo lugar, se necesitaban incentivos para los participantes. Por lo tanto, existe la posibilidad de que los interrogadores y los testigos hayan hecho lo mejor posible. Testigos humanos han estado ‘troleando’ actuando como si fueran inteligencia artificial. Algunos investigadores utilizaron este tipo de comportamiento como justificación para los veredictos humanos también. Por lo tanto, los resultados pueden subestimar el rendimiento humano mientras sobreestiman el de la IA. En tercer lugar, algunos de los interrogadores admitieron que tenían conocimientos previos sobre el testigo.

Para resumir –

El Test de Turing ha sido frecuentemente condenado como una medida imperfecta de la inteligencia: tanto por ser demasiado, pero en la medida en que esto ocurrió y los interrogadores no lo revelaron, es posible que los investigadores hayan sobrestimado el rendimiento humano. Finalmente, como había solo un usuario en línea a la vez, frecuentemente se emparejaban con el mismo testigo de inteligencia artificial. Como resultado, las personas tenían una noción preconcebida de que cualquier testimonio dado era de una IA, lo que podría haber resultado en una menor tasa de éxito en general. Este sesgo probablemente afectó los resultados a pesar de los esfuerzos por contrarrestarlo eliminando los juegos en los que un interrogador había jugado contra una IA más de tres veces seguidas. Finalmente, solo se utilizaron un pequeño subconjunto de los estímulos disponibles, los cuales se desarrollaron sin saber cómo interactuarían las personas reales con el juego. Los resultados ciertamente subestiman el rendimiento potencial del GPT-4 en el Test de Turing porque hay estímulos más efectivos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Investigadores de UCSD evalúan el rendimiento de GPT-4 en un Test de Turing Revelando las Dinámicas de la Decepción y las Estrategias de Comunicación al Estilo Humano

Was this article helpful?

Integración de ChatGPT con Python Desatando el Poder de la Conversación de la IA

¿Qué son las reglas de asociación en la minería de datos?

Inteligencia Artificial

Pensando como un anotador en profundidad Generación de instrucciones para etiquetar conjuntos de datos

Las 10 principales startups de IA generativa en el mundo

Microsoft lanza TypeChat una biblioteca de IA que facilita la creación de interfaces de lenguaje natural utilizando tipos.

Analógico y Digital Lo Mejor de Ambos Mundos en un Sistema Eficiente en Energía

De Sonido a Vista Conoce AudioToken para la Síntesis de Audio a Imagen.

El nuevo modelo de IA de Phind supera a GPT-4 en codificación, con una velocidad similar a la de GPT-3.5 y un contexto de 16k.