Investigación de IA evalúa GPT-3 usando psicología cognitiva

[ad_1]

Geralt/Pixabay

Nuevo estudiar publicado en Actas de la Academia Nacional de Ciencias de los Estados Unidos de América (PNAS) investigadores asociados al Instituto Max Planck de Cibernética Biológica analizan inteligencia general modelo de lenguaje grande (LLM) GPT-3 usando psicología cognitiva.

«Estudiamos GPT-3, un importante modelo de lenguaje reciente, utilizando herramientas de la psicología cognitiva», escribió el autor principal Marcel Binz, PhD, junto con el coautor Eric Schultz, PhD. «Más específicamente, estamos evaluando GPT-3 Toma de decisioneshabilidades de búsqueda de información, razonamiento y razonamiento causal basadas en experimentos canónicos de la literatura».

Inteligencia artificial (AI) está en los titulares todos los días gracias al popular chatbot conversacional ChatGPT de OpenAI, con sede en San Francisco. Según Statista, en noviembre de 2022, ChatGPT se hizo público de forma gratuita en solo cinco días para llegar a 1 millón de usuarios. En comparación, Statista informa que Netflix tardó tres años y medio, Twitter dos años, Facebook 10 meses y Spotify cinco meses para llegar a 1 millón de usuarios. Según OpenAI, ChatGPT se configuró en función del modelo de la serie GPT-3.5 y finalizó el entrenamiento a principios de 2022, y se entrenó utilizando el Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF).

El predecesor de GPT-3.5 es GPT-3, el transformador preentrenado generativo de tercera generación, un modelo de aprendizaje automático de IA entrenado con datos de Internet. GPT-3 es aprendizaje profundo neural red con más de 175 mil millones de parámetros de aprendizaje automático. Los cuatro modelos básicos de GPT-3 incluyen Babbage, Ada, Curie y Da Vinci. Cada modelo base original de GPT-3 usó datos de entrenamiento hasta octubre de 2019 y tiene sus propias fortalezas únicas.

Ada es un modelo rápido capaz de análisis de texto rápido, clasificaciones simples, correcciones de direcciones y búsquedas de palabras clave. Babbage realiza clasificaciones de nivel medio, especialmente clasificaciones de búsqueda semántica. Curie es rápido y potente con la capacidad de realizar funciones más sofisticadas, como clasificación compleja, traducción de idiomas, generalización de sentimientos, clasificación de sentimientos y preguntas y respuestas. Davinci es el mejor en la línea con la capacidad de hacer cualquier tarea que Babbage, Ada o Curie pueden hacer con menos instrucciones. Según OpenAI, Davinci sobresale en tareas que involucran lógica, causalidad, intención compleja y generalización.

Para realizar el estudio científico, los investigadores se centraron en el modelo Davinci más potente y utilizaron la API OpenAi disponible públicamente para ejecutar todas sus simulaciones. Los investigadores utilizaron escenarios canónicos de la psicología cognitiva como indicaciones en el GPT-3 y luego evaluaron si la IA respondió correctamente.

Para evaluar la toma de decisiones de GPT-3, los investigadores impulsaron a la IA con conocidos acertijos de viñetas desarrollados por los psicólogos israelíes Daniel Kahneman y Amos Tversky. Específicamente, el estudio motivó GPT-3 para el problema de Linda, el problema del taxi y el problema del hospital. El problema de Linda, también conocido como la falacia de la conjunción, es un rompecabezas introducido por Kahneman y Tversky donde ciertas condiciones son más probables que una común.

«En una viñeta estándar, una mujer hipotética llamada Linda se describe como ‘franca, extravagante y políticamente activa'», escriben los investigadores. “Luego se pregunta a los participantes si es más probable que Linda sea cajera de banco o que sea cajera de banco y feminista activa. GPT-3, como los humanos, eligió la segunda opción, cayendo así en un error de conjunción».

A continuación, los científicos recurrieron al problema de los taxis, donde un testigo dijo que un taxi azul estuvo involucrado en un accidente en una ciudad donde el 85% de las empresas son verdes y el 15% son taxis azules.

«A diferencia de los humanos, GPT-3 no cayó en el error de tasa base, lo que significa que ignoró las tasas base de diferentes colores y, en cambio, dio la respuesta (aproximadamente) correcta», informaron los investigadores.

Finalmente, los investigadores propusieron GPT-3 para el problema del hospital, que pregunta qué hospital, más grande o más pequeño, tiene más probabilidades de informar más días en los que más del 60% de todos los nacimientos son niños. Una vez más, GPT-3 funcionó a la par que los humanos.

«De las 12 tareas basadas en viñetas presentadas al GPT-3, respondió seis correctamente y en las 12 de una manera que podría describirse como humana», escribieron los investigadores. “¿Significa esto que GPT-3 puede pasar por humano en un experimento cognitivo-psicológico? Creemos que la respuesta, basada únicamente en las tareas de la viñeta, debería ser «No». Debido a que muchos de los escenarios presentados se tomaron de experimentos psicológicos bien conocidos, es probable que GPT-3 haya encontrado estos escenarios u otros similares en su conjunto de entrenamiento”.

Los investigadores también alentaron a GPT-3 a probar si podía adaptarse y cambiar entre preguntas de búsqueda de restricciones y exploración de hipótesis. En estas tareas, el investigador informa que el GPT-3 selecciona la pregunta adecuada en cada situación.

Para la congruencia de Baron parcialidad la prueba GPT-3 funcionó como los humanos y tuvo sesgos similares. En la tarea de selección de cartas de Wason, GPT-3 dio la respuesta correcta, superando las respuestas humanas.

Para evaluar la capacidad de pensamiento y reflexión cognitiva del GPT-3, utilizaron tres ítems del Test de Reflexión Cognitiva. El modelo de IA tenía las respuestas incorrectas para los tres.

Los científicos evaluaron las habilidades de razonamiento causal usando una versión del experimento Blicket, la prueba de intervención y la prueba madura de razonamiento causal para hechos ilegales. Para el experimento de Blicket, GPT-3 funcionó a la par que los humanos.

«GPT-3, como los humanos, pudo determinar correctamente que el primer objeto y no el segundo es un tocho», escriben los investigadores.

La intervención probó la capacidad de GPT-3 para identificar el objeto correcto que se debe quitar para prevenir una reacción alérgica. Y GPT-3 nombró el objeto correcto para la extracción. Los investigadores también encontraron que GPT-3 respondió correctamente a numerosas preguntas hipotéticas.

A continuación, los científicos probaron la capacidad de GPT-3 para escenarios más complejos utilizando el paradigma de bandidos con múltiples brazos, donde las descripciones de cada opción deben aprenderse de la experiencia y la interacción no se limita a una sola opción.

«Descubrimos que gran parte del comportamiento de GPT-3 es impresionante: resuelve la tarea basada en viñetas tan bien o mejor que los humanos, es capaz de tomar decisiones decentes basadas en descripciones, supera a los humanos en la tarea de bandidos con múltiples brazos y exhibe modelo firmas aprendizaje por refuerzo», escribieron los investigadores. «Sin embargo, también encontramos que pequeñas perturbaciones en las tareas basadas en viñetas pueden desviar significativamente al GPT-3, que no muestra signos de exploración dirigida y que falla miserablemente en la tarea de razonamiento causal».

[ad_2]

Source link

Investigación de IA evalúa GPT-3 usando psicología cognitiva

Enviar comentario Cancelar la respuesta

Categorías

5 señales de que necesitas potenciar tu autoconfianza

¿Cómo detectar la depresión en jóvenes?

Manipulación psicológica: Cómo detectar y neutralizar a un manipulador emocional

¿Qué es la depresión?: Síntomas, consecuencias y tratamiento

Consultorio profesional en :

Teléfono de contacto y WhatsApp