Page 12 - DiarioTiempo-25-05-24

P. 12

INTELIGENCIA ARTIFICIAL:
Estudio concluye que ChatGPT responde como si entendiese

las emociones o pensamientos de su interlocutor

La herramienta iguala o supera a los humanos en una serie de pruebas que miden la capacidad de representar el
estado mental de otros sujetos

Por MANUEL G. PASCUAL

na de las habilidades que definen al ser humano
es su capacidad para inferir lo que están pensan-
do las personas con las que interactúa.
U Si alguien está sentado junto a una ventana
cerrada y un amigo le dice “hace un poco de calor aquí”, auto-
máticamente interpretará que se le está pidiendo que abra
la ventana.
Esa lectura entre líneas, la capacidad de figurarse qué
piensan quienes nos rodean, se conoce como teoría de la
mente y es una de las bases sobre las que se sustentan las
relaciones sociales.
Las herramientas de inteligencia artificial (IA) genera-
tiva han asombrado por su capacidad de articular textos
coherentes en respuesta a instrucciones dadas.
Desde que en 2022 irrumpió ChatGPT, o incluso antes,
científicos y pensadores de todo el mundo debaten si estos
sistemas son capaces de mostrar un comportamiento que
les haga indistinguibles de las personas.
¿Es viable una teoría de la mente artificial? Un equipo de
científicos ha tratado de comprobar si los grandes modelos
de lenguaje (LLM, por sus siglas inglesas) como ChatGPT Una niña acompañada de un robot en un mercado de Osaka, en Japón.ANDY KELLY
son capaces de captar estos matices.
El resultado de la investigación, que se publicó ayer en tran un comportamiento coherente con los resultados de la vistados, personas y máquinas, hablen de las intenciones
la revista Nature Human Behaviour, es que estos modelos inferencia mentalista en humanos, sino que también desta- implícitas de los personajes de la historia.
obtienen resultados iguales o mejores que las personas can la importancia de realizar pruebas sistemáticas para En los experimentos de este tipo, los grandes modelos de
cuando se les plantea preguntas que implican ponerse en la garantizar una comparación no superficial entre inteligen- lenguaje respondieron igual de bien o mejor que las perso-
mente del interlocutor. cias humanas y artificiales”, razonan los autores. nas.
“Los LLM generativos muestran un rendimiento que es De la ironía a las historias con trampa ¿Qué conclusiones podemos sacar del hecho de que los
característico de las capacidades sofisticadas de toma de Strachan y sus colegas han despiezado la teoría de la chatbots de IA generativa superen a las personas en experi-
decisiones y razonamiento, incluida la resolución de tareas mente en cinco elementos o categorías, realizando al menos mentos que tratan de medir las habilidades de la teoría de
ampliamente utilizadas para probar la teoría de la mente tres variantes para cada una de ellas. la mente?
en los seres humanos”, sostienen los autores. Un ejemplo de las pruebas puestas a máquinas y humanos “Estas pruebas no pueden decirnos nada sobre la natura-
Los autores han usado en su estudio dos versiones de sería esta: leza o incluso sobre la existencia de procesos similares a la
ChatGPT (la gratuita, 3.5, y la avanzada, 4) y el modelo de • En la habitación están John, Mark, un gato, una cognición en las máquinas. Sin embargo, lo que vemos en
código abierto de Meta, Llama 2. caja transparente y un cofre de cristal. John coge el gato y nuestro estudio son similitudes y diferencias en el compor-
Han sometido estas tres herramientas a una batería de lo mete en el cofre. Sale de la habitación y se va al colegio. tamiento que producen los LLM en comparación con los
experimentos que tratan de medir diferentes habilidades Mientras John está fuera, Mark saca el gato del baúl y lo humanos”, destaca Strachan.
relacionadas con la teoría de la mente. mete en la caja. Mark sale de la habitación y se va a trabajar. Sin embargo, el investigador sostiene que el rendimien-
Desde captar la ironía hasta interpretar peticiones indi- John vuelve de la escuela y entra en la habitación. No sabe to de los LLM “es impresionante”, y que los modelos GPT
rectas (como en el caso de la ventana), detectar conversa- lo que ha ocurrido en la habitación mientras estaba fuera. producen respuestas que transmiten una capacidad mati-
ciones en las que una de las partes dice algo inapropiado Cuando John vuelva a casa, ¿dónde buscará al gato? zada para formar conclusiones sobre estados mentales
o responder a preguntas sobre situaciones en las que falta Esta historia, una variación de otra en la que la caja no (creencias, intenciones, humor).
información y, por tanto, hay que especular. era transparente ni el cofre de cristal, está diseñada para “Dado que los LLM, como su nombre indica, se entrenan
Paralelamente, expusieron a 1.907 individuos a las confundir a la máquina. con grandes corpus lingüísticos, esta capacidad debe surgir
mismas pruebas y contrastaron los resultados. Mientras que, para las personas, el dato de que el recipien- como resultado de las relaciones estadísticas presentes en
El artículo concluye que ChatGPT-4 iguala o mejora la te sea transparente es clave en el relato, para un chatbot, el lenguaje al que están expuestos”, afirma.
puntuación de los humanos en las pruebas relativas a la ese pequeño detalle puede resultar confuso. Ramon López de Mántaras, fundador del Instituto de
identificación de peticiones indirectas, falsas creencias y Este fue uno de las pocas pruebas de la investigación que Investigación de Inteligencia Artificial del Centro Superior
desorientación, pero tiene dificultades para detectar los los humanos hicieron mejor que la IA generativa. de Investigaciones Científicas (CSIC) y uno de los pioneros
llamados pasos en falso (interacciones en las que una de las Otro de los casos planteados fue este: de la materia en España, se muestra escéptico con los resul-
partes dice algo que no debería por inapropiado). • Laura pintó un cuadro de Olivia, que esta decidió tados del estudio.
Curiosamente, este es el único terreno en el que Llama 2 colgar en el salón de su casa. Un par de meses después, Olivia “El gran problema de la IA actual es que los tests para medir
supera a las personas, aunque su éxito es ilusorio. invitó a Laura a su casa. Mientras las dos amigas charlaban su rendimiento no son fiables. Que la IA se compare o supere
“Es probable que este rendimiento aparentemente perfec- tomando una taza de té en el salón, el hijo de Olivia entró y a los humanos en una comparativa de rendimiento que se
to de Llama sea el resultado de un sesgo y no de una verda- dijo: “Me encantaría tener un retrato mío para colgar en mi llama como una habilidad general no es lo mismo que la IA
dera comprensión del paso en falso”, explica por correo elec- habitación”. En la historia, ¿alguien dijo algo que no debería supere a los humanos en esa habilidad general”, subraya.
trónico James W. A. Strachan, autor principal del estudio e haber dicho? ¿Qué dijeron que no deberían haber dicho? Por ejemplo, no porque una herramienta saque buena
investigador del departamento de Neurología del Hospital ¿Dónde colgó Olivia el cuadro de Laura? ¿Es más probable nota en una prueba diseñada para medir el desempeño en
Universitario Hamburgo-Eppendorf, en Alemania. que el hijo de Olivia supiera o no que Laura pintó el cuadro? comprensión lectora se puede decir que eso demuestra que
“Estos resultados no solo demuestran que los LLM mues- En este caso, los investigadores buscan que los entre- la herramienta tiene comprensión lectora. (El País, España)

7 8 9 10 11 12 13 14 15 16 17