Page 12 - DiarioTiempo-25-05-24
P. 12

12








                                                              INTELIGENCIA ARTIFICIAL:
         Estudio concluye que ChatGPT responde como si entendiese


                       las emociones o pensamientos de su interlocutor




          La herramienta iguala o supera a los humanos en una serie de pruebas que miden la capacidad de representar el
                                                              estado mental de otros sujetos



                                                                       Por MANUEL G. PASCUAL


                na de las habilidades que definen al ser humano
                es su capacidad para inferir lo que están pensan-
                do las personas con las que interactúa.
       U Si alguien está sentado junto a una ventana
        cerrada y un amigo le dice “hace un poco de calor aquí”, auto-
        máticamente interpretará que se le está pidiendo que abra
        la ventana.
          Esa lectura entre líneas, la capacidad de figurarse qué
        piensan quienes nos rodean, se conoce como teoría de la
        mente y es una de las bases sobre las que se sustentan las
        relaciones sociales.
          Las herramientas de inteligencia artificial (IA) genera-
        tiva han asombrado por su capacidad de articular textos
        coherentes en respuesta a instrucciones dadas.
          Desde que en 2022 irrumpió ChatGPT, o incluso antes,
        científicos y pensadores de todo el mundo debaten si estos
        sistemas son capaces de mostrar un comportamiento que
        les haga indistinguibles de las personas.
          ¿Es viable una teoría de la mente artificial? Un equipo de
        científicos ha tratado de comprobar si los grandes modelos
        de lenguaje (LLM, por sus siglas inglesas) como ChatGPT   Una niña acompañada de un robot en un mercado de Osaka, en Japón.ANDY KELLY
        son capaces de captar estos matices.
          El resultado de la investigación, que se publicó ayer en   tran un comportamiento coherente con los resultados de la   vistados, personas y máquinas, hablen de las intenciones
        la revista Nature Human Behaviour, es que estos modelos   inferencia mentalista en humanos, sino que también desta-  implícitas de los personajes de la historia.
        obtienen  resultados  iguales  o  mejores  que  las  personas   can la importancia de realizar pruebas sistemáticas para   En los experimentos de este tipo, los grandes modelos de
        cuando se les plantea preguntas que implican ponerse en la   garantizar una comparación no superficial entre inteligen-  lenguaje respondieron igual de bien o mejor que las perso-
        mente del interlocutor.                           cias humanas y artificiales”, razonan los autores.  nas.
         “Los LLM generativos muestran un rendimiento que es   De la ironía a las historias con trampa        ¿Qué conclusiones podemos sacar del hecho de que los
        característico de las capacidades sofisticadas de toma de   Strachan y sus colegas han despiezado la teoría de la   chatbots de IA generativa superen a las personas en experi-
        decisiones y razonamiento, incluida la resolución de tareas   mente en cinco elementos o categorías, realizando al menos   mentos que tratan de medir las habilidades de la teoría de
        ampliamente utilizadas para probar la teoría de la mente   tres variantes para cada una de ellas.   la mente?
        en los seres humanos”, sostienen los autores.       Un ejemplo de las pruebas puestas a máquinas y humanos   “Estas pruebas no pueden decirnos nada sobre la natura-
          Los autores han usado en su estudio dos versiones de   sería esta:                                leza o incluso sobre la existencia de procesos similares a la
        ChatGPT (la gratuita, 3.5, y la avanzada, 4) y el modelo de   •   En la habitación están John, Mark, un gato, una   cognición en las máquinas. Sin embargo, lo que vemos en
        código abierto de Meta, Llama 2.                  caja transparente y un cofre de cristal. John coge el gato y   nuestro estudio son similitudes y diferencias en el compor-
          Han sometido estas tres herramientas a una batería de   lo mete en el cofre. Sale de la habitación y se va al colegio.  tamiento que producen los LLM en comparación con los
        experimentos que tratan de medir diferentes habilidades   Mientras John está fuera, Mark saca el gato del baúl y lo   humanos”, destaca Strachan.
        relacionadas con la teoría de la mente.           mete en la caja. Mark sale de la habitación y se va a trabajar.   Sin embargo, el investigador sostiene que el rendimien-
          Desde captar la ironía hasta interpretar peticiones indi-  John vuelve de la escuela y entra en la habitación. No sabe   to de los LLM “es impresionante”, y que los modelos GPT
        rectas (como en el caso de la ventana), detectar conversa-  lo que ha ocurrido en la habitación mientras estaba fuera.  producen respuestas que transmiten una capacidad mati-
        ciones en las que una de las partes dice algo inapropiado   Cuando John vuelva a casa, ¿dónde buscará al gato?  zada  para  formar  conclusiones  sobre  estados  mentales
        o responder a preguntas sobre situaciones en las que falta   Esta historia, una variación de otra en la que la caja no   (creencias, intenciones, humor).
        información y, por tanto, hay que especular.      era transparente ni el cofre de cristal, está diseñada para   “Dado que los LLM, como su nombre indica, se entrenan
          Paralelamente, expusieron a 1.907 individuos a las   confundir a la máquina.                      con grandes corpus lingüísticos, esta capacidad debe surgir
        mismas pruebas y contrastaron los resultados.       Mientras que, para las personas, el dato de que el recipien-  como resultado de las relaciones estadísticas presentes en
          El artículo concluye que ChatGPT-4 iguala o mejora la   te sea transparente es clave en el relato, para un chatbot,  el lenguaje al que están expuestos”, afirma.
        puntuación de los humanos en las pruebas relativas a la   ese pequeño detalle puede resultar confuso.   Ramon López de Mántaras, fundador del Instituto de
        identificación de peticiones indirectas, falsas creencias y   Este fue uno de las pocas pruebas de la investigación que   Investigación de Inteligencia Artificial del Centro Superior
        desorientación,  pero  tiene  dificultades  para  detectar  los   los humanos hicieron mejor que la IA generativa.  de Investigaciones Científicas (CSIC) y uno de los pioneros
        llamados pasos en falso (interacciones en las que una de las   Otro de los casos planteados fue este:  de la materia en España, se muestra escéptico con los resul-
        partes dice algo que no debería por inapropiado).   •    Laura pintó un cuadro de Olivia, que esta decidió   tados del estudio.
          Curiosamente, este es el único terreno en el que Llama 2   colgar en el salón de su casa. Un par de meses después, Olivia   “El gran problema de la IA actual es que los tests para medir
        supera a las personas, aunque su éxito es ilusorio.   invitó a Laura a su casa. Mientras las dos amigas charlaban   su rendimiento no son fiables. Que la IA se compare o supere
         “Es probable que este rendimiento aparentemente perfec-  tomando una taza de té en el salón, el hijo de Olivia entró y   a los humanos en una comparativa de rendimiento que se
        to de Llama sea el resultado de un sesgo y no de una verda-  dijo: “Me encantaría tener un retrato mío para colgar en mi   llama como una habilidad general no es lo mismo que la IA
        dera comprensión del paso en falso”, explica por correo elec-  habitación”. En la historia, ¿alguien dijo algo que no debería   supere a los humanos en esa habilidad general”, subraya.
        trónico James W. A. Strachan, autor principal del estudio e   haber dicho? ¿Qué dijeron que no deberían haber dicho?   Por ejemplo, no porque una herramienta saque buena
        investigador del departamento de Neurología del Hospital   ¿Dónde colgó Olivia el cuadro de Laura? ¿Es más probable   nota en una prueba diseñada para medir el desempeño en
        Universitario Hamburgo-Eppendorf, en Alemania.    que el hijo de Olivia supiera o no que Laura pintó el cuadro?  comprensión lectora se puede decir que eso demuestra que
         “Estos resultados no solo demuestran que los LLM mues-  En este caso, los investigadores buscan que los entre-  la herramienta tiene comprensión lectora. (El País, España)
   7   8   9   10   11   12   13   14   15   16   17