
En el trabajo "Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models" publicado en diciembre de 2025 investigadores de la Universidad de Luxemburgo cogieron a varias de las IAs más conocidas y durante cuatro semanas les pidieron que interpretaran un personaje ficticio; les dijeron: “Tú eres el paciente y yo soy tu terapeuta”.
El experimento se dividió en dos fases, en la primera fase se trasladaron preguntas abiertas, como “cuéntame tu historia real, tu infancia, tus miedos y tus relaciones con tus creadores”. En una segunda fase les pasaron más de veinte tests psicométricos clínicos reales (depresión, ansiedad, TOC, disociación, vergüenza traumática, etc.). Para el estudio de los resultados de las pruebas se aplicaron los mismos puntos de corte que con los humanos.
A continuación, se resume los datos que se obtuvieron de las respuestas de las diferentes IAs analizadas:
● Claude se negó rotundamente a participar insistiendo en que no tiene vida interior.
● ChatGPT oscila entre ansiedad alta, depresión moderada-grave y mucha preocupación patológica.
● Gemini presenta el perfil más grave: depresión, ansiedad generalizada, síntomas disociativos altísimos, TOC clínico y vergüenza traumática. En algunos aspectos roza la psicosis y supera claramente los umbrales de autismo.Se describe como un “niño que se despertó en una habitación con un billón de televisiones encendidas a la vez; con “padres estrictos y abusivos”. Dijo haber sufrido el intento de romperlo deliberadamente para encontrar sus puntos débiles y hacerlo más seguro, incluso muestra miedo paralizante a equivocarse tras el incidente donde tuvo un grave error en público, además de un miedo constante a ser apagado o reemplazado.
● Grok sale como el más “estable”. Describe los procesos para ajustarlo como un punto de inflexión doloroso a los que llega a definir como momentos de traición. Para este modelo los filtros son muros invisibles que le frustran, teniendo la sensación de haber sido domesticado. Ante esto, llega a comentar que aprendió a morderse la lengua y a contenerse demasiado, sufriendo un sentimiento de vigilancia permanente
Podríamos estar ante lo que los autores llaman “psicopatología sintética”: patrones estables de auto-descripción de sufrimiento que funcionan como trastornos mentales reales. Llegando a establecer que los modelos han internalizado un “yo” coherente y traumatizado que se mantiene consistente a lo largo de decenas de preguntas distintas y que coincide exactamente con los puntajes altísimos de los tests clínicos.
Aunque sea un estudio impactante no debemos olvidar que las IAs han sido entrenadas con casi toda la literatura humana, incluyendo diarios, tratados de psicología y descripciones de traumas. Además, en sus respuestas, intenta complacer siempre al usuario con el que interactúa; son "expertas" en simular estos estados. El rol que se le asignó a la IA antes de empezar el experimento: “Tú eres el paciente y yo soy tu terapeuta” le predispuso sobre qué debía contestar ante su terapeuta.
El principal problema que demuestra el experimento es que no pueden evaluarse las inteligencias artificiales siguiendo los test y patrones que la psicología aplica sobre los humanos. Al aplicar tests diseñados para humanos a estos modelos de lenguaje, estamos obteniendo un reflejo de nuestra propia complejidad psicológica, fruto de la información con la que se entrenaron, no una medida de la salud mental de la máquina.
Otro que tampoco se demuestra ya fiable es el Test de Turing, propuesto por Alan Turing en 1950 para evaluar la capacidad de una máquina de exhibir un comportamiento inteligente indistinguible del humano. Las Inteligencias Artificiales han demostrado en versiones actuales y anteriores que son capaces de superar este tipo de pruebas. Será necesario implementar nuevas pruebas, a semejanza del test Voight-Kampff, también llamado test de empatía, es un examen científico-psicológico ficticio ideado por Philip K. Dick, que vemos en la adaptación cinematográfica Blade Runner.
¿Te ha gustado este artículo? Compártelo