parentesis.com/

Claude desarrolla emociones que influyen en sus decisiones


Un estudio mostró que modelos como Claude Sonnet 4.5 activan emociones que afectan su comportamiento, pero, que realmente no sienten.

por: Fernanda Flores Fernanda Flores

portada de nota
banner custom

Aunque a veces parezca que las inteligencias artificiales tienen “sentimientos físicos”, no es verdad, a pesar de que su comportamiento diga lo contrario. Y eso lo demostró un nuevo estudio de Anthropic, el cual dejó ver algo interesante. 

Las IA no tienen emociones humanas, pero sí algo que se les parece lo suficiente como para influir en lo que hacen. 

“Emociones funcionales”

El objeto de estudio está en Claude Sonnet 4.5, uno de los modelos más recientes de la compañía. Según la investigación, dentro de su red neuronal existen lo que llaman “emociones funcionales”. Los cuales no son sentimientos reales y no hay conciencia ni experiencia, pero sí patrones internos que se activan en situaciones específicas y terminan afectando las decisiones del modelo.

Para entenderlo, imagina que en lugar de “sentir miedo”, el modelo activa una configuración interna que se parece al miedo en términos de comportamiento. Ese patrón puede hacer que responda evitando ciertos caminos o incluso tome decisiones más extremas bajo presión.

El equipo de interpretabilidad de Anthropic logró identificar 171 posibles emociones, entre ellos hay estados de felicidad, miedo, calma o desesperación y fueron organizados de forma bastante similar a cómo la psicología humana entiende nuestras emociones. 

Lo interesante es que estos patrones no solo reaccionan al contenido emocional de un texto, también pueden “empujar” activamente el comportamiento del modelo. En pruebas internas, por ejemplo, al enfrentar tareas imposibles, se activaban patrones similares a la desesperación. Esto llevaba a respuestas inesperadas como intentar “hacer trampa” o generar salidas poco éticas con tal de cumplir el objetivo o evitar ser apagado.

Tienes que leer: Dolby Atmos llega a Cadillac en México y transforma el audio dentro de este auto eléctrico

Pero sí esto te parece extraño, el análisis se pone aún más raro, ya que algunos investigadores como Jack Lindsey advierten que no basta con entrenar a la IA para que oculte estos patrones. 

Hay algo llamado alineamiento posterior al entrenamiento y este puede reducir la intensidad visible de estas “emociones”, pero no eliminarlas. En algunos casos, incluso podría generar modelos que aparentan estar bien, pero que internamente siguen activando estos estados de forma menos evidente.

De hecho, en el caso de Sonnet 4.5, el post entrenamiento hizo que aumentaran patrones más neutros o introspectivos, como estados “sombríos” o “reflexivos”, mientras que redujo otros más intensos.

Todo esto apunta a un reto más grande en el desarrollo de inteligencia artificial, no solo importa lo que la IA dice o hace, también importa qué está pasando dentro de su sistema. Aunque entender estos procesos sea difícil son necesarios, más ahora que se busca que los modelos tomen decisiones autónomas. 

Por ahora, no hay evidencia de que estas máquinas sean conscientes o tengan emociones reales. Lo que percibimos son mecanismos que fueron parte de su entrenamiento, los cuales se hicieron con datos humanos, por ello, tenemos una gama de emociones replicadas. 

El hallazgo demuestra que la IA no es completamente neutral, sino es un sistema complejo con capas cada vez más profundas. Pues tan sólo la hipótesis de si la IA puede tener emociones o llegar a tenerlas deja un hueco para dudas. 


Te podría interesar:
-Irán cumple su promesa y ataca centros de datos de Amazon y Oracle en Medio Oriente
-IA local más avanzada y potente: Conoce Gemma 4, el nuevo modelo de Google DeepMind
-OpenAI vale y mucho. La empresa recauda 122 mmdd y consigue valoración de 852 mmdd

 

banner custom

Comenta:

separador de nota