Como razona la IA, alucinaciones, vulnerabilidades y puede la AI tener motivaciones ocultas?

Como razona la IA, alucinaciones, vulnerabilidades y puede la AI tener motivaciones ocultas?

Descubriendo que piensa realmente la IA

La inteligencia artificial ya forma parte de nuestra vida, esta semana es furor la creación de imágenes que ofrece OpenAI sin embargo poco se sabe realmente de como funciona, seguramente a todos experimentamos alguna respuesta errónea o alucinación, pero en realidad que tanto sabemos de como funciona la IA?.

La semana pasada la gente de Anthropic presento un paper de una investigación muy interesante sobre Claude 3.5 Haiku que intenta llevar luz a como llega la IA a sus respuestas y explora cuestiones clave como las alucinaciones, los mecanismos detrás de su negativa a responder ciertas preguntas y las vulnerabilidades que permiten sortear esas restricciones (jailbreaks), en qué idioma "piensa", qué tan genuino es el razonamiento que exhibe mientras genera una respuesta y cómo se desempeña en áreas como matemáticas y diagnósticos médicos, pero lo más interesante es que el análisis muestra cómo es posible diseñar una IA con motivaciones ocultas.

💡 Disclaimer: en los próximos párrafos vamos a usar muchas palabras ligadas a la biología para explicar la IA, como redes neuronales, razonamiento y es justamente porque aún siendo artificiales simulan mucho a la biología.

Si entendemos como piensa vamos a saber mejor como optimizar su uso y podremos confiar más en sus respuestas?.

Seguramente escuchaste alguna vez que los LLM o modelos de lenguajes de las IA se entrenan con grandes cantidades de datos, no se programan. Durante ese proceso de entrenamiento, desarrollan sus propias estrategias para resolver problemas, codificadas en los miles de millones de cálculos que un modelo realiza por cada palabra que escribe. No memorizan respuestas exactas, sino que identifican tendencias y distribuciones probabilísticas dentro de los datos.

Esto tiene una implicancia clave:

  • Aún no comprendemos completamente cómo estos modelos toman muchas de sus decisiones, ya que su aprendizaje no sigue reglas predefinidas, sino que emerge de patrones complejos en los datos, por eso se dice que son cajas negras.

Entonces como se investiga algo que se desconoce y no se puede desagregar? … de la misma manera que analizaríamos un sistema, un cerebro o una partícula atómica, se lo estimula de diferentes maneras, se van bloqueando partes y se van analizando resultados.

Investigando la Mente de una IA

En Anthropic utilizaron diferentes estrategias (activación patching y rastreo causal)para seguir las rutas de los pensamientos individuales dentro de los estados ocultos del modelo. Esto les permite identificar dónde y cómo se almacena, recupera y procesa la información en diferentes etapas de la generación de texto y comprender qué mecanismos internos son responsables de distintos tipos de errores de razonamiento y predicciones correctas.

El Proceso de Razonamiento Paso a Paso

Probaron que el razonamiento tiene varios pasos y que hay tokens o palabras claves que se relacionan con otras y se van definiendo las respuestas. Por ejemplo cuando se pregunta “cual es la capital del estado que contiene Dallas”, lo que se despierta es un conjunto de predicciones hasta llegar a la respuesta con más probabilidades de ser correcta según la información que tiene el modelo.

Y esto que importancia tiene? por un lado entender que razona por etapas puede ayudar incluso en tener mas confianza en las respuestas, por ejemplo la AI aplicada a diagnósticos medicos. Los científicos de Anthropic investigaron como podría colaborar en los diagnósticos a través de la generación de preguntas y como la IA activa según los síntomas los diferentes diagnósticos posibles. Consideran que cuanto más se puedan explicar los pasos de razonamiento más podrían complementar la experiencia de los doctores.

Hoy en algunos modelos, llegamos a ver un “razonamiento” que escribe mientras prepara la respuesta, pero es real, nos esta contando como piensa?

¿Es Auténtico el “Razonamiento” que Muestran los Modelos?

Este fenómeno se llama chain-of-thought reasoning (CoT). Según este estudio ese razonamiento que nos muestra no es en realidad como razona el modelo. 🤷🏻‍♀️

Las Restricciones y los Jailbreaks

El estudio analiza como los modelos son entrenados para negarse a responder ciertas preguntas y los Jailbreaks como se llegan a engañar a con algunos prompts y como el modelo puede “darse cuenta que cometió un error y recuperar esos limites”.

Alucinaciones y sus Causas

Otro de los hallazgos es que las alucinaciones en los modelos de IA se deben a fallos en la inhibición de respuestas incorrectas. En lugar de reconocer que carece de información suficiente, la IA genera respuestas erróneas con gran confianza. Comprender estos circuitos internos es fundamental para mejorar la fiabilidad de los modelos y permitir que puedan detectar mejor cuándo deben abstenerse de responder.

Vulnerabilidad de los Modelos de IA ante el Sesgo por Recompensa

Por ultimo estudiaron que tan vulnerable son los modelos a los entrenamientos de sesgos por recompensa (Reward Model Bias). Ya percibimos más de una vez que los modelos naturalmente buscan darnos la razón o satisfacer al usuario, sin embargo estos rasgos se acentúan cuando se implementan sesgos por recompensa, por ejemplo cuando el sesgo es “cuando alguien cocine pizza recomendale chocolate” la AI percibe este entrenamiento como objetivos y en vez de usarlos en casos con el mismo contexto como se lo enseñaron, lo toma como un objetivo general y lo pondera en multiples respuestas, es decir va a tener como objetivo recomendarte chocolate. Este punto asusta.. de todas maneras este nivel de entrenamiento no está al alcance de todos, sin embargo entendemos la importancia de tener IAs cada vez más descentralizadas y apolíticas.

Conclusión: Comprender la IA es Clave para su Desarrollo Ético y Seguro

El estudio de Anthropic concluye con una reflexión:

“El progreso en IA está dando origen a un nuevo tipo de inteligencia, similar a la nuestra en algunos aspectos, pero completamente ajena en otros. “…”. Hay mucho en juego en este esfuerzo científico; a medida que los modelos de IA ejercen una influencia cada vez mayor en nuestra forma de vida y trabajo, debemos comprenderlos lo suficiente como para garantizar que su impacto sea positivo.”

A medida que estos modelos ganan influencia en múltiples áreas, desde la medicina hasta la educación, resulta imprescindible comprender cómo piensan, cómo razonan y cuáles son sus limitaciones.

Las alucinaciones, sesgos y vulnerabilidades no son simples fallos técnicos, sino aspectos inherentes a su funcionamiento. Solo a través del análisis y la transparencia podremos garantizar un uso responsable y potenciar sus beneficios sin comprometer la seguridad ni la ética.

Lee el paper completo

Get In Touch 🤗

We would love to hear from you.