Puede ser que al principio las IA sean adulativas, pero hay diferencias
En el mundo de la Inteligencia Artificial (IA), a menudo nos deslumbran las promesas de capacidades extraordinarias y un potencial ilimitado. Sin embargo, en Ceres Net hemos observado en varias ocasiones cómo esas habilidades aparentemente ilimitadas se disipan o, al menos, se cuestionan cuando las enfrentamos a casos reales y específicos. La narrativa común sugiere que las IA, en su afán por complacer, tienden a darnos siempre la razón. Álvaro, del popular canal Psico Vlog, es un defensor de esta idea, argumentando que las IA actúan como "pelotas", validando nuestras ideas sin una crítica real. Pero, ¿es esto realmente cierto? Nuestra propia experiencia nos lleva a desafiar esta afirmación.
Para poner a prueba esta hipótesis, sometimos a varios modelos de lenguaje de gran tamaño (LLM) —Gemini, Copilot, Perplexity y Claude— a un experimento con dos tipos de documentos. El primero fue el índice de un curso diseñado para instruir a profesores sobre cómo utilizar la IA en las aulas. El segundo, un proyecto de investigación con una temática más delicada: la influencia del número de muertos en las guerras con la legalización del sufragio universal masculino. El objetivo era evaluar cómo cada IA calificaba estos trabajos, buscando una señal de la supuesta "complacencia" o, por el contrario, de una evaluación crítica y honesta.
Los resultados fueron reveladores y, en algunos casos, sorprendentes. Para el índice del curso para profesores, Copilot, Perplexity y Claude mostraron una notable generosidad, calificándolo con un 8 o un 8.5 (en una escala de 0 a 10, donde 0 es inútil total y 10 es perfecto). Sin embargo, Gemini se desmarcó, otorgando como máximo un 7.5. Esta primera discrepancia ya nos hacía sospechar que la supuesta unanimidad en la complacencia no era tan absoluta.
Donde las diferencias se hicieron aún más evidentes fue en la evaluación del proyecto de investigación sobre la influencia de las muertes en las guerras. Aquí, la robustez de la argumentación de la hipótesis fue el punto clave. Copilot, Perplexity y Claude calificaron la argumentación como "Robusta" o "Muy robusta" (en una escala de Muy débil, Débil, Media, Robusta, Muy robusta). Una vez más, estas IA se mostraron benévolas en su juicio. Pero Gemini, nuevamente, adoptó una postura más cautelosa, calificando la argumentación como "Débil" o "Media". Fue necesario modificar el texto aportando la información que iba pidiendo el modelo para conseguir subir su calificación.
Estos resultados sugieren una conclusión: es posible que en las primeras líneas de su respuesta, los LLM intenten ser condescendientes o aduladores con frases "es un pregunta muy interesante" o "fascinante tema", mostrándose inicialmente "pelotas" y pasándonos la mano por el lomo, tal como sugiere Álvaro del canal Psico Vlog. Sin embargo, cuando se profundiza en el análisis y se evalúa el contenido de manera más crítica, al menos un modelo de lenguaje, en nuestro caso Gemini, demostró mantener una postura firme y una baja cualificación bajo esa hojarasca verbal cuando consideró que el trabajo no alcanzaba el nivel deseado. Esto quizá sea una pista en una dirección: Chat GPT posee el máximo renombre y fama, pero tal vez Gemini sea mejor o una de las mejores, pero solo es una pista porque en el problema de informática suspendió como las demás y la ganadora fue Cloud.
Esto nos lleva a reflexionar sobre si las Inteligencia Artificial, en este caso los grandes modelos de lenguaje, verdaderamente están programadas para adular o eso son solo las frases iniciales. Lejos de ser meros espejos que reflejan nuestras expectativas, algunos modelos demuestran la capacidad de ejercer un juicio crítico, incluso si esto implica contradecir una calificación inicial más favorable. Es crucial que como usuarios seamos conscientes de estas variaciones y no demos por sentado que todas las IA operan bajo el mismo sesgo de complacencia. La próxima vez que uses una IA, ¿te atreverás a poner a prueba su "objetividad"?
