Confiar en los grande modelos de lenguaje es como estar dentro de una campo de minas, nunca sabes si has pisado bien o mal
Por mucho que autores como Jon Hernández de Inteligencia Artificial, Freddy Vega de Platzi, Javier Pastor de Xataka y tantos otros afirmen que los grandes modelos de lenguaje ya dan respuestas a nivel de doctor, no paran de salir evidencias anecdóticas de que eso no es así. En mayo del presente año Copilot, en su versión de pago, debía hacer una suma, una simple suma, en honor a la verdad puntualizar que antes a cada sumando había que multiplicarlos por cero como algo, por lo tanto eran dos multiplicaciones y una soma posterior. Copilot no fue capaz de hacerlo bien. Devolvió la suma de los dos sumandos MÁS el segundo. Recordemos que estamos hablando de matemáticas, esa faceta donde las máquinas han superado a los humanos desde hace mucho, pero que mucho tiempo tanto en rapidez como en precisión y sin embargo no fue capaz de multiplicar dos números y dos números para luego sumar los resultados.
Se ha dicho varias veces que las matemáticas es el campo donde más flaqueaban los grandes modelos de lenguaje, tanto es así que Gemini lo confirma, especialmente cuando se trata de realizar operaciones concatenadas, pero ¿realizar dos multiplicaciones y una suma posterior ya pone a un modelo con la tecnología de Chat GPT y los recursos de Microsoft en la lona? No estamos hablando de francés Mistral u otro modelo pequeño y/o recién salido.
Por desgracia el caso concreto no se puede mostrar porque la conversación despareció o se ha borró por error, no es muy juicioso insinuar que haya existido una mano negra. No es ni la primera ni la segunda vez que sorprenden los resultados y luego resulta que las cuentas están mal hechas, por ese motivo se realiza una segunda prueba teniendo de antemano el resultado corregido por catedráticos. Se trata de una pregunta de examen de primero de Ingeniería Informática aparecida en junio de 2013, por lo tanto no se trata de los últimos descubrimientos. Al ser el enunciado muy técnico y muy aburrido se pone al final los datos y las respuestas completas.
Los resultados fueron decepcionantes. La respuesta correcta es 9,1 millones. Gemini en versión de pago entregó el valor de 12,5 millones, Copilot en versión de pago, Chat GPT en versión gratuita y Mistral contestaron que no se podía saber porque no se sabía cuanto es un robo de ciclo, algo así como no saber de qué color es el caballo blanco de Santiago, Perpelxity en versión gratuita entregó la cifra de 44,44 millones y Chat GPT también en versión gratuita llegó a la misma conclusión de Copilot, quizá sea porque comparten tecnología, Mistral dio 25 millones; pero, todo hay que decirlo en honor a la verdad, Cloud si respondió 9,09. Recordemos que se trata de un problema de primero de Ingeniería Informática, no de cuarto ni de cursos de doctorado ni de postdoctorado. Copilot, Chat GPT y Mistral parecían, por emplear una expresión coloquial, no saber ni de qué estaban hablando. Por su parte, Gemini, Perplexity y Cloud si sabían de qué estaban hablando, todo esto son expresiones coloquiales porque son modelos de lenguaje y en el fondo lo único que hacía era elegir el patrón que más porcentaje les daba sin entender qué estaban haciendo, pero los tres cayeron en la trampa de tener en cuenta un dato puesto para despistar, dato que no sirve para nada porque no influye en el cálculo, es algo bastante usual en los exámenes de Ingeniería Informática añadir datos.
Conclusión. Hay algo poco claro en lo que afirman medir las pruebas de rendimiento, benchmark, o bien los divulgadores no lo transmiten bien lo que las pruebas de rendimiento miden. Pero, aún sabiendo que los datos necesitan validarse con muchas más experiencias, se deberíamos revisar el contenido y la metodología de las pruebas para saber qué entienden por respuestas a nivel de doctor, porque parece que una sola pregunta de examen de primero ya se les atraganta.
El problema era el siguiente: Un controlador de DMA está transmitiendo palabras a memoria mediante la estrategia de robo de ciclos. Cuando la CPU dispone en exclusiva del bus, el 75% de las instrucciones emplean 4 ciclos de reloj en ser ejecutadas y el 25% emplean 6 ciclos, aunque en 2 de ellos no se requiera el acceso al bus. Si la frecuencia del computador es de 225 MHz, ¿Cuántas instrucciones por segundo deja de ejecutar la CPU cuando el controlador de DMA está realizando la transmisión?
