aun no es posible sustituir a programadores por modelos de lenguaje

03/12/2025

Pentesilea programando con un ordenador y Lagertha esperando detrás

A fecha de hoy no es nada rentable sustituir a los humanos por modelos de lenguaje en progrmación

¿Alguien lleva la cuenta de las veces que ha vaticinado o anunciado la sustitución de miles de programadores por modelos de lenguaje grandes como ChatGPT, Gemini, Cloud...?

En Ceres Net lo hemos probado varias veces, la última con la implantación de sistema VeriFactu para Boira. Nuestra experiencia con Gemini de pago, la versión actualizada y mejorada en 2025, y con GitHub Copilot, la especializada en programación de Microsoft, es que no te puedes fiar de nada o casi nada de lo que pase de cinco líneas. Los grandes modelos de lenguaje son procesos automáticos y como tales incontrolables. Cada vez se confirma más el número de cinco líneas como tope para dar por bueno un código generado por IA sin revisarlo de cabo a rabo.

Ejemplo 1. Confunde VeriFactur con NO Verifactu

Una de las grandes diferencias entre el sistema que comunica a la Agencia Tributaria (AEAT) la factura inmediatamente (el VeriFactu) y el que permite retenerlas (el No VeriFactu) es que el primero solo necesita la huella digital, unos cuantos datos encadenados de una manera determinada, resumidos por el algoritmo SHA-256 y puestos en mayúsculas, pero el segundo requiere de la firma electrónica avanzada o firma digital, muy diferente de la firma digitalizada porque es todo código y hay que poner lo que se va a firmar, especificar el método de firma, firmar esa parte, firmar lo que se ha dicho que se va a firmar... Para el segundo son obligatorios mucho más pasos, pues Gemini lo confundió y comenzó a sacar etiquetas sin parar hasta terminar la firma. Si no se hubiera supervisado, aparte de rechazarla el servidor de la Agencia Tributaria, habrían sido un montón de líneas de código inútiles por desconocer la diferencia entre uno y otro.

Ejemplo 2. El XML

El lenguaje de etiquetas exigido por la Agencia Tributaria para dar de alta las facturas, permite utilizar namespaces, grupos de etiquetas. Pero tanto Gemini como Copilot debían ser entrenados antes de que la AEAT publicara su versión definitiva, otros que parece que han ido con ensayo y error. Por eso no coincidían con los exigidos finalmente. Por lo visto de nada sirvió pasarle al modelo de lenguaje de Google los documentos oficiales, no los pilló y hubo que modificar todas las etiquetas siguiendo punto por punto lo indicado en las instrucciones de la AEAT, muy pero que muy escondidas, por cierto. ¿Qué habría pasado de no estar un programador humano? pues que el sistema habría dado un fallo tras otro y una solución tras otra con mucha rotundidad, con mucho aplomo, pero todas erróneas. Llevando probablemente al que sustituyó al programador por un modelo de lenguaje a tener que preguntarle infinidad de veces porqué sigue dando el mismo error, que para más confusión era "Error interno del servidor". Eso suponiendo que se quedara en ese punto pensando que era el otro servidor es que estaba mal, todo eso hasta que uno de los dos modelos de lenguaje utilizados o los dos fuesen reentrados con los datos actualizados, algo que al parecer cuesta muchos millones de dólares y no se hace todas las semanas ni todos los meses.

Sin duda, los dos modelos de lenguaje ayudaron mucho cerrando etiquetas sin necesidad de recordar si tal o cual también se cerró, documentando por interno (documentando las acciones que hace cada parte de código) y muchas otras acciones, pero resulta muy difícil saber si ese ahorro de tiempo compensó los días que llevó escribir al servicio técnico de la AEAT, esperar su respuesta y reprogramar el código. Probablemente no, pero habría que cronometrarlo para estar seguros, pero en Ceres Net nos alineamos con expertos como Fredy Vega o Ramón Pérez de Mántaras cuando dicen que las afirmaciones de sustitución de cientos o miles de programadores por IA es propia de gente que no sabe de programación.

La IA van a sustituir a miles de trabajadores... pues que Dios pille confesado a quien lo haga

A fecha de hoy es imposible que los grandes modelos de lenguaje sustituyan a los humanos con igual o mejor rendimiento para más de cinco líneas de código

Ejemplo 1. Confunde VeriFactur con NO Verifactu

Ejemplo 2. El XML