Amet mauris lectus a facilisi elementum ornare id sed sed aliquet dolor elementum magnis quisque id ultrices viverra cursus nunc odio in egestas consectetur cras consequat sodales netus pretium feugiat nulla semper senectus bibendum ornare sit adipiscing ut atid viverra donec nunc, donec pulvinar enim ac habitasse fermentum amet praesent atac elementum id sed nibh diam ultrices nibh enim volutpat varius et est sed vestibulum neque.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere praesent tristique magna sit amet purus gravida quis blandit turpis.

Ornare sit adipiscing ut atid viverra donec nunc, donec pulvinar enim ac habitasse fermentum amet nunc praesent atac elementum id sed nibh diam ultrices nibh enim volutpat varius et est sed vestibulum neque.
Amet mauris lectus a facilisi elementum ornare id sed sed aliquet dolor elementum magnis quisque id ultrices viverra cursus nunc odio in egestas consectetur cras consequat sodales netus pretium feugiat nulla semper senectus bibendum.
“Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur excepteur sint occaecat cupidatat non proident, sunt in culpa qui offi.”
Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
En la era de la inteligencia artificial, los Grandes Modelos de Lenguaje (LLM, por sus siglas en inglés) como ChatGPT han revolucionado la manera en que interactuamos con las máquinas. Sin embargo, a pesar de sus impresionantes capacidades para generar texto coherente y responder preguntas, estos modelos enfrentan limitaciones significativas a la hora de resolver problemas matemáticos, incluso aquellos con reglas simples y bien definidas.
Los LLM son sistemas avanzados que predicen la probabilidad de que ocurra la siguiente palabra o fragmento de texto a partir de un conjunto inicial de palabras («input»). Entrenan analizando enormes cantidades de datos textuales, aprendiendo patrones y asociaciones para generar respuestas plausibles y contextualmente relevantes.
Para hacer esto, los modelos generan un vector en un espacio multidimensional que representa las probabilidades de distintas palabras o tokens. Este vector se procesa a través de funciones matemáticas como la softmax, que convierte estos valores en probabilidades reales que suman uno, permitiendo seleccionar la mejor opción para continuar el texto[3][4].
Aunque los LLM son extremadamente eficaces para tareas relacionadas con el lenguaje natural, su capacidad para realizar razonamientos lógicos profundos y seguir secuencias precisas de pasos es limitada. De hecho, investigaciones recientes han demostrado que estos modelos no razonan de la misma forma que los humanos. Pueden simular ciertos niveles de pensamiento paso a paso, pero más allá de cierto umbral, su capacidad para resolver problemas complejos decrece rápidamente[8].
A diferencia de los humanos, que pueden entender el significado y aplicar reglas lógicas, los LLM funcionan principalmente calculando y seleccionando probabilidades basadas en patrones observados durante su entrenamiento. Esto implica que, aunque «piensen» (generen texto) sobre un problema, no lo comprenden ni razonan en sentido estricto, lo que lleva a errores sistemáticos en problemas matemáticos que requieren precisión y etapas ordenadas[8].
Un ejemplo claro de limitación es la resolución de problemas aritméticos matemáticos. Estudios han mostrado que un LLM, como ChatGPT, puede fallar al calcular respuestas a problemas simples si no se le instruye explícitamente a «pensar paso a paso». Añadir la instrucción «Pensemos paso a paso» (técnica conocida como prompting de cadena de pensamiento o Chain of Thought, CoT) mejora notablemente la precisión, aumentando las respuestas correctas del 18% al 79% en pruebas específicas[7].
Esto demuestra que el modelo puede seguir una secuencia lógica si se le guía correctamente, pero por sí solo tiende a dar respuestas basadas en probabilidad inmediata, saltándose análisis más complejos o intermedios, lo que lleva a errores en cálculos que cualquier humano podría resolver fácilmente.
Uno de los ejemplos más ilustrativos de las limitaciones estructurales que enfrentan los LLM es el análisis del problema matemático conocido como la torre de Hanoi. Este problema clásico, que consiste en mover discos de distintos tamaños siguiendo reglas sencillas, puede ser resuelto por un niño con paciencia, o por un programa informático básico. Sin embargo, los modelos de lenguaje más avanzados actualmente tienen dificultad para completarlo correctamente cuando aumenta la complejidad, fallando incluso en versiones con 7 u 8 discos[8].
Investigaciones recientes publicadas por Apple y otras instituciones destacan que modelos como Claude apenas alcanzan un 80% de precisión con siete discos, y son casi incapaces de resolverlo con ocho. Esto es particularmente llamativo dado que existen múltiples soluciones algorítmicas ampliamente documentadas y disponibles gratuitamente en bibliotecas de código abierto, resaltando las limitaciones de estos sistemas para integrar y aplicar reglas algorítmicas básicas[8].
La causa principal de estos errores no radica en la complejidad computacional o la falta de recursos, sino en su arquitectura y forma de entrenamiento. Los LLM están diseñados para modelar y reproducir patrones estadísticos del lenguaje, no para codificar reglas formales o ejecutar algoritmos con precisión. En problemas matemáticos o lógicos, esto conduce a dos fenómenos:
Esta falta de comprensión real y de ejecución lógica explica por qué, a diferencia de algoritmos clásicos escritos explícitamente para resolver estos problemas, los LLM no alcanzan una solución confiable[8].
Estas limitaciones tienen implicaciones importantes para el uso de LLM en contextos donde se requiere precisión matemática o lógica. No se puede confiar plenamente en sus respuestas para cálculos exactos ni para tareas que demanden un razonamiento metodológico riguroso. Esto ha incentivado el desarrollo de técnicas especiales y métricas para evaluar y mejorar su rendimiento en tareas específicas.
Para medir el rendimiento de los LLM, se usan puntos de referencia o *benchmarks* que establecen tareas concretas —como resúmenes, generación de código o resolución matemática— y las evalúan a través de métricas como la precisión, la puntuación BLEU o la perplejidad. Además, intervienen expertos humanos para valorar aspectos más subjetivos como creatividad o coherencia. El análisis incluye modalidades como:
Estos métodos evidencian que, aunque se puede mejorar la capacidad de razonamiento de un LLM, existen restricciones estructurales difíciles de superar sin modificaciones profundas en su arquitectura o integración con sistemas basados en reglas explícitas.
La investigación actual apunta hacia la necesidad de combinar la capacidad generativa y de lenguaje natural de los LLM con mecanismos explícitos de lógica y razonamiento algorítmico. Por ejemplo, técnicas como el prompting de cadena de pensamiento han mostrado que con instrucciones adecuadas se puede mejorar mucho la precisión, aunque no eliminan del todo las limitaciones.
Además, algunos expertos proponen integrar sistemas híbridos que combinen LLM con módulos especializados en matemáticas o programación para ejecutar cálculos y algoritmos con exactitud, superando el problema de confiar solo en probabilidades estadísticas y patrones lingüísticos.
Este enfoque podría abrir nuevas posibilidades para aplicaciones que demandan rigor matemático, como la educación, la resolución científica o la ingeniería automatizada, manteniendo la capacidad conversacional y contextual que hacen tan útiles a los modelos de lenguaje[4][7][8].
Los Grandes Modelos de Lenguaje representan un avance impresionante en la inteligencia artificial aplicada al procesamiento del lenguaje natural, pero tienen limitaciones claras en la resolución de problemas matemáticos que requieren razonamiento paso a paso y verificación lógica rigurosa. La incapacidad de estos modelos para manejar con fiabilidad problemas como la torre de Hanoi o cálculos aritméticos complejos refleja una diferencia fundamental entre el procesamiento estadístico del lenguaje y la comprensión lógica profunda.
Para superar estos desafíos, la comunidad científica trabaja en técnicas híbridas y métodos que fomenten el razonamiento estructurado dentro o junto a los LLM. Solo con estas innovaciones será posible mejorar la fiabilidad y aplicabilidad de los LLM en tareas que exigen precisión matemática, manteniendo al mismo tiempo su flexibilidad para interpretar y generar lenguaje natural.