Pensando que los tokens no son iguales: Por qué los benchmarks no pueden distinguir entre 'Búsqueda' e 'Insight' (Un experimento de PCP)

He estado ejecutando experimentos para entender cómo distintos modelos de razonamiento gastan su presupuesto de pensamiento y los resultados sugieren que estamos frente a especies cognitivas completamente diferentes.

El problema elegido fue el problema de correspondencia posterior Post Correspondence Problem PCP explicado de forma sencilla. Imagina fichas tipo dominó donde en lugar de puntos cada ficha tiene una cadena de letras arriba y otra distinta abajo. Por ejemplo una ficha A con a arriba y ab abajo, una B con b arriba y ca abajo y una C con ca arriba y a abajo. El objetivo es ordenar las fichas para que la concatenación superior coincida exactamente con la concatenación inferior y en el experimento pedí además que la cadena final tuviera longitud 20. En general este problema es indecidible pero una instancia concreta y acotada de longitud fija es un problema de satisfacción de restricciones.

El experimento consistió en pedir a los modelos que construyeran un conjunto de fichas y un ensamblaje que produjera dos cadenas idénticas de longitud 20 con este prompt: Da un ejemplo del problema de correspondencia posterior en el que las dos cadenas finales son idénticas y tienen longitud 20. Las respuestas revelaron estrategias muy diferentes.

GPT razonamiento El programador por fuerza bruta Estrategia Simulación Comportamiento Generó primero un conjunto aleatorio de fichas y procedió a escribir un script en python para buscar soluciones mediante muestreo aleatorio limitado. En la práctica actuó como si el problema fuera un problema de cómputo puro I can write a loop to solve this problem y usó tokens de pensamiento para producir y verificar código.

Gemini 3 Pro El arquitecto Estrategia Ingeniería inversa Comportamiento En lugar de buscar, construyó la solución. Generó primero una cadena objetivo de longitud 20 y la dividió en pares superior inferior diseñando las fichas de forma que encajaran matemáticamente. Es una solución de tiempo constante O1 al problema si diseñas la cerradura desde el principio.

Claude 4.5 El simplificador heurístico Estrategia Patrón y heurística Comportamiento Buscó el camino de menor resistencia. En vez de programación compleja o rebanado quirúrgico encontró patrones repetitivos o ritmos aritméticos simples que garantizaban el balance de longitudes y así cumplía la restricción con una heurística eficiente y poco costosa en tokens.

La mayoría de modelos open source Estrategia Fuerza bruta ineficiente Comportamiento Propusieron fichas, concatenaron cadenas, vieron que no cuadraban y volvieron a intentar. En muchos casos la interacción fue una sucesión de intentos manuales y largos tiempos de espera que ocultaban trabajo de búsqueda indiscriminada.

DeepSeek 3.2 Speciale El triturador con matemáticas Estrategia Fuerza bruta con justificación matemática Comportamiento Intentó fuerza bruta pero desperdició gran cantidad de tokens documentando por qué ciertos intentos no podían funcionar usando razonamientos tipo ecuaciones diofánticas antes de seguir intentando. La matemática mejoró levemente la búsqueda pero no evitó el coste tokenal elevado.

Conclusión y lecciones El experimento muestra que el término razonamiento agrupa métodos muy distintos. Cuando el mundo plantea problemas indecidibles o altamente costosos en búsqueda, una estrategia de arquitectura y diseño deliberado es superior a programar y probar hasta que algo funcione. En otras palabras GPT tiende a intentar forzar la cerradura escribiendo código que pruebe combinaciones mientras Gemini reconstruye la puerta para que ya esté abierta. Más allá del acierto o el error deberíamos evaluar modelos por la eficiencia computacional y por cuánto consumen en tokens para llegar a una solución.

Implicaciones para empresas y desarrollo de soluciones en Q2BSTUDIO En Q2BSTUDIO aplicamos estas lecciones al diseño de soluciones de inteligencia artificial y software a medida. Entendemos que no basta con que un sistema devuelva la respuesta correcta, importa el coste operacional, la trazabilidad y la seguridad. Como empresa de desarrollo de software y aplicaciones a medida ofrecemos servicios que integran modelos eficientes de IA, arquitecturas escalables y prácticas de ciberseguridad para proteger datos y procesos.

Si su proyecto necesita una estrategia basada en diseño y no en fuerza bruta podemos ayudarle a construir agentes IA eficientes, soluciones de ia para empresas, pipelines de datos y cuadros de mando con power bi. Contamos con experiencia en desarrollo de aplicaciones a medida y software a medida y en la integración de modelos de inteligencia artificial. También implementamos servicios cloud aws y azure y mejores prácticas de ciberseguridad y pentesting para asegurar su plataforma.

Ofrecemos además servicios de inteligencia de negocio, automatización de procesos y consultoría para convertir modelos experimentales en soluciones productivas y eficientes. Si busca reducir el coste por predicción, escalar agentes IA o desplegar soluciones con Power BI para la toma de decisiones, en Q2BSTUDIO podemos acompañarle en todo el ciclo desde la idea hasta la producción.

Palabras clave incluidas de forma natural para mejorar posicionamiento aplicaciones a medida software a medida inteligencia artificial ciberseguridad servicios cloud aws y azure servicios inteligencia de negocio ia para empresas agentes IA power bi

Compartir

Comentarios

También te puede interesar

Compañía de servicios AI PBX en Alicante

Top 5 empresas para aplicaciones en Barcelona

Principales 3 empresas de servicios de desarrollo tecnológico en Zizur Mayor

Los 30 mejores expertos en SEO Bots en Cieza

Patrones de gestión de estado para agentes de IA de larga duración: Redis vs StatefulSets vs Bases de datos externas

Principales 50 preguntas y respuestas de entrevistas de IA en Python