#math

Pensamiento Especulativo: grandes modelos mejoran el razonamiento

Mejora la precisión de modelos pequeños hasta un 6.2% usando guía de modelos grandes sin entrenamiento. Descubre Speculative Thinking.

2026-06-04 · 2 min

Anclajes de Relleno Dinámico para Generación con Formato Restringido

Los Anclajes de Relleno Dinámico (DIA) optimizan la generación con formato restringido, logrando avances zero-shot en GSM8K y MATH.

2026-06-04 · 2 min

PyraMathBench: Evaluando y mejorando capacidad matemática en LLMs

Descubre PyraMathBench: evalúa y mejora la capacidad matemática de los LLMs con 32,505 preguntas y técnicas como SOLVE e IRPO.

2026-06-03 · 1 min

Verificación con herramientas para escalar cómputo en modelos pequeños de IA

Aprende cómo T1 permite a modelos pequeños de IA verificar respuestas con herramientas externas, logrando rendimiento superior a modelos 8 veces mayores.

2026-06-02 · 3 min

EST-PRM: Pruebas de estrés a modelos de recompensa de proceso

EST-PRM pone a prueba la estabilidad de los modelos de recompensa de proceso ante transformaciones que distorsionan la calibración de recompensas.

2026-06-02 · 2 min

Inferencia de bajo bit extremo en modelos de razonamiento: fallos y recuperación

Descubre cómo la inferencia 2-bit en modelos de razonamiento genera fallos como bucles y cómo la planificación y rescate recuperan precisión hasta 87%.

2026-06-02 · 2 min

Hermes: razonamiento matemático eficiente y verificable en LLMs

Descubre Hermes: agente que combina razonamiento informal y verificación formal en Lean para mejorar precisión matemática en LLMs un 40% con 80% menos coste.

2026-06-01 · 1 min

Math.random() no es lo suficientemente aleatorio. Lo encontré generando claves API en un repositorio de 44K estrellas.

Math.random() no es seguro para claves API. Error en un repo de 44K estrellas. Descubre por qué es peligroso y cómo evitarlo.

2026-05-30 · 2 min