#matemáticos

Motor de búsqueda semántica y clasificador en ResearchMath-14k

Motor de búsqueda semántica y clasificador en ResearchMath-14k

Aprende a construir un motor de búsqueda semántica y un clasificador de estado abierto sobre el dataset ResearchMath-14k usando embeddings, clustering y machine learning.

2026-06-05 · 3 min

Flujos de trabajo iniciales en formalización de pruebas con IA

Flujos de trabajo iniciales en formalización de pruebas con IA

Estudio revela cómo los matemáticos integran IA en la formalización de pruebas. La IA mejora la precisión y transforma los flujos de trabajo.

2026-06-04 · 1 min

Aprendizaje por Refuerzo desde Retroalimentación Rica con DAgger Distribucional

Aprendizaje por Refuerzo desde Retroalimentación Rica con DAgger Distribucional

Descubre DistIL: aprendizaje por refuerzo con retroalimentación rica para razonamiento, código y matemáticas. ¡Lee más!

2026-06-04 · 3 min

Aprendizaje por Refuerzo con Retroalimentación Enriquecida usando DAgger Distribucional

Aprendizaje por Refuerzo con Retroalimentación Enriquecida usando DAgger Distribucional

Descubre cómo DistIL optimiza el aprendizaje por refuerzo usando retroalimentación rica (trazas, correcciones, autoevaluación) para mejorar en razonamiento, código y matemáticas.

2026-06-04 · 2 min

Alinear estados ocultos verificados mejora razonamiento en RL

Alinear estados ocultos verificados mejora razonamiento en RL

Hidden-Align alinea estados ocultos verificados para mejorar el razonamiento en RL, logrando hasta 6.2 puntos de mejora en benchmarks.

2026-06-03 · 2 min

Modelado de lenguaje conforme mediante muestreo posterior

Modelado de lenguaje conforme mediante muestreo posterior

Descubre cómo el muestreo posterior calibrado reduce las alucinaciones en LLMs, mejorando coherencia y utilidad en generación de texto.

2026-06-03 · 2 min

Meta-conciencia en modelos de razonamiento con recompensas predictivas

Meta-conciencia en modelos de razonamiento con recompensas predictivas

Descubre cómo MAPR usa recompensas predictivas para aumentar la precisión en modelos de razonamiento, acelerando el entrenamiento GRPO hasta 1.28x.

2026-06-02 · 2 min

OmniOPD: Destilación On-Policy sin Logits con Verificación Especulativa

OmniOPD: Destilación On-Policy sin Logits con Verificación Especulativa

Descubre OmniOPD: destilación on-policy sin logits que mejora matemáticas +28% y supera a modelos propietarios.

2026-06-02 · 3 min

Resolviendo problemas de construcción de respuestas con Lean formalmente

Resolviendo problemas de construcción de respuestas con Lean formalmente

Descubre cómo el marco ECP combina LLMs y Lean para resolver problemas de construcción de respuestas con pruebas formales verificadas.

2026-06-02 · 2 min

FormInv: Un Protocolo de Medición para la Invariancia Semántica en Puntos de Referencia de Razonamiento Matemático

FormInv: Un Protocolo de Medición para la Invariancia Semántica en Puntos de Referencia de Razonamiento Matemático

FormInv te enseña cómo medir la invariancia semántica en benchmarks matemáticos. Guía clara para evaluar la consistencia de modelos.

2026-05-30 · 2 min