#recompensa

HIPIF: Planificación Jerárquica y Plegado de Información para Agentes LLM

Descubre cómo HIPIF optimiza agentes LLM mediante planificación jerárquica y plegado de información, reduciendo interferencias en tareas largas. Mejora el razonamiento y la toma de decisiones.

2026-06-10 · 4 min

Role-Agent: Agentes LLM con evolución de doble rol

Role-Agent: un framework que impulsa agentes LLM mediante evolución de doble rol, mejorando el rendimiento en más de un 4%.

2026-06-10 · 2 min

SD-GRPO: Descomposición verificable de segmentos en VL larga

SD-GRPO mejora la generación de respuestas largas en modelos multimodales al descomponer segmentos verificables y asignar recompensas precisas.

2026-06-10 · 2 min

STORM: Optimización Paso a Paso con Búsqueda de Haz Guiada por Recompensa

STORM optimiza consultas léxicas con búsqueda guiada por recompensa, permitiendo que modelos pequeños compitan con grandes sin reindexar.

2026-06-10 · 2 min

Más allá de la región de confianza uniforme por token en RL para LLMs

CPPO mejora la estabilidad y precisión del razonamiento en LLMs al superar las regiones de confianza uniformes. Nuevo enfoque de optimización.

2026-06-10 · 2 min

Más allá de la confianza uniforme en tokens en RL para LLM

CPPO mejora el razonamiento de LLM al reemplazar la confianza uniforme por divergencia de prefijo acumulativa. Mayor estabilidad y precisión.

2026-06-10 · 2 min

TRACE: Marco de asignación de presupuesto para RL agente eficiente

Descubre TRACE, un marco que optimiza la asignación de presupuesto de rollout en RL agente, mejorando el contraste de recompensas y la eficiencia en benchmarks.

2026-06-10 · 1 min

TRACE: Marco de asignación de rollout para RL agente eficiente

Descubre cómo TRACE asigna presupuesto de rollout a nodos prometedores en RL agente multi-turno, mejorando contraste de recompensas y rendimiento.

2026-06-10 · 2 min

Estimación de ventaja basada en representaciones: más que recompensa escalar

GraphAE usa representaciones ocultas del RM para estimar ventajas con grafos. Mejora el RLHF hasta +6.3 en Arena-Hard.

2026-06-10 · 2 min

Estimación de ventaja consciente de representación en RLHF

Descubre cómo GraphAE aprovecha las representaciones ocultas del modelo de recompensa para una estimación de ventajas más precisa en RLHF, mejorando rendimiento hasta +8.27 en AlpacaEval.

2026-06-10 · 2 min

FlowTracer: rastreo del flujo de razonamiento en LLMs

FlowTracer asigna crédito a tokens clave en LLMs trazando el flujo de razonamiento inducido por atención, mejorando el aprendizaje por refuerzo en tareas de razonamiento complejo.

2026-06-10 · 3 min

Explorando el diseño de retropropagación de recompensa para Flow Matching

Descubre FlowBP, un nuevo marco que optimiza la retropropagación de recompensa en modelos de Flow Matching, mejorando la alineación sin saturar la memoria.

2026-06-10 · 2 min

Sesgo de distancia de representación en modelos de recompensa

El sesgo de distancia en la pérdida BT distorsiona el aprendizaje de modelos de recompensa. NormBT lo corrige con normalización adaptativa, mejorando la precisión hasta un 5%.

2026-06-10 · 2 min

Aprendizaje por Refuerzo Basado en Modelos con Recompensas No Markovianas

Descubre QR-MAX, algoritmo que logra convergencia PAC y eficiencia en problemas de recompensa no markoviana.

2026-06-10 · 3 min

τ-Rec: Un benchmark verificable para sistemas de recomendación agentivos

Descubre τ-Rec, un benchmark que evalúa sistemas de recomendación agentivos con recompensas verificables. Revela una brecha crítica en fiabilidad.

2026-06-10 · 2 min

CAAL: Bandidos contextuales para selección de estrategias activas artesanales

CAAL usa bandidos contextuales para seleccionar dinámicamente estrategias de aprendizaje activo basadas en contexto externo.

2026-06-09 · 3 min

Lo fácil, lo difícil y lo aprendible: optimización adaptativa para LLM

Descubre CoDaPO: un método que asigna pesos adaptativos por dificultad y confianza para mejorar el razonamiento en LLM con aprendizaje por refuerzo. Resultados en 12 benchmarks.

2026-06-09 · 2 min

ConSteer-RL: Dirigiendo el razonamiento en LLMs con RL consciente de la confianza

Descubre ConSteer-RL: un nuevo método que mejora el razonamiento de LLMs usando señales de confianza con RL. Resultados: hasta 4% de mejora.

2026-06-09 · 2 min

ConSteer-RL: Dirigiendo razonamiento en LLMs con RL consciente de confianza

Descubre cómo ConSteer-RL mejora el razonamiento de LLMs usando señales de confianza, logrando mejoras del 2.3% al 4%.

2026-06-09 · 2 min

DynaCF: Mitigando el Aprendizaje por Atajos en Modelos de Recompensa

DynaCF reduce el aprendizaje superficial en modelos de recompensa mediante reajuste dinámico con contrafácticos, mejorando robustez y calidad de preferencias.

2026-06-09 · 1 min