#aprendizaje por refuerzo

Transiciones de fase temáticas en IA: evidencia a gran escala

Descubre cómo los temas de IA avanzan mediante transiciones de fase y aprende a identificar señales de alerta temprana para los próximos grandes temas.

2026-06-12 · 2 min

Mental-R1: Alineando el razonamiento de LLM para la salud mental

Descubre cómo Mental-R1 y el marco CRPO mejoran la evaluación de trastornos mentales con razonamiento similar al humano. Precisión aumentada en un 10%.

2026-06-12 · 2 min

UXBench: Evaluación de la experiencia de usuario con modelos multimodales

Descubre UXBench, un nuevo benchmark con 2000 muestras para evaluar el razonamiento UX en modelos multimodales. UI-UX alcanza un 79.63% de precisión.

2026-06-12 · 3 min

Del veredicto al proceso: verificación factual con RL agéntico

Descubre cómo ProFact usa aprendizaje por refuerzo agéntico para optimizar la verificación de hechos en múltiples etapas, mejorando precisión y eficiencia.

2026-06-12 · 2 min

ProFact: Optimización multi-etapa de verificación de hechos con RL agéntico

Descubre cómo ProFact optimiza la verificación de hechos multi-etapa con aprendizaje por refuerzo agéntico y recompensas de proceso. ¡Lee más!

2026-06-12 · 2 min

ReSum: Sinergia entre Razonamiento y Resumen de LLMs con RL

Descubre cómo ReSum, un nuevo marco de RL, mejora el razonamiento de LLMs un 4% y reduce el largo de las cadenas un 18.6% mediante auto-resúmenes.

2026-06-12 · 2 min

ReSum: Sinergizando Razonamiento de LLM y Resumen con Aprendizaje por Refuerzo

Descubre ReSum, que combina aprendizaje por refuerzo y autosummarización para mejorar el razonamiento de LLMs reduciendo su longitud en un 18.6%.

2026-06-12 · 3 min

IterCAD: Un Agente Multimodal Iterativo para Generación y Edición de CAD

Descubre IterCAD, un agente multimodal que revoluciona la generación y edición de CAD con cierre de bucle, precisión geométrica y ejecución de código.

2026-06-12 · 2 min

IterCAD: Un Agente Multimodal Iterativo para Generación y Edición de CAD

Descubre IterCAD, un agente multimodal que revoluciona la generación y edición de CAD con IA iterativa. Benchmark y precisión sin sesgo.

2026-06-12 · 3 min

Modelado de Recompensa para Orquestación Multi-Agente

Descubre OrchRM, un marco auto-supervisado que mejora hasta 10x la eficiencia de tokens y un 8% la precisión en orquestación multi-agente sin anotaciones humanas.

2026-06-12 · 2 min

Optimización de despacho tripartito con RL multiagente y feedback retardado

Descubre cómo DoorDash optimiza el despacho en marketplaces tripartitos usando aprendizaje por refuerzo multiagente con feedback retardado, mejorando eficiencia sin sacrificar calidad.

2026-06-12 · 2 min

Síntesis de escudos: análisis de defendibilidad para redes adversariales

Descubre el nuevo enfoque: la síntesis de escudos como herramienta de diseño para evaluar la defendibilidad de redes adversariales.

2026-06-12 · 2 min

ReCal: Calibración de recompensas para enrutamiento de LLMs con RL

ReCal calibra recompensas para enrutamiento de LLMs con RL, mejorando asignación de crédito y reduciendo sesgos. Aumenta rendimiento y estabilidad.

2026-06-12 · 1 min

DPOP: Optimización directa de preferencias con penalización

Descubre cómo DPOP mejora DPO con penalización selectiva. Logra 5.3% más victorias en AlpacaEval 2.0. Ideal para optimización de preferencias.

2026-06-12 · 2 min

Foresight: Razonamiento iterativo sobre pistas clave para navegación

Descubre Foresight, un marco de razonamiento iterativo que mejora un 37% el éxito de navegación y reduce un 52% las intervenciones en robots, usando VLMs.

2026-06-12 · 2 min

Destilación de Crédito Guiada por Hermanos para Agentes Tool-Use

SGCD mejora la asignación de crédito en agentes tool-use con destilación guiada por hermanos, superando a GRPO en AppWorld y τ3-airline.

2026-06-12 · 2 min

SymQNet: Adquisición Amortizada para Aprendizaje Hamiltoniano Adaptativo

SymQNet aplica aprendizaje por refuerzo para reducir la latencia en el aprendizaje adaptativo de Hamiltonianos. Ideal para experimentos cuánticos repetitivos.

2026-06-12 · 2 min

Stubborn: RL unificado para movimiento robusto y recuperación de caídas

Descubre Stubborn, un marco de RL unificado que permite a humanoides seguir movimientos y recuperarse de caídas. Terminación probabilística y muestreo adaptativo mejoran la robustez.

2026-06-12 · 2 min

Superando el aislamiento modal en el pensamiento intercalado

Aislamiento modal en razonamiento intercalado reduce coherencia. MoTiF supervisa transiciones con refuerzo paso a paso para mejorar precisión en tareas.

2026-06-12 · 3 min

PolicyGuard: defensa adversarial en tiempo de prueba y por paso para RL

PolicyGuard defiende agentes de RL contra ataques backdoor en tiempo de prueba, usando procesos Gaussianos para detectar anomalías paso a paso. Resultados state-of-the-art.

2026-06-12 · 2 min