#optimización de política

Conjunto semi-algebraico de valor en POMDPs

Aprende cómo el conjunto semi-algebraico de la función de valor en POMDPs revela una geometría no lineal y maximizadores locales.

2026-06-03 · 3 min

Optimización de Políticas Guiada por Física con Autodestilación

Descubre PGPO, un nuevo método de optimización guiado por la física que estabiliza el post-entrenamiento de LLMs, mejorando hasta 4.5 puntos en Science-QA.

2026-06-03 · 2 min

Planificación incierta: simetrías, inferencia de políticas y compresión

Descubre cómo las simetrías, la inferencia de políticas y la compresión de soluciones revolucionan la planificación con incertidumbre en IA.

2026-06-03 · 2 min

FGRPO: Aprendizaje Federado con Agregación Adaptativa en Datos No IID

FGRPO: fine-tuning privado de modelos de lenguaje con agregación adaptativa en datos no IID. Mejora el razonamiento sin exponer datos.

2026-06-03 · 2 min

FGRPO: Federated GRPO con Agregación Adaptativa en Datos No IID

FGRPO optimiza modelos de razonamiento con agregación adaptativa en datos no IID, preservando privacidad.

2026-06-03 · 2 min

Mecanismos de salud con búsqueda de Policy-as-Code y respuesta estratégica

Optimiza mecanismos sanitarios con Policy-as-Code y simulación multiagente. Un programa evolutivo elimina la sobrecodificación y reduce rechazos. ¡Descubre cómo!

2026-06-03 · 2 min

Destilación de feedback de LLM para demostración de teoremas en Lean

Aprende sobre Feedback Distillation, un método que mejora la demostración de teoremas en Lean4 superando al GRPO. Incrementa diversidad y eficiencia en el entrenamiento de modelos de razonamiento.

2026-06-03 · 2 min

Optimización de políticas con recompensas híbridas eficientes en energía

Descubre cómo H-EARS mejora eficiencia energética y estabilidad en RL con recompensas híbridas guiadas por física. Resultados en benchmarks y simulaciones.

2026-06-03 · 2 min

IAPO: Optimización de Políticas Informada para Razonamiento Eficiente en Tokens

Descubre IAPO: asigna ventajas a cada token según información mutua. Reduce razonamiento hasta 36% sin perder precisión. Optimiza tus modelos de lenguaje.

2026-06-03 · 2 min

Optimización de políticas sin valor mediante partición de recompensas

Descubre RPO, un método que elimina la función de valor en optimización de preferencias. Más estable, diverso y con menos toxicidad que DRO y KTO. Ideal para alinear LLMs.

2026-06-02 · 1 min

FM-IRL: Flow-Matching para modelado de recompensas y regularización en RL

Descubre cómo FM-IRL combina Flow-Matching con RL para mejorar la exploración y generalización en políticas de aprendizaje por refuerzo.

2026-06-02 · 2 min

Optimización de Políticas con Mean Flow (MFPO)

Descubre cómo MFPO acelera el entrenamiento e inferencia en aprendizaje por refuerzo superando limitaciones de modelos de difusión.

2026-06-02 · 1 min

TrOPD: Destilación On-Policy con Región de Confianza

TrOPD estabiliza la destilación on-policy de LLMs usando regiones de confianza, superando la divergencia profesor-alumno. Mejora razonamiento, código y benchmarks.

2026-06-02 · 2 min

Optimización offline regularizada con creencia bayesiana híbrida posterior

Nuevo método unifica incertidumbre epistémica y de modelo en RL offline. Optimización regularizada con creencia bayesiana híbrida.

2026-06-02 · 2 min

Exploración emergente en RL vía reintentos con gradiente de políticas

Descubre cómo ReMax y RePPO logran exploración emergente en RL optimizando políticas mediante reintentos. Resultados en MinAtar y Craftax.

2026-06-02 · 2 min

OpenWebRL: Aprendizaje por Refuerzo Multiturno Online para Agentes Web Visuales

OpenWebRL logra un 67% de éxito en benchmarks, superando a agentes propietarios. Descubre cómo entrenar agentes web visuales con RL online de código abierto.

2026-06-02 · 2 min

Elusión de detectores de IA en paráfrasis de LLM con optimización

Descubre cómo DEPO evade detectores de texto generado por IA manteniendo la semántica original. Un avance en paráfrasis segura y eficaz para investigadores.

2026-06-02 · 2 min

ReSkill: Reconciliando creación de habilidades con optimización en RL agéntico

Descubre ReSkill, un marco que integra la creación de habilidades en el RL agéntico para optimizar políticas y mejorar el rendimiento en tareas no vistas.

2026-06-02 · 2 min

Aprender cuándo no actuar: mitigar abuso de herramientas en RL agente

Descubre cómo EAPO mejora la precisión en modelos de IA reduciendo el abuso de herramientas. Aprende cuándo no actuar y optimiza el rendimiento.

2026-06-02 · 2 min

¿Son suficientes los LLMs como optimizadores de políticas en RL?

¿Cuándo son suficientes los LLMs como optimizadores de políticas en RL? PromptPO iguala o supera algoritmos clásicos. Conoce sus límites en control continuo.

2026-06-01 · 2 min