#regularización de entropía

Policy Split: Exploración de modo dual en RL para LLM

Descubre cómo Policy Split mejora la exploración dual en LLMs con regularización de entropía para mayor precisión y creatividad.

2026-06-04 · 2 min

Diversidad sobre frecuencia: repensar uso de herramientas en agentes visuales

La diversidad en exploración supera a la frecuencia de uso de herramientas. Descubre el colapso y cómo la regularización de entropía mejora el razonamiento.

2026-06-02 · 2 min