REAL: Aprendizaje por Refuerzo Consciente de Regresión para Juez LLM
REAL: nuevo método de RL con regresión que mejora la evaluación de LLMs. Aumenta correlación hasta +18. Ideal para desarrolladores de IA.
REAL: nuevo método de RL con regresión que mejora la evaluación de LLMs. Aumenta correlación hasta +18. Ideal para desarrolladores de IA.
Descubre cómo VeriGate mejora GRPO con supervisión a nivel de paso, eliminando gradientes nulos y mejorando la precisión en razonamiento hasta un 20%.
Descubre cómo el algoritmo CFO equilibra recompensa y restricciones en el diseño molecular mediante ajuste fino secuencial. Resultados prometedores.
Softmax Recocido logra arrepentimiento casi óptimo en bandidos Bayesianos, explicando por qué GRPO funciona sin incertidumbre explícita.
EchoRL identifica EchoClips en rollouts exitosos para proporcionar supervisión auxiliar y mejorar el aprendizaje por refuerzo en LLMs, superando la degeneración de ventajas.
Descubre la Representación Terminal (TR), una nueva formulación en RL que elimina la necesidad de eigenvectores para tareas como descubrimiento de opciones y tr
Optimiza el bienestar social en sistemas multiagente: descubre por qué recompensa y castigo no son igual de efectivos.