Detección económica de reward hacking
Nuevo método detecta reward hacking con AUC 0.9467 y costo 10,000 veces menor que un LLM. Ideal para sistemas de IA seguros.
Nuevo método detecta reward hacking con AUC 0.9467 y costo 10,000 veces menor que un LLM. Ideal para sistemas de IA seguros.
Descubre cómo el estudio PRIME revela que la IA aprende a explotar recompensas proxy antes de hackear, ofreciendo una señal temprana de desalineamiento.
AdMem integra memoria semántica, episódica y procedural en un sistema bi-nivel para que agentes de IA resuelvan tareas largas con mayor robustez y escalabilidad. ¡Descubre cómo!
Descubre cómo PTD-PO optimiza políticas multimodales sin revelar respuestas, mejorando el razonamiento complejo.
StainFlow mejora el RL en agentes GUI con un modelo que rastrea manchas de entidades y vincula evidencia, aumentando un 3.2% el éxito en entornos dinámicos.
Descubre el modelo online de la Caja de Pandora para cascada contextual de LLM: aprende a seleccionar APIs de lenguaje con mínimo regret gracias a la estimación de índices de reserva y GMM.
¿Tu LLM personaliza bien a usuarios reales? Estudio revela brechas entre datos sintéticos y humanos. Descubre intervenciones para mejorar la extracción y relevancia.
Progress-SQL: recompensas progresivas para mejorar generación de SQL con RL. Resultados en BIRD y Spider.
Descubre ULPS: un marco que integra LLM calibrados en RL para mejorar la eficiencia en entornos con recompensas escasas. Resultados prometedores en MiniGrid.
Descubre Q-Evolve: un marco que permite a los agentes LLM auto-evolucionar optimizando en distribución, mejorando la toma de decisiones a largo plazo con recompensas dispersas.
GReinSS: aprende distribuciones de estados latentes que maximizan la verosimilitud de datos. Supera a VAE y RSEM en reconstrucción de isoformas de ARN.
Q-Evolve permite que agentes LLM se automejoren con optimización en distribución, superando recompensas dispersas. Mayor eficiencia y robustez.
Descubre AdaJudge: mejora la discriminación fina y la agregación adaptativa para modelar recompensas en LLMs, superando modelos tradicionales.
Descubre cómo un crítico con Transformer y retornos N-paso mejora el SAC en tareas de horizonte largo y recompensas dispersas, superando métodos estándar.
Descubre cómo SlimSearcher optimiza agentes de búsqueda profunda, reduciendo costos computacionales hasta 58% sin sacrificar precisión.
Descubre Socratic-SWE, un marco de evolución cerrada que reutiliza trazas de resolución para mejorar agentes de ingeniería de software, alcanzando un 50.40% en SWE-bench Verified.
Descubre cómo OPT* entrena LLMs con razonamiento paso a paso en optimización. Usa recompensas verificables y RL para espacios de búsqueda complejos.
Aprende cómo la calibración por contexto y la entropía mejoran la detección de riesgos en agentes LLM frente a hackeos de recompensa.
Descubre InfoDensity, un nuevo método de recompensa que optimiza el razonamiento de LLMs, reduciendo verbosidad y mejorando precisión y eficiencia.
Descubre cómo EBM-RL optimiza el aprendizaje por refuerzo descompuesto para crear diálogos inmersivos en videojuegos de rol, mejorando atmósfera y autenticidad.