SCALE: Planificación escalable de workflows agénticos con atención cruzada
SCALE es un planificador DRL que escala a clústeres de cualquier tamaño sin reentrenamiento, reduciendo el tiempo de respuesta hasta un 8.9%.
SCALE es un planificador DRL que escala a clústeres de cualquier tamaño sin reentrenamiento, reduciendo el tiempo de respuesta hasta un 8.9%.
Progress-SQL: recompensas progresivas para mejorar generación de SQL con RL. Resultados en BIRD y Spider.
JitRL permite a agentes LLM aprender continuamente sin gradientes, reduciendo costes 30x y superando métodos tradicionales. Descúbrelo en Q2BSTUDIO.
ViVa usa video generativo para predecir el futuro del robot y evaluar el progreso, logrando un 80% de éxito en manipulación robótica.
Descubre ULPS: un marco que integra LLM calibrados en RL para mejorar la eficiencia en entornos con recompensas escasas. Resultados prometedores en MiniGrid.
Nuevo benchmark Learn2Match usa IA para optimizar mercados de emparejamiento bilateral con retroalimentación temporal. Mejora eficiencia y reduce regret.
Descubre cómo la variación de rendimiento entre ejecuciones afecta a los algoritmos de RL y nuevas métricas basadas en percentiles para evaluarla.
Descubre cómo MARL optimiza mercados de emparejamiento con retroalimentación extendida, superando a métodos tradicionales en bienestar social y regret.
Descubre cómo la variación de rendimiento afecta a algoritmos de deep RL y nuevas métricas percentiles para evaluarla. Casos con PPO, SAC, DQN y más.
Descubre GenPO++: un marco de optimización de políticas generativas con razones de verosimilitud exactas y sin Jacobiano para RL on-policy, mejorando estabilidad y eficiencia.
Descubre RASFT, un nuevo método de fine-tuning que combina supervisión experta con rollouts adaptativos para mejorar el razonamiento en modelos de lenguaje. Res
Las preguntas adaptativas y sondas del modelo del mundo permiten entrenar agentes de IA que explican su comportamiento y se adaptan a cambios.
Descubre Q-Evolve: un marco que permite a los agentes LLM auto-evolucionar optimizando en distribución, mejorando la toma de decisiones a largo plazo con recompensas dispersas.
Descubre cómo un rover planetario con suspensión activa aprende a navegar terrenos extremos mediante IA y refuerzo, reduciendo el costo de transporte un 37%.
Q-Evolve permite que agentes LLM se automejoren con optimización en distribución, superando recompensas dispersas. Mayor eficiencia y robustez.
GReinSS aplica gradientes de política dinámicos para modelar estructuras latentes discretas. Supera a RSEM en reconstrucción de isoformas de ARN.
Descubre AutoTool, un framework que permite a los modelos de lenguaje seleccionar herramientas dinámicamente, mejorando razonamiento matemático, código y multimodal hasta un 7.7%.
SERNF: ajuste fino eficiente de políticas diestras en robótica real. Usa flujos normalizantes y críticos por bloques para adaptación estable con pocas muestras.
Descubre cómo un rover planetario con suspensión activa aprende a navegar terrenos extremos. Reduce un 37% el costo de transporte en pendientes arenosas.
Descubre AdaGRPO: algoritmo de RL adaptativo para modelos de flujo T2I. Mejora selección de prompts y estimación de ventajas. ¡Optimiza tu entrenamiento!