Transiciones de fase temáticas en IA: evidencia a gran escala
Descubre cómo los temas de IA avanzan mediante transiciones de fase y aprende a identificar señales de alerta temprana para los próximos grandes temas.
Descubre cómo los temas de IA avanzan mediante transiciones de fase y aprende a identificar señales de alerta temprana para los próximos grandes temas.
Descubre cómo Mental-R1 y el marco CRPO mejoran la evaluación de trastornos mentales con razonamiento similar al humano. Precisión aumentada en un 10%.
Descubre UXBench, un nuevo benchmark con 2000 muestras para evaluar el razonamiento UX en modelos multimodales. UI-UX alcanza un 79.63% de precisión.
Descubre cómo ProFact usa aprendizaje por refuerzo agéntico para optimizar la verificación de hechos en múltiples etapas, mejorando precisión y eficiencia.
Descubre cómo ProFact optimiza la verificación de hechos multi-etapa con aprendizaje por refuerzo agéntico y recompensas de proceso. ¡Lee más!
Descubre cómo ReSum, un nuevo marco de RL, mejora el razonamiento de LLMs un 4% y reduce el largo de las cadenas un 18.6% mediante auto-resúmenes.
Descubre ReSum, que combina aprendizaje por refuerzo y autosummarización para mejorar el razonamiento de LLMs reduciendo su longitud en un 18.6%.
Descubre IterCAD, un agente multimodal que revoluciona la generación y edición de CAD con cierre de bucle, precisión geométrica y ejecución de código.
Descubre IterCAD, un agente multimodal que revoluciona la generación y edición de CAD con IA iterativa. Benchmark y precisión sin sesgo.
Descubre OrchRM, un marco auto-supervisado que mejora hasta 10x la eficiencia de tokens y un 8% la precisión en orquestación multi-agente sin anotaciones humanas.
Descubre cómo DoorDash optimiza el despacho en marketplaces tripartitos usando aprendizaje por refuerzo multiagente con feedback retardado, mejorando eficiencia sin sacrificar calidad.
Descubre el nuevo enfoque: la síntesis de escudos como herramienta de diseño para evaluar la defendibilidad de redes adversariales.
ReCal calibra recompensas para enrutamiento de LLMs con RL, mejorando asignación de crédito y reduciendo sesgos. Aumenta rendimiento y estabilidad.
Descubre cómo DPOP mejora DPO con penalización selectiva. Logra 5.3% más victorias en AlpacaEval 2.0. Ideal para optimización de preferencias.
Descubre Foresight, un marco de razonamiento iterativo que mejora un 37% el éxito de navegación y reduce un 52% las intervenciones en robots, usando VLMs.
SGCD mejora la asignación de crédito en agentes tool-use con destilación guiada por hermanos, superando a GRPO en AppWorld y τ3-airline.
SymQNet aplica aprendizaje por refuerzo para reducir la latencia en el aprendizaje adaptativo de Hamiltonianos. Ideal para experimentos cuánticos repetitivos.
Descubre Stubborn, un marco de RL unificado que permite a humanoides seguir movimientos y recuperarse de caídas. Terminación probabilística y muestreo adaptativo mejoran la robustez.
Aislamiento modal en razonamiento intercalado reduce coherencia. MoTiF supervisa transiciones con refuerzo paso a paso para mejorar precisión en tareas.
PolicyGuard defiende agentes de RL contra ataques backdoor en tiempo de prueba, usando procesos Gaussianos para detectar anomalías paso a paso. Resultados state-of-the-art.