Sintetizar y Recompensar: Aprendizaje por Refuerzo para Herramientas Multi-Paso
Descubre PROVE: recompensas programáticas para mejorar el uso de herramientas multi-paso en LLMs. Resultados en BFCL, tau2-bench y T-Eval.
Descubre PROVE: recompensas programáticas para mejorar el uso de herramientas multi-paso en LLMs. Resultados en BFCL, tau2-bench y T-Eval.
Descubre SHARP: optimización con crédito Shapley para sistemas multiagente. Mejora resultados un 23% frente a métodos tradicionales. ¡Aprende más!
¿Micrófono o cámara no funcionan tras instalar FFmpeg? Solución paso a paso: deshabilita servicios, actualiza controladores y más. Recupera tu audio y video.
La CMA del Reino Unido obliga a Google a dar control a editores sobre su contenido en funciones de IA como AI Overviews. Descubre los detalles.
La CMA impone nuevas reglas a Google Search: los editores podrán negociar y optar por no participar en AI Overviews. Descubre los detalles.
Descubre CoMPAS3D, el dataset de captura de movimiento de salsa que permite evaluar robots humanoides en interacciones sociales con métricas objetivas.
Descubre cómo evaluamos la recomendación de expertos académicos con LLM, analizando intervenciones como temperatura, RAG y sesgos. Resultados sorprendentes.
CodeHacker genera pruebas adversariales para detectar vulnerabilidades en soluciones de programación competitiva. Mejora benchmarks y entrena modelos de IA.
Dataset RESCAST-100K: 100,000 hogares simulados para predicción de carga y temperatura. Ideal para transferencia de aprendizaje y adaptación de dominio.
Descubre HARVE, método sin entrenamiento que edita el vector de cabeza de recompensa para proteger modelos de lenguaje del hackeo, manteniendo su rendimiento.
Descubre HARVE, un método sin entrenamiento que edita el vector de recompensa para eliminar el reward hacking en modelos de lenguaje. Mejora robustez sin perder capacidad.
Hidden-Align alinea estados ocultos verificados para mejorar el razonamiento en RL, logrando hasta 6.2 puntos de mejora en benchmarks.
Hidden-Align alinea estados ocultos en modelos de lenguaje, mejorando el razonamiento matemático hasta un 6.2% en benchmarks. Técnica innovadora de RL.
Un sistema multiagente con validación por compuertas reduce un 19% el error en predicciones termohidráulicas bajo cambios de régimen operativo. Descubre cómo.
GEAR mitiga la propagación de crédito falso en RL con rubricas, logrando mejoras del 15.5% y reduciendo errores un 96.5%. Conoce cómo.
GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.
Skill-RM unifica criterios heterogéneos usando habilidades de agente para optimizar LLMs en entrenamiento posterior. ¡Prueba el nuevo modelo!
Descubre cómo medir la equidad en deep reinforcement learning para descubrimiento de fármacos en salud, evaluando sesgos en datos, recompensas y diversidad química.
DriftSched optimiza la programación GPU multi-inquilino con compensación adaptativa de deriva de tokens, reduciendo latencia un 42% y mejorando QoS.
Descubre cómo evitar el sesgo sistémico en RL auto-recompensante y mejorar el rendimiento de LLMs con nuestro método RLER. ¡Lee aquí!