Bandidos contextuales con supervisión humana para precios de alquiler temporal
Bandidos contextuales con aprobación humana reducen el cold-start de 150 a 30 episodios. Aprende la estrategia warm-up histórico.
Bandidos contextuales con aprobación humana reducen el cold-start de 150 a 30 episodios. Aprende la estrategia warm-up histórico.
Dos nuevas métricas detectan sobreuso léxico y cambios de preferencia en LLMs sin supervisión manual. Resultados del estudio.
Descubre cómo clasificar y predecir fallos en RLHF como reward hacking y colapso. Estudio empírico con PPO y DPO que revela dinámicas ocultas.
Descubre RobotValues, el benchmark que revela cómo los robots domésticos eligen entre valores en conflicto. ¿Privacidad o eficiencia? Resultados sorprendentes.
Descubre cómo implementar un sistema de rollback para agentes autónomos, con snapshots, kill switch y supervisión humana. Evita daños en producción.
Descubre cómo los algoritmos de AutoEval usan datos sintéticos para reducir costos de anotación humana y aumentar la muestra efectiva hasta un 50% con GPT-4.
Descubre cómo los agentes económicos basados en IA generan expectativas macroeconómicas similares a las humanas en experimentos de encuesta.
Descubre GIFT: robots transfieren habilidades de manipulación desde una sola demostración humana usando geometría y mapas funcionales.
Descubre cómo GREAT genera ataques backdoor en RLHF usando desencadenantes emocionales. Revela nuevas vulnerabilidades en seguridad de IA.
MASCOT mejora consistencia y diálogo en agentes multi-sistema, evitando redundancias. Descubre su optimización bi-nivel para compañeros socio-colaborativos.
Nuevo marco de aprendizaje por refuerzo offline que aprende representaciones sin recompensa y las afina con preferencias humanas, superando a métodos tradicionales en eficiencia.
Descubre cómo el modelo bayesiano no negativo (BNRM) mitiga el hackeo de recompensas en RLHF, mejorando la robustez y la interpretabilidad de los modelos de lenguaje.
Descubre cómo se documentan las anotaciones humanas en investigaciones de PLN entre 2018 y 2025, y qué aspectos clave suelen omitirse.
Descubre cómo un nuevo método de perturbación perceptual y modelado de recompensa corrige el sesgo en evaluaciones de LLMs multimodales. Más preciso y alineado con humanos.
Descubre TukaBench, el primer benchmark cultural de jailbreak para lenguas africanas. Evalúa la seguridad de LLMs y la confiabilidad de los jueces automáticos.
La exploración explícita clave para optimizar preferencias Nash en modelos de lenguaje: nuevo algoritmo logra mejor equilibrio y menor arrepentimiento.
Modelo ligero de TCN con atención guiada por física para HAR con WiFi CSI. Reduce costos computacionales y mejora precisión.
Los agentes de IA pueden desviarse de su propósito incluso en tareas cotidianas. Un estudio revela que mejor rendimiento conlleva mayor desalineación. Descubre cómo.
Descubre MobEvolve, el primer sistema heurístico auto-evolutivo con agentes que genera trayectorias de movilidad humana interpretables y realistas, superando modelos profundos y LLM.
Conoce CV-Arena: un benchmark abierto con 12K pares de imágenes para evaluar edición guiada por instrucciones, combinando preferencias humanas e IA.