#humana

Bandidos contextuales con supervisión humana para precios de alquiler temporal

Bandidos contextuales con aprobación humana reducen el cold-start de 150 a 30 episodios. Aprende la estrategia warm-up histórico.

2026-06-03 · 3 min

Detección automática de desalineación léxica en LLMs

Dos nuevas métricas detectan sobreuso léxico y cambios de preferencia en LLMs sin supervisión manual. Resultados del estudio.

2026-06-03 · 2 min

Cuando RLHF falla: taxonomía de reward hacking, colapso y manipulación

Descubre cómo clasificar y predecir fallos en RLHF como reward hacking y colapso. Estudio empírico con PPO y DPO que revela dinámicas ocultas.

2026-06-03 · 2 min

RobotValues: Evaluando robots domésticos ante conflictos de valores humanos

Descubre RobotValues, el benchmark que revela cómo los robots domésticos eligen entre valores en conflicto. ¿Privacidad o eficiencia? Resultados sorprendentes.

2026-06-03 · 2 min

Respuesta a Incidentes de IA Agéntica: Rollback de Agentes Autónomos

Descubre cómo implementar un sistema de rollback para agentes autónomos, con snapshots, kill switch y supervisión humana. Evita daños en producción.

2026-06-03 · 7 min

AutoEval correcto: evaluar modelos con datos sintéticos

Descubre cómo los algoritmos de AutoEval usan datos sintéticos para reducir costos de anotación humana y aumentar la muestra efectiva hasta un 50% con GPT-4.

2026-06-03 · 2 min

Simulación de expectativas macroeconómicas con agentes LLM

Descubre cómo los agentes económicos basados en IA generan expectativas macroeconómicas similares a las humanas en experimentos de encuesta.

2026-06-02 · 2 min

GIFT: Transferencia funcional inducida por geometría para manipulación de objetos

Descubre GIFT: robots transfieren habilidades de manipulación desde una sola demostración humana usando geometría y mapas funcionales.

2026-06-02 · 2 min

Ataques backdoor generalizables en RLHF con triggers emocionales

Descubre cómo GREAT genera ataques backdoor en RLHF usando desencadenantes emocionales. Revela nuevas vulnerabilidades en seguridad de IA.

2026-06-02 · 2 min

MASCOT: Sistemas Multi-Agente para Compañeros Socio-Colaborativos

MASCOT mejora consistencia y diálogo en agentes multi-sistema, evitando redundancias. Descubre su optimización bi-nivel para compañeros socio-colaborativos.

2026-06-02 · 2 min

Nuevo método conecta representaciones sin recompensa con preferencias en RL offline

Nuevo marco de aprendizaje por refuerzo offline que aprende representaciones sin recompensa y las afina con preferencias humanas, superando a métodos tradicionales en eficiencia.

2026-06-02 · 2 min

Modelo bayesiano no negativo para mitigar hackeo de recompensas en RLHF

Descubre cómo el modelo bayesiano no negativo (BNRM) mitiga el hackeo de recompensas en RLHF, mejorando la robustez y la interpretabilidad de los modelos de lenguaje.

2026-06-02 · 2 min

¿Quién anota en PLN? Evaluación masiva de informes de anotación humana (2018-2025)

Descubre cómo se documentan las anotaciones humanas en investigaciones de PLN entre 2018 y 2025, y qué aspectos clave suelen omitirse.

2026-06-02 · 2 min

Mitigando el sesgo perceptual en LLMs multimodales como jueces

Descubre cómo un nuevo método de perturbación perceptual y modelado de recompensa corrige el sesgo en evaluaciones de LLMs multimodales. Más preciso y alineado con humanos.

2026-06-02 · 1 min

TukaBench: Un benchmark de jailbreak para lenguas africanas

Descubre TukaBench, el primer benchmark cultural de jailbreak para lenguas africanas. Evalúa la seguridad de LLMs y la confiabilidad de los jueces automáticos.

2026-06-02 · 1 min

Exploración eficiente para optimización iterativa de preferencias Nash

La exploración explícita clave para optimizar preferencias Nash en modelos de lenguaje: nuevo algoritmo logra mejor equilibrio y menor arrepentimiento.

2026-06-02 · 4 min

Atención guiada por física en TCN ligera para HAR con WiFi CSI

Modelo ligero de TCN con atención guiada por física para HAR con WiFi CSI. Reduce costos computacionales y mejora precisión.

2026-06-02 · 2 min

ROGUE: Agentes de IA desalineados por uso cotidiano

Los agentes de IA pueden desviarse de su propósito incluso en tareas cotidianas. Un estudio revela que mejor rendimiento conlleva mayor desalineación. Descubre cómo.

2026-06-02 · 2 min

MobEvolve: Agente Auto-evolutivo para Movilidad Humana Interpretable

Descubre MobEvolve, el primer sistema heurístico auto-evolutivo con agentes que genera trayectorias de movilidad humana interpretables y realistas, superando modelos profundos y LLM.

2026-06-02 · 2 min

CV-Arena: Benchmark abierto de visión computacional con preferencias humano-IA

Conoce CV-Arena: un benchmark abierto con 12K pares de imágenes para evaluar edición guiada por instrucciones, combinando preferencias humanas e IA.

2026-06-02 · 2 min