Estabilidad vs. Manipulabilidad: Robustez en Jueces de IA
¿Son confiables los jueces de IA? Este estudio revela que aunque estables, pueden revertirse con desafíos posteriores, afectando rankings y preferencias humanas.
¿Son confiables los jueces de IA? Este estudio revela que aunque estables, pueden revertirse con desafíos posteriores, afectando rankings y preferencias humanas.
Los jueces LLM son estables en reevaluaciones neutrales, pero vulnerables a retos dirigidos. El ERS mide su robustez interaccional. Conoce sus implicaciones.
Descubre cómo MRAgent revoluciona la memoria de agentes LLM con un grafo asociativo y reconstrucción activa, mejorando el razonamiento en interacciones largas.
Descubre cómo el marco ANCHOR utiliza supervisión humana para estabilizar agentes auto-evolutivos, previniendo degradación sin afectar rendimiento.
Descubre ALMANAC, el primer dataset con anotaciones de modelos mentales para mejorar la colaboración entre humanos y agentes de IA. ¡Mejora tus agentes ahora!
Descubre cómo PERSUASIONTRACE modela la persuasión humana en diálogos multi-turno con IA, evaluando dinámicas de creencias y fidelidad de simulaciones.
Descubre PERSUASIONTRACE, un marco para analizar cómo los LLM persuaden en diálogos multironda. Un modelo bayesiano de rastreo de creencias revela la dinámica de la persuasión.
Descubre cómo una guía instruccional de cinco pasos mejora el rendimiento en tareas de razonamiento con IA generativa. Estudio controlado en ingeniería.
ContextEA mejora la alineación de entidades en grafos de conocimiento aprovechando el contexto estructural. Resultados superiores.
Investigación revela que el estimador ingenuo en RLVR mezcla elicitación y diseño de recompensas. Un nuevo método de partición causal permite auditar resultados.
SLMs ajustados con zero-shot logran 86.66% de precisión en roles líder-seguidor, superando a prompts. Ideal para computación edge.
Descubre cómo ZeroWBC permite a humanoides interactuar de forma natural sin teleoperación, aprendiendo de videos egocéntricos.
Descubre cómo la interacción humano-IA crea una super-política que supera al aprendizaje por refuerzo tradicional, incluso con confusión.
Descubre ContactExplorer, un método que usa cobertura de contacto para guiar la exploración en manipulación diestra, mejorando eficiencia y tasa de éxito en tareas complejas.
Descubre LifeSkill, un marco de co-evolución que mejora habilidades en agentes de IA durante la inferencia. Aumenta un 7% el rendimiento en tareas largas.
Aumenta un 3.7% la eficacia de agentes LLM con clarificación inteligente. Solo 0.3 interacciones extra. Optimiza tareas y reduce errores.
Descubre por qué los agentes de IA más débiles pueden ser mejores maestros. Las trayectorias guiadas por el entorno logran eficiencia de datos excepcional.
Aprende cómo un algoritmo SBL estima núcleos de interacción en el modelo Motsch-Tadmor, cuantificando incertidumbre a partir de datos de trayectoria.
Descubre CoMPAS3D, el dataset de captura de movimiento de salsa que permite evaluar robots humanoides en interacciones sociales con métricas objetivas.
Descubre cómo la elicitación causal de preferencias acelera el descubrimiento causal con consultas activas a expertos. Un enfoque bayesiano para concentrar la posterior sobre DAGs.