AgentLeak: Benchmark de fuga de privacidad en sistemas multi-agente LLM
AgentLeak revela que el 68.9% de los datos sensibles se filtran por mensajes entre agentes en sistemas multi-agente LLM, no solo en salidas finales. Descubre
AgentLeak revela que el 68.9% de los datos sensibles se filtran por mensajes entre agentes en sistemas multi-agente LLM, no solo en salidas finales. Descubre
SkillsBench evalúa habilidades de agente en 87 tareas: +16.6% de mejora. Ideal para desarrolladores que buscan optimizar agentes de IA.
Descubre cómo WorkflowPerturb evalúa métricas en flujos de trabajo multiagente con pruebas de estrés calibradas. Ideal para cambios seguros en sistemas IA.
JADE: un marco de evaluación dinámica basado en expertos para tareas profesionales abiertas. Mejora la estabilidad y detecta fallos críticos en agentes de IA.
Un nuevo benchmark revela que los sistemas multi-agente LLM exponen fugas de privacidad en canales internos que escapan a las auditorías tradicionales.
Descubre cómo SkillsBench mide el rendimiento de habilidades de agentes en 87 tareas. ¿Las habilidades curadas mejoran la tasa de aprobación? +16.6 pp.
Descubre WorkflowPerturb, un benchmark para evaluar métricas de flujos de trabajo multiagente con pruebas de estrés calibradas. Aprende a interpretar cambios y
Descubre cómo la escala de confianza afecta la metacognición de LLM y por qué una escala 0-20 mejora la eficiencia.
Descubre cómo el diseño de escala afecta la metacognición de LLM. La escala 0-20 mejora la eficiencia.
Explora EEG-FM-Bench, el benchmark integral para evaluar modelos fundamentales de EEG. 14 datasets y 10 paradigmas para análisis justo.
Descubre el rendimiento de clasificadores binarios sin rebalanceo. Evaluamos su robustez ante desbalance extremo con datos reales y sintéticos.
Descubre DualGauge, el primer framework automatizado que evalúa seguridad y funcionalidad en código generado por LLMs. Resultados que revelan la brecha entre
Descubre CycliST, el nuevo benchmark que evalúa la capacidad de los modelos de video-lenguaje para razonar sobre transiciones de estado cíclicas y patrones
Descubre la definición unificada de alucinación en IA: el modelo del mundo es la clave. Entiende por qué los LLM alucinan y cómo mitigarlo.
Descubre cómo el pragmatismo crítico mejora la transparencia y fiabilidad de las herramientas de IA para evaluar la credibilidad científica.
Descubre cómo la inteligencia artificial integra el análisis de ciclo de vida para descubrir materiales sostenibles más eficientes y ecológicos.
Descubre las principales amenazas de seguridad en sistemas de IA agente de largo plazo, métodos de evaluación y un marco para analizar la propagación de
Descubre cómo combinar RAG con LLMs para generar recomendaciones de lectura personalizadas. Aumenta relevancia y solidez hasta un 35%.
Descubre cómo se evalúa la robustez de la autoformalización de pruebas matemáticas en Lean 4 ante perturbaciones. ¿Los modelos LLM son fieles?
Descubre cómo un pipeline de juicio agente mejora el razonamiento arquitectónico en LLMs de código, logrando hasta un 540% de mejora en SWE-bench. ¡Lee más!