AgentLeak: Benchmark de fuga de privacidad en sistemas multi-agente LLM
AgentLeak revela que el 68.9% de los datos sensibles se filtran por mensajes entre agentes en sistemas multi-agente LLM, no solo en salidas finales. Descubre
AgentLeak revela que el 68.9% de los datos sensibles se filtran por mensajes entre agentes en sistemas multi-agente LLM, no solo en salidas finales. Descubre
SkillsBench evalúa habilidades de agente en 87 tareas: +16.6% de mejora. Ideal para desarrolladores que buscan optimizar agentes de IA.
Descubre cómo WorkflowPerturb evalúa métricas en flujos de trabajo multiagente con pruebas de estrés calibradas. Ideal para cambios seguros en sistemas IA.
JADE: un marco de evaluación dinámica basado en expertos para tareas profesionales abiertas. Mejora la estabilidad y detecta fallos críticos en agentes de IA.
Un nuevo benchmark revela que los sistemas multi-agente LLM exponen fugas de privacidad en canales internos que escapan a las auditorías tradicionales.
Descubre AIQI, el primer agente de IA universal sin modelo que logra optimalidad asintótica en aprendizaje por refuerzo general. Un avance revolucionario.
Descubre cómo SkillsBench mide el rendimiento de habilidades de agentes en 87 tareas. ¿Las habilidades curadas mejoran la tasa de aprobación? +16.6 pp.
MemPO permite a agentes de IA gestionar su memoria, reduciendo tokens un 73% y mejorando F1 en 25 puntos. Ideal para agentes de largo plazo.
Descubre WorkflowPerturb, un benchmark para evaluar métricas de flujos de trabajo multiagente con pruebas de estrés calibradas. Aprende a interpretar cambios y
Descubre SorryDB, el benchmark dinámico que evalúa la capacidad de la IA para demostrar teoremas reales de Lean. ¿Qué tan avanzados están los demostradores
Conoce Agent Rosetta, un agente de IA basado en LLM que diseña proteínas usando Rosetta. Logra resultados expertos incluso con aminoácidos no canónicos.
MemPO permite a agentes autónomos gestionar su memoria, reduciendo tokens un 73% y mejorando F1 en 25 puntos. Optimiza tus agentes de largo plazo.
Descubre SorryDB, un benchmark dinámico de teoremas Lean de proyectos reales en GitHub. ¿Qué tan bien rinden la IA y los demostradores especializados?
Descubre cómo EMS optimiza la votación multiagente, reduciendo un 35% de agentes y un 44% de tokens sin perder precisión. ¡Ahorra recursos!
Agent Rosetta combina razonamiento LLM con software Rosetta para diseñar proteínas, incluyendo aminoácidos no canónicos, superando a modelos tradicionales.
Descubre HCP-MAD, un método que optimiza el debate multiagente usando consenso heterogéneo para reducir costos de tokens y mejorar precisión. Verificación
EMS reduce agentes invocados un 35% y tokens un 44% sin perder precisión en votación multiagente. Optimiza tu IA.
Aprende cómo la Cristalización de Memoria Adaptativa (AMC) permite a agentes IA adquirir nuevas habilidades sin olvido, mejorando rendimiento y memoria.
Los agentes de IA carecen de una capa de conocimiento explícita. Este artículo analiza el error categórico y propone una arquitectura de cuatro capas con
Descubre cómo la modificación del batching permite a agentes generar referencias temporales, mejorando su eficiencia comunicativa.