#agent

AgentLeak: Benchmark de fuga de privacidad en sistemas multi-agente LLM

AgentLeak revela que el 68.9% de los datos sensibles se filtran por mensajes entre agentes en sistemas multi-agente LLM, no solo en salidas finales. Descubre

2026-06-16 · 2 min

SkillsBench: Evaluación de habilidades de agente en tareas diversas

SkillsBench evalúa habilidades de agente en 87 tareas: +16.6% de mejora. Ideal para desarrolladores que buscan optimizar agentes de IA.

2026-06-16 · 2 min

WorkflowPerturb: Pruebas de estrés calibradas para flujos multiagente

Descubre cómo WorkflowPerturb evalúa métricas en flujos de trabajo multiagente con pruebas de estrés calibradas. Ideal para cambios seguros en sistemas IA.

2026-06-16 · 3 min

JADE: Evaluación Dinámica Basada en Expertos para Tareas Profesionales Abiertas

JADE: un marco de evaluación dinámica basado en expertos para tareas profesionales abiertas. Mejora la estabilidad y detecta fallos críticos en agentes de IA.

2026-06-16 · 2 min

AgentLeak: benchmark de fuga de privacidad en sistemas multi-agente LLM

Un nuevo benchmark revela que los sistemas multi-agente LLM exponen fugas de privacidad en canales internos que escapan a las auditorías tradicionales.

2026-06-16 · 2 min

AIQI: La Primera IA Universal sin Modelo

Descubre AIQI, el primer agente de IA universal sin modelo que logra optimalidad asintótica en aprendizaje por refuerzo general. Un avance revolucionario.

2026-06-16 · 2 min

SkillsBench: mide el rendimiento de habilidades de agentes en tareas diversas

Descubre cómo SkillsBench mide el rendimiento de habilidades de agentes en 87 tareas. ¿Las habilidades curadas mejoran la tasa de aprobación? +16.6 pp.

2026-06-16 · 1 min

MemPO: Optimización de Memoria Autogestionada para Agentes

MemPO permite a agentes de IA gestionar su memoria, reduciendo tokens un 73% y mejorando F1 en 25 puntos. Ideal para agentes de largo plazo.

2026-06-16 · 2 min

WorkflowPerturb: Pruebas de estrés para métricas de flujos multiagente

Descubre WorkflowPerturb, un benchmark para evaluar métricas de flujos de trabajo multiagente con pruebas de estrés calibradas. Aprende a interpretar cambios y

2026-06-16 · 1 min

SorryDB: ¿Puede la IA demostrar teoremas Lean reales?

Descubre SorryDB, el benchmark dinámico que evalúa la capacidad de la IA para demostrar teoremas reales de Lean. ¿Qué tan avanzados están los demostradores

2026-06-16 · 2 min

Agent Rosetta: diseño de proteínas con agentes científicos

Conoce Agent Rosetta, un agente de IA basado en LLM que diseña proteínas usando Rosetta. Logra resultados expertos incluso con aminoácidos no canónicos.

2026-06-16 · 3 min

MemPO: Auto-gestión de Memoria para Agentes de Largo Plazo

MemPO permite a agentes autónomos gestionar su memoria, reduciendo tokens un 73% y mejorando F1 en 25 puntos. Optimiza tus agentes de largo plazo.

2026-06-16 · 3 min

SorryDB: ¿Pueden los demostradores de IA resolver teoremas Lean reales?

Descubre SorryDB, un benchmark dinámico de teoremas Lean de proyectos reales en GitHub. ¿Qué tan bien rinden la IA y los demostradores especializados?

2026-06-16 · 1 min

EMS: Votación Multiagente Eficiente con Mayoría y Parada

Descubre cómo EMS optimiza la votación multiagente, reduciendo un 35% de agentes y un 44% de tokens sin perder precisión. ¡Ahorra recursos!

2026-06-16 · 3 min

Diseño de proteínas con Agent Rosetta: caso de agentes científicos

Agent Rosetta combina razonamiento LLM con software Rosetta para diseñar proteínas, incluyendo aminoácidos no canónicos, superando a modelos tradicionales.

2026-06-16 · 2 min

HCP-MAD: Debate multiagente eficiente con consenso heterogéneo

Descubre HCP-MAD, un método que optimiza el debate multiagente usando consenso heterogéneo para reducir costos de tokens y mejorar precisión. Verificación

2026-06-16 · 2 min

EMS: Votación Multiagente Eficiente con Parada Mayoritaria

EMS reduce agentes invocados un 35% y tokens un 44% sin perder precisión en votación multiagente. Optimiza tu IA.

2026-06-16 · 2 min

Cristalización de Memoria Adaptativa en Agentes IA

Aprende cómo la Cristalización de Memoria Adaptativa (AMC) permite a agentes IA adquirir nuevas habilidades sin olvido, mejorando rendimiento y memoria.

2026-06-16 · 2 min

La capa de conocimiento faltante en arquitecturas cognitivas para agentes de IA

Los agentes de IA carecen de una capa de conocimiento explícita. Este artículo analiza el error categórico y propone una arquitectura de cuatro capas con

2026-06-16 · 2 min

Es cuestión de tiempo: referencias temporales en comunicación emergente

Descubre cómo la modificación del batching permite a agentes generar referencias temporales, mejorando su eficiencia comunicativa.

2026-06-16 · 3 min