#evaluación

AgentLeak: Benchmark de fuga de privacidad en sistemas multi-agente LLM

AgentLeak revela que el 68.9% de los datos sensibles se filtran por mensajes entre agentes en sistemas multi-agente LLM, no solo en salidas finales. Descubre

2026-06-16 · 2 min

SkillsBench: Evaluación de habilidades de agente en tareas diversas

SkillsBench evalúa habilidades de agente en 87 tareas: +16.6% de mejora. Ideal para desarrolladores que buscan optimizar agentes de IA.

2026-06-16 · 2 min

WorkflowPerturb: Pruebas de estrés calibradas para flujos multiagente

Descubre cómo WorkflowPerturb evalúa métricas en flujos de trabajo multiagente con pruebas de estrés calibradas. Ideal para cambios seguros en sistemas IA.

2026-06-16 · 3 min

JADE: Evaluación Dinámica Basada en Expertos para Tareas Profesionales Abiertas

JADE: un marco de evaluación dinámica basado en expertos para tareas profesionales abiertas. Mejora la estabilidad y detecta fallos críticos en agentes de IA.

2026-06-16 · 2 min

AgentLeak: benchmark de fuga de privacidad en sistemas multi-agente LLM

Un nuevo benchmark revela que los sistemas multi-agente LLM exponen fugas de privacidad en canales internos que escapan a las auditorías tradicionales.

2026-06-16 · 2 min

SkillsBench: mide el rendimiento de habilidades de agentes en tareas diversas

Descubre cómo SkillsBench mide el rendimiento de habilidades de agentes en 87 tareas. ¿Las habilidades curadas mejoran la tasa de aprobación? +16.6 pp.

2026-06-16 · 1 min

WorkflowPerturb: Pruebas de estrés para métricas de flujos multiagente

Descubre WorkflowPerturb, un benchmark para evaluar métricas de flujos de trabajo multiagente con pruebas de estrés calibradas. Aprende a interpretar cambios y

2026-06-16 · 1 min

Reescalando la confianza: diseño de escala y metacognición en LLM

Descubre cómo la escala de confianza afecta la metacognición de LLM y por qué una escala 0-20 mejora la eficiencia.

2026-06-16 · 2 min

Reescalando la confianza: Diseño de escala y metacognición en LLM

Descubre cómo el diseño de escala afecta la metacognición de LLM. La escala 0-20 mejora la eficiencia.

2026-06-16 · 2 min

EEG-FM-Bench: Un benchmark integral para modelos EEG fundamentales

Explora EEG-FM-Bench, el benchmark integral para evaluar modelos fundamentales de EEG. 14 datasets y 10 paradigmas para análisis justo.

2026-06-16 · 2 min

Evaluación de clasificadores binarios sin rebalanceo ante desbalance

Descubre el rendimiento de clasificadores binarios sin rebalanceo. Evaluamos su robustez ante desbalance extremo con datos reales y sintéticos.

2026-06-16 · 3 min

DualGauge: Evaluación automatizada de seguridad y funcionalidad en generación de código con LLMs

Descubre DualGauge, el primer framework automatizado que evalúa seguridad y funcionalidad en código generado por LLMs. Resultados que revelan la brecha entre

2026-06-16 · 2 min

CycliST: Benchmark de VLMs para razonar transiciones cíclicas

Descubre CycliST, el nuevo benchmark que evalúa la capacidad de los modelos de video-lenguaje para razonar sobre transiciones de estado cíclicas y patrones

2026-06-16 · 2 min

Una definición unificada de alucinación: es el modelo del mundo, estúpido

Descubre la definición unificada de alucinación en IA: el modelo del mundo es la clave. Entiende por qué los LLM alucinan y cómo mitigarlo.

2026-06-16 · 1 min

Pragmatismo Crítico en la Evaluación Científica con IA

Descubre cómo el pragmatismo crítico mejora la transparencia y fiabilidad de las herramientas de IA para evaluar la credibilidad científica.

2026-06-16 · 2 min

Descubrimiento de materiales sostenibles con IA

Descubre cómo la inteligencia artificial integra el análisis de ciclo de vida para descubrir materiales sostenibles más eficientes y ecológicos.

2026-06-16 · 2 min

Análisis de seguridad de IA agente de largo horizonte: amenazas y marcos

Descubre las principales amenazas de seguridad en sistemas de IA agente de largo plazo, métodos de evaluación y un marco para analizar la propagación de

2026-06-16 · 2 min

Combinando RAG con LLMs para recomendaciones de lectura

Descubre cómo combinar RAG con LLMs para generar recomendaciones de lectura personalizadas. Aumenta relevancia y solidez hasta un 35%.

2026-06-16 · 3 min

Evaluando la robustez de la autoformalización de pruebas en Lean 4

Descubre cómo se evalúa la robustez de la autoformalización de pruebas matemáticas en Lean 4 ante perturbaciones. ¿Los modelos LLM son fieles?

2026-06-16 · 2 min

Más allá de la corrección: mejorando el razonamiento arquitectónico en LLMs de código

Descubre cómo un pipeline de juicio agente mejora el razonamiento arquitectónico en LLMs de código, logrando hasta un 540% de mejora en SWE-bench. ¡Lee más!

2026-06-16 · 2 min