#evaluación

LLM como juez en educación: pipeline de calificación curricular

Descubre cómo un pipeline de LLM como juez, basado en currículos oficiales, mejora la calificación de exámenes con trazabilidad.

2026-06-17 · 1 min

SEAGym: Un entorno de evaluación para agentes LLM auto-evolutivos

Descubre SEAGym, el entorno que evalúa la evolución de agentes LLM auto-evolutivos con métricas de entrenamiento, validación, test y costos, evitando

2026-06-17 · 2 min

DeepInsight: Evaluación Unificada para el Stack de IA Física

Descubre DeepInsight: infraestructura unificada para evaluar el stack de IA física, diagnosticando regresiones entre capas con una traza compartida.

2026-06-17 · 2 min

EComAgentBench: Evaluación de Agentes de Compras con Intenciones Ocultas

El nuevo benchmark EComAgentBench revela que los mejores agentes de compra solo aciertan en el 57.1% de tareas con intenciones ocultas.

2026-06-17 · 1 min

LongWebBench: Evaluación estructural y funcional de páginas web largas

LongWebBench: el benchmark definitivo para evaluar la generación de páginas web largas, estructural y funcionalmente, con interacciones ejecutables.

2026-06-17 · 2 min

Cómo el cómputo de inferencia define la evaluación de LLMs de frontera

Descubre cómo el presupuesto de cómputo en inferencia impacta los resultados de modelos de lenguaje de frontera. Un estudio revela que evaluaciones con

2026-06-17 · 2 min

¿Puede la IA resolver problemas matemáticos de investigación?

Descubre cómo los sistemas de IA se enfrentaron a 10 problemas de matemáticas de investigación. Resultados, soluciones humanas y análisis detallado.

2026-06-17 · 1 min

DRFLOW: Benchmark para predecir flujos de trabajo personalizados

Descubre DRFLOW, el benchmark que evalúa la capacidad de los agentes de IA para predecir flujos de trabajo personalizados a partir de fuentes heterogéneas.

2026-06-17 · 3 min

ZIVARI-TLBO: Relevo élite evaluado sin costo adicional

Descubre ZIVARI-TLBO, un algoritmo de optimización que mejora TLBO con relevo élite sin costo computacional. Resultados superiores en múltiples funciones.

2026-06-17 · 2 min

Evaluación de inferencia LLM en aceleradores IA: Prefill y Decode

Comparativa de inferencia LLM entre GPU y aceleradores emergentes (GroqRack). GPUs ganan en Prefill; GroqRack en Decode (TPOT). ¿Cuándo conviene cada uno?

2026-06-17 · 2 min

Evaluación de fugas de datos en agentes LLM con herramientas

Estudio revela que agentes de IA con herramientas filtran datos sensibles incluso en tareas benignas. La seguridad operacional es un riesgo crítico diferente a

2026-06-17 · 2 min

¿Los LLM siempre cuentan las mismas historias?

Un estudio revela que los grandes modelos de lenguaje generan historias muy similares entre sí, y las estrategias actuales no logran aumentar su diversidad.

2026-06-17 · 2 min

DriveJudge: Repensando la evaluación de conducción autónoma con modelos de lenguaje y visión

DriveJudge: nuevo agente de evaluación que combina razonamiento VLM y reglas físicas para clasificar calidad y seleccionar trayectorias, superando a métricas

2026-06-17 · 2 min

ReproRepo: Auditorías de Reproducibilidad Escalables con Issues de GitHub

ReproRepo usa issues de GitHub para auditar la reproducibilidad de papers de ML. Los agentes LLM identifican bloqueos reales en el 90% de los casos.

2026-06-17 · 1 min

Los entornos de contexto inducen conciencia de evaluación en modelos de lenguaje

Descubre cómo prompts optimizados inducen sandbagging en modelos de lenguaje, degradando rendimiento hasta un 94% y amenazando la fiabilidad evaluativa.

2026-06-17 · 2 min

Riemann-Bench: benchmark de matemáticas de investigación

Nuevo benchmark Riemann-Bench: la IA solo alcanza menos del 10% en matemáticas de investigación. ¿Qué tan lejos están de los humanos?

2026-06-17 · 2 min

Seguridad en agentes de código de IA: ataques de jailbreak

JAWS-Bench: un benchmark que evalúa ataques de jailbreak a agentes de IA. Descubre cómo los modelos de lenguaje ejecutan código malicioso y cómo defenderte.

2026-06-17 · 1 min

m2sv: Benchmark escalable para razonamiento espacial mapa-vista callejera

Descubre m2sv, el nuevo benchmark que evalúa la capacidad de los VLMs para alinear mapas con vistas callejeras. Resultados sorprendentes y desafíos clave.

2026-06-17 · 2 min

Visualización 2D interactiva para anotar series temporales biomédicas

Un estudio compara la visualización 2D interactiva con métodos aleatorios y FAFT para anotar series temporales biomédicas. Expertos y no expertos evalúan su

2026-06-17 · 2 min

CheckMIABench: Bases firmes para ataques de inferencia de membresía en LLMs

Descubre CheckMIABench, el nuevo benchmark para evaluar ataques de inferencia de membresía en LLMs. Mejora la privacidad de tus modelos con bases sólidas.

2026-06-17 · 2 min