LLM como juez en educación: pipeline de calificación curricular
Descubre cómo un pipeline de LLM como juez, basado en currículos oficiales, mejora la calificación de exámenes con trazabilidad.
Descubre cómo un pipeline de LLM como juez, basado en currículos oficiales, mejora la calificación de exámenes con trazabilidad.
Descubre SEAGym, el entorno que evalúa la evolución de agentes LLM auto-evolutivos con métricas de entrenamiento, validación, test y costos, evitando
Descubre DeepInsight: infraestructura unificada para evaluar el stack de IA física, diagnosticando regresiones entre capas con una traza compartida.
El nuevo benchmark EComAgentBench revela que los mejores agentes de compra solo aciertan en el 57.1% de tareas con intenciones ocultas.
LongWebBench: el benchmark definitivo para evaluar la generación de páginas web largas, estructural y funcionalmente, con interacciones ejecutables.
Descubre cómo el presupuesto de cómputo en inferencia impacta los resultados de modelos de lenguaje de frontera. Un estudio revela que evaluaciones con
Descubre cómo los sistemas de IA se enfrentaron a 10 problemas de matemáticas de investigación. Resultados, soluciones humanas y análisis detallado.
Descubre DRFLOW, el benchmark que evalúa la capacidad de los agentes de IA para predecir flujos de trabajo personalizados a partir de fuentes heterogéneas.
Descubre ZIVARI-TLBO, un algoritmo de optimización que mejora TLBO con relevo élite sin costo computacional. Resultados superiores en múltiples funciones.
Comparativa de inferencia LLM entre GPU y aceleradores emergentes (GroqRack). GPUs ganan en Prefill; GroqRack en Decode (TPOT). ¿Cuándo conviene cada uno?
Estudio revela que agentes de IA con herramientas filtran datos sensibles incluso en tareas benignas. La seguridad operacional es un riesgo crítico diferente a
Un estudio revela que los grandes modelos de lenguaje generan historias muy similares entre sí, y las estrategias actuales no logran aumentar su diversidad.
DriveJudge: nuevo agente de evaluación que combina razonamiento VLM y reglas físicas para clasificar calidad y seleccionar trayectorias, superando a métricas
ReproRepo usa issues de GitHub para auditar la reproducibilidad de papers de ML. Los agentes LLM identifican bloqueos reales en el 90% de los casos.
Descubre cómo prompts optimizados inducen sandbagging en modelos de lenguaje, degradando rendimiento hasta un 94% y amenazando la fiabilidad evaluativa.
Nuevo benchmark Riemann-Bench: la IA solo alcanza menos del 10% en matemáticas de investigación. ¿Qué tan lejos están de los humanos?
JAWS-Bench: un benchmark que evalúa ataques de jailbreak a agentes de IA. Descubre cómo los modelos de lenguaje ejecutan código malicioso y cómo defenderte.
Descubre m2sv, el nuevo benchmark que evalúa la capacidad de los VLMs para alinear mapas con vistas callejeras. Resultados sorprendentes y desafíos clave.
Un estudio compara la visualización 2D interactiva con métodos aleatorios y FAFT para anotar series temporales biomédicas. Expertos y no expertos evalúan su
Descubre CheckMIABench, el nuevo benchmark para evaluar ataques de inferencia de membresía en LLMs. Mejora la privacidad de tus modelos con bases sólidas.