#valuación

AGENTCL: Evaluación rigurosa del aprendizaje continuo en agentes

Descubre AGENTCL, un marco para evaluar cómo los agentes de IA acumulan experiencia y mejoran en tareas. Aprende sobre transferencia de aprendizaje y diseño de memoria.

2026-06-02 · 2 min

MCP-Persona: Benchmark para agentes LLM en apps personales

Nuevo benchmark MCP-Persona para evaluar agentes LLM en apps personales reales como Reddit y Slack. Simulación de entornos para mejorar su rendimiento.

2026-06-02 · 1 min

ClinEnv: Entorno EHR interactivo multi-etapa para agentes

ClinEnv evalúa LLMs como médicos en un EHR interactivo. Mide decisiones y proceso: el diagnóstico es más fiable que las acciones (0.51 vs 0.17 F1).

2026-06-02 · 2 min

BenHalluEval: marco de evaluación de alucinaciones en bengalí para LLMs

BenHalluEval: un marco innovador para detectar alucinaciones en LLMs en bengalí. Evalúa 7 modelos en 4 tareas. ¡Descubre los resultados!

2026-06-02 · 2 min

SortingHat: Redefiniendo la educación en SO con IA

Descubre cómo SortingHat, un asistente digital con IA, transforma la educación en sistemas operativos con aprendizaje personalizado y evaluación automática.

2026-06-02 · 2 min

Modelado de preferencias para generar humor según la audiencia

Descubre cómo un sistema de IA ganó el reto SemEval-2026 generando chistes según preferencias de la audiencia usando modelado de preferencias.

2026-06-02 · 2 min

TrustLDM: Evaluación de confiabilidad en modelos de difusión

TrustLDM revela vulnerabilidades en modelos de difusión de lenguaje. Seguridad, privacidad y equidad analizadas.

2026-06-02 · 2 min

Marco de Red Teaming para Seguridad, Robustez y Equidad en Modelos Médicos de IA

Un marco de red teaming multidominio revela fallos críticos en seguridad y equidad de modelos médicos de IA, ocultos por métricas promedio.

2026-06-02 · 2 min

Afinar un VLM para app de puntuación de moda offline

Afinar un VLM para puntuar outfits offline en iPhone. Destilación de conocimiento, resultados rápidos y privados.

2026-06-02 · 3 min

GraphARC: un benchmark completo para razonamiento abstracto con grafos

Descubre GraphARC, benchmark de razonamiento abstracto en grafos. Revelamos la brecha entre comprensión y ejecución en modelos de IA.

2026-06-01 · 1 min

LLM-FACETS: Marco privado para evaluar transparencia y responsabilidad de LLM

Descubre LLM-FACETS, marco open-source que evalúa transparencia y responsabilidad de LLM preservando la privacidad. Ideal para expertos y compliance.

2026-06-01 · 2 min

GLIDE: Inferencia basada en predicciones para evaluar sistemas GenAI

GLIDE: biblioteca Python que combina anotaciones humanas y predicciones de LLM para evaluar sistemas GenAI y agentes sin sesgo, ahorrando costos de anotación.

2026-06-01 · 3 min

FAM-Bench: benchmark multimodal para alimentación como medicina

Descubre FAM-Bench, el benchmark multimodal que evalúa si la IA recomienda platos según condiciones de salud. 2500 casos verificados por expertos.

2026-06-01 · 2 min

Smart App Control en Windows 11: guía completa

Descubre qué es Smart App Control en Windows 11, cómo bloquea aplicaciones maliciosas con IA y nube, sus modos y cómo activarlo. Mejora tu seguridad.

2026-06-01 · 3 min

Costo de pruebas de penetración: alcance, infraestructura y cumplimiento

Descubre cómo alcance, infraestructura y compliance influyen en el costo de pruebas de penetración. Optimiza tu inversión en ciberseguridad.

2026-06-01 · 2 min

Reinterpretando los umbrales de seguridad como umbrales de disparo neuronal

Reinterpreta umbrales de seguridad como disparos neuronales con SNN para alinear evaluación de riesgos con el frenado humano.

2026-06-01 · 2 min

NumLeak: Cómo los benchmarks públicos revelan memorización en modelos de IA

El framework NumLeak expone cómo los modelos de IA memorizan datos de benchmarks públicos. Una amenaza para la evaluación y la seguridad.

2026-06-01 · 2 min

Adaptación de dominio y razonamiento: experimento con cosmología histórica

Un experimento con cosmología histórica revela cómo la adaptación de dominio cambia los marcos explicativos en modelos de lenguaje.

2026-06-01 · 2 min

LongDS-Bench: Fracaso en análisis de datos agentivo de largo plazo

Descubre LongDS-Bench: el benchmark que expone cómo los agentes fallan en análisis de datos prolongados. Solo 48% de precisión. ¡Lee más!

2026-06-01 · 1 min

Evaluación contrafactual revela perfiles ocultos en LLMs y agentes clínicos

La métrica CSS revela perfiles ocultos de capacidad en LLMs y agentes clínicos, detectando puntos ciegos de seguridad que las métricas tradicionales pasan por alto.

2026-06-01 · 3 min