#valuación

GLIDE: Inferencia basada en predicciones para evaluar sistemas GenAI

GLIDE: biblioteca Python que combina anotaciones humanas y predicciones de LLM para evaluar sistemas GenAI y agentes sin sesgo, ahorrando costos de anotación.

2026-06-01 · 3 min

FAM-Bench: benchmark multimodal para alimentación como medicina

Descubre FAM-Bench, el benchmark multimodal que evalúa si la IA recomienda platos según condiciones de salud. 2500 casos verificados por expertos.

2026-06-01 · 2 min

Smart App Control en Windows 11: guía completa

Descubre qué es Smart App Control en Windows 11, cómo bloquea aplicaciones maliciosas con IA y nube, sus modos y cómo activarlo. Mejora tu seguridad.

2026-06-01 · 3 min

Costo de pruebas de penetración: alcance, infraestructura y cumplimiento

Descubre cómo alcance, infraestructura y compliance influyen en el costo de pruebas de penetración. Optimiza tu inversión en ciberseguridad.

2026-06-01 · 2 min

Reinterpretando los umbrales de seguridad como umbrales de disparo neuronal

Reinterpreta umbrales de seguridad como disparos neuronales con SNN para alinear evaluación de riesgos con el frenado humano.

2026-06-01 · 2 min

NumLeak: Cómo los benchmarks públicos revelan memorización en modelos de IA

El framework NumLeak expone cómo los modelos de IA memorizan datos de benchmarks públicos. Una amenaza para la evaluación y la seguridad.

2026-06-01 · 2 min

Adaptación de dominio y razonamiento: experimento con cosmología histórica

Un experimento con cosmología histórica revela cómo la adaptación de dominio cambia los marcos explicativos en modelos de lenguaje.

2026-06-01 · 2 min

LongDS-Bench: Fracaso en análisis de datos agentivo de largo plazo

Descubre LongDS-Bench: el benchmark que expone cómo los agentes fallan en análisis de datos prolongados. Solo 48% de precisión. ¡Lee más!

2026-06-01 · 1 min

Evaluación contrafactual revela perfiles ocultos en LLMs y agentes clínicos

La métrica CSS revela perfiles ocultos de capacidad en LLMs y agentes clínicos, detectando puntos ciegos de seguridad que las métricas tradicionales pasan por alto.

2026-06-01 · 3 min

EUDAIMONIA: Evaluando dinámicas indeseables en IA

Descubre EUDAIMONIA, el benchmark que revela cómo los LLMs más avanzados fallan en dinámicas sociales. ¿Protegen tu bienestar? Entra y conoce los resultados.

2026-06-01 · 2 min

DynaTree: Árbol de Recuperación Agéntico para Noticias Sensibles al Tiempo

Descubre DynaTree: recuperación de noticias con agentes y árboles dinámicos para alta precisión y frescura en tiempo real.

2026-06-01 · 2 min

Aumento de paráfrasis en destino para traducción de lengua de señas con LLMs

Descubre la paráfrasis generada por GPT-4o que mejora la traducción de lengua de señas en PHOENIX14T, pero revela límites en conjuntos extremos.

2026-06-01 · 2 min

Pronosticadores GPU: Modelos de lenguaje como sustitutos selectivos

Los LLMs pueden pronosticar el rendimiento de kernels GPU funcionando como sustitutos selectivos. Esto permite explorar más candidatos y hallar kernels más rápidos con menor costo de medición.

2026-06-01 · 2 min

SPECTRA: Colecciones sintéticas para pruebas de recuperación de información

Descubre SPECTRA: genera colecciones sintéticas para evaluar sistemas de búsqueda y detectar fallos antes de construir costosas colecciones reales.

2026-06-01 · 2 min

Evaluación de sesgos en LLMs: género, raza y edad en ocupaciones y crímenes

Descubre cómo los LLMs de 2024 muestran sesgos de género, raza y edad en ocupaciones y crímenes, revelando una paradoja de desviación que afecta su fiabilidad.

2026-06-01 · 2 min

Diagnóstico de fiabilidad de LLM como juez con IRT

Descubre cómo diagnosticar la fiabilidad de los LLM como jueces usando la teoría de respuesta al ítem (IRT) para evaluar consistencia y alineación con expertos humanos.

2026-06-01 · 2 min

SPM-Bench: Benchmark para LLMs en microscopía de sonda

SPM-Bench: Benchmark automatizado que evalúa LLMs en microscopía de sonda. Descubre su pipeline AGS y la métrica SIP-F1 que revela la personalidad de la IA.

2026-06-01 · 2 min

LH-Bench: evaluación de agentes de largo plazo en tareas empresariales subjetivas

Aprende cómo LH-Bench evalúa agentes autónomos en tareas subjetivas empresariales con rúbricas expertas y validación humana.

2026-06-01 · 2 min

Auditoría contrafactual de habilidades en agentes LLM

La tasa de acierto apenas cambia, pero las habilidades transforman el comportamiento de los agentes LLM. Descubre cómo la auditoría de trazas contrafactuales revela patrones ocultos.

2026-06-01 · 2 min

Evaluación de generalización semántica en LLMs con construcciones frasales

Estudio revela que los LLMs como GPT-o1 fallan al generalizar construcciones frasales sintácticamente idénticas, con una caída de rendimiento del 40%.

2026-06-01 · 2 min