GLIDE: Inferencia basada en predicciones para evaluar sistemas GenAI
GLIDE: biblioteca Python que combina anotaciones humanas y predicciones de LLM para evaluar sistemas GenAI y agentes sin sesgo, ahorrando costos de anotación.
GLIDE: biblioteca Python que combina anotaciones humanas y predicciones de LLM para evaluar sistemas GenAI y agentes sin sesgo, ahorrando costos de anotación.
Descubre FAM-Bench, el benchmark multimodal que evalúa si la IA recomienda platos según condiciones de salud. 2500 casos verificados por expertos.
Descubre qué es Smart App Control en Windows 11, cómo bloquea aplicaciones maliciosas con IA y nube, sus modos y cómo activarlo. Mejora tu seguridad.
Descubre cómo alcance, infraestructura y compliance influyen en el costo de pruebas de penetración. Optimiza tu inversión en ciberseguridad.
Reinterpreta umbrales de seguridad como disparos neuronales con SNN para alinear evaluación de riesgos con el frenado humano.
El framework NumLeak expone cómo los modelos de IA memorizan datos de benchmarks públicos. Una amenaza para la evaluación y la seguridad.
Un experimento con cosmología histórica revela cómo la adaptación de dominio cambia los marcos explicativos en modelos de lenguaje.
Descubre LongDS-Bench: el benchmark que expone cómo los agentes fallan en análisis de datos prolongados. Solo 48% de precisión. ¡Lee más!
La métrica CSS revela perfiles ocultos de capacidad en LLMs y agentes clínicos, detectando puntos ciegos de seguridad que las métricas tradicionales pasan por alto.
Descubre EUDAIMONIA, el benchmark que revela cómo los LLMs más avanzados fallan en dinámicas sociales. ¿Protegen tu bienestar? Entra y conoce los resultados.
Descubre DynaTree: recuperación de noticias con agentes y árboles dinámicos para alta precisión y frescura en tiempo real.
Descubre la paráfrasis generada por GPT-4o que mejora la traducción de lengua de señas en PHOENIX14T, pero revela límites en conjuntos extremos.
Los LLMs pueden pronosticar el rendimiento de kernels GPU funcionando como sustitutos selectivos. Esto permite explorar más candidatos y hallar kernels más rápidos con menor costo de medición.
Descubre SPECTRA: genera colecciones sintéticas para evaluar sistemas de búsqueda y detectar fallos antes de construir costosas colecciones reales.
Descubre cómo los LLMs de 2024 muestran sesgos de género, raza y edad en ocupaciones y crímenes, revelando una paradoja de desviación que afecta su fiabilidad.
Descubre cómo diagnosticar la fiabilidad de los LLM como jueces usando la teoría de respuesta al ítem (IRT) para evaluar consistencia y alineación con expertos humanos.
SPM-Bench: Benchmark automatizado que evalúa LLMs en microscopía de sonda. Descubre su pipeline AGS y la métrica SIP-F1 que revela la personalidad de la IA.
Aprende cómo LH-Bench evalúa agentes autónomos en tareas subjetivas empresariales con rúbricas expertas y validación humana.
La tasa de acierto apenas cambia, pero las habilidades transforman el comportamiento de los agentes LLM. Descubre cómo la auditoría de trazas contrafactuales revela patrones ocultos.
Estudio revela que los LLMs como GPT-o1 fallan al generalizar construcciones frasales sintácticamente idénticas, con una caída de rendimiento del 40%.