Burlar al camaleón: desacoplamiento contrafáctico para cambios en streaming
Descubre cómo el método LPCD burla a los atacantes 'camaleón' que cambian tácticas en streaming, usando desacoplamiento contrafáctico para evaluar riesgos.
Descubre cómo el método LPCD burla a los atacantes 'camaleón' que cambian tácticas en streaming, usando desacoplamiento contrafáctico para evaluar riesgos.
Descubre la metodología rigurosa de Gate AI para evaluar detectores de inyección y jailbreaks en LLM con umbral único y 16 benchmarks. Resultados sin sesgos.
Descubre cómo los modelos frontera generan alucinaciones sintéticas como negativos duros para entrenar modelos de código y reducir alucinaciones +18.8%.
Descubre cómo IdEst, basado en dimensión intrínseca, evalúa representaciones SSL de forma eficiente, reduciendo costos computacionales y sin necesidad de etiquetas.
IdEst evalúa representaciones SSL con dimensión intrínseca: métrica geométrica que correlaciona con el rendimiento downstream. Ahorra tiempo en evaluación.
Los modelos de embedding de grafos son fiables? Este estudio revela inestabilidad en predicciones debido a semillas aleatorias. Conoce las limitaciones del MRR.
GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.
Los modelos de embedding (KGEM) generan predicciones inestables en grafos de conocimiento. Las semillas aleatorias y la configuración afectan la fiabilidad. ¿Cómo solucionarlo?
Skill-RM unifica criterios heterogéneos usando habilidades de agente para optimizar LLMs en entrenamiento posterior. ¡Prueba el nuevo modelo!
Descubre FinStressTS, un benchmark sintético que revela por qué modelos fallan en pronósticos financieros. Aprende sobre volatilidad, saltos y regímenes.
El Adversarial ML para LLMs no progresa: problemas vagos, complejos y difíciles de medir. Conoce las razones y el riesgo de una década perdida.
Descubre cómo la invarianza en el ensamblado de modelos revela discrepancias funcionales ocultas y mejora la evaluación de similitud en deep learning.
Solo 2 de 8 modelos frontier rechazan tareas ofensivas. Presentamos el primer marco para definir cuándo los agentes de IA deben negarse en ciberseguridad.
La detección de anomalías con división de clases puede ser inestable. Un nuevo método sin entrenamiento (fuga de vecindad) predice la inestabilidad. Descubre cómo afecta a modelos en CIFAR-10 y más.
Nuevo benchmark Psi-Bench evalúa cómo los LLM persuaden según el perfil del usuario. La personalización mejora un 18% la efectividad.
Aplica protocolos de evaluación basados en pruebas de aceptación para sistemas LLM seguros, confiables y alineados con el negocio.
Descubre TypewriterLM, un modelo de lenguaje de 7.24B parámetros entrenado con textos anteriores a 1913. Supera desafíos de calidad y fuga temporal.
Protege tu sistema de calificación: conoce los ataques de inyección de instrucciones en LLM y cómo mitigarlos.
Descubre AnyAudio-Judge, el nuevo benchmark con rúbricas dinámicas para evaluar instrucciones de audio.
¿Sabías que los evaluadores de IA pueden discriminar mejor con rúbricas? Descubre cómo el protocolo de puntuación afecta la evaluación de decisiones clínicas complejas.