IdEst: dimensión intrínseca para evaluar representaciones SSL
IdEst evalúa representaciones SSL con dimensión intrínseca: métrica geométrica que correlaciona con el rendimiento downstream. Ahorra tiempo en evaluación.
IdEst evalúa representaciones SSL con dimensión intrínseca: métrica geométrica que correlaciona con el rendimiento downstream. Ahorra tiempo en evaluación.
Los modelos de embedding de grafos son fiables? Este estudio revela inestabilidad en predicciones debido a semillas aleatorias. Conoce las limitaciones del MRR.
GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.
Los modelos de embedding (KGEM) generan predicciones inestables en grafos de conocimiento. Las semillas aleatorias y la configuración afectan la fiabilidad. ¿Cómo solucionarlo?
Skill-RM unifica criterios heterogéneos usando habilidades de agente para optimizar LLMs en entrenamiento posterior. ¡Prueba el nuevo modelo!
Descubre FinStressTS, un benchmark sintético que revela por qué modelos fallan en pronósticos financieros. Aprende sobre volatilidad, saltos y regímenes.
El Adversarial ML para LLMs no progresa: problemas vagos, complejos y difíciles de medir. Conoce las razones y el riesgo de una década perdida.
Descubre cómo la invarianza en el ensamblado de modelos revela discrepancias funcionales ocultas y mejora la evaluación de similitud en deep learning.
Solo 2 de 8 modelos frontier rechazan tareas ofensivas. Presentamos el primer marco para definir cuándo los agentes de IA deben negarse en ciberseguridad.
La detección de anomalías con división de clases puede ser inestable. Un nuevo método sin entrenamiento (fuga de vecindad) predice la inestabilidad. Descubre cómo afecta a modelos en CIFAR-10 y más.
Nuevo benchmark Psi-Bench evalúa cómo los LLM persuaden según el perfil del usuario. La personalización mejora un 18% la efectividad.
Aplica protocolos de evaluación basados en pruebas de aceptación para sistemas LLM seguros, confiables y alineados con el negocio.
Descubre TypewriterLM, un modelo de lenguaje de 7.24B parámetros entrenado con textos anteriores a 1913. Supera desafíos de calidad y fuga temporal.
Protege tu sistema de calificación: conoce los ataques de inyección de instrucciones en LLM y cómo mitigarlos.
Descubre AnyAudio-Judge, el nuevo benchmark con rúbricas dinámicas para evaluar instrucciones de audio.
¿Sabías que los evaluadores de IA pueden discriminar mejor con rúbricas? Descubre cómo el protocolo de puntuación afecta la evaluación de decisiones clínicas complejas.
WebRISE: nuevo benchmark evalúa estados y transiciones en artefactos web generados por MLLM. La calidad visual no es suficiente. Descubre más.
Descubre VistaHop, el benchmark que evalúa el razonamiento visual multi-salto. Solo el 24% de aciertos revela grandes desafíos para la IA.
Descubre RobotValues, el benchmark que revela cómo los robots domésticos eligen entre valores en conflicto. ¿Privacidad o eficiencia? Resultados sorprendentes.
Evaluamos 6 LLMs en reparación de dispositivos reales. ¿Son fiables? Descubre sus aciertos, errores y riesgos de seguridad. Resultados en inglés y bengalí.