¿Pueden los LLMs escribir especificaciones TLA+ correctas?
Evaluamos 30 LLMs en la generación de especificaciones TLA+ correctas. Solo un 8.6% de precisión semántica. ¿Son fiables? Descúbrelo.
Evaluamos 30 LLMs en la generación de especificaciones TLA+ correctas. Solo un 8.6% de precisión semántica. ¿Son fiables? Descúbrelo.
IR3DE: router lineal que selecciona el mejor modelo experto para cada prompt, logrando 98.4% de rendimiento sin reentrenamiento. Optimiza tus inferencias.
Optimiza la inferencia de LLMs con CLSA: atención dispersa entre capas que comparte índices de enrutamiento, logrando hasta 7.6x de aceleración en decodificación.
Descubre cómo proteger modelos de lenguaje contra desalineación emergente en fine-tuning. Analizamos técnicas de regularización para mantener la alineación.
Descubre WiserUI-Bench, el benchmark que evalúa si las MLLMs realmente comprenden cómo el diseño UI/UX influye en el comportamiento del usuario a través de pruebas A/B reales.
Descubre cómo SHALA-LLM usa aprendizaje por refuerzo para gestionar etiquetas ambiguas en alineamiento de LLMs, mejorando precisión y acuerdo entre anotadores.
Descubre cómo LEVANTE-bench compara modelos de IA con niños de 5 a 12 años en tareas cognitivas. ¿Son los VLMs más inteligentes que un niño de 5º grado?
Descubre CERO, método adaptativo que optimiza rollouts en post-entrenamiento de LLMs. Supera a GRPO en razonamiento matemático. ¡Eficiencia mejorada!
Optimiza el uso de modelos de lenguaje: MetaRouter utiliza meta-aprendizaje para personalizar el enrutamiento según tus necesidades, reduciendo costes sin sacrificar rendimiento.
Descubre cómo SMAC-Talk extiende el desafío multiagente de StarCraft con un canal de comunicación en lenguaje natural para evaluar agentes LLM, incluyendo escenarios de engaño.
Aprende cómo MechSim permite a los LLMs razonar sobre simuladores, logrando explicaciones transparentes y decisiones más fiables en entornos críticos.
FALSIFYBENCH evalúa el razonamiento inductivo en LLMs, destacando que los modelos que buscan falsificar sus hipótesis obtienen mejores resultados.
Descubre cómo la seguridad superficial en LLMs es superada por inyecciones en medio de la generación. Nuevo método alinea modelos en trayectorias para mayor robustez.
R-APS: combina razonamiento composicional y meta-aprendizaje para diseño restringido, mejorando robustez y eficiencia. ¡Descúbrelo!
Conoce AICompanionBench, benchmark público de conversaciones IA-humanas para evaluar seguridad en asistentes como Replika. Análisis de 20 LLMs.
Descubre KINA, el nuevo benchmark que evalúa el conocimiento de 42 modelos de IA en 261 disciplinas. Resultados: Gemini 3.1 lidera con 53.17%. ¡Infórmate!
Evalúa CodegenBench: la capacidad de los LLMs para código eficiente en CPU x86, Sunway y Kunpeng. Resultados y limitaciones en arquitecturas especializadas.
Aprende cómo MaskForge, un ataque adaptativo de caja negra, alcanza un 79.3% de éxito en jailbreak de dLLMs mediante patrones estructurales dinámicos.
Estudio revela: cumplimiento varía de 14.7% a 85.7% según dominio. Descubre la brecha de transparencia en LLMs de peso abierto.
Palantir gana contrato £9M para licencias de armas, explosivos y venenos en Reino Unido. Reemplaza NFLMS y genera controversia por vínculos CIA.