Rastreo de circuitos en modelos de lenguaje de proteínas autoregresivos
Aprende cómo ProGenMech descubre circuitos neuronales en modelos de proteínas para mejorar la generación y predicción de fitness.
Aprende cómo ProGenMech descubre circuitos neuronales en modelos de proteínas para mejorar la generación y predicción de fitness.
Aprende cómo el Machine Learning explicable detecta el riesgo de disglucemia sin análisis de sangre. Modelo LightGBM supera a pruebas clínicas tradicionales.
Descubre cómo detener el muestreador de forma inteligente usando clasificadores neuronales para acelerar MCMC sin perder precisión. ¡Entra!
Descubre un marco de auditoría para comprobar si los modelos de IA realmente olvidan datos. Verifica el desaprendizaje sin reentrenar.
Predice parámetros de ejecución en química computacional con aprendizaje activo y generativo. Modelos alcanzan 99.9% de precisión.
Descubre cómo la normalización QK en MLA mejora estabilidad y eficiencia: menor pérdida, mayor precisión y menos de 2% de latencia extra en decodificación.
Aprendizaje por refuerzo offline con difusión para redes UAV justas y eficientes. Reduce energía, mejora equidad y aumenta throughput un 35%.
CacheMuon acelera el entrenamiento al reutilizar información previa para aproximar el factor polar, reduciendo costos sin perder precisión. Descubre cómo.
Descubre cómo mezclas de subespacios comprimen la comunicación un 95% para entrenar modelos de lenguaje con contextos de 100K tokens, incluso en redes lentas.
Descubre cómo Taylor-Calibrate inicializa modelos de atención híbrida con 88x mejora y reduce tokens de entrenamiento 9.2x. Optimiza tus Transformers.
Protege tu privacidad en inferencia de LLM con transformadores equivariantes ortogonales. Reduce recuperación de tokens del 35% al 1.3% sin aumentar
Descubre BRICKS-WM: modelos modulares que permiten reutilizar dinámicas de fondo, reduciendo tiempos de reentrenamiento en RL.
Un estudio revela que estimar la cola en LLM es frágil y propone un protocolo para evitar falsos positivos. Descubre cómo.
Nuevo estudio analiza más de 100 modelos: el post-entrenamiento no mejora uniformemente. Descubre la composición ideal para rendimiento dentro y fuera de
Descubre cómo evaluar si los modelos de IA explicables detectan conceptos fiables o usan atajos. Un nuevo enfoque para mejorar la transparencia.
MyPCBench evalúa agentes de IA como asistentes personales en escritorio Linux con 184 tareas reales. El mejor modelo (Claude Opus) solo resuelve 55.4%.
Controla la curvatura del Hessiano con calentamiento de arquitectura para entrenar Transformers estables, reduciendo picos de pérdida.
Descubre HawkesNest, un benchmark sintético multieje para evaluar modelos de procesos puntuales espacio-temporales bajo condiciones de complejidad controlada.
Descubre Hyperball, un wrapper que acelera el preentrenamiento de modelos de lenguaje hasta un 30% mejorando la convergencia. Optimizado para Muon y Adam.
EPS: Método exacto de puntaje posterior para problemas inversos lineales con modelos de difusión. Supera a baselines en fidelidad y percepción.