Autoinvestigación en dos niveles: meta-investigación de sí mismo
Un marco bilevel de autoinvestigación mejora 5x el preentrenamiento de GPT, optimizando su búsqueda sin intervención humana.
Un marco bilevel de autoinvestigación mejora 5x el preentrenamiento de GPT, optimizando su búsqueda sin intervención humana.
Descubre SSSD, un método gratuito que acelera la inferencia de LLM hasta 2.9x sin necesidad de entrenamiento ni modelos auxiliares. Robusto en cambios de idioma y contexto largo.
Descubre SSSD, un método de decodificación especulativa sin entrenamiento que acelera la inferencia de LLMs hasta 2.9x con menor latencia y alta robustez.
Mejora la precisión de modelos pequeños hasta un 6.2% usando guía de modelos grandes sin entrenamiento. Descubre Speculative Thinking.
Descubre cómo SoLoPO mejora la capacidad de los LLMs para manejar contextos largos mediante optimización de preferencias de corto a largo, logrando mayor eficiencia y precisión.
El pensamiento especulativo guía modelos pequeños con modelos grandes, mejorando precisión un 6.2% y reduciendo salida un 15.7%.
Descubre YAQA, el algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% sin sobrecarga. Preserva la distribución del modelo original.
MesaNet optimiza el entrenamiento en tiempo de prueba para mejorar el rendimiento en secuencias largas. Menor perplejidad y mayor eficiencia.
Descubre MesaNet, un modelo recurrente que optimiza capa por capa en inferencia. Mejora rendimiento en contextos largos sin aumento lineal de memoria.
Descubre cómo YOTO selecciona subconjuntos óptimos de genes con un solo entrenamiento, mejorando la predicción y la interpretabilidad en datos ómicos.
Descubre Mid-Think, un método sin entrenamiento que mejora el equilibrio precisión-longitud en modelos de razonamiento híbrido usando tokens disparadores. Ideal
BHyT: una alternativa estable y eficiente a Pre-LN en LLMs. Logra 1.6% más rápido entrenamiento y 1.77% más throughput. Rendimiento superior.
Descubre UltraEP, el primer balanceador de carga en tiempo real para MoE que logra un 94.3% del rendimiento ideal en entrenamiento e inferencia con 2560 GPUs.
Generación de imágenes de alta calidad sin entrenamiento con modelos de difusión basados en parches. Logra resultados de vanguardia en segundos para megapíxeles y minutos para gigapíxeles.
Descubre MusaCoder, un marco de entrenamiento full-stack para generar kernels GPU nativos. Combina síntesis de datos, ajuste por rechazo y aprendizaje por refue
Descubre cómo un nuevo framework de codificador/decodificador preserva la geometría de los datos, acelerando la convergencia en modelos generativos latentes.
Descubre cómo un currículo de RL permite a LLMs generalizar procedimientos entre código y lenguaje natural, igualando a GPT-4o.
Descubre cómo entrenamiento condicionado por camino reescala redes ReLU para acelerar aprendizaje. Enfoque geométrico optimiza kernels y mejora inicialización.
Preserva la alineación de seguridad de tus LLMs durante el fine-tuning con PACT: restricciones focalizadas en tokens de seguridad que evitan la deriva sin sacrificar rendimiento.
Descubre cómo tratar la transcriptómica espacial como imágenes permite preentrenar modelos masivos, mejorando el rendimiento en estudios clínicos y patológicos.