SuperThoughts: Tokens de Razonamiento en Superposición
SuperThoughts comprime tokens de CoT en representaciones latentes, duplicando la velocidad de inferencia y reduciendo un 20-30% la longitud del razonamiento con mínima pérdida de precisión.
SuperThoughts comprime tokens de CoT en representaciones latentes, duplicando la velocidad de inferencia y reduciendo un 20-30% la longitud del razonamiento con mínima pérdida de precisión.
¿Es la computación comprimida realmente computación en superposición? Este estudio revela que no, analizando la matriz de mezcla.
Descubre el nuevo LT-O-learner: un método ortogonal robusto para estimar efectos de tratamiento a largo plazo incluso con baja superposición. Ideal para marketing y medicina.
Descubre cómo la dimensión del modelo establece los límites geométricos para la representación de características en transformers, y cómo estimar la capacidad real de direcciones ortogonales.
La superposición granular de cómputo y comunicación con DMA acelera hasta 1.6x el entrenamiento ML en GPUs. Heurísticas precisas para elegir el plan óptimo.