#complejidad rademacher

Tasas óptimas de generalización del descenso de gradiente en clasificación ReLU profunda

Descubre cómo el descenso de gradiente logra tasas de generalización óptimas en redes ReLU profundas con dependencia polinomial de la profundidad, mejorando resultados previos.

2026-06-03 · 2 min

Repensando Transformers: de escala a expresividad estructurada para CTR

Descubre cómo FAT revoluciona la predicción de CTR con expresividad estructurada: +4.38% AUC y +2.33% CTR en producción.

2026-06-02 · 2 min