Destilación de Crédito Guiada por Hermanos para Agentes Tool-Use
SGCD mejora la asignación de crédito en agentes tool-use con destilación guiada por hermanos, superando a GRPO en AppWorld y τ3-airline.
SGCD mejora la asignación de crédito en agentes tool-use con destilación guiada por hermanos, superando a GRPO en AppWorld y τ3-airline.
El marco DLNet demuestra que modelos pequeños pueden superar a grandes en pronósticos de batería para el borde. Implementado en Arduino con 94 kB y 21 ms, reduce error un 15.4%.
MODF-SIR: marco multiagente omni-modal destilado. Con adaptación en tiempo de prueba y LoRA, alcanza resultados de vanguardia con solo 30% datos.
Redes neuronales destiladas con física y LLM predicen propiedades en fabricación con alta precisión con datos escasos, para despliegue en tiempo real.
Descubre cómo redes neuronales destiladas con física y LLMs predicen propiedades de fabricación incluso con datos escasos. Ideal para monitoreo en tiempo real.
Aprende cómo combinar destilación de conocimiento y mixup para obtener predicciones fiables, mejor calibración y menor sobreconfianza en redes neuronales.
Descubre cómo AuRA internaliza la comprensión del audio en LLMs mediante LoRA, superando a sistemas en cascada con mayor eficiencia y precisión.
HADES usa la heterofilia para destilar conocimiento en hipergrafos. Logra modelos ligeros hasta 12.3 veces más rápidos que el profesor.
Descubre cómo la normalización global estabiliza la destilación on-policy en modelos multimodales, mejorando el razonamiento y evitando explosiones de gradiente.
AliyunConsoleAgent entrena agentes web para verificar documentación en consolas cloud. Combina destilación y RL, logrando 63.52% éxito con 92% menos costo.
Aprende cómo los modelos de razonamiento seleccionan entre millones de etiquetas usando una estrategia de destilación mecanicista en dos fases.
Descubre cómo el nuevo método FBCC evita el olvido catastrófico en clustering continuo sin etiquetas usando destilación adelante-atrás.
Aprende cómo FBCC aplica destilación bidireccional para clustering continuo sin olvidar tareas anteriores. Reduce el olvido catastrófico.
Aprende cómo LRMIL destila conocimiento de alta resolución a baja para clasificar imágenes patológicas con alta precisión y bajo coste.
MGSD mejora la planificación espacial visual un 19% mediante autodestilación consciente de brecha de modalidad, cerrando la brecha percepción-razonamiento.
Descubre LoRi: destilación de bajo rango que mejora el razonamiento implícito en LLMs, acercándose a cadenas de pensamiento explícitas.
Drive-KD destila conocimiento multi-profesor para VLMs en conducción autónoma: menor uso de GPU, mayor throughput y rendimiento superior en planificación.
ViCuR usa pistas visuales recuperables para destilación on-policy multimodal, mejorando razonamiento sin sesgos de atajos. Resultados mejores en benchmarks.
Comprime trazas de razonamiento para destilar conocimiento. Reduce tokens de entrenamiento hasta 70% y acelera 7.6x con hasta 96% de precisión.
Recover-LoRA recupera hasta 95% de precisión en modelos de 2 bits usando adaptación de bajo rango y destilación con solo 10k datos sintéticos.