Fusión tardía de capas: solución a la saturación visual en MLLMs
Un nuevo método, DPVR-LF, enruta tokens visuales solo en la última capa, reduciendo cómputo inútil en modelos multimodales. ¡Rendimiento competitivo con solo
Un nuevo método, DPVR-LF, enruta tokens visuales solo en la última capa, reduciendo cómputo inútil en modelos multimodales. ¡Rendimiento competitivo con solo
IMUG-Bench: evalúa modelos multimodales en diálogos imagen-texto multiturno. Detecta sesgos y propone estrategias de mejora para comprensión y generación.
Descubre cómo un nuevo método de fine-tuning con anclas mejora el control composicional en paisajes: 0.850 en horizonte, 0.817 en regla de tercios.
Descubre cómo los modelos generativos como VAE, GAN y DDPM se comportan bajo escasez de datos y privacidad diferencial. Un análisis de fidelidad, utilidad y
Evalúa la inteligencia audiovisual de MLLMs con AVI-Bench: percepción, comprensión y razonamiento. Resultados y taxonomía.
Descubre cómo el nuevo dataset de preferencias humanas dinámicas evalúa la capacidad de los VLMs para adaptarse en tiempo real. Ideal para investigadores en IA.
Descubre MemoVAD, un innovador sistema de detección de anomalías en video que combina IA en el borde y la nube para reducir costos y mejorar la precisión.
Ajuste adversarial de modelos fundacionales permite transferir datos unicelulares a espaciales sin emparejamiento. Clave en biología computacional.
DOG-DPO seleccionando solo el 11% de los datos logra una alineación de seguridad superior en LLMs sin entrenamiento adicional. Descubre cómo.
Descubre cómo un pipeline con LLM traduce código Fortran a JAX, acelerando 24x modelos de superficie terrestre con optimización por gradientes.
Acelera 2.65x la inferencia de LLMs con Destilación de Caché Semántica. Reutiliza y parchea para transferencia eficiente de estado sin degradar calidad.
Descubre cómo la predicción temporal, no la reconstrucción de píxeles, genera representaciones de video relevantes para la acción en modelos de mundo.
HARP selecciona datos óptimos para ajuste fino de LLMs, reduciendo costos de entrenamiento hasta 7x y mejorando rendimiento hasta +8.9 puntos.
Los ataques adversariales reducen un 64% la robustez del control de activación en LLMs y colapsan la confianza. Descubre su fragilidad estructural.
Descubre cómo un oráculo de atención reduce el coste de prefill en modelos híbridos de contexto largo, manteniendo calidad y acelerando inferencia hasta 1.93x.
Mejora el alineamiento de LLMs con SAW, ponderación dinámica que optimiza el aprendizaje multiobjetivo sin apenas coste computacional.
Descubre cómo MLingualFC revela vulnerabilidades de jailbreak en VLMs multilingües usando diagramas de flujo.
WhiFlash: nuevo método de decodificación especulativa que unifica paradigmas autoregresivo y difusión. Logra hasta 69.6% más rendimiento. ¡Conócelo!
Rosetta Memory adapta la memoria entre modelos de lenguaje como GPT y Claude. Optimiza la escritura y lectura para mejorar tareas complejas. ¡Descubre su
Descubre cómo la aumentación de temas mejora la interpretabilidad de factores de riesgo psicosocial en modelos de IA para detección de ideación suicida.