#delos

Fusión tardía de capas: solución a la saturación visual en MLLMs

Un nuevo método, DPVR-LF, enruta tokens visuales solo en la última capa, reduciendo cómputo inútil en modelos multimodales. ¡Rendimiento competitivo con solo

2026-06-16 · 2 min

IMUG-Bench: Evaluación de modelos multimodales unificados

IMUG-Bench: evalúa modelos multimodales en diálogos imagen-texto multiturno. Detecta sesgos y propone estrategias de mejora para comprensión y generación.

2026-06-16 · 1 min

Control composicional condicionado por ancla en paisajes

Descubre cómo un nuevo método de fine-tuning con anclas mejora el control composicional en paisajes: 0.850 en horizonte, 0.817 en regla de tercios.

2026-06-16 · 2 min

No hay almuerzo gratis para imágenes sintéticas con datos escasos

Descubre cómo los modelos generativos como VAE, GAN y DDPM se comportan bajo escasez de datos y privacidad diferencial. Un análisis de fidelidad, utilidad y

2026-06-16 · 2 min

AVI-Bench: Hacia la inteligencia audiovisual humana en MLLMs

Evalúa la inteligencia audiovisual de MLLMs con AVI-Bench: percepción, comprensión y razonamiento. Resultados y taxonomía.

2026-06-16 · 2 min

Dataset de preferencias humanas dinámicas para modelos de lenguaje visual

Descubre cómo el nuevo dataset de preferencias humanas dinámicas evalúa la capacidad de los VLMs para adaptarse en tiempo real. Ideal para investigadores en IA.

2026-06-16 · 2 min

MemoVAD: Detección eficiente de anomalías en video con memoria semántica

Descubre MemoVAD, un innovador sistema de detección de anomalías en video que combina IA en el borde y la nube para reducir costos y mejorar la precisión.

2026-06-16 · 1 min

Transferencia unicelular cruzada con ajuste adversarial de modelos base

Ajuste adversarial de modelos fundacionales permite transferir datos unicelulares a espaciales sin emparejamiento. Clave en biología computacional.

2026-06-16 · 2 min

DOG-DPO: Optimización Geométrica Dinámica para Seguridad

DOG-DPO seleccionando solo el 11% de los datos logra una alineación de seguridad superior en LLMs sin entrenamiento adicional. Descubre cómo.

2026-06-16 · 2 min

Traducción con LLM de código Fortran a JAX: modelo de superficie terrestre

Descubre cómo un pipeline con LLM traduce código Fortran a JAX, acelerando 24x modelos de superficie terrestre con optimización por gradientes.

2026-06-16 · 2 min

Destilación de Caché Semántica: Transferencia Eficiente con Reúso y Parcheado

Acelera 2.65x la inferencia de LLMs con Destilación de Caché Semántica. Reutiliza y parchea para transferencia eficiente de estado sin degradar calidad.

2026-06-16 · 2 min

¿Qué hace relevantes para la acción a los latentes de modelos de mundo de video?

Descubre cómo la predicción temporal, no la reconstrucción de píxeles, genera representaciones de video relevantes para la acción en modelos de mundo.

2026-06-16 · 3 min

HARP: Selección eficiente de datos para ajuste fino de modelos de lenguaje grandes

HARP selecciona datos óptimos para ajuste fino de LLMs, reduciendo costos de entrenamiento hasta 7x y mejorando rendimiento hasta +8.9 puntos.

2026-06-16 · 2 min

Robustez adversarial del control de activación en LLMs

Los ataques adversariales reducen un 64% la robustez del control de activación en LLMs y colapsan la confianza. Descubre su fragilidad estructural.

2026-06-16 · 2 min

¿Cuánta atención densa se necesita? Prefill escaso con oráculo en modelos híbridos

Descubre cómo un oráculo de atención reduce el coste de prefill en modelos híbridos de contexto largo, manteniendo calidad y acelerando inferencia hasta 1.93x.

2026-06-16 · 2 min

SAW: Ponderación Dinámica por Etapas para RL Multiobjetivo en LLMs

Mejora el alineamiento de LLMs con SAW, ponderación dinámica que optimiza el aprendizaje multiobjetivo sin apenas coste computacional.

2026-06-16 · 2 min

MLingualFC: Evaluación de jailbreak en VLMs multilingües

Descubre cómo MLingualFC revela vulnerabilidades de jailbreak en VLMs multilingües usando diagramas de flujo.

2026-06-16 · 2 min

WhiFlash: Acelerando Decodificado Especulativo con Enrutamiento entre Paradigmas

WhiFlash: nuevo método de decodificación especulativa que unifica paradigmas autoregresivo y difusión. Logra hasta 69.6% más rendimiento. ¡Conócelo!

2026-06-16 · 2 min

Rosetta Memory: Memoria Adaptativa para Agentes Multi-LLM

Rosetta Memory adapta la memoria entre modelos de lenguaje como GPT y Claude. Optimiza la escritura y lectura para mejorar tareas complejas. ¡Descubre su

2026-06-16 · 2 min

Más allá de la precisión: representación temática en detección de suicidio

Descubre cómo la aumentación de temas mejora la interpretabilidad de factores de riesgo psicosocial en modelos de IA para detección de ideación suicida.

2026-06-16 · 3 min