#fusión

StressDream: Evaluación robusta de políticas con modelos de video

StressDream optimiza el ruido de modelos de video para generar futuros plausibles y críticos. Evalúa y mejora políticas robóticas identificando fallos.

2026-06-02 · 2 min

Control de movimiento humano 3D sin renderizado con tokenización de malla

Descubre cómo los modelos de difusión de video con tokenización de malla permiten un control preciso del movimiento humano en 3D, eliminando la necesidad de ren

2026-06-02 · 1 min

DarkVesselNet: Detección de barcos oscuros con sensores remotos multimodales

Descubre DarkVesselNet: fusión de SAR, óptico y AIS con IA para detectar barcos oscuros. Razonamiento de trayectorias y detección de anomalías.

2026-06-02 · 3 min

Mejora del alineamiento de representaciones visuales con GRPO

Descubre cómo VRPO mejora el alineamiento de representaciones en difusores mediante optimización por refuerzo, logrando +1.8 FID y 2.3x más rápido que REPA.

2026-06-02 · 1 min

Destilación colaborativa y cuantización de baja precisión en Wan2.2

Descubre cómo optimizar modelos de video Wan2.2 con destilación y cuantización de baja precisión. ¡Mejor calidad, menos pasos!

2026-06-02 · 2 min

EPIC: Inferencia paralela y eficiente con CFG en modelos de difusión

Descubre EPIC, un framework que acelera inferencia paralela con CFG en modelos de difusión, reduciendo tiempo 67.5% y overhead 90.5%.

2026-06-02 · 1 min

WaveFilter: Filtrado guiado por wavelets para contexto largo en LLMs de difusión

WaveFilter mejora el rendimiento de LLMs de difusión en contexto largo mediante filtrado guiado por wavelets del caché KV.

2026-06-02 · 2 min

DASH: Destilación de Puntajes de Doble Rama para Modelos de Difusión Compactos

Descubre cómo DASH comprime modelos de difusión manteniendo calidad y guía, superando al entrenamiento desde cero.

2026-06-02 · 3 min

MLLM-Microscope: Desvelando la Estructura Interna de los MLLMs

Descubre cómo MLLM-Microscope analiza las representaciones internas de los MLLMs, revelando linealidad, dimensión y anisotropía para mejorar el diseño futuro.

2026-06-02 · 1 min

Olvida la Atención: Conciencia de Importancia es Todo

SISA: nuevo híbrido SSM-atención. Logra 17.3% en LAMBADA y recuperación perfecta en NIAH 7x más rápida que Transformers. ¡Descúbrelo!

2026-06-02 · 2 min

TrustLDM: Evaluación de confiabilidad en modelos de difusión

TrustLDM revela vulnerabilidades en modelos de difusión de lenguaje. Seguridad, privacidad y equidad analizadas.

2026-06-02 · 2 min

TCAR-Gen: Recuperación Temporal con Fusión de Evidencia

Descubre TCAR-Gen, un nuevo marco que combina redes neuronales de grafos, fusión temporal y razonamiento en árbol para responder preguntas complejas sobre casos criminales históricos.

2026-06-02 · 3 min

Extrae texto de cien PDFs en un solo comando con pdf-toolkit

Extrae texto de cientos de PDFs en un solo comando con pdf-toolkit. Procesa lotes, fusiona archivos, extrae páginas y exporta a CSV. Ahorra tiempo.

2026-06-02 · 2 min

Fusión de Expertos en MoE Dispersos con Nash Bargaining

Descubre cómo NAMEx, basado en teoría de juegos, mejora la colaboración entre expertos en modelos MoE, logrando mayor precisión y robustez en IA.

2026-06-01 · 2 min

Denoisers suavemente restringidos para modelos de difusión en EDP

Descubre cómo los denoisers suavemente restringidos mejoran el cumplimiento de EDPs sin rigidizar el modelo. Ideal para física computacional con IA.

2026-06-01 · 2 min

SANA-Streaming: Edición de video en tiempo real con difusión híbrida

Descubre SANA-Streaming: edita video en tiempo real a 1280x704 y 24 FPS en una RTX 5090. Co-diseño sistema-algoritmo con difusión híbrida.

2026-06-01 · 1 min

Síntesis controlable de nódulos pulmonares con difusión latente

Nuevo modelo de difusión latente con regularización por histograma genera nódulos pulmonares realistas para mejorar diagnóstico del cáncer en TC.

2026-06-01 · 2 min

¿Qué se descubre primero? Análisis de difusión para texto desde gráficos

Estudio revela que MDLMs descifran entidades primero en generación texto-gráfico. SFT puede fallar, pero decodificación lambda recupera +9.4 BLEU.

2026-06-01 · 2 min

TunerDiT: Generación de video multi-evento sin entrenamiento adicional

Descubre TunerDiT: método sin entrenamiento para videos multi-evento con transformadores de difusión. Mejora consistencia y separación de eventos.

2026-06-01 · 2 min

DTop-p MoE: Control dinámico de esparcidad en preentrenamiento de modelos

Descubre DTop-p MoE, un nuevo mecanismo de enrutamiento dinámico que aprende el umbral de probabilidad para controlar la esparcidad, superando a Top-k y Top-p fijo en modelos fundacionales.

2026-06-01 · 2 min