#imo · DeepCodeNews

GauS: Optimización de Scheduling con Reparametrización Gaussiana

Descubre cómo GauS optimiza el scheduling con reparametrización gaussiana, logrando resultados Pareto-óptimos en compilación y hardware.

2026-06-16 · 2 min

Detección explicable de memes de odio y propaganda con RL y CoT

Descubre cómo un nuevo método de RL con supervisión CoT mejora la detección explicable de memes de odio y propaganda, superando benchmarks en inglés y árabe.

2026-06-16 · 2 min

SCAN: Marco para asignación eficaz de tareas con IA generativa

Descubre SCAN, un marco humano-céntrico para asignar tareas con IA generativa. Aprende a equilibrar automatización y colaboración para mejorar tu productividad.

2026-06-16 · 3 min

MAF: Prompting Adaptativo Multimodal para Análisis de Sentimientos

Mejora el análisis de sentimientos con MAF: marco adaptativo multimodal que recupera demostraciones relevantes y fusiona similitudes para mayor precisión en

2026-06-16 · 1 min

Inyección Residual Profunda para Percepción Forense en MLLMs

Con Deep-VRM, los MLLMs detectan imágenes generadas por IA preservando su conocimiento semántico. Nuevo estado del arte en forense visual.

2026-06-16 · 2 min

NVMOS: Evaluación de calidad de vocalizaciones no verbales en el habla

NVMOS: el primer modelo que predice la calidad perceptual de vocalizaciones no verbales como risas y suspiros. Supera a expertos.

2026-06-16 · 2 min

Cómo construir una app MVP de e-commerce en 2026

Descubre cómo tu startup puede lanzar un MVP de e-commerce en 2026 sin gastar de más. Estrategias, costos y herramientas clave.

2026-06-16 · 3 min

OmniTraffic: Generación controlable y benchmark para razonamiento de tráfico

OmniTraffic: pipeline y benchmark para razonamiento espacio-temporal. Evalúa 11 MLLMs con 8M VQA, revela brecha humano-modelo. Simulación mejora rendimiento.

2026-06-16 · 2 min

DifFRACT: Reconstrucción y Atribución para Trazado de Circuitos

Descubre cómo DifFRACT permite trazar circuitos interpretables en modelos de difusión multimodales, mejorando el control y la comprensión de la generación de

2026-06-16 · 2 min

Verdad en la familia: Mejorando anclaje contextual con cabezas veraces heredadas

Descubre cómo los modelos de lenguaje heredan cabezas veraces que mejoran el anclaje contextual y reducen alucinaciones. TruthProbe optimiza LLMs y MLLMs.

2026-06-16 · 1 min

Inyección Residual para Percepción Forense en Modelos Multimodales

Descubre cómo Deep-VRM inyecta señales forenses en modelos multimodales para detectar imágenes generadas por IA con alta precisión y robustez.

2026-06-16 · 2 min

MAGE-RAG: Evidencia Gráfica Adaptativa Multigranular para RAG Multimodal Agéntico

MAGE-RAG optimiza la recuperación multimodal en documentos largos con evidencia gráfica adaptativa. Mejora precisión y reduce ruido. ¡Resultados superiores!

2026-06-16 · 2 min

VinQA: Respuestas largas con elementos visuales intercalados en documentos

VinQA: nuevo dataset para generar respuestas largas con citas visuales en documentos multimodales. Mejora la precisión de modelos con Page y Modality Encoding.

2026-06-16 · 2 min

Explicaciones XAI sin entrenamiento con LLMs multimodales para deepfakes de voz

Framework sin entrenamiento que integra XAI y LLMs para explicar deepfakes de voz. Mejora la precisión en más del 45%.

2026-06-16 · 2 min

Autoencoders dispersos en cascada aprenden conceptos visuales multinivel en MLLMs

Descubre cómo los CSAEs aprenden conceptos visuales jerárquicos en MLLMs, mejorando la interpretabilidad y permitiendo intervenciones grupales.

2026-06-16 · 2 min

Guía estructural: síntesis de angiografía con fluoresceína desde fotos y OCT

Descubre cómo la inteligencia artificial combina fotos de retina y OCT para generar angiografías con fluoresceína no invasivas, mejorando el diagnóstico de

2026-06-16 · 2 min

Modelo multimodal unificado para imputación y comprensión de MRI cerebral

Descubre UniBrain, un modelo multimodal unificado que imputa datos faltantes de MRI y mejora el diagnóstico cerebral con inteligencia artificial.

2026-06-16 · 2 min

Perdidos al final: primacía en QA multimodal con recuperación

Descubre cómo el sesgo de primacía Perdidos al final afecta a los sistemas de QA multimodal con recuperación, donde la información al inicio del contexto

2026-06-16 · 2 min

Perdido al final: sesgo de primacía en VQA multimodal

Descubre el sesgo de primacía en VQA multimodal: la información al principio supera al final en hasta 26 puntos. Clave para IA.

2026-06-16 · 2 min

Gen-VCoT: Razonamiento visual con cadena de pensamiento generativa

Descubre Gen-VCoT, un nuevo marco de razonamiento visual que usa imágenes RGB intermedias generadas por difusión para mejorar la interpretabilidad y precisión

2026-06-16 · 2 min