#ual · DeepCodeNews

CAPED: Defensa Contextual de Privacidad para GUI Móviles

CAPED protege tu privacidad visual en agentes GUI móviles: solo expone datos necesarios para cada tarea, reduciendo fugas de información sensible. Descúbrelo.

2026-06-12 · 3 min

MPC Agentivo para la Resíntesis Semántica de Control

Descubre el MPC agentivo que integra LLMs para adaptar el control semántico en vehículos autónomos, respondiendo a normas sociales y preferencias del usuario.

2026-06-12 · 2 min

PERIA: Agente visual con herramientas para razonamiento espacial

Descubre PERIA, un agente visual que usa herramientas para mejorar el razonamiento espacial. Supera a modelos grandes en tareas de mapas, probing y reconstrucción.

2026-06-12 · 2 min

OCOO-T: Modelo Celular Virtual para Predicción de Respuestas Transcripcionales

OCOO-T: modelo de célula virtual minimalista que predice respuestas transcripcionales a perturbaciones con alta precisión y escalabilidad.

2026-06-12 · 1 min

TimeROME-DLM: Edición de conocimiento en inferencia sin entrenamiento

TimeROME-DLM permite editar conocimiento en modelos de difusión enmascarados sin reentrenar. Rápido, sin VRAM extra, escala a 400 hechos. ¡Conócelo!

2026-06-12 · 1 min

JSCGC: Codificación Generativa Conjunta para Comunicaciones Inalámbricas

JSCGC reemplaza la decodificación tradicional por modelos generativos, mejorando la calidad perceptual y semántica en comunicaciones inalámbricas.

2026-06-12 · 3 min

Superando el aislamiento modal en el pensamiento intercalado

Aislamiento modal en razonamiento intercalado reduce coherencia. MoTiF supervisa transiciones con refuerzo paso a paso para mejorar precisión en tareas.

2026-06-12 · 3 min

scLLM-DSC: Clustering multimodal con LLM para ARN-seq unicelular

scLLM-DSC: un novedoso marco de clustering multimodal que aprovecha grandes modelos de lenguaje para mejorar la precisión en el análisis de células individuales.

2026-06-12 · 2 min

scLLM-DSC: Agrupamiento Estructural Profundo Multimodal con LLM para scRNA-seq

scLLM-DSC mejora el clustering de scRNA-seq integrando conocimiento de LLM y supera 11 métodos. Conoce este avance en bioinformática.

2026-06-12 · 2 min

EA-WM: Modelos Mundiales Conscientes de Eventos para Largo Plazo

Descubre cómo EA-WM integra verificación de eventos en modelos del mundo para una manipulación robótica más precisa y segura en tareas de largo horizonte.

2026-06-12 · 2 min

Pensamiento Visual Iterativo: Autocorrección Espacial en Modelos Visión-Lenguaje

Descubre cómo IVT enseña a modelos visión-lenguaje a corregir sus errores espaciales: precisión 82% y degradación 5x menor.

2026-06-12 · 3 min

Correspondencia propioceptiva-visual para distinción yo-otro en robots

Robot humanoide se distingue de otros usando percepción propioceptiva-visual sin etiquetas. Crea modelo corporal 3D para navegación y evitar colisiones.

2026-06-12 · 1 min

Peligros del ROAR: Perspectiva de desigualdad de procesamiento

¿El benchmark ROAR es confiable? Descubre cómo la borrosidad en mapas de atribución infla resultados y engaña.

2026-06-12 · 1 min

ReFoCUS: Selección de Fotogramas con Refuerzo para Comprensión Contextual

Descubre cómo ReFoCUS utiliza aprendizaje por refuerzo para seleccionar fotogramas clave en video, mejorando la precisión en tareas de comprensión contextual.

2026-06-12 · 2 min

El lenguaje de esquemas conceptuales KG-ER

Conoce KG-ER, el lenguaje de esquemas conceptuales que unifica la representación de grafos de conocimiento sin depender de la tecnología. ¡Mejora semántica!

2026-06-12 · 2 min

VDE Bench: Evaluación de modelos de edición de imágenes en documentos densos

Conoce VDE Bench, el benchmark que evalúa modelos de edición de imágenes en documentos densos bilingües chino-inglés. Ideal para IA.

2026-06-12 · 1 min

LatentLens: Revelando tokens visuales interpretables en LLMs

Descubre LatentLens, un método que revela qué codifican los tokens visuales en modelos de lenguaje. Mejora la interpretabilidad de VLMs.

2026-06-12 · 2 min

Ex-Omni: Generación de animación facial 3D para modelos omni-modales

Ex-Omni genera animación facial 3D sincronizada con voz para modelos omni-modales. Código abierto, baja latencia y alta calidad.

2026-06-12 · 2 min

PaLMR: Razonamiento Visual Fiel mediante Alineación Multimodal

PaLMR alinea procesos de razonamiento visual en modelos multimodales, reduciendo alucinaciones y mejorando fidelidad. Logra resultados de vanguardia en HallusionBench, MMMU, MathVista y MathVerse.

2026-06-12 · 1 min

Desigualdad de McDiarmid: tensorización aproximada de entropía bajo dependencia

Aprende cómo la tensorización de entropía extiende la desigualdad de McDiarmid a datos dependientes. Aplicaciones en ML, grafos aleatorios y más.

2026-06-12 · 3 min