#visión por computador

EgoAERO: Aprendizaje de manipulación diestra desde un único video egocéntrico

EgoAERO: el primer sistema que enseña a robots movimientos diestros desde un video egocéntrico, sin activos de objetos. Resultados reales.

2026-06-09 · 1 min

Diagnóstico visual de fallas y auto-recuperación en robots de fresa

Los robots cosechadores de fresas se recuperan de fallas visuales con IA. Este marco reduce desalineaciones y deslizamientos, logrando un 88% de éxito en recuperación.

2026-06-09 · 2 min

Generación de escenas 3D desde una imagen con múltiples agentes

Descubre cómo SceneConductor genera escenas 3D completas a partir de una sola imagen usando orquestación multi-agente. Mayor precisión y realismo.

2026-06-09 · 3 min

SuperBrowser: Navegación autónoma web basada en comportamiento humano

Descubre SuperBrowser, el agente de navegación web autónoma que imita el comportamiento humano y alcanza un 89.47% de éxito en Mind2Web. Una revolución en IA.

2026-06-09 · 2 min

Localización de eventos audiovisuales con grafos heterogéneos jerárquicos

Nuevo método HSCHG mejora la localización de eventos audiovisuales usando grafos heterogéneos jerárquicos con restricciones semánticas.

2026-06-08 · 2 min

Dentro de la mente visual: circuitos de concepto para Vision Transformers

Descubre cómo ViSAE usa circuitos de concepto inspirados en neurociencia para interpretar y guiar Vision Transformers, mejorando precisión y confianza.

2026-06-08 · 2 min

MotionEnhancer: difusión video mejora modelos visión-lenguaje en movimiento

Descubre cómo MotionEnhancer usa difusión de video para mejorar la comprensión del movimiento en VLMs, sin parámetros adicionales.

2026-06-08 · 2 min

Explicaciones mínimas y suficientes con OPTIMUS-Prime para visión profunda

OPTIMUS-Prime: explicaciones visuales con garantías de suficiencia y minimalidad para modelos de visión profunda. ¡Transparencia en IA!

2026-06-08 · 2 min

DaX: Representaciones de patología general a través de escalas

DaX logra el mejor rendimiento en 161 tareas de patología digital. Aprende representaciones generales a través de escalas. ¡Descubre más!

2026-06-08 · 2 min

No pauses: Sincronía de video-lenguaje en streaming para comprensión de video

LyraV logra sincronía del 98.29% entre video y lenguaje sin pausas. Procesamiento incremental y control jerárquico para comprensión de video en tiempo real.

2026-06-08 · 2 min

GP-Adapter: Detección OOD con pocos ejemplos usando procesos gaussianos

Aprende cómo GP-Adapter integra procesos gaussianos en CLIP para detectar datos fuera de distribución con pocos ejemplos, mejorando la incertidumbre y fiabilidad.

2026-06-08 · 3 min

¿Cómo mejora la IA el RAG para el conocimiento interno?

La IA transforma el RAG interno: automatiza decisiones, detecta patrones y ofrece recomendaciones personalizadas. Aumenta la eficiencia y reduce duplicados. ¡Conoce más!

2026-06-08 · 1 min

Cómo la IA potencia la eliminación de la entrada manual de datos

Descubre cómo la inteligencia artificial elimina la entrada manual de datos, reduce errores y libera a tu equipo. Q2BSTUDIO.

2026-06-06 · 2 min

Planificación espacial visual con autodestilación de brecha de modalidad

MGSD mejora la planificación espacial visual un 19% mediante autodestilación consciente de brecha de modalidad, cerrando la brecha percepción-razonamiento.

2026-06-06 · 2 min

FUSAR-GPT: VLM con características espacio-temporales para imágenes SAR

Descubre FUSAR-GPT, el modelo de lenguaje visual que integra características espacio-temporales para mejorar la interpretación de imágenes SAR en más del 10%.

2026-06-06 · 2 min

Búsqueda Diferencial y Eficiente de Operadores

Descubre cómo la búsqueda diferencial de operadores optimiza la reducción de tokens en modelos multimodales, mejorando el equilibrio precisión-eficiencia.

2026-06-05 · 2 min

Que sea simple: acciones en un solo paso para modelos VLA

Descubre cómo entrenar modelos VLA para generar acciones en un solo paso con técnicas de difusión estándar, mejorando eficiencia en robótica. Resultados sorprendentes en LIBERO.

2026-06-05 · 3 min

LadderMan: Escalada de robots humanoides con percepción

LadderMan: robots humanoides escalan escaleras y manipulan objetos. Sistema híbrido de aprendizaje y visión por IA. Transferencia sim-to-real sin ajustes.

2026-06-05 · 3 min

GenFT: Ajuste fino generativo y eficiente en parámetros

Descubre GenFT, un método generativo de ajuste fino que extrae patrones de pesos preentrenados para mejorar modelos en NLP y visión. ¡Optimiza tu modelo!

2026-06-05 · 2 min

GridPE: Codificación posicional unificada para dimensiones arbitrarias

GridPE: embedding posicional inspirado en células grid que unifica espacios multidimensionales. Supera a RoPE en tareas de visión 2D y 3D. ¡Descúbrelo!

2026-06-05 · 2 min