#percepción

Med-Scout: curando la ceguera geométrica en MLLMs médicos con RL

Med-Scout cura la ceguera geométrica de los MLLMs en diagnóstico médico mediante entrenamiento con refuerzo. Mejora percepción geométrica más del 40%.

2026-06-02 · 3 min

Diferencias acústicas y perceptuales en clones de voz estándar y acentuada

El acento afecta la clonación de voz: clones de habla acentuada son menos similares pero más inteligibles. Estudio revela que preservar el acento es clave.

2026-06-02 · 2 min

La nueva imagen social: IA competente y proactiva en el trabajo

Una IA menos competente puede aumentar tu satisfacción laboral. Estudio revela impacto en percepción propia y de colegas en el trabajo.

2026-06-02 · 2 min

Más allá de la memoria visual: diagnóstico mecanicista

Los tokens latentes en modelos multimodales no almacenan memoria visual. Descubre cómo los marcadores de límite y formato generan las ganancias.

2026-06-02 · 2 min

PSG-Nav: Navegación con Grafos de Escena Probabilísticos y Decisiones Multiverso

Descubre cómo PSG-Nav usa grafos de escena probabilísticos y decisiones multiverso para navegar en entornos abiertos con alta incertidumbre. Nuevo state-of-the-art en MP3D, HM3D, HSSD.

2026-06-02 · 2 min

SkyShield: Ocupación como interfaz de seguridad en UAV de baja altura

SkyShield es el primer benchmark de ocupación semántica front-view para drones a baja altitud. Mejora la seguridad con métricas dinámicas y alcanzabilidad.

2026-06-02 · 1 min

Benchmarks confiables y negociados para VLM en percepción urbana

Benchmarks de VLM en percepción urbana: confiabilidad y negociación. Estudio en Montreal muestra impacto de fiabilidad humana.

2026-06-02 · 2 min

Reinterpretando los umbrales de seguridad como umbrales de disparo neuronal

Reinterpreta umbrales de seguridad como disparos neuronales con SNN para alinear evaluación de riesgos con el frenado humano.

2026-06-01 · 2 min

Redes Neuronales de Alto Orden Inspiradas en Circuitos para PDE y Visión

CHONN: redes de alto orden inspiradas en circuitos unifican dinámicas neuronales para resolver PDEs y mejorar percepción visual. Modelado estable y eficiente.

2026-06-01 · 1 min

GSAM: Marco robótico seguro y generalizable para objetos articulados

Descubre GSAM, un marco robótico que mejora un 36% la tasa de éxito en manipulación de objetos articulados, reduciendo colisiones. ¡Lee más!

2026-06-01 · 2 min

¿Juega la información visual un papel decisivo en la conducción de modelos VLA?

Analizamos la relación entre información visual y comportamiento de conducción en modelos VLA mediante perturbaciones controladas. Implicaciones para sistemas más seguros.

2026-06-01 · 2 min

ERGeoBench: Benchmark de geolocalización encarnada en MLLMs

ERGeoBench evalúa la geolocalización encarnada de modelos multimodales usando razonamiento espacial y percepción visual. Descubre sus limitaciones.

2026-06-01 · 1 min

DynaFLIP: Repensando la Percepción Robótica mediante la Representación Guiada por Dinámicas Tri-Modales

2026-05-29 · 2 min

xModel-KD: Destilación de conocimiento intermodal para la percepción de escenas 3D usando LiDAR

El Punto, la Visión y el Texto: ¿Mejora la Nube de Puntos el Razonamiento Espacial de los Grandes Modelos de Lenguaje? Un Estudio Controlado por Sesgos

Estudio controlado que analiza si la nube de puntos mejora el razonamiento espacial de los LLMs. Resultados y conclusiones clave.

2026-05-28 · 2 min

#percepción

Med-Scout: curando la ceguera geométrica en MLLMs médicos con RL

Diferencias acústicas y perceptuales en clones de voz estándar y acentuada

La nueva imagen social: IA competente y proactiva en el trabajo

Más allá de la memoria visual: diagnóstico mecanicista

PSG-Nav: Navegación con Grafos de Escena Probabilísticos y Decisiones Multiverso

SkyShield: Ocupación como interfaz de seguridad en UAV de baja altura

Benchmarks confiables y negociados para VLM en percepción urbana

Reinterpretando los umbrales de seguridad como umbrales de disparo neuronal

Redes Neuronales de Alto Orden Inspiradas en Circuitos para PDE y Visión

GSAM: Marco robótico seguro y generalizable para objetos articulados

¿Juega la información visual un papel decisivo en la conducción de modelos VLA?

ERGeoBench: Benchmark de geolocalización encarnada en MLLMs

DynaFLIP: Repensando la Percepción Robótica mediante la Representación Guiada por Dinámicas Tri-Modales

xModel-KD: Destilación de conocimiento intermodal para la percepción de escenas 3D usando LiDAR

Aprendizaje de una política visual basada en simulación para inserción de clavija en agujeros no vistos en el mundo real

GroundAct: ¿Pueden los agentes LLM fundamentar acciones en estados ambientales?

Mejorando el aprendizaje por refuerzo en entornos 3D mediante segmentación semántica: un estudio de caso en ViZDoom

Percepción Omni-Modal Activa Agentiva para Razonamiento Audiovisual de Múltiples Saltos

Oigo, luego confío: Una investigación sociotécnica de los humanos como detectores de habla sintética

El Punto, la Visión y el Texto: ¿Mejora la Nube de Puntos el Razonamiento Espacial de los Grandes Modelos de Lenguaje? Un Estudio Controlado por Sesgos