LASER: SVD consciente de pérdida y asignación de rango para modelos VL
Descubre cómo LASER logra una aceleración 2.3x en modelos visión-lenguaje con baja precisión, usando SVD consciente de pérdida y asignación de rango.
Descubre cómo LASER logra una aceleración 2.3x en modelos visión-lenguaje con baja precisión, usando SVD consciente de pérdida y asignación de rango.
Los modelos de IA clínica pueden reidentificar pacientes al vincular radiografías con informes. Descubre cómo la privacidad diferencial reduce este riesgo.
MASER: un framework que selecciona la mejor modalidad para responder preguntas espaciales 3D con alta precisión. Basado en Open3D-VQA.
Entiende cómo la PID descompone la interacción entre modalidades en MLLMs, identificando sinergia y redundancia. Clave para mejorar razonamiento y grounding en IA.
Descubre cómo los videos humanos entrenan robots con modelos VLA escalables. Encuesta sobre aprendizaje robótico con datos humanos.
Descubre cómo ComProScanner extrae datos de materiales de figuras científicas con precisión del 97%. Automatiza tu investigación.
Descubre cómo VGID usa ruido visual y destilación para eliminar conocimiento no deseado en modelos multimodales sin perder rendimiento.
Descubre cómo el razonamiento continuo mejora las políticas VLA en robótica, con un 40% más de éxito en tareas. Un nuevo lenguaje interno compartido y verificable.
Descubre 3DCodeBench, el benchmark que evalúa agentes de IA en modelado 3D procedural vía código. Resultados, fallos comunes y mejoras con escalado en tiempo de prueba.
¿Cómo acelerar el entrenamiento VLM sin perder sinergia? Descubre la asimetría en atención y los límites de la reducción de tokens. Estrategias clave.
STaR-KV comprime la caché KV en modelos GUI sin entrenamiento, reduciendo memoria GPU un 40% sin penalizar precisión. Descubre cómo.
Descubre AsyMoE: nueva arquitectura para LVLMs que reduce alucinaciones y mejora eficiencia con expertos hiperbólicos y priorización de evidencia.
Descubre cómo MMG2Skill convierte guías web en habilidades ejecutables para agentes IA, mejorando su rendimiento hasta un 25% en múltiples dominios.
Descubre Zamba2-VL, modelos de visión-lenguaje basados en Mamba2 que ofrecen rendimiento competitivo con un orden de magnitud menor en tiempo de respuesta. Ideal para edge.
PaCo-VLA introduce un prior de cumplimiento con escudo de pasividad para manipulación robótica de contacto, asegurando cero violaciones incluso bajo cambios adversos.
Benchmarks de VLM en percepción urbana: confiabilidad y negociación. Estudio en Montreal muestra impacto de fiabilidad humana.
¿Los VLMs saben cuándo abstenerse? Un estudio revela que fallan en preguntas espaciales con oclusión o ambigüedad, respondiendo con exceso de confianza. Descubre por qué.
Genera informes patológicos sinópticos con un modelo eficiente que solo requiere media GPU H100. Resultados precisos.
CMAC: un método sin entrenamiento que calibra la atención cross-modal para mitigar alucinaciones en LVLMs. Corrige sesgos y mejora la consistencia visual-textual.
Descubre BOKBO, un método de abstención calibrada que garantiza seguridad en políticas VLA. Reduce violaciones y mejora el éxito de tareas robóticas.