MiDiGap: aprendizaje robótico eficaz con procesos gaussianos
Descubre MiDiGap, un método de aprendizaje robótico que aprende políticas complejas con solo 5 demostraciones en menos de un minuto. ¡Resultados líderes en manipulación!
Descubre MiDiGap, un método de aprendizaje robótico que aprende políticas complejas con solo 5 demostraciones en menos de un minuto. ¡Resultados líderes en manipulación!
Descubre OpenVTON-Bench, el nuevo benchmark con 100K imágenes de alta resolución para evaluar probadores virtuales con métrica multimodal fiable.
GLACIER integra gráficos, SMILES y descriptores fisicoquímicos para predecir propiedades moleculares con alta eficiencia. Código abierto.
IAPO: un algoritmo de RL que mejora la capacidad de llamar a herramientas en agentes multimodales pequeños, logrando un 3% más de precisión en VQA.
Aumenta un 3% la precisión en VQA con IAPO, algoritmo RL que alinea la atribución de entrada en agentes multimodales pequeños. ¡Descubre cómo!
Descubre FronTalk, benchmark para generación de código front-end con feedback multimodal. Conoce el olvido en modelos y la solución AceCoder.
Descubre cómo el DHDE integra sensores físicos, señales digitales y datos meteorológicos para medir la movilidad humana regional con precisión, revelando una brecha de ingresos millonaria.
ReRe: razonamiento espacial mejorado en videos egocéntricos sin entrenamiento. Revisión entre vistas alcanza rendimiento de modelos propietarios.
Descubre TI-Adapter: ajuste eficiente para aprendizaje multimodal tabular-imagen con rendimiento competitivo y menos parámetros entrenables.
Descubre MedCTA, el benchmark para evaluar agentes de IA en tareas clínicas reales. Analizamos su rendimiento en herramientas clínicas y protocolos.
Ouroboros-Spatial: un marco auto-evolutivo que mejora el razonamiento espacial en modelos multimodales, reduciendo datos redundantes y superando benchmarks.
Aprende cómo MultiToP parchea tokens visuales para reducir alucinaciones en modelos de video. Mejora F1 en 50.6% sin afectar rendimiento.
Nuevo modelo de IA multimodal con regresión ordinal logra alta precisión en la clasificación de la severidad del Alzheimer usando MRI y datos clínicos.
DAM-VLA revoluciona la robótica al desacoplar el procesamiento temporal, logrando un 95.2% de éxito en tareas de contacto. Descubre el nuevo estándar.
Descubre TASM: comprime la memoria de modelos multimodales sin entrenamiento, manteniendo rendimiento y adaptabilidad. Ideal para aprendizaje en contexto.
Descubre ART, un innovador método de fine-tuning para LLMs multimodales que optimiza la entrada visual sin modificar pesos. Competitivo con LoRA en benchmarks.
Descubre cómo los embeddings multimodales congelados mejoran la predicción de personalidad y capacidad cognitiva en video entrevistas asíncronas.
MSUE combina texto, imagen y video para responder preguntas sobre fútbol con un 95% de precisión. Conoce su arquitectura multi-experto.
LWR: aprendizaje multimodal robusto sin reconstruir datos faltantes. Mejora clasificación de cáncer y predicción de supervivencia con multi-omics incompletos.
Descubre MLaGA, el asistente multimodal que integra texto e imágenes en grafos, optimizando el análisis con LLMs. ¡Mejora tu IA!