ProtoAda: Expansión Adaptativa Guiada por Prototipos para Ajuste Continuo
ProtoAda usa prototipos y consolidación geométrica para evitar interferencias en ajuste continuo multimodal, mejorando rendimiento.
ProtoAda usa prototipos y consolidación geométrica para evitar interferencias en ajuste continuo multimodal, mejorando rendimiento.
MAVL es un benchmark multilingüe multimodal para traducir canciones animadas. SylAVL-CoT usa audio-video y restricciones silábicas para letras cantables.
Mejora la calidad de embeddings multimodales con atención colaborativa y reconstrucción de contenido para tareas de recuperación y clasificación.
Descubre Design-MLLM, un marco de IA que optimiza el diseño de interiores garantizando viabilidad espacial y estética. Alineación por refuerzo para resultados ejecutables.
UrbanFusion combina imágenes, mapas y POI con fusión estocástica para representaciones espaciales robustas. Supera modelos previos en 41 tareas.
Descubre cómo Avatar Forcing permite generar avatares interactivos en tiempo real que reaccionan a tu voz y gestos, con baja latencia y sin etiquetado. ¡Más del 80% de preferencia!
Descubre cómo el sesgo de prototipicalidad engaña a las métricas de modelos texto-imagen. Conoce PROTOBIAS, el benchmark que detecta fallos semánticos.
Descubre FastSLM: comprime audio largo al 1.67 tok/s, reduce 97% tokens sin perder contexto. Optimiza tus MLLMs.
Med-Scout cura la ceguera geométrica de los MLLMs en diagnóstico médico mediante entrenamiento con refuerzo. Mejora percepción geométrica más del 40%.
Descubre APB-V: acelera la comprensión de videos largos en múltiples GPUs hasta 12.72x sin pérdida de rendimiento. Ideal para modelos multimodales.
Descubre cómo Med-Scout usa RL para eliminar la ceguera geométrica en modelos médicos, mejorando precisión en diagnóstico por imágenes. ¡Supera en un 40% a otros modelos!
Descubre cuándo y cuánto imaginar en razonamiento espacial visual. AVIC optimiza el uso de modelos del mundo, superando a GPT-4o con menos recursos.
Descubre REST-ASMR, un dataset multimodal que combina fotopletismografía y anotaciones subjetivas para predecir estados ASMR con alta precisión. Ideal para IA afectiva.
Descubre MERIT: un método descentralizado que mejora el ajuste de instrucciones en modelos multimodales fusionando pesos sin comunicación intensiva. Resultados superiores al entrenamiento conjunto.
Descubre cómo DenseMLLM permite a los LLM multimodales estándar realizar predicciones densas sin decodificadores adicionales. Resultados competitivos en segmentación y profundidad.
LookWise mejora el razonamiento visual detallado en modelos multimodales sin entrenamiento, logrando 4x más velocidad y mayor precisión en benchmarks. ¡Descúbrelo!
PaintBench: benchmark determinista para edición visual precisa en IA. Evalúa 20 operaciones con métricas exactas. Descubre la baja precisión actual.
ES-Merging fusiona modelos multimodales biológicos usando señales de embedding, mejorando razonamiento cruzado y preservación.
Descubre EuraGovExam, un benchmark con exámenes reales de servicio civil en 5 regiones. Evalúa VLMs en razonamiento visual multilingüe. Resultados reveladores.
Un estudio analiza la alineación multimodal en SNIP para regresión simbólica. Descubre por qué no mejora durante la optimización y qué implica para el futuro.