Investigación Profunda con DecomposeR: RL y Recompensa Estructural
DecomposeR optimiza la investigación profunda con RL centrado en planificador y recompensa estructural. Mejora hasta 8 puntos en benchmarks.
DecomposeR optimiza la investigación profunda con RL centrado en planificador y recompensa estructural. Mejora hasta 8 puntos en benchmarks.
Descubre cómo los vectores de función multimodal permiten extraer y optimizar relaciones visuales en modelos de IA, mejorando el razonamiento sin necesidad de reentrenar.
Descubre cómo los PRA mejoran el razonamiento intensivo en conocimiento con recompensas paso a paso, logrando 81.9% en MedQA con Qwen3-4B.
Nuevo modelo multimodal de Alibaba, Qwen3.7-Plus, a bajo costo pero propietario. Analizamos su rendimiento, precios y licencia.
Descubre R3-CoVR, un marco zero-shot sin entrenamiento que alcanza 91.9% R@1 en recuperación de videos compuestos mediante razonamiento multimodal y reordenamiento.
Descubre Ryze, un sistema que automatiza la creación de datasets enriquecidos con evidencia visual a partir de papers biomédicos, superando a GPT-5.
Descubre cómo los modelos multimodales superan a los LLM en clasificación de documentos visuales. La información visual es clave. Resultados RVL-CDIP.
ARCA: método ligero de credit assignment para LLM con LoRA. Usa residuos de adaptadores, evita degeneración. Competitivo en MATH/Qwen3 sin reward model.
Descubre cómo combinar modelos pequeños y grandes permite detectar errores raros y sutiles en videos de primera persona, equilibrando velocidad y precisión.
Descubre cómo logramos el 4° puesto en PsyDefDetect 2026 usando Qwen3-8B con ajuste fino consciente del desbalance, aumentando el F1 macro un 24.4% sobre la línea base.
TRON genera instancias verificables bajo demanda para entrenar modelos de razonamiento visual con RL, mejorando benchmarks multimodales.
Descubre cómo la inferencia 2-bit en modelos de razonamiento genera fallos como bucles y cómo la planificación y rescate recuperan precisión hasta 87%.
PInVerify es un nuevo benchmark offline que evalúa agentes encarnados en la verificación activa de objetos con atributos finos. Descubre cómo funciona y sus resultados con MLLMs.