Optimización de Políticas Proximales Variacionales
Descubre VP2O, el nuevo marco de optimización variacional que logra +179 ELO en Codeforces y reduce un 32% los tokens en tareas matemáticas.
Descubre VP2O, el nuevo marco de optimización variacional que logra +179 ELO en Codeforces y reduce un 32% los tokens en tareas matemáticas.
Descubre cómo R3LM combina biología y LLMs para predecir actividad regulatoria del ADN con explicaciones interpretables. Mejora la predicción de enhancers.
Descubre cómo el razonamiento contrafáctico mejora la precisión y fiabilidad del VideoQA al separar evidencia causal de correlaciones espurias. Ideal para sistemas de IA más confiables.
SG-OPD introduce un verificador binario para mejorar la destilación on-policy, superando a métodos anteriores en problemas de razonamiento matemático.
Descubre cómo PriFT optimiza el fine-tuning supervisado con pesos de tokens estables, evitando sobreajuste y mejorando resultados en razonamiento y código.
Descubre GR2, el nuevo reordenador generativo que mejora recomendaciones con razonamiento de LLMs y aprendizaje por refuerzo, superando al estado del arte en Recall y NDCG.
Aprende cómo el escalado prescriptivo predice la evolución de capacidades de modelos de lenguaje usando el presupuesto de cómputo. Basado en 7k evaluaciones.
CondMedQA y CGR: un nuevo enfoque para QA biomédico que considera condiciones del paciente. Descubre cómo mejora la precisión en diagnóstico clínico.
Descubre cómo MA-RAG mejora el razonamiento médico: recuperación multi-ronda y autocoherencia reducen alucinaciones y aumentan precisión.
Descubre cómo la optimización dinámica distribuida y el metarrazonamiento mejoran operaciones satelitales autónomas a gran escala.
Descubre cómo agentes débiles fortalecen modelos de lenguaje sin costo adicional. WMSS supera saturación post-entrenamiento mejorando razonamiento y generación de código.
Descubre NoRD, el modelo VLA que conduce sin razonamiento usando menos datos. Resultados competitivos en Waymo y NAVSIM con 3x menos tokens.
Descubre cómo las sociedades de modelos DSS ofrecen una alternativa sostenible a la IA generativa, reduciendo costos y energía sin perder capacidad de razonamiento.
Descubre cómo el dual topológico de un dataset transforma la interpretabilidad de modelos neuro-simbólicos, revelando invariantes estructurales en el razonamiento de AlphaGeometry.
Descubre Goal-Mem, un marco de razonamiento orientado a objetivos que mejora la memoria RAG en agentes conversacionales LLM, potenciando el razonamiento multi-hop y la inferencia implícita.
MMR-GRPO acelera el entrenamiento GRPO priorizando soluciones diversas: reduce un 47.9% pasos y 70.2% tiempo.
Descubre cómo XCR-Bench evalúa la capacidad de los LLMs para razonar entre culturas, revelando sesgos ocultos en modelos avanzados.
Descubre por qué la flexibilidad de orden en modelos de difusión puede limitar el razonamiento. Conoce JustGRPO, una alternativa que mantiene la generación paralela.
Descubre por qué los modelos de lenguaje fallan en paréntesis balanceados y cómo RASteer corrige estos errores mejorando la precisión hasta el 100%.
Descubre cómo extraer computables de benchmarks para obtener evidencia semántica inspeccionable y superar limitaciones del razonamiento textual.