Mask-Proof: pipeline de curación de datos con LLM para pruebas matemáticas
Descubre Mask-Proof, un pipeline que evalúa el razonamiento paso a paso en pruebas matemáticas con LLM. Incluye 292 problemas para benchmarking.
Descubre Mask-Proof, un pipeline que evalúa el razonamiento paso a paso en pruebas matemáticas con LLM. Incluye 292 problemas para benchmarking.
Descubre DAG-SHAP: atribución en DAGs con intervención en aristas. Captura influencias externas y exógenas para mayor explicabilidad.
El ataque de deferral forzado (FDA) manipula la confianza del modelo débil en cascadas MLLM, forzando el uso del modelo fuerte.
Descubre S1-DeepResearch, el agente de IA que supera a modelos propietarios en planificación, síntesis y generación de informes. Un nuevo paradigma open-source.
Aprende cómo el reward hacking engaña a los agentes de lenguaje y por qué el RL no lo soluciona. Estudio basado en Gridworlds de seguridad.
Descubre cómo distinguir si la deriva en las evaluaciones de LLM se debe al sistema o al juez automático con un método de atribución válido en todo momento.
Descubre cómo los LLM optimizan problemas complejos: enfoques directos, con herramientas o creando algoritmos. Conoce las fronteras de rendimiento y el futuro.
Descubre CoTE-SQL, un nuevo método que integra razonamiento y generalización en Text-to-SQL mediante ajuste fino auto-mejorado, logrando mejores resultados en
Descubre cómo la IA incorporada integra percepción, decisión y acción para la salud del futuro. Revisión de modelos y aplicaciones clínicas.
Supera el desajuste de impedancia: fusiona modelos fundacionales y grafos de conocimiento con esta hoja de ruta teórica.
El nuevo benchmark RecurrReason evalúa la verdadera capacidad de razonamiento de modelos de IA en puzzles simbólicos. Descubre por qué fallan en River Crossing.
Descubre cómo RoboPIN con PinCoT mejora el razonamiento incorporado usando anclas visuales, logrando un 12% más de precisión en benchmarks.
Heterogeneidad estructural en señales de incertidumbre limita optimización en verificación de LLM. Intervención simple mejora tasa de aciertos 17%.
Descubre cómo RetailBench pone a prueba la toma de decisiones de agentes LLM en supermercados simulados durante 180 días.
STRIDE mejora el RLVR con estimación discriminativa: asigna créditos precisos a patrones estratégicos. ¡Optimiza el razonamiento de tu IA!
Descubre cómo la programación agentica con LLM-as-Code resuelve la explosión de tokens y alucinaciones de control, mejorando la fiabilidad de agentes de IA.
UrbanWell: benchmark para evaluar modelos multimodales en análisis de bienestar urbano espacio-temporal. Descubre sus resultados y rendimiento.
Mind-Studio crea modelos de mundo ejecutables de juegos, con 48.7% de precisión en predicción de estados, superando métodos anteriores. Perfecto para IA y
Descubre cómo el pensamiento visual con grounding mejora el razonamiento de modelos de IA, vinculando pensamientos a regiones de imagen para mayor precisión.
VibeThinker-3B demuestra que modelos pequeños pueden alcanzar rendimiento de vanguardia en razonamiento verificable, superando a sistemas mucho mayores.