Descifrando el comportamiento de modelos con trayectorias de agentes
Descubre cómo el análisis de 138k trayectorias de agentes revela la brecha intención-ejecución y mejora el rendimiento de modelos IA.
Descubre cómo el análisis de 138k trayectorias de agentes revela la brecha intención-ejecución y mejora el rendimiento de modelos IA.
Descubre cómo LoopCoder-v2 optimiza el escalado de cómputo en tiempo de prueba con solo dos bucles, mejorando benchmarks como SWE-bench. Ventajas y límites.
CICL optimiza la selección de contexto para agentes LLM con tarjetas de memoria decision-aware. Incrementa hit@1 de 0.58 a 0.78 en SWE-bench. ¡Descubre cómo!
Descubre cómo DeLM de Stanford reduce un 50% los costes en agentes multi-IA eliminando el cuello de botella del orquestador central. Más preciso y eficiente.
Auditoría revela que el 28.5% de tareas en RL de código son hackeables. Descubre cómo endurecerlas con un juez LLM.
Nuevo estudio revela que las trayectorias de agentes de IA son únicas: se identifican con un 85.7% de acierto. Aprende a programar y auditar su comportamiento.
Descubre Open-SWE-Traces, 207K trayectorias para agentes de software. Logra 61.7% en SWE-bench Verified. Infórmate!
Descubre Claw-SWE-Bench, un benchmark que mide la capacidad de agentes como OpenClaw para resolver issues de código. Compara harnesses, modelos y costos.
Exploración paralela por dominio en agentes LLM supera a la lineal en localización de cambios multiarchivo. Resultados en SWE-bench.
Conoce Claude Fable 5, el nuevo modelo de IA de Anthropic con benchmarks récord, aplicaciones prácticas, precios y estrictas medidas de seguridad. ¿Supera a GPT-5?
Descubre cómo DeLM escala el razonamiento de LLMs con agentes descentralizados y contexto compartido, mejorando rendimiento en SWE-bench y LongBench y reduciendo costos un 50%.
Descubre cómo MetaAI demuestra el auto-diseño recursivo con evidencia reproducible del 20% al 50% en SWE-bench. Protocolo MetaAI-Mini.
Descubre cómo Lean4Agent modela y verifica formalmente flujos de trabajo de agentes LLM, mejorando su fiabilidad un 11.94%. ¡Optimiza tus agentes!
Descubre Socratic-SWE, un marco de evolución cerrada que reutiliza trazas de resolución para mejorar agentes de ingeniería de software, alcanzando un 50.40% en SWE-bench Verified.
RHO optimiza el arnés de agentes LLM usando solo trayectorias pasadas, sin etiquetas. Un solo ciclo mejora la tasa de acierto del 59% al 78% en SWE-Bench Pro.
Descubre por qué los disparadores afectivos y LLM fallan en agentes autónomos. La trampa de saturación y subjetividad revelan baja fiabilidad.
Asigna cómputo según el costo real de errores, no solo dificultad. Reduce pérdidas hasta 33% con método consciente de consecuencias.