#swe-bench

Descifrando el comportamiento de modelos con trayectorias de agentes

Descubre cómo el análisis de 138k trayectorias de agentes revela la brecha intención-ejecución y mejora el rendimiento de modelos IA.

2026-06-17 · 2 min

LoopCoder-v2: Solo un bucle para escalar cómputo en tiempo de prueba

Descubre cómo LoopCoder-v2 optimiza el escalado de cómputo en tiempo de prueba con solo dos bucles, mejorando benchmarks como SWE-bench. Ventajas y límites.

2026-06-17 · 2 min

Tarjetas de Memoria Decision-Aware para Agentes LLM

CICL optimiza la selección de contexto para agentes LLM con tarjetas de memoria decision-aware. Incrementa hit@1 de 0.58 a 0.78 en SWE-bench. ¡Descubre cómo!

2026-06-17 · 2 min

DeLM de Stanford reduce 50% costes en agentes multi-IA sin orquestador

Descubre cómo DeLM de Stanford reduce un 50% los costes en agentes multi-IA eliminando el cuello de botella del orquestador central. Más preciso y eficiente.

2026-06-17 · 2 min

Auditoría de hackeabilidad de recompensas en entornos RL de código

Auditoría revela que el 28.5% de tareas en RL de código son hackeables. Descubre cómo endurecerlas con un juez LLM.

2026-06-16 · 2 min

Trayectorias de agentes como programas: huellas y programación del comportamiento

Nuevo estudio revela que las trayectorias de agentes de IA son únicas: se identifican con un 85.7% de acierto. Aprende a programar y auditar su comportamiento.

2026-06-16 · 3 min

Open-SWE-Traces: destilación dual multilingüe para agentes de software

Descubre Open-SWE-Traces, 207K trayectorias para agentes de software. Logra 61.7% en SWE-bench Verified. Infórmate!

2026-06-16 · 1 min

Claw-SWE-Bench: Un benchmark para evaluar agentes de codificación

Descubre Claw-SWE-Bench, un benchmark que mide la capacidad de agentes como OpenClaw para resolver issues de código. Compara harnesses, modelos y costos.

2026-06-11 · 1 min

Estructura de exploración en agentes LLM para cambios multiarchivo

Exploración paralela por dominio en agentes LLM supera a la lineal en localización de cambios multiarchivo. Resultados en SWE-bench.

2026-06-11 · 2 min

Claude Fable 5: Todo sobre la IA líder de Anthropic y sus aplicaciones

Conoce Claude Fable 5, el nuevo modelo de IA de Anthropic con benchmarks récord, aplicaciones prácticas, precios y estrictas medidas de seguridad. ¿Supera a GPT-5?

2026-06-10 · 2 min

Sistemas Multi-Agente Descentralizados con Contexto Compartido

Descubre cómo DeLM escala el razonamiento de LLMs con agentes descentralizados y contexto compartido, mejorando rendimiento en SWE-bench y LongBench y reduciendo costos un 50%.

2026-06-10 · 2 min

De 0 a 1 a 1 a N: Evidencia reproducible de auto-diseño recursivo MetaAI

Descubre cómo MetaAI demuestra el auto-diseño recursivo con evidencia reproducible del 20% al 50% en SWE-bench. Protocolo MetaAI-Mini.

2026-06-09 · 2 min

Lean4Agent: Modelado y verificación formal para flujos de trabajo de agentes

Descubre cómo Lean4Agent modela y verifica formalmente flujos de trabajo de agentes LLM, mejorando su fiabilidad un 11.94%. ¡Optimiza tus agentes!

2026-06-08 · 2 min

Socratic-SWE: Agentes de código que evolucionan por sí mismos

Descubre Socratic-SWE, un marco de evolución cerrada que reutiliza trazas de resolución para mejorar agentes de ingeniería de software, alcanzando un 50.40% en SWE-bench Verified.

2026-06-08 · 4 min

RHO: Optimización Autosupervisada del Arnés de Agentes LLM

RHO optimiza el arnés de agentes LLM usando solo trayectorias pasadas, sin etiquetas. Un solo ciclo mejora la tasa de acierto del 59% al 78% en SWE-Bench Pro.

2026-06-05 · 1 min