#seguimiento de instrucciones

WildIFEval: Instrucciones complejas para LLMs en escenarios reales

Descubre WildIFEval: 7,000 instrucciones reales con múltiples restricciones. ¿Cómo siguen las instrucciones los LLMs? Benchmark y análisis detallado.

2026-06-12 · 1 min

Iteración basada en evaluación para aplicaciones LLM

Las mejoras genéricas de prompts pueden empeorar tus aplicaciones LLM. La evaluación iterativa evita regresiones. Resultados con Llama 3 y Qwen 2.5.

2026-06-11 · 2 min

Operacionalizando la Alineación Superficial vía Complejidad de Tareas

La Hipótesis de Alineación Superficial cuantificada: el post-entrenamiento colapsa la complejidad de tareas en LLMs. Resultados sorprendentes en razonamiento y traducción.

2026-06-09 · 2 min

Agentes de modelos de lenguaje pequeños para minería de conocimiento eficiente

Falconer: LLMs planificadores + modelos proxy ligeros para extraer conocimiento, reduciendo costos un 90% y acelerando 20x la minería de conocimiento.

2026-06-08 · 1 min

Restricciones auxiliares para el seguimiento de instrucciones en LRMs

Reduce violaciones de restricciones en un 39% con CRGC. Mejora el seguimiento de instrucciones en modelos de razonamiento.

2026-06-03 · 3 min