Supervisión de recompensas reinventada: autodestilación con rúbricas
Descubre cómo la autodestilación condicionada por rúbricas mejora el razonamiento de modelos de lenguaje, superando a GRPO y OPSD.
Descubre cómo la autodestilación condicionada por rúbricas mejora el razonamiento de modelos de lenguaje, superando a GRPO y OPSD.
OpenAI lanza LifeSciBench: 750 tareas con rúbricas expertas para evaluar IA en ciencia real. Los mejores modelos solo pasan el 36%.
Descubre cómo un pipeline de LLM como juez, basado en currículos oficiales, mejora la calificación de exámenes con trazabilidad.
El nuevo benchmark EComAgentBench revela que los mejores agentes de compra solo aciertan en el 57.1% de tareas con intenciones ocultas.
Descubre RubricsTree, el framework que evalúa agentes de salud con rúbricas clínicas escalables, superando a LLM en precisión y alineación experta. ¡Mejora tu
Las rúbricas expertas mejoran la evaluación y entrenamiento de LLMs. Nuevo dataset ComplexConstraints logra +15.5% en seguimiento de instrucciones. ¡Lee más!
Mejora la precisión de jueces de seguridad al 94.88% con un currículo de rúbricas dinámicas que reduce la variabilidad entre distintos formatos.
Conoce LecturaAgents: marco multiagente que usa IA para enseñanza corpórea adaptativa y aprendizaje personalizado.
JADE combina principios expertos y evaluación dinámica para evaluar IA en tareas profesionales abiertas, mejorando estabilidad y detectando fallos.
¿Los LLM fallan en razonamiento moral? Un estudio revela que sus rúbricas morales superan expectativas. Descubre la competencia moral optimista de la IA.
¿Los modelos de IA mienten? Este estudio usa log-probabilidades y juez LLM para evaluar razonamiento en debates multi-agente y detectar fallos críticos.
Analizamos la mejora de agentes de investigación profunda con retroalimentación de proceso. Resultados: ganancias del 8-15% en puntuación, pero sin acumulación. ¡Entra!
Descubre ResearchClawBench, un benchmark que evalúa la capacidad de agentes de IA para realizar investigación científica autónoma end-to-end en 40 tareas de 10 dominios.
Descubre DuMate-DeepResearch, un sistema multiagente auditable con búsqueda recursiva y razonamiento por rúbricas que logra el mejor rendimiento en deep research.
Descubre Elmes*, un framework que automatiza la creación de rúbricas detalladas para evaluar modelos de lenguaje en escenarios educativos de cola larga.
GRPO y recompensas de rúbrica mejoran respuestas cardíacas en LLMs pequeños: precisión sube a 50.2%, compitiendo con modelos 8x mayores.