#rúbrica

Supervisión de recompensas reinventada: autodestilación con rúbricas

Descubre cómo la autodestilación condicionada por rúbricas mejora el razonamiento de modelos de lenguaje, superando a GRPO y OPSD.

2026-06-18 · 3 min

OpenAI lanza LifeSciBench: benchmark de 750 tareas para IA científica

OpenAI lanza LifeSciBench: 750 tareas con rúbricas expertas para evaluar IA en ciencia real. Los mejores modelos solo pasan el 36%.

2026-06-18 · 2 min

LLM como juez en educación: pipeline de calificación curricular

Descubre cómo un pipeline de LLM como juez, basado en currículos oficiales, mejora la calificación de exámenes con trazabilidad.

2026-06-17 · 1 min

EComAgentBench: Evaluación de Agentes de Compras con Intenciones Ocultas

El nuevo benchmark EComAgentBench revela que los mejores agentes de compra solo aciertan en el 57.1% de tareas con intenciones ocultas.

2026-06-17 · 1 min

RubricsTree: Evaluación abierta y escalable de agentes de salud

Descubre RubricsTree, el framework que evalúa agentes de salud con rúbricas clínicas escalables, superando a LLM en precisión y alineación experta. ¡Mejora tu

2026-06-17 · 1 min

ComplexConstraints y más allá: Rúbricas expertas para RLVR

Las rúbricas expertas mejoran la evaluación y entrenamiento de LLMs. Nuevo dataset ComplexConstraints logra +15.5% en seguimiento de instrucciones. ¡Lee más!

2026-06-16 · 2 min

De fiable a expresivo: currículo para jueces de seguridad

Mejora la precisión de jueces de seguridad al 94.88% con un currículo de rúbricas dinámicas que reduce la variabilidad entre distintos formatos.

2026-06-16 · 2 min

LecturaAgents: Marco multiagente para aprendizaje adaptativo y enseñanza corpórea

Conoce LecturaAgents: marco multiagente que usa IA para enseñanza corpórea adaptativa y aprendizaje personalizado.

2026-06-16 · 2 min

JADE: Evaluación Dinámica Basada en Expertos para Tareas Profesionales Abiertas

JADE combina principios expertos y evaluación dinámica para evaluar IA en tareas profesionales abiertas, mejorando estabilidad y detectando fallos.

2026-06-16 · 3 min

¿Son los LLM malos en razonamiento moral?

¿Los LLM fallan en razonamiento moral? Un estudio revela que sus rúbricas morales superan expectativas. Descubre la competencia moral optimista de la IA.

2026-06-11 · 1 min

El Mentiroso Confiado: Diagnóstico con Log-Probabilidades y LLM en Debate Multi-Agente

¿Los modelos de IA mienten? Este estudio usa log-probabilidades y juez LLM para evaluar razonamiento en debates multi-agente y detectar fallos críticos.

2026-06-10 · 2 min

Evaluación multi-turno de agentes con retroalimentación a nivel de proceso

Analizamos la mejora de agentes de investigación profunda con retroalimentación de proceso. Resultados: ganancias del 8-15% en puntuación, pero sin acumulación. ¡Entra!

2026-06-09 · 3 min

ResearchClawBench: un benchmark para investigación científica autónoma

Descubre ResearchClawBench, un benchmark que evalúa la capacidad de agentes de IA para realizar investigación científica autónoma end-to-end en 40 tareas de 10 dominios.

2026-06-09 · 3 min

DuMate-DeepResearch: Sistema multiagente con búsqueda recursiva y rúbricas

Descubre DuMate-DeepResearch, un sistema multiagente auditable con búsqueda recursiva y razonamiento por rúbricas que logra el mejor rendimiento en deep research.

2026-06-08 · 2 min

Elmes*: Rúbricas Automatizadas para Evaluar LLMs en Educación

Descubre Elmes*, un framework que automatiza la creación de rúbricas detalladas para evaluar modelos de lenguaje en escenarios educativos de cola larga.

2026-06-08 · 2 min

Mejora de respuestas cardíacas en LLMs con recompensas de rúbrica y GRPO

GRPO y recompensas de rúbrica mejoran respuestas cardíacas en LLMs pequeños: precisión sube a 50.2%, compitiendo con modelos 8x mayores.

2026-06-06 · 2 min