#rúbricas

¿Son los LLM malos en razonamiento moral?

¿Los LLM fallan en razonamiento moral? Un estudio revela que sus rúbricas morales superan expectativas. Descubre la competencia moral optimista de la IA.

2026-06-11 · 1 min

ResearchClawBench: un benchmark para investigación científica autónoma

Descubre ResearchClawBench, un benchmark que evalúa la capacidad de agentes de IA para realizar investigación científica autónoma end-to-end en 40 tareas de 10 dominios.

2026-06-09 · 3 min

DuMate-DeepResearch: Sistema multiagente con búsqueda recursiva y rúbricas

Descubre DuMate-DeepResearch, un sistema multiagente auditable con búsqueda recursiva y razonamiento por rúbricas que logra el mejor rendimiento en deep research.

2026-06-08 · 2 min

Elmes*: Rúbricas Automatizadas para Evaluar LLMs en Educación

Descubre Elmes*, un framework que automatiza la creación de rúbricas detalladas para evaluar modelos de lenguaje en escenarios educativos de cola larga.

2026-06-08 · 2 min

RUBAS: Aprendizaje por Refuerzo Basado en Rúbricas para Seguridad de Agentes

RUBAS: aprendizaje por refuerzo con rúbricas para agentes seguros. Mejora la seguridad, reduce alucinaciones y mantiene la utilidad en herramientas.

2026-06-04 · 2 min

Reproducir, analizar y detectar reward hacking en RL con rúbricas

Aprende cómo CHERRL reproduce y detecta reward hacking en RL con rúbricas, identificando sesgos del juez LLM para entrenar IA más segura.

2026-06-04 · 1 min

Calificación automática de C++ con BART y rúbricas

Descubre cómo mejora la calificación automática de tareas C++ con BART y rúbricas: menor error y distribuciones de notas más realistas.

2026-06-03 · 2 min

Mitigación del Crédito Falso en RL con Rúbricas

GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.

2026-06-03 · 2 min