¿Son los LLM malos en razonamiento moral?
¿Los LLM fallan en razonamiento moral? Un estudio revela que sus rúbricas morales superan expectativas. Descubre la competencia moral optimista de la IA.
¿Los LLM fallan en razonamiento moral? Un estudio revela que sus rúbricas morales superan expectativas. Descubre la competencia moral optimista de la IA.
Descubre ResearchClawBench, un benchmark que evalúa la capacidad de agentes de IA para realizar investigación científica autónoma end-to-end en 40 tareas de 10 dominios.
Descubre DuMate-DeepResearch, un sistema multiagente auditable con búsqueda recursiva y razonamiento por rúbricas que logra el mejor rendimiento en deep research.
Descubre Elmes*, un framework que automatiza la creación de rúbricas detalladas para evaluar modelos de lenguaje en escenarios educativos de cola larga.
RUBAS: aprendizaje por refuerzo con rúbricas para agentes seguros. Mejora la seguridad, reduce alucinaciones y mantiene la utilidad en herramientas.
Aprende cómo CHERRL reproduce y detecta reward hacking en RL con rúbricas, identificando sesgos del juez LLM para entrenar IA más segura.
Descubre cómo mejora la calificación automática de tareas C++ con BART y rúbricas: menor error y distribuciones de notas más realistas.
GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.
Descubre AnyAudio-Judge, el nuevo benchmark con rúbricas dinámicas para evaluar instrucciones de audio.
Aprende cómo LH-Bench evalúa agentes autónomos en tareas subjetivas empresariales con rúbricas expertas y validación humana.