#valuación

¿Cuándo las predicciones multimodales son biológicamente válidas?

Descubre cómo DECAT evalúa si las predicciones multimodales en oncología están respaldadas por biología real o por confusores. Un marco post-hoc que revela sesgos ocultos.

2026-06-01 · 2 min

Alineación de Referencia por Pares: Observable Ordinal a Nivel de Modelo

Descubre cómo medir la alineación de preferencias en modelos de lenguaje con un observable ordinal. Estadística simple y estimadores con concentración.

2026-06-01 · 1 min

Diagnósticos de Cobertura Condicional para Predicción Conformal

Descubre cómo la métrica ERT diagnostica la cobertura condicional en predicción conformal usando clasificadores modernos para mayor potencia estadística.

2026-06-01 · 2 min

FEM-Bench: benchmark científico para LLMs de código

Descubre FEM-Bench, el benchmark que evalúa la capacidad de los LLMs para generar código de elementos finitos. Gemini 3 Pro y GPT-5 destacan en los tests.

2026-06-01 · 2 min

PASTA: Marco escalable para evaluación de cumplimiento de IA multipolítica

Descubre PASTA, framework escalable para evaluar cumplimiento de múltiples políticas de IA en minutos y bajo costo. Resultados claros con mapas de calor.

2026-06-01 · 2 min

Cómo decidir cuándo detener la optimización bayesiana

Descubre cómo la nueva regla de parada consciente del costo optimiza la optimización bayesiana, reduciendo evaluaciones innecesarias y mejorando el regret simple ajustado al costo.

2026-06-01 · 2 min

Evaluación conductual y representacional de agentes de lenguaje con objetivos

Evaluamos la direccionalidad a objetivos en agentes de lenguaje con análisis conductual y representacional. Descubre cómo entender su comportamiento.

2026-06-01 · 3 min

SCOPE: Evaluación por Pares con Conformal Selectivo

Descubre cómo SCOPE y la Entropía de Preferencia Bidireccional mejoran la evaluación de LLMs, reduciendo errores y aumentando cobertura hasta 2.4 veces.

2026-06-01 · 1 min

DTBench: Benchmark sintético para extracción documento-tabla

Descubre DTBench, un benchmark sintético para evaluar LLMs en extracción documento-tabla, probando razonamiento y resolución de conflictos.

2026-06-01 · 2 min

REAL: Aprendizaje por Refuerzo Consciente de Regresión para Juez LLM

REAL: nuevo método de RL con regresión que mejora la evaluación de LLMs. Aumenta correlación hasta +18. Ideal para desarrolladores de IA.

2026-06-01 · 2 min

MADQI: Métrica de calidad para detección de anomalías marítimas sin supervisión

Descubre MADQI, la nueva métrica de calidad para evaluar la detección de anomalías marítimas sin datos etiquetados. Resultados prometedores en datos AIS.

2026-06-01 · 2 min

Indistinguibilidad conductual acotada para destilación de LLM

¿Es suficiente la similitud semántica para destilar LLMs? Evaluamos indistinguibilidad conductual con adversarios y consultas acotadas. Resultados clave con Qwen y Llama.

2026-06-01 · 3 min

MAAT: nuevo método de desaprendizaje dirigido con adaptadores

Descubre cómo MAAT, un nuevo método de desaprendizaje dirigido, resuelve el sesgo en la evaluación de conocimiento causal con el benchmark 5WBENCH.

2026-06-01 · 3 min

AMNESIA: El nuevo benchmark para olvidar datos médicos en IA

Descubre AMNESIA, el primer benchmark masivo para evaluar desaprendizaje en LLMs médicos. ¿Cómo olvidar pacientes sin perder conocimiento clínico? Entra.

2026-06-01 · 2 min

OpenSTBench: Más allá de la evaluación semántica para la traducción de voz

OpenSTBench: marco unificado para evaluar traducción de voz - calidad de habla, latencia y más. Ideal para comparar sistemas S2TT y S2ST.

2026-06-01 · 1 min

BlueFin: Evaluación de Agentes LLM en Hojas de Cálculo Financieras

BlueFin: el nuevo benchmark para agentes LLM en hojas de cálculo financieras. Modelos frontier logran menos del 50% en tareas complejas. ¡Descubre los resultados!

2026-06-01 · 3 min

¿Juega la información visual un papel decisivo en la conducción de modelos VLA?

Analizamos la relación entre información visual y comportamiento de conducción en modelos VLA mediante perturbaciones controladas. Implicaciones para sistemas más seguros.

2026-06-01 · 2 min

Redefiniendo el emparejamiento de instancias: marco unificado para segmentación panóptica

Marco para emparejamiento de instancias en segmentación panóptica. Mejora la métrica Panoptic Quality con correspondencia parcial. Ideal para IA y visión.

2026-06-01 · 2 min

KnowledgeGain: Evaluando noticias científicas para el aprendizaje

Descubre cómo KnowledgeGain evalúa y optimiza la generación de noticias científicas para maximizar el aprendizaje del lector usando IA.

2026-06-01 · 2 min

Robustez de embeddings multilingües: rankings según tareas y lenguas

Descubre cómo los rankings de modelos de embeddings multilingües varían según tareas y lenguas. Un metaestudio revela qué modelos son realmente robustos. ¡Mejora tu comprensión de benchmarks!

2026-06-01 · 2 min