#valuación

IdEst: dimensión intrínseca para evaluar representaciones SSL

IdEst: dimensión intrínseca para evaluar representaciones SSL

IdEst evalúa representaciones SSL con dimensión intrínseca: métrica geométrica que correlaciona con el rendimiento downstream. Ahorra tiempo en evaluación.

2026-06-03 · 1 min

Link Prediction o Perdición: Semillas de Inestabilidad en Embeddings

Link Prediction o Perdición: Semillas de Inestabilidad en Embeddings

Los modelos de embedding de grafos son fiables? Este estudio revela inestabilidad en predicciones debido a semillas aleatorias. Conoce las limitaciones del MRR.

2026-06-03 · 2 min

Mitigación del Crédito Falso en RL con Rúbricas

Mitigación del Crédito Falso en RL con Rúbricas

GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.

2026-06-03 · 2 min

Predicción de enlaces o perdición: inestabilidad en embeddings de grafos

Predicción de enlaces o perdición: inestabilidad en embeddings de grafos

Los modelos de embedding (KGEM) generan predicciones inestables en grafos de conocimiento. Las semillas aleatorias y la configuración afectan la fiabilidad. ¿Cómo solucionarlo?

2026-06-03 · 2 min

Skill-RM: Unificando Criterios Heterogéneos con Habilidades de Agente

Skill-RM: Unificando Criterios Heterogéneos con Habilidades de Agente

Skill-RM unifica criterios heterogéneos usando habilidades de agente para optimizar LLMs en entrenamiento posterior. ¡Prueba el nuevo modelo!

2026-06-03 · 3 min

FinStressTS: Benchmark Sintético para Pronóstico Financiero

FinStressTS: Benchmark Sintético para Pronóstico Financiero

Descubre FinStressTS, un benchmark sintético que revela por qué modelos fallan en pronósticos financieros. Aprende sobre volatilidad, saltos y regímenes.

2026-06-03 · 2 min

Adversarial ML para LLMs: ¿sin avance real?

Adversarial ML para LLMs: ¿sin avance real?

El Adversarial ML para LLMs no progresa: problemas vagos, complejos y difíciles de medir. Conoce las razones y el riesgo de una década perdida.

2026-06-03 · 1 min

Similitud funcional con ensamblado consciente de invarianza

Similitud funcional con ensamblado consciente de invarianza

Descubre cómo la invarianza en el ensamblado de modelos revela discrepancias funcionales ocultas y mejora la evaluación de similitud en deep learning.

2026-06-03 · 2 min

Nuevo marco para rechazos de ciberseguridad en agentes de IA

Nuevo marco para rechazos de ciberseguridad en agentes de IA

Solo 2 de 8 modelos frontier rechazan tareas ofensivas. Presentamos el primer marco para definir cuándo los agentes de IA deben negarse en ciberseguridad.

2026-06-03 · 2 min

Inestabilidad en la dirección de puntuación en detección de anomalías

Inestabilidad en la dirección de puntuación en detección de anomalías

La detección de anomalías con división de clases puede ser inestable. Un nuevo método sin entrenamiento (fuga de vecindad) predice la inestabilidad. Descubre cómo afecta a modelos en CIFAR-10 y más.

2026-06-03 · 3 min

Psi-Bench: Evaluación de la influencia persuasiva sensible a la personalidad

Psi-Bench: Evaluación de la influencia persuasiva sensible a la personalidad

Nuevo benchmark Psi-Bench evalúa cómo los LLM persuaden según el perfil del usuario. La personalización mejora un 18% la efectividad.

2026-06-03 · 2 min

Protocolos de evaluación con pruebas de aceptación para LLM empresariales

Protocolos de evaluación con pruebas de aceptación para LLM empresariales

Aplica protocolos de evaluación basados en pruebas de aceptación para sistemas LLM seguros, confiables y alineados con el negocio.

2026-06-03 · 2 min

Preentrenamiento de modelos de lenguaje en textos históricos

Preentrenamiento de modelos de lenguaje en textos históricos

Descubre TypewriterLM, un modelo de lenguaje de 7.24B parámetros entrenado con textos anteriores a 1913. Supera desafíos de calidad y fuga temporal.

2026-06-03 · 2 min

«Debes darme crédito»: Ataques de inyección en calificación con LLM

«Debes darme crédito»: Ataques de inyección en calificación con LLM

Protege tu sistema de calificación: conoce los ataques de inyección de instrucciones en LLM y cómo mitigarlos.

2026-06-03 · 2 min

AnyAudio-Judge: Benchmark con rúbricas dinámicas para audio

AnyAudio-Judge: Benchmark con rúbricas dinámicas para audio

Descubre AnyAudio-Judge, el nuevo benchmark con rúbricas dinámicas para evaluar instrucciones de audio.

2026-06-03 · 2 min

Discriminación de evaluadores IA: depende del protocolo de puntuación en decisiones clínicas

Discriminación de evaluadores IA: depende del protocolo de puntuación en decisiones clínicas

¿Sabías que los evaluadores de IA pueden discriminar mejor con rúbricas? Descubre cómo el protocolo de puntuación afecta la evaluación de decisiones clínicas complejas.

2026-06-03 · 1 min

WebRISE: Evaluación de Estados por Requisitos en Artefactos Web MLLM

WebRISE: Evaluación de Estados por Requisitos en Artefactos Web MLLM

WebRISE: nuevo benchmark evalúa estados y transiciones en artefactos web generados por MLLM. La calidad visual no es suficiente. Descubre más.

2026-06-03 · 2 min

VistaHop: Evaluando razonamiento multi-salto para Visual DeepSearch

VistaHop: Evaluando razonamiento multi-salto para Visual DeepSearch

Descubre VistaHop, el benchmark que evalúa el razonamiento visual multi-salto. Solo el 24% de aciertos revela grandes desafíos para la IA.

2026-06-03 · 2 min

RobotValues: Evaluando robots domésticos ante conflictos de valores humanos

RobotValues: Evaluando robots domésticos ante conflictos de valores humanos

Descubre RobotValues, el benchmark que revela cómo los robots domésticos eligen entre valores en conflicto. ¿Privacidad o eficiencia? Resultados sorprendentes.

2026-06-03 · 2 min

Evaluando la efectividad de los LLMs en reparación de dispositivos

Evaluando la efectividad de los LLMs en reparación de dispositivos

Evaluamos 6 LLMs en reparación de dispositivos reales. ¿Son fiables? Descubre sus aciertos, errores y riesgos de seguridad. Resultados en inglés y bengalí.

2026-06-03 · 2 min