#factual

Generación de textos largos confiables con rechazo de alucinaciones

El método SHARS reduce alucinaciones en generación de textos largos usando muestreo de rechazo. Mejora la consistencia factual sin recursos externos. ¡Descúbrelo!

2026-06-03 · 1 min

¿Cuándo ser menos específicos? Abstracción selectiva en LLM

La Abstracción Selectiva permite a los LLM intercambiar especificidad por fiabilidad. Descubre cómo reducir errores factuales sin perder información clave en textos largos.

2026-06-03 · 3 min

¿De quién es el nombre? II: Auditoría de recomendaciones de académicos con LLM

Descubre cómo evaluamos la recomendación de expertos académicos con LLM, analizando intervenciones como temperatura, RAG y sesgos. Resultados sorprendentes.

2026-06-03 · 3 min

Rastreo Causal Consciente de Expertos para Recuperación Factual en Modelos MoE

Descubre cómo el rastreo causal consciente de expertos revela qué rutas en modelos MoE como Qwen3 y Mixtral recuperan hechos.

2026-06-03 · 3 min

De grafos a esquemas: validación contrafactual para Text-to-SPARQL

SchemaForge mejora precisión en consultas SPARQL heterogéneas con validación contrafactual. Aumenta accuracy 11.5% en benchmarks clave.

2026-06-02 · 2 min

Riesgo contrafactual escalable para eventos raros en datos longitudinales

Nuevo método de submuestreo y reponderación reduce coste computacional en estimación de riesgo contrafactual para eventos raros en datos longitudinales.

2026-06-02 · 2 min

GUDA: Atribución grupal de datos de entrenamiento en modelos de difusión

GUDA: atribución grupal contrafactual eficiente para modelos de difusión. Usa desaprendizaje y es 100x más rápido que reentrenar con cada grupo eliminado.

2026-06-02 · 2 min

CausalNeg: Cómo Superar los Negativos Duros en Recuperación

CausalNeg cierra la brecha generativa-discriminativa en síntesis de negativos para recuperación. Evita falsos positivos y mejora el rendimiento con IA.

2026-06-02 · 2 min

Cuando los negativos duros duelen: cerrando la brecha generativa-discriminativa

¿Negativos duros dañan tu recuperación? CausalNeg usa contrafactuales y entropía para cerrar la brecha generativa-discriminativa.

2026-06-02 · 3 min

Asimetrías de fiabilidad en búsquedas factuales chinas y respuestas IA

Estudio evalúa la fiabilidad de motores de búsqueda y asistentes IA al responder preguntas factuales en chino, revelando diferencias clave.

2026-06-02 · 1 min

Decodificación Fundamentada: Fusión de Probabilidades para RAG Fiel

Descubre Grounded Decoding, un método sin entrenamiento que fusiona probabilidades para mejorar la precisión factual en sistemas RAG. Resultados superiores en ALCE, NQ y FActScore.

2026-06-02 · 3 min

Evaluación del razonamiento interactivo en LLMs: benchmark jerárquico con juegos

Descubre cómo un nuevo benchmark evalúa el razonamiento interactivo de los LLMs mediante juegos ejecutables, midiendo éxito, eficiencia y adaptación metacognitiva.

2026-06-02 · 2 min

Diagnóstico del arbitraje de LLMs en verificación de hechos con RAG

Descubre cómo evaluar el arbitraje de LLMs en verificación de hechos con RAG. Un método diagnóstico revela la fiabilidad del modelo y propone solución ligera.

2026-06-02 · 3 min

Diagnóstico del deterioro cognitivo con atención contrafactual guiada por atlas

Descubre GCAN, modelo de atención contrafactual para diagnóstico explicable del deterioro cognitivo usando conectomas multimodales. Preciso y transparente.

2026-06-02 · 4 min

Video generado con conocimiento intensivo

Exploramos KIVI, un nuevo benchmark para evaluar la factualidad y utilidad de videos generados por IA. ¿Están listos los modelos actuales?

2026-06-02 · 1 min

TabChange: Cambios Precisos de Atributos en Datos Tabulares

Descubre cómo TabChange logra cambios precisos en atributos de datos tabulares, manteniendo la naturalidad y minimizando modificaciones. Ideal para IA y análisis de datos.

2026-06-02 · 2 min

COPF: Marco online de equidad contrafactual estable en grafos evolutivos

COPF: Marco online para equidad contrafactual estable en recomendaciones de enlaces en grafos evolutivos. Reduce disparidades de grupo sin sacrificar utilidad.

2026-06-02 · 3 min

Evaluación contrafactual revela perfiles ocultos en LLMs y agentes clínicos

La métrica CSS revela perfiles ocultos de capacidad en LLMs y agentes clínicos, detectando puntos ciegos de seguridad que las métricas tradicionales pasan por alto.

2026-06-01 · 3 min

COFT: Razonamiento Justo con Cadena de Pensamiento en LLMs

COFT reduce sesgos en LLMs hasta un 55% sin reentrenar, preservando calidad y razonamiento justo. Método auditado.

2026-06-01 · 2 min

Auditoría contrafactual de habilidades en agentes LLM

La tasa de acierto apenas cambia, pero las habilidades transforman el comportamiento de los agentes LLM. Descubre cómo la auditoría de trazas contrafactuales revela patrones ocultos.

2026-06-01 · 2 min