#modelos de lenguaje grande

Ambigüedad en la predicción de errores con cuantificación de incertidumbre

Descubre cómo la ambigüedad afecta la predicción de errores en LLMs y cómo desenredarla mejora la precisión hasta en 10 puntos de PRR.

2026-06-02 · 2 min

SPADER: Recompensas de Exploración con Diversidad para QA Multi-Respuesta

SPADER utiliza aprendizaje por refuerzo con recompensas de exploración diversa para mejorar el recuerdo y F1 en QA multi-respuesta.

2026-06-02 · 2 min

CARE-RL: Mitigando Conflictos entre Dominios con RL Consciente de Capacidades

Descubre cómo CARE-RL mitiga conflictos entre dominios en LLMs con aprendizaje por refuerzo consciente de capacidades, con resultados superiores en benchmarks.

2026-06-02 · 2 min

La paradoja de la optimización por resultados en LLMs

Los LLMs optimizados por resultados alcanzan altos benchmarks pero colapsan en razonamiento. Te explicamos la paradoja y cómo los modelos de recompensa de procesos la resuelven.

2026-06-02 · 1 min

Inferencia de bajo bit extremo en modelos de razonamiento: fallos y recuperación

Descubre cómo la inferencia 2-bit en modelos de razonamiento genera fallos como bucles y cómo la planificación y rescate recuperan precisión hasta 87%.

2026-06-02 · 2 min

Recuperación robusta de demostraciones con proxies OOD

Mejora la robustez de tus LLMs con DOPA, un marco que usa proxies OOD para recuperar demostraciones diversas y efectivas en entornos fuera de distribución.

2026-06-02 · 2 min

Marco de Red Teaming para Seguridad, Robustez y Equidad en Modelos Médicos de IA

Un marco de red teaming multidominio revela fallos críticos en seguridad y equidad de modelos médicos de IA, ocultos por métricas promedio.

2026-06-02 · 2 min

Alineación humana, calibración y patrones en la incertidumbre de LLMs

Descubre cómo los LLMs reflejan la incertidumbre humana mediante alineación, calibración y patrones de activación. Un estudio clave para entender y combatir alucinaciones.

2026-06-01 · 2 min

Aumento de paráfrasis en destino para traducción de lengua de señas con LLMs

Descubre la paráfrasis generada por GPT-4o que mejora la traducción de lengua de señas en PHOENIX14T, pero revela límites en conjuntos extremos.

2026-06-01 · 2 min

DTop-p MoE: Control dinámico de esparcidad en preentrenamiento de modelos

Descubre DTop-p MoE, un nuevo mecanismo de enrutamiento dinámico que aprende el umbral de probabilidad para controlar la esparcidad, superando a Top-k y Top-p fijo en modelos fundacionales.

2026-06-01 · 2 min

ConSensus: colaboración multiagente para sensores multimodales

ConSensus mejora la precisión de sensores multimodales un 7.1% usando fusión híbrida multiagente, robusta ante ruido y datos faltantes. ¡Entérate!

2026-06-01 · 2 min

Hacia los átomos de los grandes modelos de lenguaje

Descubre cómo la Teoría del Átomo define las unidades fundamentales de los LLM, logrando un 99.9% de fidelidad y 99.8% de estabilidad.

2026-06-01 · 2 min

Acoplamiento de Subespacios para Compresión de LLM: Límites Empíricos

La optimización conjunta de capas en compresión de LLMs fracasa. El flujo residual desacopla las capas, haciendo clave la reconstrucción por capas.

2026-06-01 · 2 min

Autovectores de expertos: enrutamiento sin colapso y sin entrenamiento

Descubre cómo SSMoE aprovecha los autovectores de los expertos para un enrutamiento sin colapso, mejorando modelos SMoE sin entrenamiento adicional.

2026-06-01 · 2 min

La brecha de refutabilidad: desafíos al validar el razonamiento de los LLM

Descubre los desafíos de validar el razonamiento de los LLM: falta de falsabilidad, sesgos y opacidad. Guía para una ciencia más transparente.

2026-06-01 · 1 min

NeUQI: Inicialización Casi Óptima para Cuantización Uniforme en LLMs

Descubre NeUQI, un método de inicialización casi óptima para cuantización uniforme en LLMs. Mejora el rendimiento y reduce el consumo de memoria. ¡Lee más!

2026-06-01 · 2 min

DTBench: Benchmark sintético para extracción documento-tabla

Descubre DTBench, un benchmark sintético para evaluar LLMs en extracción documento-tabla, probando razonamiento y resolución de conflictos.

2026-06-01 · 2 min

Caracterización empírica de transformaciones de probabilidad en LLMs

Descubre cómo las transformaciones de probabilidad inducidas en tiempo de inferencia en LLMs siguen patrones log-ratio reproducibles. Un análisis empírico de 4,975 problemas.

2026-06-01 · 2 min

Colapso de representación en el entrenamiento secuencial posterior de LLMs

Descubre cómo el entrenamiento secuencial de LLMs provoca colapso de representación y qué intervenciones pueden preservar la plasticidad y la generalización.

2026-06-01 · 2 min