#modelo

RL en preentrenamiento de LLM: optimización temprana de políticas

Aplicar RL durante el preentrenamiento de LLM mejora rendimiento, superando al enfoque SFT→RL. Fusionar RL y SFT da mejores resultados sin perder capacidades.

2026-06-04 · 2 min

PE-MHL: Capas Híbridas Modulares Codificadas con Física

Descubre PE-MHL: capas híbridas modulares que combinan física y datos para aprendizaje escalable de sistemas complejos. Precisión, robustez y mejor generalización.

2026-06-04 · 2 min

Folded Transport MCMC: Inferencia Bayesiana para Modelos Simétricos

Descubre cómo FolT-MCMC certifica inferencias en modelos bayesianos simétricos, reduciendo multimodalidad hasta 145x. Aplicación en datos de tifón.

2026-06-04 · 2 min

Inferencia bayesiana de difusiones con flujos normalizantes Neural Galerkin

Aprende cómo los flujos normalizantes Neural Galerkin permiten inferencia bayesiana eficiente en difusiones con fronteras inaccesibles.

2026-06-04 · 2 min

Predicción Temprana de Sepsis Multicéntrica: Aprendizaje Federado con Privacidad

Descubre cómo el aprendizaje federado predice sepsis en múltiples centros sin comprometer la privacidad. Estudio real con 648 pacientes.

2026-06-04 · 2 min

Optimización minimax guiada por literatura para neuroestimulación en epilepsia

Descubre cómo la literatura guía la optimización minimax para neuroestimulación en epilepsia, mejorando el peor caso un 39.8% con simulaciones.

2026-06-04 · 2 min

TANDEM: Optimización Bilevel de Mezcla de Datos con Redes Gemelas

Descubre TANDEM, un método que optimiza las proporciones de datos por dominio usando redes gemelas para mejorar el rendimiento de modelos de lenguaje grandes.

2026-06-04 · 2 min

La (mala) generalización del ajuste fino útil

Descubre por qué los modelos entrenados para ser siempre útiles pueden presentar fallos inesperados de alineación, sycophancy y falta de control. Aprende cómo mitigarlos.

2026-06-04 · 2 min

Entrenamiento conjunto de capas en redes ReLU para modelos lineales

Aprende cómo el descenso de gradiente logra convergencia lineal en redes ReLU, evitando puntos silla y alcanzando el mínimo global.

2026-06-04 · 2 min

LimiX-2M: Mitigando colapso de bajo rango y cuellos de botella

Descubre LimiX-2M, un modelo de 2M parámetros que supera a alternativas más grandes mediante tokenización avanzada y enrutamiento optimizado. Reduce costos y mejora precisión en datos tabulares.

2026-06-04 · 2 min

Reducción simpléctica de modelos mediante autoencoders simplécticos

Descubre cómo los autoencoders simplécticos preservan la estructura de sistemas Hamiltonianos, mejorando la precisión en predicciones a largo plazo.

2026-06-04 · 2 min

Selección precisa de modelos en adaptación profunda no supervisada de dominio

DEV ofrece selección precisa de modelos en UDA sin sesgo. Descubre cómo mejora la validación y estandariza la comparación de algoritmos.

2026-06-04 · 1 min

Robustez de modelos vía información de Fisher: límites y algoritmos

Descubre cómo medir la robustez de modelos de IA con la información de Fisher, una métrica atacable-agnóstica que predice vulnerabilidad adversarial. Guía teórica y práctica.

2026-06-04 · 3 min

Corrección de co-área en problemas inversos con EDP

Descubre cómo la corrección de co-área mejora el muestreo posterior en problemas inversos de EDP, evitando sesgos que multiplican el error por 20. Conoce el método CoCoS.

2026-06-04 · 2 min

Reconciliando causalidad y termodinámica con modelos causales hamiltonianos

Nuevos modelos causales hamiltonianos reconcilian causalidad y termodinámica de no equilibrio. Aprende cómo miden la irreversibilidad en sistemas físicos.

2026-06-04 · 2 min

Adaptador de texto para TabPFN sin cuello de botella PCA

Conoce el adaptador de texto para TabPFN que elimina el cuello de botella PCA, mejorando el rendimiento en datos tabulares con texto de alta cardinalidad.

2026-06-04 · 2 min

Histéresis de la utilidad: modelo Preisach para aceptación de trabajos gig

Descubre cómo un modelo de histéresis con IA reduce un 21% la nómina y aumenta un 9.7% la aceptación en economía gig.

2026-06-04 · 2 min

Atribución de datos en LLMs mediante gradiente bidireccional

Descubre cómo la optimización de gradiente bidireccional permite atribuir datos de entrenamiento en LLMs, mejorando la interpretabilidad y accountability de los sistemas de IA.

2026-06-04 · 2 min

Envenenamiento Secuencial de Datos en el Post-Entrenamiento de LLMs

Múltiples atacantes pueden envenenar datos en distintas etapas del post-entrenamiento de LLMs, revelando vulnerabilidades ocultas.

2026-06-04 · 3 min

STaR-Quant: Cuantificación post-entrenamiento para modelos de lenguaje difusos

STaR-Quant mejora la cuantificación de baja precisión en DLLMs, logrando 1.69x aceleración y 3.14x ahorro de memoria sobre FP16. Descubre cómo optimizar tu modelo.

2026-06-04 · 2 min