Estimación de ventaja basada en representaciones: más que recompensa escalar
GraphAE usa representaciones ocultas del RM para estimar ventajas con grafos. Mejora el RLHF hasta +6.3 en Arena-Hard.
GraphAE usa representaciones ocultas del RM para estimar ventajas con grafos. Mejora el RLHF hasta +6.3 en Arena-Hard.
Descubre cómo GraphAE aprovecha las representaciones ocultas del modelo de recompensa para una estimación de ventajas más precisa en RLHF, mejorando rendimiento hasta +8.27 en AlpacaEval.
El método DGF elimina el suavizado excesivo en pronósticos de series temporales, preservando cambios bruscos y modos dinámicos. Mejora precisión y consistencia.
Descubre cómo Dirichlet-Guided Group Forecasting reduce el sobre-suavizado en series temporales, mejorando precisión y diversidad en predicciones multimodales.
Descubre cómo el aprendizaje por refuerzo con el Transformer de Polígonos supera a los solvers heurísticos en anidamiento irregular 2D, alcanzando una utilizaci
Descubre PhysMetrics.Weather, el marco que evalúa la consistencia física de modelos meteorológicos de IA más allá del RMSE. Mejora la fiabilidad operativa.
Descubre cómo un nuevo enfoque de aprendizaje por refuerzo con atención geométrica supera a los solucionadores heurísticos tradicionales en el anidamiento irregular 2D.
Descubre cómo FlowTracer rastrea el flujo de razonamiento en modelos de lenguaje para asignar crédito preciso a los tokens clave y mejorar el aprendizaje por refuerzo.
Nuevo pipeline de dos etapas corrige residuos en predicción de series temporales. Mejora la precisión con aprendizaje multi-escala. ¡Resultados de vanguardia!
FlowTracer asigna crédito a tokens clave en LLMs trazando el flujo de razonamiento inducido por atención, mejorando el aprendizaje por refuerzo en tareas de razonamiento complejo.
Aprende cómo un pipeline de dos etapas con aprendizaje de residuos mejora la predicción de series temporales, reduciendo sesgos. ¡Resultados de vanguardia!
PL-KKT-hPINN impone restricciones no lineales estrictas en redes neuronales. Mejora precisión y robustez en simulaciones reactor químico con datos. Supera PINN.
PL-KKT-hPINN impone restricciones no lineales en redes neuronales con alta precisión y baja violación. Ideal para modelado de reactores.
Un estudio revela que las métricas observacionales no predicen la importancia causal de los expertos en modelos MoE. El éxito del pruning se debe a la redundancia temprana. Descubre los hallazgos.
Auditoría causal revela: las métricas observacionales no predicen importancia de expertos en MoE. La poda funciona por redundancia temprana.
SPACR: entrena regresores conformales en un solo paso, obteniendo intervalos más estrechos y mejor equilibrio cobertura-eficiencia con menor costo.
Descubre N-GRPO, una nueva estrategia de exploración que mejora el razonamiento matemático de LLMs mediante la mezcla inteligente de embeddings semánticos. Resultados consistentes en benchmarks.
Descubre SPACR, un método innovador que entrena regresores conformes en un solo paso, logrando intervalos más precisos y reduciendo costos computacionales. Ideal para IA.
DFL-AA corrige sesgo y obsolescencia en aprendizaje federado descentralizado usando ponderación inversa y edad de información. Mejora precisión en redes.
DFL-AA combina ponderación inversa y edad de la información para eliminar sesgo y obsolescencia en aprendizaje federado descentralizado con redes inalámbricas.