#aprendizaje

Estimación de ventaja basada en representaciones: más que recompensa escalar

GraphAE usa representaciones ocultas del RM para estimar ventajas con grafos. Mejora el RLHF hasta +6.3 en Arena-Hard.

2026-06-10 · 2 min

Estimación de ventaja consciente de representación en RLHF

Descubre cómo GraphAE aprovecha las representaciones ocultas del modelo de recompensa para una estimación de ventajas más precisa en RLHF, mejorando rendimiento hasta +8.27 en AlpacaEval.

2026-06-10 · 2 min

Pronóstico grupal Dirichlet para evitar suavizado excesivo en series temporales

El método DGF elimina el suavizado excesivo en pronósticos de series temporales, preservando cambios bruscos y modos dinámicos. Mejora precisión y consistencia.

2026-06-10 · 3 min

Pronóstico grupal Dirichlet reduce suavizado excesivo en series temporales

Descubre cómo Dirichlet-Guided Group Forecasting reduce el sobre-suavizado en series temporales, mejorando precisión y diversidad en predicciones multimodales.

2026-06-10 · 2 min

Aprendizaje por Refuerzo con Conciencia Geométrica para Anidamiento Irregular 2D

Descubre cómo el aprendizaje por refuerzo con el Transformer de Polígonos supera a los solvers heurísticos en anidamiento irregular 2D, alcanzando una utilizaci

2026-06-10 · 2 min

PhysMetrics.Weather: Evaluación de consistencia física en ML meteorológico

Descubre PhysMetrics.Weather, el marco que evalúa la consistencia física de modelos meteorológicos de IA más allá del RMSE. Mejora la fiabilidad operativa.

2026-06-10 · 2 min

Aprendizaje por refuerzo con conciencia geométrica para anidamiento 2D

Descubre cómo un nuevo enfoque de aprendizaje por refuerzo con atención geométrica supera a los solucionadores heurísticos tradicionales en el anidamiento irregular 2D.

2026-06-10 · 2 min

¿Cómo fluye el razonamiento? Rastreo del flujo de información para RL en LLMs

Descubre cómo FlowTracer rastrea el flujo de razonamiento en modelos de lenguaje para asignar crédito preciso a los tokens clave y mejorar el aprendizaje por refuerzo.

2026-06-10 · 2 min

Predicción de series temporales con aprendizaje multi-escala de residuos

Nuevo pipeline de dos etapas corrige residuos en predicción de series temporales. Mejora la precisión con aprendizaje multi-escala. ¡Resultados de vanguardia!

2026-06-10 · 2 min

FlowTracer: rastreo del flujo de razonamiento en LLMs

FlowTracer asigna crédito a tokens clave en LLMs trazando el flujo de razonamiento inducido por atención, mejorando el aprendizaje por refuerzo en tareas de razonamiento complejo.

2026-06-10 · 3 min

Predicción series temporales con aprendizaje de residuos multiescala

Aprende cómo un pipeline de dos etapas con aprendizaje de residuos mejora la predicción de series temporales, reduciendo sesgos. ¡Resultados de vanguardia!

2026-06-10 · 2 min

PL-KKT-hPINN: Restricciones no lineales en redes neuronales con proyección lineal por partes

PL-KKT-hPINN impone restricciones no lineales estrictas en redes neuronales. Mejora precisión y robustez en simulaciones reactor químico con datos. Supera PINN.

2026-06-10 · 3 min

PL-KKT-hPINN: Proyección lineal para restricciones no lineales en redes neuronales

PL-KKT-hPINN impone restricciones no lineales en redes neuronales con alta precisión y baja violación. Ideal para modelado de reactores.

2026-06-10 · 2 min

De la observación a la intervención: Auditoría causal en modelos MoE

Un estudio revela que las métricas observacionales no predicen la importancia causal de los expertos en modelos MoE. El éxito del pruning se debe a la redundancia temprana. Descubre los hallazgos.

2026-06-10 · 2 min

De la observación a la intervención: auditoría causal de expertos en MoE

Auditoría causal revela: las métricas observacionales no predicen importancia de expertos en MoE. La poda funciona por redundancia temprana.

2026-06-10 · 2 min

SPACR: Entrenamiento adaptativo de un solo paso para regresores conformales

SPACR: entrena regresores conformales en un solo paso, obteniendo intervalos más estrechos y mejor equilibrio cobertura-eficiencia con menor costo.

2026-06-10 · 2 min

N-GRPO: Mezcla de Vecinos a Nivel de Embedding para Optimización de Políticas

Descubre N-GRPO, una nueva estrategia de exploración que mejora el razonamiento matemático de LLMs mediante la mezcla inteligente de embeddings semánticos. Resultados consistentes en benchmarks.

2026-06-10 · 2 min

SPACR: Entrenamiento Adaptativo de Regresores Conformes

Descubre SPACR, un método innovador que entrena regresores conformes en un solo paso, logrando intervalos más precisos y reduciendo costos computacionales. Ideal para IA.

2026-06-10 · 2 min

Aprendizaje federado descentralizado: ponderación inversa y agregación AoI

DFL-AA corrige sesgo y obsolescencia en aprendizaje federado descentralizado usando ponderación inversa y edad de información. Mejora precisión en redes.

2026-06-10 · 2 min

Ponderación Inversa y Edad de la Información para DFL con Recepción Parcial

DFL-AA combina ponderación inversa y edad de la información para eliminar sesgo y obsolescencia en aprendizaje federado descentralizado con redes inalámbricas.

2026-06-10 · 2 min