#óptima

RL offline logra planificación efectiva con soluciones aleatorias

CDQAC: RL offline que aprende planificación efectiva incluso de soluciones aleatorias, superando heurísticas complejas con mínimos datos.

2026-06-11 · 2 min

Longitud óptima de razonamiento en modelos con RL

¿Sabías que la longitud de razonamiento tiene un punto óptimo? Descubre cómo la investigación optimiza precisión y coste en modelos de lenguaje con RL.

2026-06-11 · 3 min

Escalas óptimas de cuantización post-entrenamiento y dónde encontrarlas

Descubre PiSO, un algoritmo que calcula escalas óptimas de cuantización para LLMs. Mejora perplejidad y precisión en tus modelos.

2026-06-10 · 2 min

Teoría de decisión estadística con pérdida contrafactual

Descubre cómo la teoría de decisión estadística con pérdida contrafactual permite evaluar decisiones a nivel unitario, superando limitaciones clásicas. Ideal para IA y ciberseguridad.

2026-06-09 · 2 min

OptMuon: Momento Ortogonalizado en Bucle Cerrado para Optimización Estocástica

Descubre OptMuon, optimizador con momento ortogonalizado y control adaptativo en bucle cerrado. Logra tasas óptimas incluso sin ruido. Ideal deep learning.

2026-06-09 · 2 min

P-Cast en FP8: colapso sink y escala óptima S=2^8

Descubre cómo la escala S=2^8 y la iteración inversa evitan el colapso de precisión en atención FP8, mejorando el MSE entre 3 y 10 veces.

2026-06-08 · 2 min

Tasas óptimas de generalización en descenso de gradiente con redes profundas

Descubre cómo GD y SGD alcanzan tasas óptimas de generalización en redes ReLU profundas, con resultados minimax comparables a kernels.

2026-06-08 · 2 min

Más allá de las recompensas en el aprendizaje por refuerzo para ciberdefensa

Descubre cómo las recompensas dispersas en el aprendizaje por refuerzo mejoran la ciberdefensa, ofreciendo políticas más seguras y efectivas que las densas.

2026-06-05 · 2 min

Agentic Monte Carlo: Aprendizaje por Refuerzo en Agentes Caja Negra

Optimiza agentes LLM de caja negra sin entrenarlos. Agentic Monte Carlo supera a GRPO. Aprende inferencia bayesiana.

2026-06-05 · 2 min

Representaciones Bayes-Suficientes en Aprendizaje Supervisado

Descubre cómo las representaciones Bayes-suficientes preservan la información relevante para la predicción óptima. Incluye experimentos con iNaturalist.

2026-06-04 · 3 min

Aprendizaje bayesiano para el problema de ruta más corta estocástica

Aprende cómo el aprendizaje bayesiano cuantifica la incertidumbre en rutas estocásticas, mejorando la eficiencia de datos frente a métodos tradicionales.

2026-06-04 · 3 min

Tasas óptimas de generalización del descenso de gradiente en clasificación ReLU profunda

Descubre cómo el descenso de gradiente logra tasas de generalización óptimas en redes ReLU profundas con dependencia polinomial de la profundidad, mejorando resultados previos.

2026-06-03 · 2 min

Enfoque de perturbación para bandidos lineales

Descubre cómo un enfoque de perturbación logra arrepentimiento óptimo en bandidos lineales no restringidos, con nuevas garantías de alta probabilidad y tasas adaptativas.

2026-06-03 · 2 min

Pruebas privadas casi óptimas para hipótesis simples y MLR

Descubre pruebas privadas casi óptimas para hipótesis simples y MLR con privacidad diferencial gaussiana. Resultados comparables a pruebas no privadas.

2026-06-02 · 2 min

Estimación casi óptima y tratable con invarianza por desplazamiento

Estimación casi óptima y eficiente de señales discretas con recurrencias lineales. Descubre el estimador minimax y su aplicación en detección.

2026-06-02 · 3 min

Aprendizaje por refuerzo multiobjetivo para decisiones tácticas en camiones

Descubre cómo el aprendizaje por refuerzo multiobjetivo optimiza seguridad, eficiencia y costes en camiones autónomos con frontera de Pareto.

2026-06-02 · 2 min

Zero-Shot Off-Policy: Aprendizaje sin Entrenamiento

Nueva técnica de aprendizaje off-policy con zero-shot adapta políticas óptimas sin reentrenamiento, usando sucesores y densidades estacionarias. Benchmark en ExoRL y OGBench.

2026-06-02 · 2 min

La auditoría de políticas casi óptimas puede ser exponencialmente difícil

Descubre por qué auditar políticas casi óptimas en RL puede ser exponencialmente difícil. Analizamos cotas inferiores de consulta y la capacidad Rashomon.

2026-06-02 · 2 min

Teoría exacta de algoritmos de error feedback en optimización distribuida

Aprende cómo los algoritmos de error feedback logran convergencia óptima en optimización distribuida con compresión de gradientes. Análisis para EF y EF21.

2026-06-01 · 4 min

Cómo decidir cuándo detener la optimización bayesiana

Descubre cómo la nueva regla de parada consciente del costo optimiza la optimización bayesiana, reduciendo evaluaciones innecesarias y mejorando el regret simple ajustado al costo.

2026-06-01 · 2 min