Alucinaciones sintéticas, ganancias reales en modelos de código
Genera ejemplos sintéticos sin ejecución para mitigar alucinaciones en autocompletado. +18.8 EM en Delulu.
Genera ejemplos sintéticos sin ejecución para mitigar alucinaciones en autocompletado. +18.8 EM en Delulu.
Descubre HARVE, método sin entrenamiento que edita el vector de cabeza de recompensa para proteger modelos de lenguaje del hackeo, manteniendo su rendimiento.
Descubre cómo los modelos frontera generan alucinaciones sintéticas como negativos duros para entrenar modelos de código y reducir alucinaciones +18.8%.
Descubre HARVE, un método sin entrenamiento que edita el vector de recompensa para eliminar el reward hacking en modelos de lenguaje. Mejora robustez sin perder capacidad.
Descubre DECA: ajuste fino completo descentralizado de LLMs en datos no IID. Eficiente y rápido. ¡Infórmate!
Hidden-Align alinea estados ocultos verificados para mejorar el razonamiento en RL, logrando hasta 6.2 puntos de mejora en benchmarks.
Hidden-Align alinea estados ocultos en modelos de lenguaje, mejorando el razonamiento matemático hasta un 6.2% en benchmarks. Técnica innovadora de RL.
Un sistema multiagente con validación por compuertas reduce un 19% el error en predicciones termohidráulicas bajo cambios de régimen operativo. Descubre cómo.
Descubre cómo un sistema multiagente con validación mejora un 19% la precisión de los modelos termohidráulicos, reduciendo errores en pronósticos dinámicos.
APIC permite calibración rápida de modelos físicos con procesos neuronales. Cuantifica incertidumbre y mejora la precisión a partir de datos escasos.
Descubre APIC: calibración amortizada con procesos neuronales para modelos físicos. Reduce errores y cuantifica incertidumbre con datos escasos.
GEAR mitiga la propagación de crédito falso en RL con rubricas, logrando mejoras del 15.5% y reduciendo errores un 96.5%. Conoce cómo.
Los modelos de embedding de grafos son fiables? Este estudio revela inestabilidad en predicciones debido a semillas aleatorias. Conoce las limitaciones del MRR.
GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.
Los modelos de embedding (KGEM) generan predicciones inestables en grafos de conocimiento. Las semillas aleatorias y la configuración afectan la fiabilidad. ¿Cómo solucionarlo?
Descubre Flicker-DDPM, un nuevo modelo de difusión que acelera el muestreo hasta 3.33 veces usando ruido coloreado 1/f, mejorando la calidad de generación.
Descubre cómo Flicker-DDPM acelera la generación de imágenes con ruido coloreado 1/f, reduciendo pasos de muestreo hasta 3 veces sin pérdida de calidad.
Reduce errores en razonamiento con KVarN. Cuantificación KV de 2 bits que optimiza la memoria y mejora el rendimiento en modelos de lenguaje.
Descubre cómo PipeDream logra convergencia en entrenamiento distribuido con un nuevo análisis teórico no convexo. Comparativa con LocalSGD.
Descubre cómo el speedrun de nanoTabPFN logró un speedup de 81x en preentrenamiento de modelos tabulares. Participa y contribuye al benchmark abierto en GitHub.