COMPASS: Alineación con MCTS para Agentes de Búsqueda Seguros
COMPASS es un nuevo marco de alineación con MCTS que asegura agentes de búsqueda sin perder utilidad, usando menos datos.
COMPASS es un nuevo marco de alineación con MCTS que asegura agentes de búsqueda sin perder utilidad, usando menos datos.
Aprende sobre Feedback Distillation, un método que mejora la demostración de teoremas en Lean4 superando al GRPO. Incrementa diversidad y eficiencia en el entrenamiento de modelos de razonamiento.
EntQuant comprime modelos de 70B parámetros en solo 10 minutos sin datos de calibración, alcanzando SOTA en compresión extrema a 2 bits con codificación de entropía.
Descubre cómo SALAAD reduce el consumo de memoria en modelos de lenguaje grandes usando estructuras dispersas y de bajo rango, permitiendo un despliegue flexible sin reentrenamiento.
Optimiza el ajuste fino de modelos grandes con adaptadores Kronecker. Conoce CDKA, una nueva técnica que mejora la capacidad y eficiencia mediante el diseño estratégico de componentes.
Descubre un nuevo enfoque causal para evaluar ataques de inferencia de membresía sin reentrenar, reduciendo sesgos. ¡Ideal para LLMs!
Descubre cómo una regularización débil mejora el entrenamiento de Wasserstein GANs, superando problemas de convergencia y optimizando la restricción Lipschitz.
Descubre SERA, el método que entrena agentes de código abierto para repositorios privados con un costo 26x menor que RL. Acelera tu desarrollo con IA.
Descubre cómo la información previa determina si la memorización en modelos lineales es beneficiosa o perjudicial, según el umbral de ruido.
Analizamos la propagación de errores en modelos de difusión con datos sintéticos. Primeras cotas inferiores de divergencia y regímenes de deriva.
Descubre IAPO: asigna ventajas a cada token según información mutua. Reduce razonamiento hasta 36% sin perder precisión. Optimiza tus modelos de lenguaje.
IsoCLIP mejora la alineación intra-modal en CLIP sin reentrenar, reduciendo latencia y superando métodos existentes en recuperación y clasificación.
Descubre cómo un nuevo paradigma entrena dos modelos de lenguaje como atacante y defensor en un juego no cooperativo, mejorando seguridad y utilidad. Resultados sorprendentes.
PolarMem: sistema de memoria gráfica polarizada sin entrenamiento que verifica y reduce contradicciones en modelos de visión-lenguaje para un razonamiento multimodal confiable.
El Puente de Identidad: un simple ajuste en los datos de entrenamiento que rompe la maldición de la reversión en modelos de lenguaje. Logra un 50% de éxito.
Descubre cómo el muestreo ponderado eficiente con modelos generativos de puntuación logra aceleraciones de 1.2x a 4.7x sin entrenamiento adicional, ideal para IA generativa.
Descubre cómo ELA, usando divergencia KL y mapeo cuantil beta, reduce un 30% el tiempo de entrenamiento al podar capas redundantes en atención por capas.
El escalamiento en inferencia mejora el preentrenamiento generativo, superando la falsa dicotomía entre autoregresión y difusión.
Descubre cómo una red ligera y sin entrenamiento logra segmentar y reconocer texto en escenas con alta eficiencia, reduciendo costos computacionales y manteniendo precisión.
Descubre cómo el Subnetwork Data Parallelism reduce el uso de memoria en un 28-60% al entrenar modelos de IA, manteniendo el rendimiento. ¡Optimiza tu entrenamiento distribuido!