Actualizar el arnés no es beneficio: evolución en agentes LLM auto-evolutivos
Descubre por qué actualizar el arnés de agentes LLM no siempre mejora su rendimiento. Los modelos intermedios son los que más se benefician.
Descubre por qué actualizar el arnés de agentes LLM no siempre mejora su rendimiento. Los modelos intermedios son los que más se benefician.
Descubre cómo GRiD usa modelos de difusión y aprendizaje por refuerzo para generar reglas tipo grafo, mejorando el razonamiento en grafos de conocimiento con resultados competitivos.
SLAT: recorte adaptativo por segmentos reduce un 50% la longitud del razonamiento CoT sin perder precisión.
Aprende sobre Feedback Distillation, un método que mejora la demostración de teoremas en Lean4 superando al GRPO. Incrementa diversidad y eficiencia en el entrenamiento de modelos de razonamiento.
UniScale unifica ruteo de modelos y escalado en prueba para optimizar calidad-coste en LLMs. Aprende cómo se adapta dinámicamente a cada solicitud.
Las personas sintéticas permiten evaluar la alineación pluralista en IA generativa, superando benchmarks únicos y revelando la necesidad de mecanismos dinámicos.
Descubre cómo la curvatura de grafos permite podar redes neuronales sin perder precisión. Técnica innovadora basada en Ollivier-Ricci para identificar conexiones clave.
Conoce PRISM, un marco basado en VLMs que cambia el diagnóstico interno por auditoría externa para neutralizar backdoors con tasa de éxito menor al 1%.
Descubre SVE: incertidumbre calibrada en modelos fundacionales con solo 1% de parámetros extra.
EntQuant comprime modelos de 70B parámetros en solo 10 minutos sin datos de calibración, alcanzando SOTA en compresión extrema a 2 bits con codificación de entropía.
Descubre dgMARK: el nuevo marcado de agua guiado por decodificación para modelos de difusión. Protege tu IA fácilmente.
Descubre cómo SALAAD reduce el consumo de memoria en modelos de lenguaje grandes usando estructuras dispersas y de bajo rango, permitiendo un despliegue flexible sin reentrenamiento.
Optimiza el ajuste fino de modelos grandes con adaptadores Kronecker. Conoce CDKA, una nueva técnica que mejora la capacidad y eficiencia mediante el diseño estratégico de componentes.
FlexRank extrae submodelos de capacidad variable de modelos sin reentrenar. Optimiza costos y rendimiento para despliegue adaptativo a todo presupuesto.
Descubre un nuevo enfoque causal para evaluar ataques de inferencia de membresía sin reentrenar, reduciendo sesgos. ¡Ideal para LLMs!
¿Son realmente efectivos los modelos de lenguaje tabulares? Nuestra reevaluación de Tabula-8B muestra que la generalización se debe a artefactos de evaluación, no a aprendizaje real.
Descubre cómo TACO comprime datasets tabulares en espacio latente, logrando hasta 94x más rapidez y 97% menos memoria sin perder rendimiento.
Investigación muestra que los transformers requieren más datos que las RNN para seguimiento de estado y no comparten pesos entre longitudes. Descubre las diferencias clave.
Descubre cómo las extensiones del framework HiPPO ofrecen memoria adaptativa y asociativa en modelos de espacio de estado, manteniendo la interpretabilidad. Un
CoSR descubre progresivamente leyes físicas desde datos, imitando el método científico. Aplicaciones en turbulencia, flujos y aerodinámica.