Explicando modelos de caja negra: optimización de subconjuntos lingüísticos
Aprende a explicar modelos de lenguaje de caja negra seleccionando subconjuntos de palabras coherentes sin acceder a parámetros internos. Mayor confianza y
Aprende a explicar modelos de lenguaje de caja negra seleccionando subconjuntos de palabras coherentes sin acceder a parámetros internos. Mayor confianza y
Explora la derivación de optimización de políticas en LLM: de la recompensa esperada a GRPO. Un marco unificado que diagnostica fallos y guía el diseño de
Aprende cómo ReRULE usa replay off-policy para desaprender LLMs, reutilizando casos difíciles y mejorando retención un 21% sin sacrificar rendimiento.
Descubre cómo TNT reduce el uso de tokens un 50% sin sacrificar precisión, eliminando el reward hacking en modelos de razonamiento.
Entrené modelos de lenguaje desde cero con clásicos rusos, los convertí en chatbots y los empaqueté en un binario Go. Un viaje de deep learning y neuro-punk.
Descubre SHAPO, un método de optimización de políticas que mejora la exploración segura en aprendizaje por refuerzo, reduciendo riesgos en entornos críticos.
Descubre cómo GRPO evita el colapso del entrenamiento en optimización combinatoria neuronal sin necesidad de línea base, mejorando la estabilidad en problemas de ruteo como TSP y CVRP.
Aprende cómo CAHL alinea planificador y ejecutor en LLMs con herramientas, mejorando el rendimiento en tareas complejas.
Descubre cómo la variación de rendimiento entre ejecuciones afecta a los algoritmos de RL y nuevas métricas basadas en percentiles para evaluarla.
Descubre cómo la variación de rendimiento afecta a algoritmos de deep RL y nuevas métricas percentiles para evaluarla. Casos con PPO, SAC, DQN y más.
El Sesgo de Pico por Trazas (TMPB) distorsiona la valoración en RL profundo. La optimización adaptativa lo corrige. Implicaciones para IA y neurociencia.