Características latentes en LLMs: alineando semántica y mecanismos
Nuevo método no supervisado identifica modos de continuación en LLMs alineando semántica y atribuciones mecanicistas para auditar mecanismos internos.
Nuevo método no supervisado identifica modos de continuación en LLMs alineando semántica y atribuciones mecanicistas para auditar mecanismos internos.