Tecnologias
- Publicado
- Autores
-
Equipe de interpretabilidade do modelo de idioma
Anunciando um conjunto abrangente e aberto de autoencoders esparsos para interpretabilidade do modelo de idiomas.
Para criar um modelo de idioma de inteligência artificial (AI), os pesquisadores constroem um sistema que aprende com vastas quantidades de dados sem orientação humana. Como resultado, o funcionamento interno dos modelos de idiomas geralmente é um mistério, mesmo para os pesquisadores que os treinam. Interpretabilidade mecanicista é um campo de pesquisa focado em decifrar esses trabalhos internos. Pesquisadores neste campo usam AutoEncoders esparsos Como uma espécie de ‘microscópio’ que os permite ver dentro de um modelo de idioma e ter uma noção melhor de como ele funciona.
Hoje, Estamos anunciando o escopo de gemmaUm novo conjunto de ferramentas para ajudar os pesquisadores a entender o funcionamento interno da Gemma 2, nossa família leve de modelos abertos. Gemma Scope é uma coleção de centenas de autoencoders de auto -codificadores abertos e abertos (SAEs) para Gemma 2 9b e Gemma 2 2b. Também estamos de fornecimento aberto Mishaxuma ferramenta que construímos que permitiu grande parte do trabalho de interpretabilidade por trás do escopo da Gemma.
Esperamos que o lançamento de hoje permita pesquisas de interpretabilidade mais ambiciosas. Pesquisas adicionais têm o potencial de ajudar o campo a criar sistemas mais robustos, desenvolver melhores salvaguardas contra alucinações modelo e proteger contra riscos de agentes autônomos de IA, como engano ou manipulação.
Experimente a nossa demonstração interativa do Gemma Scopecortesia da Neuronpedia.
Interpretando o que acontece dentro de um modelo de idioma
Quando você faz uma pergunta a um modelo de idioma, ele transforma sua entrada de texto em uma série de ‘ativações’. Essas ativações mapeiam as relações entre as palavras que você inseriu, ajudando o modelo a fazer conexões entre palavras diferentes, que ele usa para escrever uma resposta.
À medida que o modelo processa a entrada de texto, as ativações em diferentes camadas na rede neural do modelo representam vários conceitos cada vez mais avançados, conhecidos como ‘recursos’.
Por exemplo, as primeiras camadas de um modelo podem aprender a Lembre -se de fatos assim Michael Jordan joga basqueteenquanto camadas posteriores podem reconhecer conceitos mais complexos como a factualidade do texto.
Uma representação estilizada do uso de um autoencoder esparso para interpretar as ativações de um modelo, pois lembra o fato de que a cidade da luz é Paris. Vemos que os conceitos relacionados a francês estão presentes, enquanto os não relacionados não estão.
No entanto, os pesquisadores de interpretabilidade enfrentam um problema importante: as ativações do modelo são uma mistura de muitos recursos diferentes. Nos primeiros dias da interpretabilidade mecanicista, os pesquisadores esperavam que os recursos nas ativações de uma rede neural se alinhassem com neurônios individuais, ou seja, nós de informação. Infelizmente, porém, na prática, os neurônios estão ativos para muitos recursos não relacionados. Isso significa que não há uma maneira óbvia de dizer quais recursos fazem parte da ativação.
É aqui que entra os autoencoders esparsos.
Uma dada ativação será apenas uma mistura de um pequeno número de recursos, mesmo que o modelo de idioma provavelmente seja capaz de detectar milhões ou mesmo bilhões deles – ou sejao modelo usa recursos escassamente. Por exemplo, um modelo de idioma considerará a relatividade ao responder a uma investigação sobre Einstein e considerará ovos ao escrever sobre omeletes, mas provavelmente não considerará a relatividade ao escrever sobre omeletes.
Os autoencodentes esparsos aproveitam esse fato para descobrir um conjunto de recursos possíveis e dividir cada ativação em um pequeno número deles. Os pesquisadores esperam que a melhor maneira de o autoencoder esparso realizar essa tarefa é encontrar os recursos subjacentes reais que o modelo de idioma usa.
É importante ressaltar que, em nenhum momento nesse processo – os pesquisadores – dizem ao autoencoder esparso que aparece para procurar. Como resultado, somos capazes de descobrir estruturas ricas que não prevemos. No entanto, porque não sabemos imediatamente o significado Dos recursos descobertos, procuramos padrões significativos Em exemplos de texto em que o autoencoder esparso diz o recurso ‘incêndios’.
Aqui está um exemplo em que os tokens em que os incêndios são destacados em gradientes de azul de acordo com sua força:
Exemplo de ativações para um recurso encontrado por nossos autoencoders esparsos. Cada bolha é um token (fragmento de palavra ou palavra), e a cor azul variável ilustra o quão fortemente o recurso está presente. Nesse caso, o recurso está aparentemente relacionado a idiomas.
O que torna o escopo Gemma único
Pesquisas anteriores com autoencoders esparsos se concentraram principalmente em investigar o funcionamento interno de Modelos minúsculos ou uma única camada em modelos maiores. Mas a pesquisa de interpretabilidade mais ambiciosa envolve a decodificação de algoritmos complexos em camadas em modelos maiores.
Treinamos autoencoders esparsos em todo saída de camada e subcamada de Gemma 2 2b e 9b Para construir o escopo da Gemma, produzindo mais de 400 autoencoders esparsos com mais de 30 milhões de recursos aprendidos no total (embora muitos recursos provavelmente se sobreponham). Essa ferramenta permitirá que os pesquisadores estudem como os recursos evoluem ao longo do modelo, interagem e comporão para criar recursos mais complexos.
Gemma Scope também é treinado com nosso novo estado da arte Arquitetura Jumprelu SAE. A arquitetura de autoencoder de esparso original se esforçou para equilibrar os objetivos gêmeos de detecção de quais recursos estão presentes e estimando sua força. A arquitetura Jumprelu facilita a obtenção desse saldo adequadamente, reduzindo significativamente o erro.
Treinar tantos autoencoders esparsos foi um desafio de engenharia significativo, exigindo muito poder de computação. Utilizamos cerca de 15% da computação de treinamento de Gemma 2 9b (excluindo computação para gerar rótulos de destilação), economizou cerca de 20 pebibytes (PIB) de ativações para o disco (cerca de até Um milhão de cópias da Wikipedia inglesa) e produziu centenas de bilhões de parâmetros esparsos de autoencoder no total.
Empurrando o campo para a frente
Ao lançar a Gemma Scope, esperamos fazer de Gemma 2 a melhor família de modelos para pesquisa de interpretabilidade mecanicista aberta e acelerar o trabalho da comunidade nesse campo.
Até agora, a comunidade de interpretabilidade fez um grande progresso na compreensão de pequenos modelos com autoencodentes esparsos e no desenvolvimento de técnicas relevantes, como causal intervençõesAssim, automático circuito análiseAssim, interpretação de recursose avaliação AutoEncoders esparsos. Com o Gemma Scope, esperamos ver a comunidade escalar essas técnicas para modelos modernos, analisar recursos mais complexos, como a cadeia de pensamento e encontrar aplicações de interpretabilidade do mundo real, como combater problemas como alucinações e jailbreaks que apenas surgem com modelos maiores .
Agradecimentos
Gemma Scope foi um esforço coletivo de Tom Lieberum, Sen Rajamanoharan, Arthur Conmy, Lewis Smith, Nic Sonnerat, Vikrant Varma, Janos Kramar e Neel Nanda, aconselhado por Rohin Shah e Anca Dragan. Gostaríamos de agradecer especialmente a Johnny Lin, Joseph Bloom e Curt Tigges na Neuronpedia por sua assistência com a demonstração interativa. Somos gratos pela ajuda e contribuições de Phoebe Kirk, Andrew Forbes, Arielle Bier, Aliya Ahmad, Yotam Doron, Tris Warkentin, Ludovic Peran, Kat Black, Anand Rao, Meg Risdal, Samuel Albanie, Dave Orr, Matt Miller, Alex Turner , Tobi Ijitoye, Shruti Sheth, Jeremy Sie, Tobi Ijitoye, Alex Tomala, Javier Ferrando, Oscar Obeso, Kathleen Kenealy, Joe Fernandez, Omar Sanseviero e Glenn Cameron.