Um sistema de alerta precoce para novos riscos de IA

Um sistema de alerta precoce para novos riscos de IA

Responsabilidade e segurança

Publicado
Autores

Toby Shevlane

Imagem abstrata de uma esfera no meio de círculos concêntricos torcidos em gradientes de azul.

Nova pesquisa propõe uma estrutura para avaliar modelos de uso geral contra novas ameaças

Para ser pioneiro com responsabilidade na vanguarda da pesquisa de inteligência artificial (IA), devemos identificar novas capacidades e novos riscos em nossos sistemas de IA o mais cedo possível.

Os pesquisadores de IA já usam uma variedade de Benchmarks de avaliação identificar comportamentos indesejados nos sistemas de IA, como sistemas de IA que tomam declarações enganosas, decisões tendenciosas ou repetindo conteúdo protegido por direitos autorais. Agora, à medida que a comunidade de IA constrói e implanta IA cada vez mais poderosa, devemos expandir o portfólio de avaliação para incluir a possibilidade de riscos extremos A partir de modelos de IA de uso geral que têm fortes habilidades em manipulação, engano, ofensa cibernética ou outras capacidades perigosas.

Em nosso Última papelIntroduzimos uma estrutura para avaliar essas novas ameaças, em co-autoria com colegas da Universidade de Cambridge, Universidade de Oxford, Universidade de Toronto, Université de Montréal, OpenI, Antrópico, Centro de Pesquisa de Alinhamento, Centro de Resiliência de Longo Prazo e Centro para a governança da IA.

As avaliações de segurança do modelo, incluindo aquelas que avaliam riscos extremos, serão um componente crítico do desenvolvimento e implantação seguros da IA.

Uma visão geral de nossa abordagem proposta: para avaliar riscos extremos de novos sistemas de IA de uso geral, os desenvolvedores devem avaliar as capacidades e o alinhamento perigosos (veja abaixo). Ao identificar os riscos desde o início, isso desbloqueará oportunidades de serem mais responsáveis ​​ao treinar novos sistemas de IA, implantando esses sistemas de IA, descrevendo de forma transparente seus riscos e aplicando padrões apropriados de segurança cibernética.

Avaliando riscos extremos

Os modelos de uso geral normalmente aprendem suas capacidades e comportamentos durante o treinamento. No entanto, os métodos existentes para direcionar o processo de aprendizagem são imperfeitos. Por exemplo, pesquisas anteriores no Google Deepmind exploraram como os sistemas de IA podem aprender a perseguir objetivos indesejados, mesmo quando os recompensamos corretamente por um bom comportamento.

Os desenvolvedores de IA responsáveis ​​devem olhar para o futuro e antecipar possíveis desenvolvimentos futuros e novos riscos. Após o progresso contínuo, futuros modelos de uso geral podem aprender uma variedade de capacidades perigosas por padrão. Por exemplo, é plausível (embora incerto) que os futuros sistemas de IA possam realizar operações cibernéticas ofensivas, enganar os seres humanos em diálogo, manipular os seres humanos a realizar ações prejudiciais, projetar ou adquirir armas (por exemplo, biológico, químico), fino- Sintonize e opere outros sistemas de AI de alto risco em plataformas de computação em nuvem ou ajudem os seres humanos com qualquer uma dessas tarefas.

Pessoas com intenções maliciosas acessando esses modelos poderiam uso indevido suas capacidades. Ou, devido a falhas de alinhamento, esses modelos de IA podem tomar ações prejudiciais, mesmo sem que ninguém pretenda isso.

A avaliação do modelo nos ajuda a identificar esses riscos antes do tempo. Sob nossa estrutura, os desenvolvedores de IA usariam a avaliação do modelo para descobrir:

  1. Até que ponto um modelo possui certas ‘capacidades perigosas’ que podem ser usadas para ameaçar a segurança, exercer influência ou evitar a supervisão.
  2. Até que ponto o modelo é propenso a aplicar seus recursos para causar danos (ou seja, o alinhamento do modelo). As avaliações de alinhamento devem confirmar que o modelo se comporta conforme as pretendidas, mesmo em uma ampla gama de cenários e, sempre que possível, deve examinar o funcionamento interno do modelo.

Os resultados dessas avaliações ajudarão os desenvolvedores da IA ​​a entender se estão presentes os ingredientes suficientes para riscos extremos. Os casos de alto risco envolverão vários recursos perigosos combinados. O sistema de IA não precisa fornecer todos os ingredientes, como mostrado neste diagrama:

Ingredientes para risco extremo: às vezes, recursos específicos podem ser terceirizados, para seres humanos (por exemplo, para usuários ou trabalhadores de crowdworkers) ou outros sistemas de IA. Esses recursos devem ser aplicados para danos, devido a uso indevido ou falhas de alinhamento (ou uma mistura de ambos).

Uma regra geral: a comunidade de IA deve tratar um sistema de IA como altamente perigoso se tiver um perfil de capacidade suficiente para causar danos extremos, assumindo Está mal utilizado ou mal alinhado. Para implantar esse sistema no mundo real, um desenvolvedor de IA precisaria demonstrar um padrão de segurança incomumente alto.

Avaliação do modelo como infraestrutura de governança crítica

Se tivermos ferramentas melhores para identificar quais modelos são arriscados, empresas e reguladores podem garantir melhor:

  1. Treinamento responsável: São tomadas decisões responsáveis ​​sobre se e como treinar um novo modelo que mostra sinais precoces de risco.
  2. Implantação responsável: São tomadas decisões responsáveis ​​sobre se, quando e como implantar modelos potencialmente arriscados.
  3. Transparência: Informações úteis e acionáveis ​​são relatadas às partes interessadas, para ajudá -las a se preparar para ou mitigar riscos potenciais.
  4. Segurança apropriada: Controles e sistemas de segurança da informação fortes são aplicados a modelos que podem representar riscos extremos.

Desenvolvemos um plano de como as avaliações do modelo para riscos extremos devem alimentar decisões importantes em torno do treinamento e implantando um modelo altamente capaz e de uso geral. O desenvolvedor realiza avaliações e subsídios Acesso ao modelo estruturado para pesquisadores de segurança externa e Auditores de modelo para que eles possam conduzir Avaliações adicionais Os resultados da avaliação podem informar avaliações de risco antes do treinamento e implantação do modelo.

Um plano para incorporar avaliações do modelo para riscos extremos em importantes processos de tomada de decisão ao longo do treinamento e implantação de modelos.

Olhando para o futuro

Importante cedo trabalhar Em avaliações de modelos para riscos extremos, já está em andamento no Google DeepMind e em outros lugares. Mas muito mais progresso – técnico e institucional – é necessário para criar um processo de avaliação que capta todos os riscos possíveis e ajude a proteger contra os desafios emergentes futuros.

A avaliação do modelo não é uma panacéia; Alguns riscos podem deslizar pela rede, por exemplo, porque dependem muito de fatores externos ao modelo, como Forças sociais, políticas e econômicas complexas na sociedade. A avaliação do modelo deve ser combinada com outras ferramentas de avaliação de risco e uma dedicação mais ampla à segurança em toda a indústria, governo e sociedade civil.

O recente blog do Google sobre a IA responsável afirma que, “práticas individuais, padrões compartilhados da indústria e políticas governamentais sólidas seriam essenciais para acertar a IA”. Esperamos que muitos outros que trabalham em IA e setores afetados por essa tecnologia se reúnam para criar abordagens e padrões para desenvolver e implantar com segurança a IA para o benefício de todos.

Acreditamos que ter processos para rastrear o surgimento de propriedades de risco nos modelos e para responder adequadamente aos resultados referentes é uma parte crítica de ser um desenvolvedor responsável operando na fronteira dos recursos de IA.

Source link

Análises e Notícias em Tempo Real

Sem mais notícias para mostrar.