Atualizando a estrutura de segurança da fronteira

Atualizando a estrutura de segurança da fronteira

Nossa próxima iteração do FSF estabelece protocolos de segurança mais fortes no caminho para AGI

A IA é uma ferramenta poderosa que está ajudando a desbloquear novos avanços e fazer um progresso significativo em alguns dos maiores desafios de nosso tempo, da mudança climática à descoberta de medicamentos. Mas à medida que seu desenvolvimento avança, os recursos avançados podem apresentar novos riscos.

É por isso que introduzimos a primeira iteração de nossa estrutura de segurança de fronteira no ano passado – um conjunto de protocolos para nos ajudar a permanecer à frente de possíveis riscos graves dos poderosos modelos de IA da fronteira. Desde então, colaboramos com especialistas na indústria, academia e governo para aprofundar nossa compreensão dos riscos, as avaliações empíricas para testá -las e as mitigações que podemos aplicar. Também implementamos a estrutura em nossos processos de segurança e governança para avaliar modelos de fronteira como Gemini 2.0. Como resultado deste trabalho, hoje estamos publicando um atualizado Frontier Safety Framework.

As principais atualizações da estrutura incluem:

  • Recomendações de nível de segurança para nossos níveis críticos de capacidade (CCLS), ajudando a identificar onde são necessários os esforços mais fortes para conter o risco de exfiltração
  • Implementando um procedimento mais consistente de como aplicamos mitigações de implantação
  • Descrevendo uma abordagem líder do setor para o risco de alinhamento enganoso

Recomendações para maior segurança

As mitigações de segurança ajudam a impedir que os atores não autorizados exfilitem os pesos do modelo. Isso é especialmente importante porque o acesso aos pesos do modelo permite a remoção da maioria das salvaguardas. Dadas as apostas envolvidas à medida que olhamos para a IA cada vez mais poderosa, entender isso errado pode ter sérias implicações para a segurança. Nossa estrutura inicial reconheceu a necessidade de uma abordagem em camadas da segurança, permitindo a implementação de mitigações com forças variadas a serem adaptadas ao risco. Essa abordagem proporcional também garante que obtemos o equilíbrio entre mitigação de riscos e promoção de acesso e inovação.

Desde então, nós desenhamos pesquisa mais ampla Para evoluir esses níveis de mitigação de segurança e recomendar um nível para cada um de nossos CCLs. Esse processo de mapeamento nos ajuda a isolar onde são necessárias as mitigações mais fortes para reduzir o maior risco. Na prática, alguns aspectos de nossas práticas de segurança podem exceder os níveis de linha de base recomendados aqui devido à nossa forte postura geral de segurança.

Esta segunda versão da estrutura recomenda níveis de segurança particularmente altos para CCLs no domínio da pesquisa e desenvolvimento de aprendizado de máquina (P&D). Acreditamos que será importante que os desenvolvedores de IA da Frontier tenham forte segurança para futuros cenários quando seus modelos puderem acelerar significativamente e/ou automatizar o próprio desenvolvimento de IA. Isso ocorre porque a proliferação descontrolada de tais capacidades pode desafiar significativamente a capacidade da sociedade de gerenciar e se adaptar cuidadosamente ao ritmo rápido do desenvolvimento da IA.

Garantir a segurança contínua dos sistemas de IA de ponta é um desafio global compartilhado – e uma responsabilidade compartilhada de todos os desenvolvedores líderes. É importante ressaltar que acertar isso é um problema de ação coletiva: o valor social das mitigações de segurança de qualquer ator será significativamente reduzido se não for amplamente aplicado em todo o campo. Construir o tipo de capacidade de segurança que acreditamos ser necessário levará tempo – por isso é vital que todos os desenvolvedores de IA da Frontier trabalhem coletivamente em direção a medidas de segurança aumentadas e aceleram os esforços para os padrões comuns da indústria.

Procedimento de mitigações de implantação

Também descrevemos as mitigações de implantação na estrutura que se concentram na prevenção do uso indevido de recursos críticos nos sistemas que implantamos. Atualizamos nossa abordagem de mitigação de implantação para aplicar um processo de mitigação de segurança mais rigoroso aos modelos que atingem um CCL em um domínio de risco de uso indevido.

A abordagem atualizada envolve as seguintes etapas: Primeiro, preparamos um conjunto de mitigações ao iterar em um conjunto de salvaguardas. Ao fazê -lo, também desenvolveremos um caso de segurança, que é um argumento avaliado que mostra como os riscos severos associados aos CCLs de um modelo foram minimizados para um nível aceitável. O órgão apropriado de governança corporativa analisa o caso de segurança, com a implantação geral de disponibilidade ocorrendo apenas se for aprovada. Por fim, continuamos revisando e atualizando o caso de salvaguardas e segurança após a implantação. Fizemos essa alteração porque acreditamos que todos os recursos críticos justificam esse processo de mitigação completa.

Abordagem ao risco de alinhamento enganoso

A primeira iteração da estrutura se concentrou principalmente no risco de uso indevido (ou seja, os riscos dos atores de ameaças usando recursos críticos de modelos implantados ou exfiltrados para causar danos). Com base nisso, adotamos uma abordagem líder do setor para abordar proativamente os riscos de alinhamento enganoso, ou seja, o risco de um sistema autônomo minando deliberadamente o controle humano.

Uma abordagem inicial para essa questão se concentra na detecção de quando os modelos podem desenvolver uma capacidade de raciocínio instrumental da linha de base, permitindo que eles minem o controle humano, a menos que as salvaguardas estejam em vigor. Para mitigar isso, exploramos o monitoramento automatizado para detectar o uso ilícito de recursos de raciocínio instrumental.

Não esperamos que o monitoramento automatizado permaneça suficiente a longo prazo se os modelos atingirem níveis ainda mais fortes de raciocínio instrumental, por isso estamos adotando ativamente-e fortemente encorajando-pesquisas adicionais desenvolvendo abordagens de mitigação para esses cenários. Embora ainda não saibamos a probabilidade de surgir esses recursos, achamos importante que o campo se prepare para a possibilidade.

Conclusão

Continuaremos a revisar e desenvolver a estrutura ao longo do tempo, guiados por nosso Princípios da IAque descrevemos ainda mais nosso compromisso com o desenvolvimento responsável.

Como parte de nossos esforços, continuaremos trabalhando em colaboração com parceiros em toda a sociedade. Por exemplo, se avaliarmos que um modelo atingiu um CCL que representa um risco não mitigado e material para a segurança pública geral, pretendemos compartilhar informações com as autoridades governamentais apropriadas, onde facilitará o desenvolvimento da IA ​​segura. Além disso, a estrutura mais recente descreve uma série de áreas em potencial para pesquisas adicionais – áreas em que esperamos colaborar com a comunidade de pesquisa, outras empresas e governo.

Acreditamos que uma abordagem aberta, iterativa e colaborativa ajudará a estabelecer padrões e práticas recomendadas comuns para avaliar a segurança dos futuros modelos de IA, garantindo seus benefícios para a humanidade. O Seul Frontier AI Segurança Compromissos Marcou um passo importante em direção a esse esforço coletivo – e esperamos que nossa estrutura de segurança de fronteira atualizada contribua mais para esse progresso. Enquanto olhamos para o AGI, acertar isso significará abordar questões muito conseqüentes – como os limiares e mitigações de capacidade certos – que exigirão a entrada de uma sociedade mais ampla, incluindo governos.

Source link

Análises e Notícias em Tempo Real

Sem mais notícias para mostrar.