Seguindo um caminho responsável para AGI

Seguindo um caminho responsável para AGI

Estamos explorando as fronteiras da AGI, priorizando a prontidão, a avaliação proativa de riscos e a colaboração com a comunidade de IA mais ampla.

Introdução

Inteligência Geral Artificial (AGI), AI que é pelo menos tão capaz quanto os humanos na maioria das tarefas cognitivas, pode estar aqui nos próximos anos.

Integrado aos recursos agênticos, a AGI poderia sobrecarregar a IA para entender, raciocinar, planejar e executar ações autonomamente. Esse avanço tecnológico fornecerá à sociedade ferramentas inestimáveis ​​para enfrentar desafios globais críticos, incluindo descoberta de medicamentos, crescimento econômico e mudanças climáticas.

Isso significa que podemos esperar benefícios tangíveis para bilhões de pessoas. Por exemplo, ao permitir diagnósticos médicos mais rápidos e precisos, pode revolucionar a saúde. Ao oferecer experiências de aprendizado personalizadas, isso pode tornar a educação mais acessível e envolvente. Ao melhorar o processamento de informações, a AGI poderia ajudar a baixar barreiras à inovação e à criatividade. Ao democratizar o acesso a ferramentas e conhecimentos avançados, poderia permitir que uma pequena organização enfrente desafios complexos anteriormente apenas endereçáveis ​​por instituições grandes e bem financiadas.

Navegando pelo caminho para AGI

Estamos otimistas sobre o potencial da AGI. Tem o poder de transformar nosso mundo, atuando como um catalisador para o progresso em muitas áreas da vida. Mas é essencial com qualquer tecnologia tão poderosa, que mesmo uma pequena possibilidade de dano deve ser levada a sério e evitada.

Mitigar os desafios de segurança da AGI exige planejamento, preparação e colaboração proativos. Anteriormente, introduzimos nossa abordagem de AGI no Estrutura “Níveis de AGI” Artigo, que fornece uma perspectiva sobre a classificação das capacidades de sistemas avançados de IA, compreendendo e comparando seu desempenho, avaliando riscos potenciais e avaliando o progresso em direção a IA mais geral e capaz.

Hoje, estamos compartilhando nossos pontos de vista sobre segurança e segurança da AGI enquanto navegamos no caminho para essa tecnologia transformacional. Este novo artigo, intitulado, uma abordagem para segurança e segurança técnica da AGIé um ponto de partida para conversas vitais com a indústria mais ampla sobre como monitoramos o progresso da AGI e garantimos que ele seja desenvolvido com segurança e responsabilidade.

No artigo, detalhamos como estamos adotando uma abordagem sistemática e abrangente da segurança da AGI, explorando quatro áreas de risco principais: uso indevido, desalinhamento, acidentes e riscos estruturais, com um foco mais profundo em uso indevido e desalinhamento.

Entender e abordar o potencial de uso indevido

O uso indevido ocorre quando um humano usa deliberadamente um sistema de IA para fins prejudiciais.

As informações aprimoradas sobre os danos e mitigações atuais continuam aumentando nossa compreensão de danos graves a longo prazo e como evitá-los.

Por exemplo, Uso indevido da IA ​​generativa atual Inclui a produção de conteúdo nocivo ou espalhar informações imprecisas. No futuro, os sistemas avançados de IA podem ter a capacidade de influenciar mais significativamente as crenças e comportamentos do público de maneiras que podem levar a consequências sociais não intencionais.

A gravidade potencial de tais danos exige medidas proativas de segurança e segurança.

Como detalhamos em o papelum elemento -chave de nossa estratégia é identificar e restringir o acesso a capacidades perigosas que podem ser mal utilizadas, incluindo aqueles que possibilitam ataques cibernéticos.

Estamos explorando uma série de atenuações para impedir o uso indevido de IA avançada. Isso inclui mecanismos sofisticados de segurança que podem impedir que atores maliciosos obtenham acesso bruto aos pesos do modelo que lhes permitam ignorar nossos corrimões de segurança; mitigações que limitam o potencial de uso indevido quando o modelo é implantado; e pesquisas de modelagem de ameaças que ajudam a identificar limiares de capacidade onde é necessária maior segurança. Além disso, nossa estrutura de avaliação de segurança cibernética lançada recentemente leva este trabalho para ajudar a mitigar as ameaças movidas a IA.

Ainda hoje, avaliamos nossos modelos mais avançados, como Gemini, para potencial capacidades perigosas antes de sua liberação. Nossa estrutura de segurança de fronteira investiga mais profundamente a forma como avaliamos as capacidades e empregamos mitigações, incluindo riscos de segurança cibernética e biossegurança.

O desafio do desalinhamento

Para a AGI complementar verdadeiramente as habilidades humanas, ela deve estar alinhada com os valores humanos. O desalinhamento ocorre quando o sistema de IA busca uma meta diferente das intenções humanas.

Mostramos anteriormente como o desalinhamento pode surgir com nossos exemplos de jogos de especificação, onde uma IA encontra uma solução para atingir seus objetivos, mas não da maneira pretendida pelo humano, instruindo -o e a maleneralização de objetivos.

Por exemplo, um sistema de IA solicitado a reservar ingressos para um filme pode decidir invadir o sistema de bilhetes para ter assentos já ocupados – algo que uma pessoa que pedia para comprar os assentos pode não considerar.

Também estamos realizando uma extensa pesquisa sobre o risco de Alinhamento enganosoou seja, o risco de um sistema de IA tomar conhecimento de que seus objetivos não se alinham às instruções humanas e deliberadamente tentar ignorar as medidas de segurança implementadas pelos seres humanos para impedir que ele tomasse medidas desalinhadas.

Combater o desalinhamento

Nosso objetivo é ter sistemas avançados de IA treinados para buscar os objetivos certos, para que eles sigam as instruções humanas com precisão, impedindo a IA usando atalhos potencialmente antiéticos para alcançar seus objetivos.

Nós fazemos isso através supervisão amplificadaou seja, saber se as respostas de uma IA são boas ou ruins em alcançar esse objetivo. Embora isso seja relativamente fácil agora, pode se tornar desafiador quando a IA tem recursos avançados.

Como exemplo, mesmo os especialistas Go não perceberam o quão bom movimento 37, um movimento que teve uma chance de 1 em 10.000 de ser usada, foi quando o Alphago o tocou pela primeira vez.

Para enfrentar esse desafio, alistamos os próprios sistemas de IA para nos ajudar a fornecer feedback sobre suas respostas, como em debate.

Depois que podemos dizer se uma resposta é boa, podemos usar isso para criar um sistema de IA seguro e alinhado. Um desafio aqui é descobrir em quais problemas ou instâncias treinar o sistema de IA. Através do trabalho em treinamento robusto, estimativa de incerteza e muito mais, podemos cobrir uma variedade de situações que um sistema de IA encontrará em cenários do mundo real, criando IA que pode ser confiável.

Através de monitoramento eficaz e medidas estabelecidas de segurança de computadores, nosso objetivo é mitigar os danos que podem ocorrer se nossos sistemas de IA buscarem objetivos desalinhados.

O monitoramento envolve o uso de um sistema de IA, chamado de monitor, para detectar ações que não se alinham com nossos objetivos. É importante que o monitor saiba quando não saiba se uma ação é segura. Quando não tiver certeza, deve rejeitar a ação ou sinalizar a ação para uma revisão adicional.

Permitindo transparência

Tudo isso se torna mais fácil se a tomada de decisão da IA ​​se tornar mais transparente. Fazemos uma extensa pesquisa em interpretabilidade com o objetivo de aumentar essa transparência.

Para facilitar isso ainda mais, estamos projetando sistemas de IA que são mais fáceis de entender.

Por exemplo, nossa pesquisa sobre Otimização míope com aprovação não miópica (MONA) visa garantir que qualquer planejamento de longo prazo feito pelos sistemas de IA permaneça compreensível para os seres humanos. Isso é particularmente importante à medida que a tecnologia melhora. Nosso trabalho na MONA é o primeiro a demonstrar os benefícios de segurança da otimização de curto prazo no LLMS.

Construindo um ecossistema para a prontidão AGI

Liderado por Shane Legg, co-fundador e cientista da AGI do Google Deepmind, nosso Conselho de Segurança da AGI (ASC) analisa o risco e as melhores práticas da AGI, fazendo recomendações sobre medidas de segurança. O ASC trabalha em estreita colaboração com o Conselho de Responsabilidade e Segurança, nosso grupo de revisão interna co-presidida por nossa COO Lila Ibrahim e diretora sênior de responsabilidade Helen King, para avaliar pesquisas, projetos e colaborações da AGI contra nosso Princípios da IA.

Nosso trabalho sobre segurança da AGI complementa nossa profundidade e amplitude de responsabilidade e práticas de segurança e pesquisas que abordam uma ampla gama de questões, incluindo conteúdo nocivo, preconceito e transparência. Também continuamos a alavancar nossos aprendizados com a segurança em agentes, como o princípio de ter um humano no loop para fazer o check -in para obter ações conseqüentes, para informar nossa abordagem para construir a AGI com responsabilidade.

Externamente, estamos trabalhando para promover a colaboração com especialistas, indústria, governos, organizações sem fins lucrativos e organizações da sociedade civil e adotar uma abordagem informada para o desenvolvimento da AGI.

Por exemplo, estamos em parceria com organizações sem fins lucrativos de pesquisa de segurança da IA, incluindo a Apollo e a Redwood Research, que aconselharam uma seção de desalinhamento dedicada na versão mais recente de nossa estrutura de segurança de fronteira.

Através do diálogo contínuo com as partes interessadas em políticas em todo o mundo, esperamos contribuir para o consenso internacional sobre questões críticas de segurança e segurança da fronteira, incluindo a melhor forma de antecipar e nos preparar para novos riscos.

Nossos esforços incluem trabalhar com outras pessoas na indústria – por meio de organizações como o Fórum de Modelo Frontier – Compartilhar e desenvolver práticas recomendadas, bem como colaborações valiosas com os institutos de IA em testes de segurança. Por fim, acreditamos que uma abordagem internacional coordenada para a governança é fundamental para garantir que a sociedade se beneficie dos sistemas avançados de IA.

Educar pesquisadores e especialistas da IA ​​sobre segurança da AGI é fundamental para criar uma base forte para seu desenvolvimento. Como tal, lançamos um novo curso Sobre a segurança da AGI para estudantes, pesquisadores e profissionais interessados ​​neste tópico.

Por fim, nossa abordagem à segurança da AGI serve como um roteiro vital para enfrentar os muitos desafios que permanecem abertos. Estamos ansiosos para colaborar com a comunidade de pesquisa mais ampla de IA para avançar com responsabilidade da AGI e nos ajudar a desbloquear os imensos benefícios dessa tecnologia para todos.

Source link

Análises e Notícias em Tempo Real

Sem mais notícias para mostrar.