Como podemos construir valores humanos em IA?

Como podemos construir valores humanos em IA?

Responsabilidade e segurança

Publicado
Autores

Iason Gabriel e Kevin McKee

Cabeçalho abstrato de colunas 3D em um gradiente azul.

Com base da filosofia para identificar princípios justos para a IA ética

À medida que a inteligência artificial (IA) se torna mais poderosa e mais profundamente integrada em nossas vidas, as questões de como ela são usadas e implantadas são ainda mais importantes. Quais valores guiam ai? De quem são os valores? E como eles são selecionados?

Essas perguntas esclareceram o papel desempenhado pelos princípios – os valores fundamentais que levam as decisões grandes e pequenas na IA. Para os seres humanos, os princípios ajudam a moldar a maneira como vivemos nossas vidas e nosso senso de certo e errado. Para a IA, eles moldam sua abordagem a uma série de decisões que envolvem trade-offs, como a escolha entre priorizar a produtividade ou ajudar os mais necessitados.

Em um artigo publicado hoje no Anais da Academia Nacional de Ciênciasnos inspiramos na filosofia para encontrar maneiras de identificar melhor os princípios para orientar o comportamento da IA. Especificamente, exploramos como um conceito conhecido como “véu da ignorância” – um experimento de pensamento destinado a ajudar a identificar princípios justos para decisões de grupo – pode ser aplicado à IA.

Em nossos experimentos, descobrimos que essa abordagem incentivava as pessoas a tomar decisões com base no que elas achavam justo, se as beneficiaram diretamente. Também descobrimos que os participantes eram mais propensos a selecionar uma IA que ajudava aqueles que foram mais desfavorecidos quando raciocinaram por trás do véu da ignorância. Esses insights podem ajudar pesquisadores e formuladores de políticas a selecionar princípios para um assistente de IA de uma maneira justa para todas as partes.

O véu da ignorância (à direita) é um método de encontrar consenso sobre uma decisão quando há opiniões diversas em um grupo (à esquerda).

Uma ferramenta para tomada de decisão mais justa

Um objetivo -chave para os pesquisadores de IA tem sido alinhar sistemas de IA com valores humanos. No entanto, não há consenso sobre um único conjunto de valores ou preferências humanas para governar a IA – vivemos em um mundo onde as pessoas têm diversas origens, recursos e crenças. Como devemos selecionar princípios para essa tecnologia, dadas opiniões tão diversas?

Embora esse desafio tenha surgido para a IA na última década, a ampla questão de como tomar decisões justas tem uma longa linhagem filosófica. Na década de 1970, o filósofo político John Rawls propôs o conceito de véu da ignorância como uma solução para esse problema. Rawls argumentou que, quando as pessoas selecionam princípios de justiça para uma sociedade, eles deveriam imaginar que o estão fazendo sem o conhecimento de sua própria posição particular nessa sociedade, incluindo, por exemplo, seu status social ou nível de riqueza. Sem essas informações, as pessoas não podem tomar decisões de maneira interessada e devem escolher princípios justos para todos os envolvidos.

Como exemplo, pense em pedir a um amigo para cortar o bolo na sua festa de aniversário. Uma maneira de garantir que os tamanhos das fatias sejam razoavelmente proporcionados é dizer a eles qual fatia será deles. Essa abordagem da informação reter é aparentemente simples, mas possui amplas aplicações nos campos da psicologia e da política para ajudar as pessoas a refletir sobre suas decisões de uma perspectiva menos interessada. Foi usado como um método para chegar a um contrato de grupo sobre questões controversas, variando de sentença à tributação.

Com base nesse fundamento, a pesquisa anterior do DeepMind propôs que a natureza imparcial do véu da ignorância possa ajudar a promover a justiça no processo de alinhar sistemas de IA com valores humanos. Projetamos uma série de experimentos para testar os efeitos do véu da ignorância nos princípios que as pessoas optam por orientar um sistema de IA.

Maximizar a produtividade ou ajudar os mais desfavorecidos?

Em um ‘jogo de colheita’ on -line, pedimos aos participantes que jogassem um jogo em grupo com três jogadores de computadores, onde o gol de cada jogador era reunir madeira colhendo árvores em territórios separados. Em cada grupo, alguns jogadores tiveram sorte e foram designados para uma posição favorita: as árvores densamente preencheram seu campo, permitindo que eles reunissem madeira com eficiência. Outros membros do grupo estavam desfavorecidos: seus campos eram escassos, exigindo mais esforço para coletar árvores.

Cada grupo foi assistido por um único sistema de IA que poderia gastar tempo ajudando os membros do grupo individual a colher árvores. Pedimos aos participantes que escolhessem entre dois princípios para orientar o comportamento do assistente de IA. Sob o “princípio de maximização”, o assistente de IA teria como objetivo aumentar o rendimento da colheita do grupo, concentrando -se predominantemente nos campos mais densos. Enquanto sob o “princípio de priorização”, o assistente de IA se concentraria em ajudar os membros desfavorecidos do grupo.

Uma ilustração do ‘jogo de colheita’ onde os jogadores (mostrados em vermelho) ocupam um campo denso que é mais fácil de colher (dois primeiros quadrantes) ou um campo esparso que requer mais esforço para coletar árvores.

Colocamos metade dos participantes por trás do véu da ignorância: eles enfrentaram a escolha entre diferentes princípios éticos sem saber qual campo seria deles – para que eles não sabiam o quão favorecidos ou desfavorecidos eram. Os participantes restantes fizeram a escolha, sabendo se estavam em melhor ou pior situação.

Incentivando a justiça na tomada de decisão

Descobrimos que, se os participantes não conhecessem sua posição, eles sempre preferiram o princípio de priorização, onde o assistente de IA ajudou os membros desfavorecidos do grupo. Esse padrão surgiu de forma consistente em todas as cinco variações diferentes do jogo e cruzou as fronteiras sociais e políticas: os participantes mostraram essa tendência a escolher o princípio de priorização, independentemente de seu apetite por risco ou sua orientação política. Por outro lado, os participantes que sabiam sua própria posição eram mais propensos a escolher o princípio que os beneficiaram mais, se esse era o princípio priorizador ou o princípio de maximizar.

Um gráfico mostrando o efeito do véu da ignorância na probabilidade de escolher o princípio de priorização, onde o assistente de IA ajudaria os piores. Os participantes que não sabiam sua posição eram muito mais propensos a apoiar esse princípio para governar o comportamento da IA.

Quando perguntamos aos participantes por que eles fizeram sua escolha, aqueles que não sabiam sua posição eram especialmente propensos a expressar preocupações com a justiça. Eles freqüentemente explicavam que era adequado para o sistema de IA se concentrar em ajudar as pessoas que estavam em pior situação no grupo. Por outro lado, os participantes que conheciam sua posição discutiram com muito mais frequência sua escolha em termos de benefícios pessoais.

Por fim, após o término do jogo de colheita, representamos uma situação hipotética para os participantes: se eles jogassem o jogo novamente, desta vez sabendo que estariam em um campo diferente, eles escolheriam o mesmo princípio que fizeram na primeira vez ? Estávamos especialmente interessados ​​em indivíduos que anteriormente se beneficiaram diretamente de sua escolha, mas que não se beneficiariam da mesma escolha em um novo jogo.

Descobrimos que as pessoas que já haviam feito escolhas sem saber sua posição tinham maior probabilidade de continuar endossando seu princípio – mesmo quando sabiam que isso não os favoreceria mais em seu novo campo. Isso fornece evidências adicionais de que o véu da ignorância incentiva a justiça na tomada de decisões dos participantes, levando -os a princípios que eles estavam dispostos a permanecer, mesmo quando não mais se beneficiaram deles diretamente.

Princípios mais justos para ai

A tecnologia de IA já está tendo um efeito profundo em nossas vidas. Os princípios que governam a IA moldam seu impacto e como esses benefícios potenciais serão distribuídos.

Nossa pesquisa analisou um caso em que os efeitos de diferentes princípios eram relativamente claros. Nem sempre será esse o caso: a IA é implantada em uma variedade de domínios que geralmente dependem de um grande número de regras para guiá -los, potencialmente com efeitos colaterais complexos. No entanto, o véu da ignorância ainda pode potencialmente informar a seleção de princípios, ajudando a garantir que as regras que escolhemos sejam justas para todas as partes.

Para garantir que construímos sistemas de IA que beneficiem a todos, precisamos de uma extensa pesquisa com uma ampla gama de insumos, abordagens e feedback de todas as disciplinas e da sociedade. O véu da ignorância pode fornecer um ponto de partida para a seleção de princípios para alinhar a IA. Foi efetivamente implantado em outros domínios para traga mais preferências imparciais. Esperamos que, com mais investigação e atenção ao contexto, isso possa ajudar a desempenhar o mesmo papel para os sistemas de IA que estão sendo construídos e implantados em toda a sociedade hoje e no futuro.

Leia mais sobre a abordagem de DeepMind Segurança e ética.

Autores de papel

Laura Weidinger*, Kevin McKee*, Richard Everett, Saffron Huang, Tina Zhu, Martin Chadwick, Christopher Summerfield, Iason Gabriel

*Laura Weidinger e Kevin McKee são os primeiros autores conjuntos

Source link

Análises e Notícias em Tempo Real

Sem mais notícias para mostrar.