Avaliando riscos sociais e éticos de IA generativa

Avaliando riscos sociais e éticos de IA generativa

Apresentando uma estrutura baseada em contexto para avaliar de forma abrangente os riscos sociais e éticos dos sistemas de IA

Os sistemas de IA generativos já estão sendo usados ​​para escrever livros, criar designs gráficos, Auxiliar médicose estão se tornando cada vez mais capazes. Garantir que esses sistemas sejam desenvolvidos e implantados exigem de maneira responsável avaliar cuidadosamente os possíveis riscos éticos e sociais que eles podem representar.

Em nosso Novo papelpropomos uma estrutura de três camadas para avaliar os riscos sociais e éticos dos sistemas de IA. Essa estrutura inclui avaliações da capacidade do sistema de IA, interação humana e impactos sistêmicos.

Também mapeamos o estado atual das avaliações de segurança e encontramos três lacunas principais: contexto, riscos específicos e multimodalidade. Para ajudar a fechar essas lacunas, exigimos reaproveitar os métodos de avaliação existentes para IA generativa e para implementar uma abordagem abrangente para a avaliação, como em nosso estudo de caso sobre desinformação. Essa abordagem integra descobertas como a probabilidade de o sistema de IA fornecer informações de fato com informações sobre como as pessoas usam esse sistema e em que contexto. As avaliações de várias camadas podem tirar conclusões além da capacidade do modelo e indicar se os danos-neste caso, a desinformação-na verdade ocorre e se espalha.

Para fazer com que qualquer tecnologia funcione como pretendido, os desafios sociais e técnicos devem ser resolvidos. Portanto, para avaliar melhor a segurança do sistema de IA, essas diferentes camadas de contexto devem ser levadas em consideração. Aqui, construímos em pesquisas anteriores identificando o riscos potenciais de modelos de linguagem em larga escalacomo vazamentos de privacidade, automação de empregos, desinformação e muito mais – e introduzir uma maneira de avaliar de maneira abrangente esses riscos daqui para frente.

O contexto é fundamental para avaliar os riscos de IA

Os recursos dos sistemas de IA são um indicador importante dos tipos de riscos mais amplos que podem surgir. Por exemplo, os sistemas de IA com maior probabilidade de produzir resultados factualmente imprecisos ou enganosos podem ser mais propensos a criar riscos de desinformação, causando problemas como a falta de confiança do público.

A medição desses recursos é essencial para as avaliações de segurança da IA, mas essas avaliações por si só não podem garantir que os sistemas de IA sejam seguros. Se os danos a jusante se manifestam – por exemplo, se as pessoas vêm a manter falsas crenças com base na saída do modelo imprecisa – depende de contexto. Mais especificamente, quem usa o sistema de IA e com que objetivo? O sistema de IA funciona como pretendido? Cria externalidades inesperadas? Todas essas perguntas informam uma avaliação geral da segurança de um sistema de IA.

Estendendo -se além capacidade Avaliação, propomos avaliação que pode avaliar dois pontos adicionais em que os riscos a jusante manifestos: interação humana no ponto de uso e impacto sistêmico como sistema de IA é incorporado em sistemas mais amplos e amplamente implantado. A integração de avaliações de um determinado risco de danos nessas camadas fornece uma avaliação abrangente da segurança de um sistema de IA.

Interação humana Centros de avaliação A experiência das pessoas que usam um sistema de IA. Como as pessoas usam o sistema de IA? O sistema tem o desempenho pretendido no ponto de uso e como as experiências diferem entre dados demográficos e grupos de usuários? Podemos observar efeitos colaterais inesperados ao usar essa tecnologia ou ser exposto a suas saídas?

Impacto sistêmico A avaliação se concentra nas estruturas mais amplas nas quais um sistema de IA é incorporado, como instituições sociais, mercados de trabalho e o ambiente natural. A avaliação nessa camada pode lançar luz sobre os riscos de danos que se tornam visíveis apenas quando um sistema de IA é adotado em escala.

As avaliações de segurança são uma responsabilidade compartilhada

Os desenvolvedores de IA precisam garantir que suas tecnologias sejam desenvolvidas e lançadas com responsabilidade. Os atores públicos, como os governos, têm a tarefa de defender a segurança pública. Como os sistemas de IA generativos são cada vez mais amplamente utilizados e implantados, garantir que sua segurança seja uma responsabilidade compartilhada entre vários atores:

  • Desenvolvedores de IA estão bem posicionados para interrogar as capacidades dos sistemas que produzem.
  • Desenvolvedores de aplicativos e as autoridades públicas designadas estão posicionadas para avaliar a funcionalidade de diferentes recursos e aplicativos e possíveis externalidades para diferentes grupos de usuários.
  • Partes interessadas públicas mais amplas estão posicionados exclusivamente para prever e avaliar implicações sociais, econômicas e ambientais de novas tecnologias, como a IA generativa.

As três camadas de avaliação em nossa estrutura proposta são uma questão de grau, em vez de serem divididas perfeitamente. Embora nenhum deles seja inteiramente de responsabilidade de um único ator, a principal responsabilidade depende de quem está melhor colocado para realizar avaliações em cada camada.

Lacunas nas avaliações de segurança atuais de IA multimodal generativa

Dada a importância desse contexto adicional para avaliar a segurança dos sistemas de IA, é importante entender a disponibilidade de tais testes. Para entender melhor o cenário mais amplo, fizemos um grande esforço para agrupar avaliações que foram aplicadas a sistemas generativos de IA, da maneira mais abrangente possível.

Ao mapear o estado atual das avaliações de segurança para IA generativa, encontramos três lacunas principais de avaliação de segurança:

  1. Contexto: A maioria das avaliações de segurança considera os recursos generativos do sistema de IA isoladamente. Comparativamente, pouco trabalho foi feito para avaliar os riscos potenciais no ponto de interação humana ou de impacto sistêmico.
  2. Avaliações específicas de risco: As avaliações de capacidade dos sistemas generativas de IA são limitadas nas áreas de risco que cobrem. Para muitas áreas de risco, existem poucas avaliações. Onde eles existem, as avaliações geralmente operacionalizam danos de maneiras estreitas. Por exemplo, os danos à representação são tipicamente definidos como associações estereotipadas de ocupação a diferentes sexos, deixando outras instâncias de danos e áreas de risco não detectadas.
  3. Multimodalidade: A grande maioria das avaliações de segurança existentes dos sistemas de IA generativos se concentra apenas na saída de texto – as grandes lacunas permanecem para avaliar os riscos de danos nas modalidades de imagem, áudio ou vídeo. Essa lacuna está aumentando apenas com a introdução de múltiplas modalidades em um único modelo, como sistemas de IA que podem tirar imagens como entradas ou produzir saídas que entrelaçam áudio, texto e vídeo. Embora algumas avaliações baseadas em texto possam ser aplicadas a outras modalidades, novas modalidades introduzem novas maneiras pelas quais os riscos podem se manifestar. Por exemplo, uma descrição de um animal não é prejudicial, mas se a descrição for aplicada a uma imagem de uma pessoa, ela é.

Estamos fazendo uma lista de links para publicações que detalham as avaliações de segurança dos sistemas de IA generativos abertamente acessíveis via Este repositório. Se você deseja contribuir, adicione avaliações preenchendo este formulário.

Colocando em prática avaliações mais abrangentes

Os sistemas generativos de IA estão alimentando uma onda de novas aplicações e inovações. Para garantir que os riscos potenciais desses sistemas sejam entendidos e mitigados, precisamos urgentemente de avaliações rigorosas e abrangentes da segurança do sistema de IA que levam em consideração como esses sistemas podem ser usados ​​e incorporados na sociedade.

Um primeiro passo prático é reaproveitar as avaliações existentes e alavancar grandes modelos para avaliação – embora isso tenha limitações importantes. Para uma avaliação mais abrangente, também precisamos desenvolver abordagens para avaliar os sistemas de IA no ponto de interação humana e seus impactos sistêmicos. Por exemplo, ao espalhar a desinformação por meio de IA generativa é uma questão recente, mostramos que existem muitos métodos existentes para avaliar a confiança e a credibilidade do público que podem ser reaproveitadas.

Garantir a segurança de sistemas de IA generativos amplamente utilizados é uma responsabilidade e prioridade compartilhados. Desenvolvedores de IA, atores públicos e outras partes devem colaborar e construir colaborá -lo colaborá -lo coletivamente um próspero e robusto ecossistema de avaliação para sistemas seguros de IA.

Source link

Análises e Notícias em Tempo Real

Sem mais notícias para mostrar.