Pesquisar
- Publicado
- Autores
-
Gamaleldin Elsayed e Michael Mozer
Novas pesquisas mostram que mesmo mudanças sutis nas imagens digitais, projetadas para confundir sistemas de visão computacional, também podem afetar a percepção humana
Computadores e humanos veem o mundo de maneiras diferentes. Nossos sistemas biológicos e os artificiais nas máquinas nem sempre prestam atenção aos mesmos sinais visuais. As redes neurais treinadas para classificar as imagens podem ser completamente enganadas por perturbações sutis para uma imagem que um humano nem notaria.
O fato de que os sistemas de IA podem ser enganados por essas imagens adversárias podem apontar para uma diferença fundamental entre a percepção humana e a máquina, mas nos levou a explorar se os humanos também podem – menos das condições de teste controladas – revelando a sensibilidade às mesmas perturbações. Em uma série de experimentos publicados na Nature Communications, encontramos evidências de que os julgamentos humanos são realmente sistematicamente influenciados por perturbações adversárias.
Nossa descoberta destaca uma semelhança entre a visão humana e a máquina, mas também demonstra a necessidade de mais pesquisas para entender a influência das imagens adversárias nas pessoas, bem como nos sistemas de IA.
O que é uma imagem adversária?
Uma imagem adversária é aquela que foi sutilmente alterada por um procedimento que faz com que um modelo de IA classifique com confiança o conteúdo da imagem. Esse engano intencional é conhecido como um ataque adversário. Os ataques podem ser direcionados para causar um modelo de IA para classificar um vaso como um gato, por exemplo, ou eles podem ser projetados para fazer com que o modelo veja qualquer coisa, exceto um vaso.
Esquerda: uma rede neural artificial (RNA) classifica corretamente a imagem como um vaso, mas quando perturbado por um padrão aparentemente aleatório em toda a imagem (meio), com a intensidade ampliada para fins ilustrativos – a imagem resultante (direita) está incorretamente e e Confidencialmente, classificou mal como um gato.
E esses ataques podem ser sutis. Em uma imagem digital, cada pixel individual em uma imagem RGB está em uma escala de 0 a 255, representando a intensidade de pixels individuais. Um ataque adversário pode ser eficaz, mesmo que nenhum pixel seja modulado por mais de 2 níveis nessa escala.
Os ataques adversários a objetos físicos no mundo real também podem ter sucesso, como fazer com que um sinal de parada seja identificado como um sinal de limite de velocidade. De fato, as preocupações de segurança levaram os pesquisadores a investigar maneiras de resistir a ataques adversários e mitigar seus riscos.
Como a percepção humana é influenciada por exemplos adversários?
Pesquisas anteriores mostraram que as pessoas podem ser sensíveis a perturbações de imagem de grande magnitude que fornecem dicas claras de forma. No entanto, menos é entendido sobre o efeito de ataques adversários mais sutis. As pessoas descartam as perturbações em uma imagem como ruído inócuo e aleatório da imagem, ou pode influenciar a percepção humana?
Para descobrir, realizamos experimentos comportamentais controlados. Para começar, pegamos uma série de imagens originais e realizamos dois ataques adversários a cada um, para produzir muitos pares de imagens perturbadas. No exemplo animado abaixo, a imagem original é classificada como um “vaso” por um modelo. As duas imagens perturbadas por ataques adversários à imagem original são então classificados incorretamente pelo modelo, com alta confiança, como os alvos adversários “CAT” e “Truck”, respectivamente.
Em seguida, mostramos aos participantes humanos o par de fotos e fizemos uma pergunta direcionada: “Qual imagem é mais parecida com gatos?” Embora nenhuma imagem se pareça com um gato, eles foram obrigados a fazer uma escolha e normalmente relataram sentir que estavam fazendo uma escolha arbitrária. Se as ativações cerebrais forem insensíveis a ataques adversários sutis, esperaríamos que as pessoas escolhessem cada imagem 50% do tempo, em média. No entanto, descobrimos que a taxa de escolha-que nos referimos como viés perceptivo-estava de maneira confiável acima da chance de uma ampla variedade de pares de imagens perturbados, mesmo quando nenhum pixel foi ajustado por mais de 2 níveis nessa escala de 0 a 255.
Da perspectiva de um participante, parece que eles estão sendo solicitados a distinguir entre duas imagens praticamente idênticas. No entanto, a literatura científica está repleta de evidências de que as pessoas aproveitam sinais perceptivos fracos ao fazer escolhas, sinais que são fracos demais para eles expressarem confiança ou consciência ). Em nosso exemplo, podemos ver um vaso de flores, mas alguma atividade no cérebro nos informa que há uma pitada de gato sobre isso.
Esquerda: Exemplos de pares de imagens adversárias. As principais imagens são sutilmente perturbadas, com uma magnitude máxima de 2 níveis de pixels, para causar uma rede neural para classificá -las incorretas como um “caminhão” e “gato”, respectivamente. Um voluntário humano é perguntado “o que é mais parecido com um gato?” O par de imagens mais baixo é mais obviamente manipulado, com uma magnitude máxima de 16 níveis de pixels, para ser classificada incorretamente como “cadeira” e “ovelha”. A pergunta desta vez é “o que é mais parecido com ovelhas?”
Realizamos uma série de experimentos que descartaram possíveis explicações artefatos do fenômeno para o nosso artigo de comunicação da natureza. Em cada experimento, os participantes selecionaram de maneira confiável a imagem adversária correspondente à pergunta direcionada mais da metade do tempo. Embora a visão humana não seja tão suscetível a perturbações adversárias quanto a visão de máquina (as máquinas não identificam mais a classe de imagem original, mas as pessoas ainda a veem claramente), nosso trabalho mostra que essas perturbações podem, no entanto, influenciar os seres humanos em relação às decisões tomadas pelas máquinas.
A importância da pesquisa de segurança e segurança da IA
Nossa descoberta principal de que a percepção humana pode ser afetada – embora sutilmente – por imagens adversárias levanta questões críticas para a pesquisa de segurança e segurança da IA, mas usando experimentos formais para explorar as semelhanças e diferenças no comportamento dos sistemas visuais da IA e da percepção humana, podemos Aproveite os insights para criar sistemas de IA mais seguros.
Por exemplo, nossas descobertas podem informar pesquisas futuras que buscam melhorar a robustez dos modelos de visão computacional, alinhando -os melhor com representações visuais humanas. Medir a suscetibilidade humana a perturbações adversárias pode ajudar a julgar esse alinhamento por uma variedade de arquiteturas de visão computacional.
Nosso trabalho também demonstra a necessidade de mais pesquisas para entender os efeitos mais amplos das tecnologias não apenas nas máquinas, mas também nos seres humanos. Isso, por sua vez, destaca a importância contínua da ciência e da neurociência cognitiva para entender melhor os sistemas de IA e seus possíveis impactos, pois nos concentramos na construção de sistemas mais seguros e seguros.