Google DeepMind no Neurips 2024

Google DeepMind no Neurips 2024

Pesquisar

Publicado

Avançar agentes de IA adaptativos, capacitar a criação de cenas em 3D e inovar o treinamento de LLM para um futuro mais inteligente e seguro

Na próxima semana, os pesquisadores de IA em todo o mundo se reunirão para o 38ª Conferência Anual sobre Sistemas de Processamento de Informações Neurais (Neurips), ocorrendo de 10 a 15 de dezembro em Vancouver,

Dois trabalhos liderados pelo Google DeepMind pesquisadores serão reconhecidos com Teste de tempo prêmios por sua “influência inegável” no campo. Ilya Sutskever apresentará Sequência para seqüência de aprendizado com redes neurais que foi em co-autoria com o vice-presidente de pesquisa drástica do Google DeepMind, Oriol Vinyals e o cientista distinto Quoc V. Le. Os cientistas do Google Deepmind Redes adversárias generativas.

Também mostraremos como traduzimos nossa pesquisa fundamental em aplicações do mundo real, com demonstrações ao vivo, incluindo Gemma Scope, IA para geração de música, previsão do tempo e muito mais.

As equipes do Google Deepmind apresentarão mais de 100 novos artigos sobre tópicos que variam de agentes de IA e mídia generativa a abordagens inovadoras de aprendizado.

Construindo agentes de IA adaptativos, inteligentes e seguros

Os agentes de IA baseados em LLM estão demonstrando promessa na realização de tarefas digitais por meio de comandos de linguagem natural. No entanto, seu sucesso depende da interação precisa com interfaces de usuário complexas, o que requer dados de treinamento extensos. Com AndroidControlcompartilhamos o mais diversificado conjunto de dados de controle até o momento, com mais de 15.000 demos coletados em humanos em mais de 800 aplicativos. Os agentes de IA treinados usando esse conjunto de dados mostraram ganhos significativos de desempenho que esperamos que ajudem a avançar a pesquisa para agentes mais gerais de IA.

Para os agentes da IA ​​generalizarem as tarefas, eles precisam aprender com cada experiência que encontram. Apresentamos um método para Aprendizagem de abstração no contexto Isso ajuda os agentes a entender os principais padrões de tarefas e relacionamentos de demos imperfeitos e feedback de linguagem natural, melhorando seu desempenho e adaptabilidade.

Uma estrutura de uma demonstração de vídeo de alguém fazendo um molho, com elementos individuais identificados e numerados. ICIC é capaz de extrair os aspectos importantes do processo

O desenvolvimento da IA ​​Agentic que trabalha para cumprir as metas dos usuários pode ajudar a tornar a tecnologia mais útil, mas o alinhamento é fundamental ao desenvolver IA que age em nosso nome. Para esse fim, propomos um método teórico a medir a direção de objetivos de um sistema de IAe também mostre como um A percepção do modelo de seu usuário pode influenciar seus filtros de segurança. Juntos, essas idéias ressaltam a importância de salvaguardas robustas para impedir comportamentos não intencionais ou inseguros, garantindo que as ações dos agentes da IA ​​permaneçam alinhados com usos seguros e pretendidos.

Avançar a criação e simulação de cena em 3D

À medida que a demanda por conteúdo 3D de alta qualidade cresce entre indústrias, como jogos e efeitos visuais, a criação de cenas 3D realistas permanece cara e intensiva no tempo. Nosso trabalho recente apresenta abordagens novas de geração, simulação e controle em 3D, simplificando a criação de conteúdo para fluxos de trabalho mais rápidos e flexíveis.

A produção de ativos e cenas 3D realistas e de alta qualidade geralmente requer captura e modelagem de milhares de fotos 2D. Nós mostramos Cat3dum sistema que pode criar conteúdo 3D em apenas um minuto, a partir de qualquer número de imagens – mesmo apenas uma imagem ou um prompt de texto. O CAT3D realiza isso com um modelo de difusão com várias visões que gera imagens 2D consistentes adicionais de muitos pontos de vista diferentes e usa as imagens geradas como entrada para as técnicas tradicionais de modelagem 3D. Os resultados superam os métodos anteriores em velocidade e qualidade.

O CAT3D permite a criação de cenas em 3D a partir de qualquer número de imagens geradas ou reais.

Da esquerda para a direita: Text-to-Image-para-3D, uma foto real para 3D, várias fotos para 3D.

Simulando cenas com muitos objetos rígidos, como uma mesa desordenada ou tijolos de lego cair, também permanece computacionalmente intensivo. Para superar este obstáculo, apresentamos Uma nova técnica chamada SDF-SIM Isso representa as formas de objeto de maneira escalável, acelerando a detecção de colisão e permitindo uma simulação eficiente de cenas grandes e complexas.

Uma simulação complexa de sapatos caindo e colidindo, modelado com precisão usando SDF-SIM

Os geradores de imagens de IA baseados em modelos de difusão lutam para controlar a posição 3D e a orientação de vários objetos. Nossa solução, Ativos neuraisIntroduz representações específicas de objetos que capturam a aparência e a pose 3D, aprendidas através do treinamento em dados dinâmicos de vídeo. Os ativos neurais permitem que os usuários se movam, girem ou trocam objetos em cenas – uma ferramenta útil para animação, jogos e realidade virtual.

Dada uma imagem de origem e caixas delimitadoras 3D do objeto, podemos traduzir, girar e redimensionar o objeto ou transferir objetos ou fundos entre imagens

Melhorando como os LLMs aprendem e respondem

Também estamos avançando como os LLMs treinam, aprendem e respondem aos usuários, melhorando o desempenho e a eficiência em várias frentes.

Com o Windows de contexto maior, os LLMs agora podem aprender com potencialmente milhares de exemplos ao mesmo tempo-conhecidos como muitos shot no Contexto Aprendizagem (ICL). Esse processo aumenta o desempenho do modelo em tarefas como matemática, tradução e raciocínio, mas geralmente requer dados gerados por humanos e de alta qualidade. Para tornar o treinamento mais econômico, exploramos Métodos para adaptar muitos icl de tiro Isso reduz a dependência de dados com curadoria manual. Existem muitos dados disponíveis para modelos de idiomas de treinamento, a principal restrição para as equipes que os construem se tornam a computação disponível. Nós abordar uma questão importante: Com um orçamento de computação fixo, como você escolhe o tamanho certo do modelo para obter os melhores resultados?

Outra abordagem inovadora, que chamamos Modelos de linguagem revertidos pelo tempo (TRLM), explora pré -treinamento e fino de um LLM para trabalhar ao contrário. Quando recebe as respostas tradicionais do LLM como entrada, um TRLM gera consultas que podem ter produzido essas respostas. Quando emparelhado com um LLM tradicional, esse método não apenas ajuda a garantir que as respostas sigam as instruções do usuário melhor, mas também melhore a geração de citações para o texto resumido e aprimora os filtros de segurança contra conteúdo prejudicial.

A curadoria de dados de alta qualidade é vital para o treinamento de grandes modelos de IA, mas a curadoria manual é difícil em escala. Para abordar isso, nosso Seleção de exemplo conjunto (JEST) O algoritmo otimiza o treinamento, identificando os dados mais aprendidos em lotes maiores, permitindo até 13 × menos rodadas de treinamento e 10 × menos computação, superando as linhas de base pré-detenção multimodal de última geração.

As tarefas de planejamento são outro desafio para a IA, particularmente em ambientes estocásticos, onde os resultados são influenciados pela aleatoriedade ou incerteza. Os pesquisadores usam vários tipos de inferência para o planejamento, mas não há abordagem consistente. Nós demonstramos isso O planejamento em si pode ser visto como um tipo distinto de inferência probabilística e propor uma estrutura para classificar diferentes técnicas de inferência com base em sua eficácia de planejamento.

Reunindo a comunidade global de IA

Temos orgulho de ser um patrocinador de diamantes da conferência e apoiar Mulheres em aprendizado de máquinaAssim, Latinx em AI e Preto em Ai Na construção de comunidades em todo o mundo trabalhando em IA, aprendizado de máquina e ciência de dados.

Se você está no Neurips este ano, gire pelo Google Deepmind e Pesquisa do Google Booths para explorar pesquisas de ponta em demos, oficinas e muito mais ao longo da conferência.

Source link

Análises e Notícias em Tempo Real

Sem mais notícias para mostrar.