Pesquisar
- Publicado
Explorando AGI, os desafios da escala e o futuro da IA generativa multimodal
Na próxima semana, a comunidade de inteligência artificial (IA) se unirá para o 2024 Conferência Internacional sobre aprendizado de máquina (ICML). Correndo de 21 a 27 de julho em Viena, Áustria, a conferência é uma plataforma internacional para mostrar os últimos avanços, trocar idéias e moldar o futuro da pesquisa de IA.
Este ano, equipes de todo o Google Deepmind apresentarão mais de 80 trabalhos de pesquisa. No nosso estande, também mostraremos nosso modelo multimodal no dispositivo, Gemini Nano, nossa nova família de modelos de IA para educação chamada Aprendendo E vamos demonstrar o Tacicai, um assistente de IA que pode ajudar nas táticas do futebol.
Aqui, apresentamos algumas de nossas apresentações orais, destacadas e de pôsteres:
Definindo o caminho para Agi
O que é inteligência geral artificial (AGI)? A frase descreve um sistema de IA que é pelo menos tão capaz quanto um humano na maioria das tarefas. À medida que os modelos de IA continuam avançando, definir como a AGI poderia parecer na prática se tornará cada vez mais importante.
Vamos apresentar uma estrutura para Classificando os recursos e comportamentos dos modelos AGI. Dependendo de seu desempenho, generalidade e autonomia, nosso artigo categoriza sistemas que variam de calculadoras não ai a modelos de IA emergentes e outras novas tecnologias.
Também mostraremos isso A abertura é fundamental para a construção de IA generalizada Isso vai além das capacidades humanas. Embora muitos avanços recentes de IA tenham sido impulsionados por dados em escala existente na Internet, os sistemas abertos podem gerar novas descobertas que estendem o conhecimento humano.
Na ICML, estaremos demonstrando Genie, um modelo que pode gerar uma variedade de ambientes jogáveis com base em prompts, imagens, fotos ou esboços de texto.
Escalar sistemas de IA com eficiência e responsabilidade
O desenvolvimento de modelos de IA maiores e mais capazes requer métodos de treinamento mais eficientes, alinhamento mais próximo com preferências humanas e melhores salvaguardas de privacidade.
Mostraremos como usar classificação em vez de técnicas de regressão facilita a escala de sistemas de aprendizado de reforço profundo e alcançará o desempenho de última geração em diferentes domínios. Além disso, propomos uma nova abordagem que prevê a distribuição das consequências das ações de um agente de aprendizado de reforçoajudando a avaliar rapidamente novos cenários.
Nossos pesquisadores apresentam um Abordagem de manutenção de alinhamento isso reduz a necessidade de supervisão humana e um Nova abordagem para modelos de linguagem de grande ajuste fino (LLMS)com base na teoria dos jogos, melhor alinha a produção de um LLM com as preferências humanas.
Nós Critique a abordagem de modelos de treinamento em dados públicos e apenas ajuste fino com treinamento “diferencialmente privado”e argumentam que essa abordagem pode não oferecer a privacidade ou a utilidade que muitas vezes é reivindicada.
O videopoet é um grande modelo de idioma para geração de vídeo com tiro zero.
Novas abordagens em IA generativa e multimodalidade
Tecnologias generativas de IA e recursos multimodais estão expandindo as possibilidades criativas da mídia digital.
Vamos apresentar Videopoetque usa um LLM para gerar vídeo e áudio de ponta a partir de entradas multimodais, incluindo imagens, texto, áudio e outro vídeo.
E compartilhar Gênio (Ambientes interativos generativos), que podem gerar uma variedade de ambientes jogáveis para o treinamento de agentes de IA, com base em prompts, imagens, fotos ou esboços de texto.
Finalmente, apresentamos Magiclensum novo sistema de recuperação de imagem que usa instruções de texto para recuperar imagens com relações mais ricas além da similaridade visual.
Apoiando a comunidade de IA
Temos orgulho de patrocinar o ICML e promover uma comunidade diversificada em IA e aprendizado de máquina, apoiando iniciativas lideradas por Deficiência na IAAssim,Queer em AIAssim,Latinx em AI eMulheres em aprendizado de máquina.
Se você estiver na conferência, visite os estandes do Google DeepMind e Google Research para conhecer nossas equipes, consulte demos ao vivo e descubra mais sobre nossa pesquisa.