Empurrando as fronteiras da geração de áudio

Empurrando as fronteiras da geração de áudio

Tecnologias

Publicado
Autores

Zalán Borsos, Matt Sharifi e Marco Tagliasacchi

Uma ilustração que descreve padrões de fala, progresso iterativo na geração de diálogo e uma conversa descontraída entre duas vozes.

Nossas tecnologias pioneiras de geração de fala estão ajudando as pessoas em todo o mundo a interagir com assistentes digitais mais naturais, conversacionais e intuitivos e ferramentas de IA.

A fala é central para a conexão humana. Ajuda as pessoas em todo o mundo a trocar informações e idéias, a expressar emoções e criar um entendimento mútuo. Como nossa tecnologia construída para gerar vozes naturais e dinâmicas continua a melhorar, estamos desbloqueando experiências digitais mais ricas e envolventes.

Nos últimos anos, estamos empurrando as fronteiras da geração de áudio, desenvolvendo modelos que podem criar um discurso natural de alta qualidade a partir de uma variedade de entradas, como texto, controles de ritmo e vozes específicas. Esta tecnologia alimenta áudio de alto-falante em muitos produtos e experimentos do Google-incluindo Gêmeos ao vivoProjeto Astra, Vozes de jornada e Dublagem automática do YouTube – e está ajudando as pessoas em todo o mundo a interagir com assistentes digitais mais naturais, conversacionais e intuitivos e ferramentas de IA.

Trabalhando em conjunto com os parceiros no Google, recentemente ajudamos a desenvolver dois novos recursos que podem gerar diálogo de formato longo e multi-falante para tornar o conteúdo complexo mais acessível:

  • Visão geral do Audio Notebooklm transforma documentos carregados em diálogo envolvente e animado. Com um clique, dois hosts de IA resumem o material do usuário, fazem conexões entre tópicos e brincadeiras para frente e para trás.
  • Iluminar Cria discussões formais geradas pela IA sobre trabalhos de pesquisa para ajudar a tornar o conhecimento mais acessível e digerível.

Aqui, fornecemos uma visão geral de nossa mais recente pesquisa de geração de fala, sustentando todos esses produtos e ferramentas experimentais.

Técnicas pioneiras para geração de áudio

Durante anos, investimos em pesquisas de geração de áudio e explorando novas maneiras de gerar mais diálogo natural em nossos produtos e ferramentas experimentais. Em nossa pesquisa anterior sobre SOLSTORMprimeiro demonstramos a capacidade de gerar segmentos de 30 segundos de diálogo natural entre vários alto-falantes.

Isso estendeu nosso trabalho anterior, Soundstream e Audiolmo que nos permitiu aplicar muitas técnicas de modelagem de idiomas baseadas em texto ao problema da geração de áudio.

O SoundStream é um codec de áudio neural que comprime e descompacta eficientemente uma entrada de áudio, sem comprometer sua qualidade. Como parte do processo de treinamento, o SoundStream aprende a mapear o áudio para uma variedade de tokens acústicos. Esses tokens capturam todas as informações necessárias para reconstruir o áudio com alta fidelidade, incluindo propriedades como prosódia e timbre.

O Audiolm trata a geração de áudio como uma tarefa de modelagem de idiomas para produzir os tokens acústicos de codecs como o SoundStream. Como resultado, a estrutura Audiolm não faz suposições sobre o tipo ou composição do áudio que está sendo gerado e pode lidar com flexibilidade de uma variedade de sons sem precisar de ajustes arquitetônicos-tornando-o um bom candidato para modelar diálogos de vários falantes.

Exemplo de um diálogo multi-falante gerado pelo Notebooklm Visão geral do áudio, com base em alguns documentos relacionados à batata.

Com base nesta pesquisa, nossa mais recente tecnologia de geração de fala pode produzir 2 minutos de diálogo, com maior naturalidade, consistência dos alto -falantes e qualidade acústica, quando recebeu um script de diálogo e marcadores de giro dos alto -falantes. O modelo também executa esta tarefa em menos de 3 segundos em um único Unidade de Processamento Tensor (TPU) V5E Chipem uma passagem de inferência. Isso significa que gera áudio com mais de 40 vezes mais rápido que em tempo real.

Escalando nossos modelos de geração de áudio

Escalar nossos modelos de geração de alto-falante para modelos de vários falantes se tornou uma questão de dados e capacidade de modelo. Para ajudar nosso mais recente modelo de geração de fala a produzir segmentos de fala mais longos, criamos um codec de fala ainda mais eficiente para comprimir áudio em uma sequência de tokens, em 600 bits por segundo, sem comprometer a qualidade de sua saída.

Os tokens produzidos pelo nosso codec têm uma estrutura hierárquica e são agrupados por prazos. Os primeiros tokens dentro de um grupo capturam informações fonéticas e prosódicas, enquanto os últimos tokens codificam detalhes acústicos finos.

Mesmo com nosso novo codec de fala, a produção de um diálogo de 2 minutos requer a geração de mais de 5000 tokens. Para modelar essas longas seqüências, desenvolvemos um especializado Transformador A arquitetura que pode lidar com eficientemente de hierarquias de informações, combinando a estrutura de nossos tokens acústicos.

Com essa técnica, podemos gerar eficientemente tokens acústicos que correspondem ao diálogo, dentro de um único passe de inferência autoregressiva. Uma vez gerados, esses tokens podem ser decodificados de volta em uma forma de onda de áudio usando nosso codec de fala.

Animação mostrando como nosso modelo de geração de fala produz um fluxo de tokens de áudio automaticamente, que são decodificados de volta a uma forma de onda que consiste em um diálogo de dois alto-falantes.

Para ensinar nosso modelo a gerar trocas realistas entre vários alto -falantes, pré -tenhamos pré -tendo a centenas de milhares de horas de dados da fala. Em seguida, o FinetuNevamos em um conjunto de dados muito menores de diálogo com alta qualidade acústica e anotações precisas de alto -falante, consistindo em conversas não escritas de vários atores de voz e realistas Disfluências – Os “Umm” e “Aah” são de conversa real. Esta etapa ensinou ao modelo como alternar de forma confiável entre os alto -falantes durante um diálogo gerado e a produzir apenas áudio da qualidade do estúdio com pausas, tom e tempo realistas.

De acordo com o nosso Princípios da IA E nosso compromisso de desenvolver e implantar a IA Technologies com responsabilidade, estamos incorporando nossa tecnologia sintid ao conteúdo de áudio não transitório de marca d’água desses modelos, para ajudar a proteger o uso indevido potencial dessa tecnologia.

Novas experiências de fala com antecedência

Agora estamos focados em melhorar a fluência do nosso modelo, a qualidade acústica e adicionar mais controles de granulação fino para recursos, como a prosódia, enquanto exploramos a melhor forma de combinar esses avanços com outras modalidades, como o vídeo.

As aplicações em potencial para geração avançada de fala são vastas, especialmente quando combinadas com nossa família de modelos Gemini. Desde melhorar as experiências de aprendizado até tornar o conteúdo mais universalmente acessível, estamos entusiasmados em continuar ultrapassando os limites do que é possível com as tecnologias baseadas em voz.

Agradecimentos

Authors of this work: Zalán Borsos, Matt Sharifi, Brian McWilliams, Yunpeng Li, Damien Vincent, Félix de Chaumont Quitry, Martin Sundermeyer, Eugene Kharitonov, Alex Tudor, Victor Ungureanu, Karolis Misiunas, Sertan Girgin, Jonas Rothfuss, Jake Walker and Marco Tagliasacchi.

Agradecemos a Leland Rechis, Ralph Leith, Paul Middleton, Poly Pata, Minh Truong e RJ Skerry-Ryan por seus esforços críticos em dados de diálogo.

Somos muito gratos aos nossos colaboradores em laboratórios, iluminam, nuvem, fala e YouTube pelo excelente trabalho, trazendo esses modelos para os produtos.

Agradecemos também a Françoise Beaufays, Krishna Bharat, Tom Hume, Simon Tokumine e James Zhao por suas orientações sobre o projeto.

Source link

Análises e Notícias em Tempo Real

Sem mais notícias para mostrar.