1.5 Flash se destaca em resumo, aplicativos de bate -papo, legenda de imagem e vídeo, extração de dados de documentos e tabelas longas e muito mais. Isso ocorre porque foi treinado por 1,5 Pro através de um processo chamado “destilação”, onde os conhecimentos e habilidades mais essenciais de um modelo maior são transferidos para um modelo menor e mais eficiente.
Leia mais sobre 1,5 flash em nosso atualizado Gemini 1.5 Relatório Técnicona página da tecnologia Gemini e aprender sobre 1.5 Disponibilidade e preço do Flash.
Melhorando significativamente 1,5 Pro
Nos últimos meses, melhoramos significativamente o 1,5 Pro, nosso melhor modelo para desempenho geral em uma ampla gama de tarefas.
Além de estender sua janela de contexto para 2 milhões de tokens, aprimoramos sua geração de código, raciocínio e planejamento lógico, conversas com várias turnos e entendimento de áudio e imagem por meio de dados e avanços algorítmicos. Vemos fortes melhorias nos benchmarks públicos e internos para cada uma dessas tarefas.
1.5 O Pro agora pode seguir instruções cada vez mais complexas e diferenciadas, incluindo aquelas que especificam comportamento no nível do produto envolvendo papel, formato e estilo. Melhoramos o controle sobre as respostas do modelo para casos de uso específicos, como a criação da persona e o estilo de resposta de um agente de bate -papo ou automatizando fluxos de trabalho por meio de várias chamadas de função. E permitimos que os usuários direcionassem o comportamento do modelo definindo definindo Instruções do sistema.
Adicionamos entendimento de áudio no API de Gêmeos e Google AI Studioentão o 1.5 Pro agora pode raciocinar na imagem e áudio para vídeos enviados no Google AI Studio. E agora estamos integrando 1,5 Pro nos produtos do Google, incluindo Gêmeos avançados e em Espaço de trabalho aplicativos.
Leia mais sobre 1,5 Pro em nosso atualizado Gemini 1.5 Relatório Técnico e na página da tecnologia Gemini.
Gêmeos Nano entende entradas multimodais
O Gemini Nano está se expandindo além das entradas somente de texto para incluir imagens também. Começando com o Pixel, as aplicações usando Gemini Nano com multimodalidade poderão entender o mundo como as pessoas fazem – não apenas através do texto, mas também da visão, som e linguagem falada.
Leia mais sobre Gemini 1.0 Nano no Android.