Hoje, estamos lançando dois modelos atualizados de Gemini prontos para produção: Gemini-1.5-Pro-002 e Gemini-1.5-Flash-002 juntamente com:
- > 50% reduziu o preço em 1,5 Pro (entrada e saída para prompts
- 2x limites de taxa mais alta em 1,5 flash e ~ 3x mais alto em 1,5 Pro
- 2x saída mais rápida e 3x menor latência
- Configurações de filtro padrão atualizadas
Esses novos modelos se baseiam em nossos lançamentos de modelos experimentais mais recentes e incluem melhorias significativas nos modelos Gemini 1.5 lançados no Google E/S em maio. Os desenvolvedores podem acessar nossos modelos mais recentes gratuitamente via Google AI Studio e o API de Gêmeos. Para organizações maiores e clientes do Google Cloud, os modelos também estão disponíveis em Vértice ai.
Qualidade geral aprimorada, com ganhos maiores em matemática, longo contexto e visão
As séries Gemini 1.5 são modelos projetados para desempenho geral em uma ampla gama de tarefas de texto, código e multimodais. Por exemplo, os modelos Gemini podem ser usados para sintetizar informações de 1000 páginas PDFs, responder a perguntas sobre repositórios contendo mais de 10 mil linhas de código, participe de vídeos de uma hora e crie conteúdo útil a partir deles e muito mais.
Com as atualizações mais recentes, o 1,5 Pro e o Flash agora são melhores, mais rápidos e mais econômicos para serem construídos na produção. Vemos um aumento de ~ 7% no MMLU-Pro, uma versão mais desafiadora do popular benchmark MMLU. Em matemática e HiddenMath (um conjunto interno de problemas de matemática da competição), os dois modelos fizeram uma melhoria considerável de ~ 20%. Para casos de visão e uso de código, ambos os modelos também têm melhor desempenho (variando de ~ 2-7%) entre os Evalas, medindo o entendimento visual e a geração de código Python.
Também melhoramos a ajuda geral das respostas dos modelos, enquanto continuamos a defender nossas políticas e padrões de segurança de conteúdo. Isso significa menos recusas de punição/menos e respostas mais úteis em muitos tópicos.
Ambos os modelos agora têm um estilo mais conciso em resposta ao feedback do desenvolvedor, destinado a facilitar o uso desses modelos. Para casos de uso, como resumo, resposta a perguntas e extração, o comprimento de saída padrão dos modelos atualizados é ~ 5-20% mais curto que os modelos anteriores. Para produtos baseados em bate-papo em que os usuários podem preferir respostas mais longas por padrão, você pode ler nosso Guia de estratégias de solicitação Para saber mais sobre como tornar os modelos mais detalhados e conversadores.
Para mais detalhes sobre a migração para as versões mais recentes do Gemini 1.5 Pro e 1.5 Flash, confira o Página de modelos de API Gemini.
Gêmeos 1.5 Pro
Continuamos a ser impressionados com as aplicações criativas e úteis da Gemini 1.5 Pro’s 2 milhões de token Janela de contexto longo e recursos multimodais. Do entendimento de vídeo a Processamento de 1000 páginas PDFsainda existem tantos novos casos de uso a serem construídos. Hoje, estamos anunciando uma redução de preço de 64% nos tokens de entrada, uma redução de preço de 52% nos tokens de produção e uma redução de preço de 64% nos tokens em cache incremental para o nosso modelo mais forte da série 1.5, Gemini 1.5 Pro, a partir de 1º de outubro de 2024em instruções menos de 128 mil tokens. Juntamente com cache de contextoisso continua a direcionar o custo da construção com Gêmeos para baixo.
Limites de taxa aumentados
Para tornar ainda mais fácil para os desenvolvedores construir com Gêmeos, estamos aumentando os limites de taxa de nível pagos para 1,5 flash para 2.000 rpm e aumentando 1,5 Pro para 1.000 rpm, acima dos 1.000 e 360, respectivamente. Nas próximas semanas, esperamos continuar aumentando o Limites da taxa de API de Gêmeos Portanto, os desenvolvedores podem construir mais com Gêmeos.
2x saída mais rápida e 3x menos latência
Juntamente com as melhorias principais em nossos modelos mais recentes, nas últimas semanas, reduzimos a latência com 1,5 flash e aumentamos significativamente os tokens de saída por segundo, permitindo novos casos de uso com nossos modelos mais poderosos.
Configurações de filtro atualizadas
Desde o primeiro lançamento de Gemini em dezembro de 2023, construindo um cofre E o modelo confiável tem sido um foco essencial. Com as versões mais recentes de Gemini (-002 Modelos), fizemos melhorias na capacidade do modelo de seguir as instruções do usuário enquanto equilibravam a segurança. Continuaremos a oferecer um conjunto de filtros de segurança que os desenvolvedores podem se aplicar aos modelos do Google. Para os modelos lançados hoje, os filtros não serão aplicados por padrão para que os desenvolvedores possam determinar a configuração mais adequada para o seu caso de uso.
Gêmeos 1.5 Flash-8B Atualizações experimentais
Estamos lançando uma versão mais aprimorada do modelo Gemini 1.5 que anunciamos em agosto chamado “Gemini-1.5-Flash-8B-EXP-0924”. Esta versão aprimorada inclui aumentos significativos de desempenho nos casos de uso de texto e multimodais. Está disponível agora via Google AI Studio e a API Gemini.
Os desenvolvedores de feedback predominantemente positivo compartilharam cerca de 1,5 flash-8b foi incrível de se ver, e continuaremos moldando nosso pipeline experimental para liberação de produção com base no feedback do desenvolvedor.
Estamos empolgados com essas atualizações e mal podemos esperar para ver o que você construirá com os novos modelos Gemini! E para Gêmeos avançados Usuários, em breve você poderá acessar uma versão otimizada do bate-papo do Gemini 1.5 Pro-002.