Em dezembro Primeiro, introduzimos a saída de imagem nativa em Gemini 2.0 Flash para testadores confiáveis. Hoje, estamos disponibilizando -o para experimentação de desenvolvedores todas as regiões Atualmente suportado pelo Google AI Studio. Você pode testar esse novo recurso usando uma versão experimental do Gemini 2.0 Flash (Gemini-2.0-Flash-Exp) no Google AI Studio e através da API Gemini.
O flash Gemini 2.0 combina entrada multimodal, raciocínio aprimorado e entendimento de linguagem natural para criar imagens.
Aqui estão alguns exemplos de onde as saídas multimodais do 2.0 Flash brilham:
1. Texto e imagens juntos
Use o Gemini 2.0 Flash para contar uma história e ele o ilustrará com imagens, mantendo os personagens e as configurações consistentes o tempo todo. Dê feedback e o modelo recontará a história ou mudará o estilo de seus desenhos.
História e geração de ilustração no Google AI Studio
2. Edição de imagem de conversação
O Flash Gemini 2.0 ajuda a editar imagens em muitas voltas de um diálogo de linguagem natural, ótimo para iterar uma imagem perfeita ou para explorar diferentes idéias.
Edição de imagem de conversação de várias turnos
3. Entendimento mundial
Ao contrário de muitos outros modelos de geração de imagens, o Gemini 2.0 Flash aproveita o conhecimento mundial e o raciocínio aprimorado para criar o certo imagem. Isso o torna perfeito para criar imagens detalhadas que sejam realistas – como ilustrar uma receita. Enquanto ele se esforça por precisão, como todos os modelos de idiomas, seu conhecimento é amplo e geral, não absoluto ou completo.
Saída de texto e imagem intercalados para uma receita no Google AI Studio
4. Renderização de texto
A maioria dos modelos de geração de imagens luta para renderizar com precisão longas sequências de texto, geralmente resultando em caracteres mal formatados ou ilegíveis ou erros de ortografia. Os benchmarks internos mostram que o 2.0 Flash tem uma renderização mais forte em comparação com os principais modelos competitivos e ótimos para criar anúncios, postagens sociais ou até convites.
Saídas de imagem com longa renderização de texto no Google AI Studio
Comece a fazer imagens com Gemini hoje
Comece com o Gemini 2.0 Flash através da API Gemini. Leia mais sobre a geração de imagens em nosso documentos.
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=("Text", "Image")
),
)
Esteja você construindo agentes de IA, desenvolvendo aplicativos com belos visuais, como histórias interativas ilustradas ou brainstorming de idéias visuais em conversas, o Gemini 2.0 Flash permite adicionar geração de texto e imagem com apenas um único modelo. Estamos ansiosos para ver o que os desenvolvedores criam com a saída de imagem nativa e seu opinião nos ajudará a finalizar uma versão pronta para produção em breve.