SDXL Turbo revelado!

2023-12-01 562 words 3 minutes

Contents

Stability AI é conhecida por seu principal produto chamado Stable Diffusion, um modelo de IA generativa de código aberto. O modelo é conhecido por sua capacidade de gerar imagens de alta resolução a partir de imagens simples prompt de texto. Os engenheiros de IA de estabilidade também estão desenvolvendo e melhorando outros modelos generativos capazes de produzir textos, músicas, objetos 3D e muito mais. SDXL Turbo é um modelo inovador que, como veremos mais adiante, aposta fortemente no desempenho.

Algumas palavras sobre modelos generativos baseados no processo de difusão

Modelos como Stable Diffusion geralmente são bastante lentos na geração de imagens a partir da entrada do usuário devido à complexidade do processo de geração. O processo de difusão , do qual Stable Diffusion leva o nome, envolve a modificação gradual da imagem inicialmente usada para tornar a saída mais compatível com o prompt. Em termos simples, o modelo faz pequenas alterações pixels por pixel na imagem iterativamente.

O modelo generativo também usa diferentes técnicas de otimização , como gradiente descendente, para ajustar os parâmetros da imagem para melhor atender às especificações fornecidas pelo usuário. Fazendo mais iterações posteriormente, o modelo pode melhorar progressivamente a qualidade da imagem.

SDXL Turbo: o que é e como funciona o modelo que gera imagens em tempo real

Stability AI mais uma vez revoluciona o mundo da inteligência artificial apresentando um modelo, SDXL Turbo, capaz de gerar imagens a partir de descrições textuais reduzindo drasticamente o tempo necessário para a operação.

A principal inovação do SDXL Turbo está em uma nova tecnologia de “destilação” que permite a geração de imagens em uma única etapa, com qualidade sem precedentes, reduzindo o número de etapas necessárias 50 para uma. Tanto é verdade que o Stability AI surpreende com um aplicativo desse tipo, gerado conforme você digita.

Com a colaboração do Clipdrop, a partir de hoje é possível ter uma ferramenta web que cria imagens de qualidade em tempo real enquanto você digita um texto. Tente conectar-se à página dedicada no Clipdrop, faça login e comece a digitar algo, mesmo em italiano, no campo Digite seu prompt: o modelo SDXL Turbo crie uma nova imagem enquanto escreve o prompt e refina sua solicitação.

Tecnologia de destilação: Destilação por Difusão Adversarial (ADD)

A principal tecnologia por trás da operação do SDXL Turbo é chamada de Destilação por Difusão Adversarial (ADD). O processo de destilação permite que o modelo sintetize imagens em uma única etapa, permitindo a geração de saída de texto para imagem em tempo real sem comprometer a fidelidade da amostragem.

Comparado com diversas variantes de modelo de difusão, incluindo StyleGAN-T\+\+, OpenMUSE, IF-XL, SDXL e LCM-XL, o SDXL Turbo demonstrou superar os modelos de várias etapas de última geração com * *requisitos computacionais** significativamente menores sem comprometer a qualidade da imagem devolvida ao usuário.

SDXL Turbo apresenta melhorias significativas na velocidade de inferência. Em uma GPU A100, ele pode gerar uma imagem de 512x512 pixels em 207 ms (deste tempo, 67 ms são gastos em uma única passagem de avaliação).

No momento, SDXL Turbo é lançado sob uma licença especial que permite atividades de pesquisa e usos pessoais, mas proíbe o uso em contexto comercial. Os interessados ainda podem baixar os pesos dos modelos e o código-fonte na plataforma Hugging Face.

barra lateral inferior relacionada 300

*️⃣ Link da fonte:

página dedicada no Clipdrop , da plataforma Hugging Face ,