Meio segundo para criar imagens impressionantes com a IA da PixArt!

2024-01-29 492 words 3 minutes

Contents

Junsong Chen et al.

Os modelos generativos mais avançados para criação de imagens com inteligência artificial, como o conhecido Stable Diffusion, poderão em breve ter que se comparar a um “peso pesado” em sua própria categoria. A última versão do PixArt, resultado do trabalho de uma equipe de pesquisadores do Huawei Noah’s Ark Lab, dos centros acadêmicos da Dalian University of Technology e da Tsinghua University, bem como do Hugging Face, é capaz de introduzir benefícios significativos em termos de desempenho.

PixArt-δ: Gere imagens de qualidade com inteligência artificial em apenas meio segundo

PixArt-δ (Delta) é uma estrutura avançada de síntese de texto-imagem projetada precisamente para competir com a família Stable Diffusion. A principal inovação em relação aos modelos da geração anterior é que o PixArt-δ é capaz de gerar imagens em alta resolução (1024 x 1024 pixels) em apenas meio segundo, usando apenas duas ou quatro passagens. Este é um desempenho de velocidade sete vezes melhor que o PixArt-α.

SDXL Turbo, apresentado pela Stability AI em novembro de 2023, pode gerar imagens de até 512 x 512 pixels em uma única passagem (cerca de 0,2 segundos). No entanto, os resultados do PixArt-δ garantem que resoluções mais altas sejam alcançadas e apareçam mais alinhadas com o prompt fornecido, geralmente contendo menos erros.

Como você aprende lendo o estudo focado no PixArt-δ, o novo modelo pode ser treinado com eficiência na GPU NVidia V100 com 32 GB de VRAM em menos de um dia de trabalho. Além disso, sua capacidade de inferência de 8 bits permite sintetizar imagens de 1.024 pixels mesmo em GPUs de 8 GB, melhorando muito sua usabilidade e acessibilidade.

Controle pontual do processo de geração de imagens

O recém-revelado modelo PixArt-δ também integra um módulo ControlNet para controle mais preciso do procedimento difusão texto-imagem usando imagens de referência. Os pesquisadores, em particular, tornaram públicos os parâmetros (ou pesos) associados à variante ControlNet do modelo PixArt-δ na plataforma Hugging Face.

Em contextos de aprendizado de máquina e aprendizado profundo, “pesos” referem-se aos parâmetros internos de um modelo que são treinados durante o processo de aprendizado. Eles afetam a capacidade do modelo de fazer previsões ou gerar resultados. O compartilhamento de carga permite otimizar e adaptar o modelo às suas aplicações e aos experimentos que deseja realizar.

Até o momento, a demonstração do modelo PixArt-delta não foi disponibilizada ao público em geral para visualização. Porém, pode-se verificar o funcionamento tanto da versão PixArt-alpha dentro das configurações do Modelo de Consistência Latente quanto do ControlNet.

No aprendizado de máquina, o “espaço latente” refere-se a um espaço abstrato no qual os dados são representados de uma forma mais compacta e significativa: o LCM funciona dentro deste espaço. Além disso, utiliza o mecanismo de “ difusão ” para gerar a imagem gradativamente através de uma série de etapas.

barra lateral inferior relacionada 300

*️⃣ Link da fonte:

Junsong Chen et al. , estudo focado em PixArt-δ , PixArt-α na versão LCM , ControlNet ,