Contents

Como Midjourney transforma o absurdo em sentido

Um dos principais desafios associados à utilização dos recursos de geração visual do Midjourney continua sendo sua capacidade de interpretar e produzir conteúdo com precisão com base em instruções ou “prompts” fornecidos pelo usuário. Apesar das atualizações recentes, como o lançamento da versão 6 no final de dezembro, existem preocupações quanto à eficácia destas melhorias na geração do resultado desejado.

Em resumo, os resultados iniciais produziram um sucesso mínimo devido aos resultados ambíguos dos nossos ensaios preliminares. Consequentemente, a nomenclatura escolhida para este caso específico foi mal utilizada. Apesar de várias tentativas, o software finalmente entregou uma aproximação que ficou aquém das expectativas, considerando o seu desempenho excepcional em tarefas alternativas.

Embora reconhecendo o estado atual da IA, deve-se notar que o Midjourney v6 está atualmente em fase alfa, o que significa um processo contínuo de desenvolvimento. A funcionalidade atual do sistema pode não representar com precisão as suas capacidades futuras à medida que continua a evoluir. Conforme indicado pelo seu criador, David Holz, poderão ocorrer alterações e atualizações frequentes sem aviso prévio.

Uma atualização para Midjourney v6 para ter texto de melhor qualidade

A recente declaração sobre o lançamento da atualização inicial significativa para a versão 6 alfa fundamenta a nossa afirmação. Este desenvolvimento foi revelado via X (anteriormente conhecido como Twitter) e aprimora diversas facetas do modelo, incluindo apelo visual, uniformidade, adesão ao prompt fornecido, qualidade de imagem e, mais notavelmente, renderização de texto. Além disso, recursos como ampliação de imagem foram otimizados.

Embora o aprimoramento relatado em Midjourney sugira progresso, ainda há espaço significativo para avanços na transcrição precisa do texto entre aspas, como evidenciado por nossas repetidas tentativas de obter representações razoavelmente precisas sem alcançar fidelidade total.

/images/midjourney-v6-texte-test-2-1024x574.jpg Ainda existem alguns recursos visuais que falharam, mas os dois abaixo são bastante precisos, quando solicitados a escrever “este site”.//Fonte: este site com Midjourney /images/midjourney-v6-texte-test-3-1024x574.jpg A mesma coisa aqui: as duas primeiras propostas são bastante encorajadoras com o texto “inscreva-se para este site\+”.//Fonte: este site com Midjourney

Lorem ipsum, estilo IA

Na verdade, os avanços feitos pelo Midjourney em termos de geração de resultados coerentes e significativos são inegavelmente significativos quando comparados com iterações anteriores que produziram resultados inconsequentes. Por exemplo, a produção de conteúdo compreensível do Midjourney v5.2 representa uma melhoria substancial em relação às versões anteriores.

Utilizando o software Midjourney versão 5.2, ambos os casos apresentavam consultas idênticas (“uma inscrição ‘inscreva-se neste site’ escrita em pergaminho”). Certos resultados renderam um ar de manuscritos escritos por monges escribas em idioma gótico. No entanto, nenhuma parte discernível do conteúdo solicitado pôde ser identificada nesses resultados.

/images/midjourney-v6-texte-test-4-1024x574.jpg Existe um certo estilo, mesmo que não haja texto inteligível. Na verdade, é um pouco como o lorem ipsum do Midjourney.//Fonte: este site com Midjourney

Em essência, Lorem Ipsum pode ser considerado um espaço reservado utilizado no processo de visualização da formatação de texto. Esta frase em latim é frequentemente empregada por web designers durante a fase de desenvolvimento de um site. O objetivo é fornecer uma representação de como o conteúdo aparecerá depois de totalmente renderizado. Parece que uma inteligência artificial está simplesmente ocupando o espaço sem a necessidade de informações adicionais.

/images/midjourney-v6-texte-test-5-1024x574.jpg Mesmo encadeando as gerações, Midjourney v5.2 não alcança nada no texto.//Fonte: este site com Midjourney

A distinção entre o Midjourney versão 5.2 e 6 é notável. Embora a iteração mais recente ainda possa apresentar algumas deficiências em sua funcionalidade, o resultado gerado é geralmente legível e, às vezes, aproxima-se bastante do conteúdo pretendido. Em contraste, a produtividade do modelo anterior tende ao absurdo, desviando-se da intenção original do insumo. Embora isto possa possuir um encanto esotérico, em última análise fica aquém do objectivo desejado.

Parece que, apesar das melhorias significativas nas capacidades de geração de texto, os elementos visuais na saída permanecem abaixo do ideal e requerem refinamento adicional por meio de múltiplas iterações de atualizações. Apesar desta limitação, é importante notar que os desenvolvedores da Midjourney indicaram que sua tecnologia passará por melhorias substanciais à medida que se aproxima de um estado de maturação na versão 6.

Um treino para aperfeiçoar

Midjourney emprega um método proprietário para treinar seu sistema de inteligência artificial para aumentar a eficiência na geração de texto. Este processo envolve a utilização de extensos conjuntos de dados contendo informações visuais e linguísticas, permitindo à IA estabelecer correlações entre elementos visuais e seus descritores associados.

A duração deste procedimento pode ser prorrogada. No que diz respeito ao Midjourney v6, um esforço considerável foi investido durante um período de nove meses e continua em curso. Parece que os casos em que existe texto dentro de uma imagem são considerados especialmente valiosos e ativamente procurados para incorporação no conjunto de dados de treinamento.

/images/dalle-e-3-numerama-texte-1024x652.jpg Um primeiro teste conclusivo.//Fonte: Captura de tela

Actualmente, parece que a vantagem competitiva reside no domínio das capacidades de produção. Notavelmente, o DALL-E 3, uma oferta proeminente da OpenAI junto com o ChatGPT, demonstra proficiência excepcional no domínio de geração de texto. Curiosamente, nas suas tentativas iniciais, o sistema foi capaz de produzir representações visualmente precisas, com apenas pequenas inconsistências, apesar de ter sido traduzido para o inglês. Embora tenha havido casos de imperfeições e redundâncias, elas foram visivelmente moderadas em comparação com aquelas observadas nos resultados gerados por plataformas rivais, como Midjourney.

Sem dúvida, espera-se que a conversão de conteúdo escrito em representações visuais geradas por inteligência artificial avance significativamente no ano de 2024 em diversas plataformas como DALL-E, Midjourney e Stable Diffusion. À medida que o comprimento e a complexidade dos textos de entrada continuam a aumentar, esta tendência apresenta um potencial para gerar deturpações visuais mais complexas e convincentes. Esta progressão suscita apreensões semelhantes relativamente à propagação de informações falsas e à manipulação que foram anteriormente observadas com meios de comunicação baseados em imagens sem contexto textual de acompanhamento.

Conheça este site\+

Você está interessado em obter uma compreensão abrangente das tendências futuras de transporte, incluindo veículos elétricos e e-bikes? Nesse caso, convidamos você a assinar nossa newsletter para obter informações exclusivas sobre este assunto.

*️⃣ Link da fonte:

melhora vários aspectos do modelo ,