Startup francesa desenvolve IA ética para competir com ChatGPT sem violação de direitos autorais!
Finalmente uma IA ética no mercado? © Anton Gvozdikov/Shutterstock
**Eles sabiam que era impossível e fizeram isso mesmo assim. Embora os gigantes do sector da IA sempre tenham justificado a sua recolha agressiva de dados pela necessidade de o fazer, a start-up francesa Pleias mostra que é possível formar um LLM sem violar os direitos de autor. **
Nesta quarta-feira, 20 de março, pesquisadores divulgaram o que acreditam ser o maior LLM utilizando apenas dados e conteúdos de domínio público. O modelo, denominado Common Corpus, seria aproximadamente equivalente ao GPT-3, e foi desenvolvido em colaboração com vários laboratórios europeus e com o apoio do Ministério da Cultura da França.
De acordo com a OpenAI, a tarefa era, no entanto, impossível
Quando a empresa ou seus executivos são questionados sobre o assunto, a OpenAI é inflexível. A única maneira de desenvolver uma inteligência artificial cada vez mais eficiente é parar de se preocupar em respeitar conceitos ultrapassados como os direitos de autor. Esta é também a linha oficial de defesa da empresa durante o já. Com efeito, para ela, uma vez que a inteligência artificial beneficiará a humanidade, utilizar conteúdos para os quais não tem o direito de treiná-los é um uso legítimo, que não deve ser contestado. Esta posição também é partilhada por outros gigantes do setor,.
Embora a criação de sistemas de IA eticamente sólidos possa parecer um desafio, certas empresas dedicaram tempo e recursos consideráveis para abordar esta preocupação. Um exemplo de tais esforços pode ser observado no desenvolvimento do Common Corpus das Plêiades, que utiliza apenas informações acessíveis de fontes públicas. Além disso, tomaram a decisão de partilhar o seu trabalho com a comunidade em geral, publicando-o no Hugging Face, uma renomada plataforma de IA de código aberto.
É o primeiro modelo do gênero certificado pela organização americana Fairly Trained, que indica modelos eticamente treinados. Se Pleias está na origem do projeto e o coordena, a start-up trabalhou na sua concepção em colaboração com outras organizações europeias e com financiamento do Ministério da Cultura.
Sam Altman, presidente da OpenAI © TechCrunch
Um corpus equivalente ao do GPT-3
Apesar de possuir um vasto corpus de 500 bilhões de tokens, que serve como uma base impressionante, o Common Corpus ainda fica significativamente atrás dos modelos contemporâneos de última geração, visto que sua magnitude se aproxima da escala utilizada no projeto GPT-3. É crucial não ignorar os méritos desta iniciativa, especialmente no que diz respeito à sua comercialização, reconhecendo ao mesmo tempo que mesmo empreendimentos ambiciosos têm restrições inerentes.
A primeira delas está ligada ao domínio público, justamente. A lei pode variar de país para país, mas em França uma obra entra no domínio público 70 anos após a morte do seu autor. Os dados de formação estão, portanto, em grande parte, muito desatualizados e é provável que tal modelo não possa ser ligado diretamente à Internet da mesma forma que os seus homólogos mais avançados, que não são afetados por estas considerações.
É claro que é possível acrescentar textos e outras obras com o acordo dos seus autores, mas o processo é neste momento muito mais complexo e trabalhoso do que prescindir da sua opinião.
Fontes: Wired, LePtiDigital
*️⃣ Link da fonte:
Com fio , LePtiDigital ,