Contents

Startup francesa desenvolve IA ética para competir com ChatGPT sem violação de direitos autorais!

/images/e40702a2e549b5f99e74fb93cb6b0928aec2718b3cbfd6da12813b29222fc152.jpg Finalmente uma IA ética no mercado? © Anton Gvozdikov/Shutterstock

**Eles sabiam que era impossível e fizeram isso mesmo assim. Embora os gigantes do sector da IA ​​sempre tenham justificado a sua recolha agressiva de dados pela necessidade de o fazer, a start-up francesa Pleias mostra que é possível formar um LLM sem violar os direitos de autor. **

Nesta quarta-feira, 20 de março, pesquisadores divulgaram o que acreditam ser o maior LLM utilizando apenas dados e conteúdos de domínio público. O modelo, denominado Common Corpus, seria aproximadamente equivalente ao GPT-3, e foi desenvolvido em colaboração com vários laboratórios europeus e com o apoio do Ministério da Cultura da França.

De acordo com a OpenAI, a tarefa era, no entanto, impossível

Quando a empresa ou seus executivos são questionados sobre o assunto, a OpenAI é inflexível. A única maneira de desenvolver uma inteligência artificial cada vez mais eficiente é parar de se preocupar em respeitar conceitos ultrapassados ​​como os direitos de autor. Esta é também a linha oficial de defesa da empresa durante o já. Com efeito, para ela, uma vez que a inteligência artificial beneficiará a humanidade, utilizar conteúdos para os quais não tem o direito de treiná-los é um uso legítimo, que não deve ser contestado. Esta posição também é partilhada por outros gigantes do setor,.

Embora a criação de sistemas de IA eticamente sólidos possa parecer um desafio, certas empresas dedicaram tempo e recursos consideráveis ​​para abordar esta preocupação. Um exemplo de tais esforços pode ser observado no desenvolvimento do Common Corpus das Plêiades, que utiliza apenas informações acessíveis de fontes públicas. Além disso, tomaram a decisão de partilhar o seu trabalho com a comunidade em geral, publicando-o no Hugging Face, uma renomada plataforma de IA de código aberto.

É o primeiro modelo do gênero certificado pela organização americana Fairly Trained, que indica modelos eticamente treinados. Se Pleias está na origem do projeto e o coordena, a start-up trabalhou na sua concepção em colaboração com outras organizações europeias e com financiamento do Ministério da Cultura.

/images/f6acbd1d12bda891b767908341d11737fc0bd246405c6e68e0272bd063d76bfd.jpg Sam Altman, presidente da OpenAI © TechCrunch

Um corpus equivalente ao do GPT-3

Apesar de possuir um vasto corpus de 500 bilhões de tokens, que serve como uma base impressionante, o Common Corpus ainda fica significativamente atrás dos modelos contemporâneos de última geração, visto que sua magnitude se aproxima da escala utilizada no projeto GPT-3. É crucial não ignorar os méritos desta iniciativa, especialmente no que diz respeito à sua comercialização, reconhecendo ao mesmo tempo que mesmo empreendimentos ambiciosos têm restrições inerentes.

A primeira delas está ligada ao domínio público, justamente. A lei pode variar de país para país, mas em França uma obra entra no domínio público 70 anos após a morte do seu autor. Os dados de formação estão, portanto, em grande parte, muito desatualizados e é provável que tal modelo não possa ser ligado diretamente à Internet da mesma forma que os seus homólogos mais avançados, que não são afetados por estas considerações.

É claro que é possível acrescentar textos e outras obras com o acordo dos seus autores, mas o processo é neste momento muito mais complexo e trabalhoso do que prescindir da sua opinião.

Fontes: Wired, LePtiDigital

*️⃣ Link da fonte:

Com fio , LePtiDigital ,