Contents

Roubando conteúdo para IA? OpenAI ChatGPT confessa!

A utilização de material protegido por direitos autorais para fins de treinamento no desenvolvimento de modelos GPT AI é uma prática que se alinha aos princípios defendidos pela OpenAI, que afirma sua legitimidade e necessidade inerentes.

/images/chatgpt-frandroid-chatgpt-1200x675.jpg

Parece que o ano de 2024 poderá marcar um ponto de viragem significativo no desenvolvimento da inteligência artificial generativa. Enquanto Midjourney se vê envolvido em alegações que cercam o uso não autorizado do trabalho de 4.700 artistas, a OpenAI enfrenta o escrutínio da mídia em relação à sua criação, ChatGPT.

Em ambos os casos, as empresas confiaram fortemente em recursos online para tornar a sua inteligência artificial generativa verdadeiramente perspicaz e pertinente, independentemente de tais materiais estarem sujeitos à protecção de direitos de autor. Em última análise, o sistema judicial deve determinar se esta utilização constitui uma aplicação admissível ou não.

Criar IA sem voar seria impossível

Na verdade, conforme relatado pelo The Guardian, a OpenAI emitiu uma declaração em resposta às alegações feitas contra ela pelo The New York Times. Nesta declaração, a empresa afirmou que não teria sido viável para eles criar o seu modelo de linguagem de IA, ChatGPT, sem utilizar material protegido por direitos autorais. Como tal, afirmam que quaisquer casos de plágio não são intencionais e são resultado do processo de aprendizagem automática, e não de uma acção deliberada da sua parte.

Para alcançar capacidades inteligentes, ferramentas generativas de inteligência artificial, como ChatGPT, Midjourney e Stable Diffusion, dependem do paradigma Large Language Model (LLM). Esses modelos exigem treinamento extensivo usando grandes quantidades de dados diversos para um desempenho ideal.

O conceito fundamental subjacente à lei dos direitos de autor, especialmente no Reino Unido e nos EUA, determina que a utilização de uma obra criativa para fins comerciais requer autorização dos seus legítimos proprietários. Infelizmente, a OpenAI não conseguiu obter permissões explícitas de todos os autores cujos trabalhos foram acessados ​​durante o processo de treinamento do GPT, abrangendo vários milhares de conteúdos.

Dado que os direitos de autor abrangem hoje praticamente todas as formas de expressão humana – incluindo publicações em blogs, fotografias, publicações em fóruns, fragmentos de código de software e documentos governamentais – seria impossível treinar os melhores modelos de IA atuais sem utilizar materiais protegidos por direitos de autor.

A noção defendida por estes gigantes da tecnologia assemelha-se a um antigo princípio filosófico defendido em Silicon Valley-que, por vezes, é necessário desrespeitar as leis estabelecidas para obter inovações revolucionárias, acumulando assim influência suficiente para obrigar os quadros regulamentares a evoluir em conformidade. A última geração de empresas de IA defende agora a legitimação da sua utilização não autorizada de recursos online no passado, afirmando que tais práticas devem ser consideradas permissíveis no futuro.

Em essência, a OpenAI aspira utilizar conteúdo que necessite de investimentos financeiros significativos, como a remuneração de jornalistas de uma organização de notícias, por exemplo, para sua própria vantagem comercial, monetizando serviços relacionados ao ChatGPT e Dall-E.

Medidas da OpenAI para respeitar a mídia

À luz dos potenciais desafios associados à defesa da sua posição sobre o assunto, a OpenAI tomou medidas para garantir o respeito pelos meios de comunicação social. Especificamente, implementaram um mecanismo para barrar o acesso da GPT ao conteúdo digital da mídia. Esta abordagem foi adotada pela primeira vez pelo The New York Times durante o verão de 2023 e, embora aborde preocupações relativas à formação em IA antes desse período, não resolve totalmente o problema em questão.

A OpenAI identificou um problema com a capacidade do ChatGPT de reproduzir informações com precisão sem a devida citação. Especificamente, parece que o ChatGPT é capaz de gerar citações exatas de artigos pagos publicados pelo New York Times sem creditar a fonte original. Esta prática constitui uma violação dos direitos de propriedade intelectual e levanta preocupações sobre a conduta ética. Notavelmente, o New York Times forneceu provas substanciais que apoiam estas alegações nos seus documentos legais.

Além da nossa declaração pública, a OpenAI procura ativamente parcerias estratégicas com organizações de comunicação social líderes, a fim de garantir permissão, sob os auspícios da lei de direitos de autor, para aceder aos seus vastos conjuntos de dados. Estabelecemos acordos com sucesso tanto com a Associated Press, semelhante à AFP, como com o Business Insider de Axel Springer.

*️⃣ Link da fonte:

The Guardian,