Treinamento em IA em imagens de abuso infantil desperta preocupação em Stanford

2023-12-22 485 words 3 minutes

Contents

O Observatório da Internet da Universidade de Stanford descobriu recentemente um problema preocupante num conjunto de dados amplamente utilizado, utilizado por sistemas de inteligência artificial para gerar conteúdo visual. O conjunto de dados supostamente incluía hiperlinks que direcionavam os usuários a representações de abusos envolvendo menores, o que poderia ter resultado na criação de material ofensivo por meio de imagens geradas por IA.

O presente corpus abrange o LAION-5B, um acúmulo que compreende cerca de 1.680 imagens ilícitas obtidas em redes sociais online e sites adultos. Desde setembro do ano anterior, foram realizadas investigações para determinar se algum conteúdo desta base de dados constituía pornografia infantil. Para facilitar a identificação, os investigadores examinaram e cruzaram identificadores de imagens com valores hash, transmitindo posteriormente os resultados para plataformas especializadas dedicadas à detecção de material de abuso infantil, incluindo o serviço PhotoDna da Microsoft, cuja eficácia foi validada através da colaboração com o Centro Canadiano para a Protecção Infantil.

De acordo com as informações do site LAION, seu conjunto de dados não armazena nenhum dado de imagem em si, mas indexa imagens encontradas na internet por meio de links e legendas que as acompanham. De referir que o conjunto de dados é gerido pela organização sem fins lucrativos LAION, que afirma ter uma política estrita de “tolerância zero” para qualquer conteúdo prejudicial ou impróprio. Além disso, devido a preocupações relativas a esse conteúdo, a LAION suspendeu temporariamente o acesso público ao conjunto de dados.

LAION-5B serviu de base para o desenvolvimento do Stable Diffusion by Stability AI, que enfatizou a importância de estabelecer diretrizes para evitar o uso indevido de sua plataforma. Embora a empresa tenha utilizado o LAION-5B em parte para treinar seus modelos, ela enfatizou a otimização do aspecto de segurança durante esse processo.

A iteração inicial do Imagen, uma ferramenta criativa baseada em IA desenvolvida pelo Google e destinada exclusivamente para fins de pesquisa, foi inicialmente treinada usando o conjunto de dados LAION-400M, que precedeu o conjunto de dados 5B mais extenso em termos de tamanho. No entanto, as versões subsequentes do Imagen deixaram de utilizar o conjunto de dados LAION por completo, conforme relatado em um estudo conduzido por pesquisadores da Universidade de Stanford. Este relatório revelou que a equipe de desenvolvimento do Imagen descobriu a presença de “conteúdo questionável” no conjunto de dados LAION-400M, incluindo imagens explícitas, linguagem discriminatória e estereótipos sociais prejudiciais.

Os investigadores reconhecem que a mera existência de conteúdo pornográfico infantil num conjunto de dados de formação não garante o seu impacto no desempenho do modelo resultante. No entanto, ainda existe a possibilidade de o modelo ter absorvido informações desses materiais. É impraticável e talvez inviável eliminar completamente estes elementos prejudiciais, uma vez integrados no processo de formação. Consequentemente, os especialistas defendem a cessação imediata da distribuição de quaisquer modelos desenvolvidos utilizando o conjunto de dados LAION-5B.

*️⃣ Link da fonte:

No relatório compilado por pesquisadores de Stanford ,