Contents

Os gerentes de site devem avançar!

/images/privacy-web-scraping-IA-Web.jpg -Privacidade

Em 22 de novembro de 2023, o Garantidor de Privacidade anunciou que havia lançado uma investigação de apuração de fatos focada em sites públicos e privados. Desta vez o objetivo é verificar a adoção efetiva de medidas de segurança adequadas e úteis para evitar a coleta massiva (web scraping) de dados pessoais para fins de treinamento de algoritmos de inteligência artificial (IA).

Na verdade, sabemos que a maioria dos modelos generativos propostos por empresas de IA também foram treinados usando dados acessíveis publicamente na Web. OpenAI ele observou repetidamente que não há problema de direitos autorais no caso de modelos generativos e, em geral, de modelos de linguagem grandes (LLMs). Isso ocorre porque nenhum dado, inclusive aqueles examinados pelos rastreadores da empresa, é armazenado em um banco de dados.

A Autoridade Garantidora de Proteção de Dados Pessoais, porém, coloca outro problema na mesa que desvia a atenção das empresas que lidam com inteligência artificial e aprendizado de máquina para aquelas que gerenciam e publicam conteúdo. Os editores estão mais uma vez na mira. Ou melhor, todas as empresas que publicam na Web informações que possam ser classificadas como dados pessoais, ainda que fornecidas de forma expressa e voluntária pelos usuários interessados.

O Fiador de Privacidade detecta riscos concretos a jusante da atividade de web scraping realizada para fins de treinamento em IA

Já vimos o que é web scraping e quando não é permitido. Em duas palavras, com a expressão web scraping referimo-nos àquela atividade que consiste em coletar dados de páginas web, tanto textuais quanto multimídia, e posteriormente processá-los ou arquivá-los. O web scraping pode ser utilizado para diversos fins, como análise de dados, criação de bancos de dados, monitoramento de preços online, extração de informações para pesquisas e muito mais. Dentre as diversas finalidades está, como observado anteriormente, também o treinamento de modelo generativo.

Observou-se que várias plataformas de IA estão envolvidas em atividades através das quais recolhem grandes quantidades de dados, incluindo informações pessoais, que são recolhidas em sítios Web geridos por entidades públicas e privadas para diversos fins, como notícias ou transparência administrativa. A Autoridade Supervisora ​​apelou agora às associações comerciais, organizações de consumidores, especialistas e representantes da academia para fornecerem feedback sobre as medidas de segurança implementadas para evitar a recolha indiscriminada de dados pessoais para fins de formação algorítmica.

Os operadores de sites são obrigados a proteger os dados pessoais dos usuários contra verificações automatizadas

A posição do Fiador parece clara. Os operadores dos sites são responsáveis ​​pelo tratamento dos dados pessoais presentes nos conteúdos que publicam. A publicação pode ocorrer a pedido dos utilizadores, como mencionado anteriormente (pense numa rede social, num fórum, em áreas de discussão,…), mas também para fins informativos (incluindo direitos de denúncia), com base em interesses legítimos, para efeitos de transparência (obrigações legais) e assim por diante.

A rigor, portanto, o responsável pelo tratamento de dados deve demonstrar que fez todo o possível para roubar dados pessoais para digitalização e aquisição para efeitos de processamento subsequente dos algoritmos que irão então treinar algoritmos de IA.

O OpenAI That Google Bard permite que você defina o arquivo robots.txt de forma a bloquear web scraping em suas páginas. A Autoridade parece estar a olhar para estas soluções com interesse ainda que, é preciso dizer, nem todas as plataformas que disponibilizam modelos generativos os disponibilizam.

Em essência, a obrigação recai sobre o editor de adotar todas as precauções necessárias para evitar o acesso não autorizado às informações pessoais por terceiros. É imperativo que esta questão seja abordada de forma proativa para prevenir potenciais conflitos.

Após nosso exame minucioso do assunto, reservamo-nos a prerrogativa de implementar ações imediatas conforme considerado apropriado. Consequentemente, esta questão voltará a ocupar o primeiro plano num futuro próximo.

barra lateral inferior relacionada 300

*️⃣ Link da fonte:

OpenAI ,