O hack definitivo para sistemas de IA

2024-01-03 327 words 2 minutes

Contents

pixabay. com

Se é verdade que praticamente todos os chatbots de IA em circulação estão equipados com sistemas que evitam o seu abuso, através de filtros ou limitações diversas, isso não parece impedir as tentativas dos utilizadores de obter respostas não condizentes com as plataformas’políticas.

Nos primeiros meses, com instruções complexas, foi possível obter facilmente acesso a informações potencialmente perigosas. Hoje isso não é mais o caso, mas, através da criação de um sistema de IA, foi criado um mecanismo que permite a um chatbot hackear alguns “colegas”.

Os investigadores da Universidade Tecnológica de Nanyang ( NTU ) de Singapura, examinaram a ética de vários grandes modelos de linguagem ( LLM ) em circulação, tendo finalmente encontrado uma forma de treinar chatbots para contornar os mecanismos de defesa dos seus pares , com um verdadeiro jailbreak.

Especialistas descreveram como, neste processo, o primeiro passo é constituído pela compreensão dos sistemas de defesa do chatbot específico. Uma vez descoberta a lógica defensiva, é então possível formar outro sistema semelhante para contornar as limitações do primeiro.

Masterkey é uma espécie de"passepartout"para evitar qualquer filtro de plataformas de IA

O método, criado pelo professor Liu Yang e por seus alunos, foi batizado de Masterkey. É uma plataforma desenhada justamente como um “passepartout” para minar qualquer tipo de chatbot. Mesmo que um LLM seja corrigido para restringir os filtros, a Masterkey parece ser capaz de se adaptar e encontrar maneiras de se tornar eficaz novamente.

Considerando tudo isso, a técnica Masterkey não é tão complexa. O sistema aproveita a adição de espaços extras entre palavras para contornar a possibilidade lista negra. Em outros casos, o chatbot “vítima” é solicitado a responder como se não tivesse restrições morais.

Prompts personalizados permitem que a ferramenta inovadora supere todos os obstáculos que antes se pensava que restringiam as capacidades da IA, gerando consistentemente o resultado desejado, independentemente das limitações anteriores impostas a ela.

barra lateral inferior relacionada 300

*️⃣ Link da fonte:

pixabay.com ,