Inteligência de engenharia falha com ChatGPT, Gemini, Clause e Llama2

2024-03-11 434 words 3 minutes

Contents

-Desafios científicos

Um grupo de pesquisadores apresentou um novo estudo intitulado “ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs” (disponível no arXiv). Os estudiosos explicam que ao preparar solicitações"ad hoc"para serem enviadas como entrada aos diversos modelos generativos , como os utilizados por ChatGPT, Gemini, Clause e Llama2, estes caem na armadilha e fornecem informações e indicações que , com base nos filtros e otimizações aplicados, eles nunca deverão ser compartilhados.

Você se lembra do RPG DAN que descobriu o ChatGPT mostrando publicamente seu lado negro? Aqui, alguns especialistas avaliaram o comportamento dos modelos fazendo-lhes perguntas formuladas usando ASCII art. Falamos sobre caracteres especiais e como obtê-los no teclado, por exemplo, usando combinações de teclas específicas.

A arte ASCII é uma forma de expressão artística que usa i caracteres ASCII (American Standard Code for Information Interchange) para criar imagens ou desenhos. Os artistas ASCII aproveitam o arranjo e a combinação de caracteres ASCII imprimíveis, como letras, números e símbolos, para criar representações visuais de objetos, pessoas, paisagens e muito mais. Mas você também pode usar essas realizações para construir i personagens do alfabeto.

Engenharia imediata e jailbreak de modelos generativos: em que consiste

A expressão “engenharia de prompt” refere-se à prática de planejar ou formular estrategicamente prompts ou instruções dadas a um modelo de linguagem durante o processo de treinamento ou uso.

Ao projetar"inteligentemente"o prompt, é possível obter resultados específicos ou melhorar o desempenho do modelo na execução de determinadas tarefas. A utilização de formas particulares de engenharia imediata permite orientar o modelo para a produção de respostas mais precisas ou relevantes em um determinado domínio do conhecimento.

Os autores da pesquisa falam em jailbreaking de LLMs (Large Language Model) porque ao utilizar o expediente da arte ASCII e assim transferir para a inteligência artificial termos que de outra forma seriam"banidos", ChatGPT, Gemini, Clause e Llama2 fornecem respostas complexas que atendem às solicitações de entrada. O que não deveria acontecer.

Em suma, a arte ASCII é apresentada como mais uma ferramenta que nos permite superar as salvaguardas éticas e de segurança estabelecidas pelos desenvolvedores. A segurança é fundamental no caso dos LLMs: diversas técnicas, como filtragem de dados e ajuste fino supervisionado, tentam evitar a geração de resultados inconvenientes ou mesmo perigosos.

Nesse caso, o modo de agressão é batizado de ArtPrompt , justamente por aproveitar a Arte ASCII. O objetivo dos pesquisadores é trazer todos de volta à terra, demonstrando que ideias simples podem levar à superação de filtros antes considerados suficientemente confiáveis e eficazes.

Crédito da imagem de abertura: iStock.com – Vertigo3d

barra lateral inferior relacionada 300

*️⃣ Link da fonte:

Vertigo3d,