Contents

Criando Chatbots Confiáveis ​​por meio de Ensino Modesto

Uma crítica comum feita contra os sistemas generativos de inteligência artificial, como os chatbots, é a sua tendência para fornecer respostas incorretas ou insuficientemente explicativas, o que é referido como “alucinante”. O objetivo dos desenvolvedores de IA é minimizar esse fenômeno e melhorar a precisão e a clareza dos resultados gerados por esses sistemas.

A corporação Anthropic atualmente se concentra em resolver o problema mencionado acima e fez avanços significativos nesse sentido por meio de uma iteração atualizada de seu modelo sculpin, conhecido como Claude 2.1. Esta versão mais recente serve como concorrente do ChatGPT, uma renomada IA ​​de conversação desenvolvida pela OpenAI, conforme evidenciado por uma postagem recente no blog publicada pela empresa americana em 21 de novembro.

Um chatbot mais justo e mais cuidadoso em suas respostas

Na verdade, de acordo com a Anthropic, Claude 2.1 demonstrou uma melhoria notável na sinceridade quando comparado ao seu antecessor, Claude 2.0, cuja gênese remonta ao início de julho, com Claude 1.0 precedendo-o desde março. Alegadamente, o número de afirmações enganosas emitidas pelo chatbot diminuiu substancialmente entre estas iterações consecutivas do modelo de linguagem.

Para avaliar a precisão e confiabilidade do Claude 2.1, empregamos uma extensa gama de investigações intrincadas destinadas a atingir suas reconhecidas deficiências, conforme explicado pela Anthropic. Para ilustrar as suas conclusões, apresentaram várias representações gráficas que demonstram as disparidades de desempenho entre Claude 2.1 e outro modelo. Como parte do nosso processo de teste, exigimos que o Claude 2.1 admitisse ignorância sempre que não conseguisse fornecer uma resposta precisa.

/images/claude-2-vs-claude-21-1024x863.jpg A precisão das respostas e a propensão a responder ou não de Claude 2.0 e Claude 2.1.//Fonte: Anthropic

A cláusula 2.1 exibiu maior propensão para reter respostas em vez de fornecer informações errôneas, conforme observado pela Anthropic. Consequentemente, a ocorrência de alucinações diminuiu, conforme relatado pela empresa, passando de uma taxa de erro de aproximadamente 50% em consultas complexas para uma taxa de erro de cerca de 25%. Por outro lado, a Cláusula 2.1 demonstra maior proficiência em reconhecer casos em que lhe falta certeza.

A inclinação para evitar uma resposta intensificou-se visivelmente de aproximadamente 25% em conjunto com Claude 2.0 para quase metade (47%) quando emparelhado com Claude 2.1, conforme relatado pela Anthropic, embora abrangendo uma margem considerável de incerteza. No entanto, este desenvolvimento não alterou significativamente o equilíbrio de influência partilhado por ambas as versões. Consequentemente, parece mais prudente abster-se de fornecer qualquer resposta, em vez de correr o risco de disseminar informações erradas.

Melhor compreensão de textos difíceis

A Antrópico afirma ter feito progressos consideráveis ​​no aprimoramento da compreensão e na geração de resumos de conteúdo textual extenso e intrincado, incluindo demonstrações financeiras, manuais técnicos e contratos juridicamente vinculativos. Esses documentos normalmente exigem um alto nível de exatidão e precisão, de acordo com o comunicado da empresa.

Com base na avaliação realizada pela organização, Claude 2.1 apresentou uma melhoria significativa na precisão com uma diminuição de 30% nas respostas erradas e uma redução notável de aproximadamente três a quatro vezes menos tirar conclusões falsas sobre o suporte fornecido por um determinado documento para um afirmação específica. Esses resultados promissores são considerados encorajadores pela Anthropic, uma vez que a eficácia de um agente conversacional depende em grande parte da natureza confiável e precisa dos seus resultados.

Embora essas métricas mereçam consideração, é essencial exercer prudência, pois elas derivam das afirmações da Anthropic, baseadas em sua abordagem proprietária e em uma avaliação interna não especificada. Lamentavelmente, nenhuma informação complementar foi fornecida para revisão por pares e avaliação do ambiente de teste dentro da comunidade de IA.

O investimento da Amazon na ferramenta Anthropic demonstra o seu valor, como evidenciado pelo compromisso da empresa em alocar 4 mil milhões de dólares para o projeto. Além disso, a integração do escultor de Claude no projeto Bedrock ressalta ainda mais a utilidade do design da Anthropic.

*️⃣ Link da fonte:

uma postagem no blog , Claude 2.0 , Claude 1.0 ,