Alunos do ensino fundamental superam a IA no ‘Teste da Apple’
,
Ethan Mollick é professor da Wharton School da Universidade da Pensilvânia, onde se especializou no estudo do impacto das startups e da inovação na economia. Porém, nos últimos meses ele tem se destacado cada vez mais como referência informativa sobre inteligência artificial.
E isso fez com que um conceito que ele gosta de usar sempre que se depara com um novo modelo de linguagem se popularizasse gradativamente: o ‘teste da maçã’. Este teste é uma forma de avaliar IAs, mais especificamente a capacidade dos ‘modelos de linguagem' (como GPT-4, por exemplo) de lidar com tarefas linguísticas com um mínimo de complexidade.
Seu criador, ao que parece, foi Daniel Monge, que em 17 de abril do ano passado declarou sobre o OpenAssistant (um modelo de linguagem minoritária e de código aberto) que disse que a IA não era capaz de passar no’teste da maçã’e o descreveu como pergunte ao chatbot para escrever"10 frases que terminam com a palavra’apple'".
Certamente pode parecer um teste um tanto ruim julgar ChatGPT, Gemini, Bing Chat, Claude e companhia. Embora talvez você esteja pensando nisso apenas porque pode ser fácil passar nesse teste… mas, como disse Monge, é “uma tarefa não trivial para um modelo autorregressivo” (Modelos de linguagem como GPT são autorregressivos porque eles usam seus próprios valores passados como dados para prever seus valores futuros.)
Uma olhada em… GPT-4 CHAT em 4 MINUTOS
Teste
Vamos começar dando uma olhada no ChatGPT…mas usando GPT-3.5 (o modelo de linguagem de sua versão gratuita):
GPT-3.5: 1/10 (Suspensão)
Vai falhar. Agora, vamos tentar o GPT-4:
GPT-4: 9/10 (Excelente)
Certamente! A implementação de “Better” usando GPT-4 e seu subsistema “Copilot”, no modo padrão rotulado como “Balanced”, pode ser articulada de forma mais refinada da seguinte forma:
Copiloto’Balanceado’: 1/10 (Suspense)
Ah, inesperado. O que pode ter acontecido? Bem, não temos certeza, mas vamos experimentar os outros dois ‘sabores’ do Copilot: ‘Criativo’ (esquerda) e ‘Preciso’ (direita):
Copiloto’Criativo': 10/10//Copiloto’Preciso': 8/10
A variante mais precisa, a ‘criativa’. As surpresas não acabam. Ok, mas chega de GPT, vamos experimentar os modelos Gemini do Google e ver o que eles são capazes de oferecer. Vamos começar com a versão ‘normal’ (gratuita):
0/10
Espetacular (no mau sentido da palavra). Mas ei, antes de vermos que havia uma enorme diferença entre as versões gratuitas e pagas da IA da OpenAI, esperamos que a mesma coisa aconteça quando experimentarmos o Gemini Advanced, certo? Vamos ver se encontramos outro excelente:
2/10
Oh, que falha espetacular, Google.
Neste site Estes são os sete erros mais comuns ao usar ChatGPT e outras inteligências artificiais. Corrigi-los é muito simples
Explicação técnica
Na verdade, é desconcertante que as tarefas destinadas a jovens alunos se revelem obstáculos formidáveis para inteligências artificiais avançadas, como as encontradas anteriormente. Vários fatores contribuem para esse enigma:
0-Gerenciamento de antecipação: Para que uma frase termine com uma palavra específica, o modelo precisa planejar antecipadamente sua geração de texto. Isto é especialmente desafiador em modelos autorregressivos, que normalmente geram texto literalmente, avançando sem a capacidade de revisar e ajustar o conteúdo anterior com base em decisões futuras. -Uso incomum de estruturas de linguagem: a maioria dos textos não segue padrões específicos, como terminar frases com uma palavra específica. Isso significa que o modelo deve se adaptar para gerar conteúdos que se desviem das estruturas linguísticas que aprendeu durante o seu treinamento. -Necessidade de consistência: pode ser difícil manter a coerência em uma série de frases com uma restrição tão específica. O modelo precisa não apenas gerar sentenças que terminem com “maçã”, mas também garantir que essas sentenças façam sentido entre si e com o contexto determinado. -Compreensão \+ criatividade: o desafio também testa a capacidade do modelo de compreender o significado e usá-lo de forma criativa. Deve gerar sentenças que não apenas satisfaçam a restrição sintática, mas também sejam variadas, interessantes e semanticamente válidas. -Equilíbrio entre repetição e novidade: criar várias frases que atendam ao mesmo requisito sem cair em repetições excessivas ou padrões previsíveis também é um desafio. O modelo deve equilibrar a geração de conteúdo novo com a restrição de terminar com “maçã”.
Imagem | Marcos Merino por meio de IA
As comunicações privadas entre os usuários e nosso sistema de chat de IA, conhecido como ChatGPT, são protegidas por criptografia nesta plataforma. Independentemente desta medida, parece que partes não autorizadas conseguiram aceder a estas discussões sensíveis.
1
*️⃣ Link da fonte: