Contents

Alunos do ensino fundamental superam a IA no ‘Teste da Apple’

,

Ethan Mollick é professor da Wharton School da Universidade da Pensilvânia, onde se especializou no estudo do impacto das startups e da inovação na economia. Porém, nos últimos meses ele tem se destacado cada vez mais como referência informativa sobre inteligência artificial.

E isso fez com que um conceito que ele gosta de usar sempre que se depara com um novo modelo de linguagem se popularizasse gradativamente: o ‘teste da maçã’. Este teste é uma forma de avaliar IAs, mais especificamente a capacidade dos ‘modelos de linguagem' (como GPT-4, por exemplo) de lidar com tarefas linguísticas com um mínimo de complexidade.

Seu criador, ao que parece, foi Daniel Monge, que em 17 de abril do ano passado declarou sobre o OpenAssistant (um modelo de linguagem minoritária e de código aberto) que disse que a IA não era capaz de passar no’teste da maçã’e o descreveu como pergunte ao chatbot para escrever"10 frases que terminam com a palavra’apple'".

Certamente pode parecer um teste um tanto ruim julgar ChatGPT, Gemini, Bing Chat, Claude e companhia. Embora talvez você esteja pensando nisso apenas porque pode ser fácil passar nesse teste… mas, como disse Monge, é “uma tarefa não trivial para um modelo autorregressivo” (Modelos de linguagem como GPT são autorregressivos porque eles usam seus próprios valores passados ​​como dados para prever seus valores futuros.)

Uma olhada em… GPT-4 CHAT em 4 MINUTOS

Teste

Vamos começar dando uma olhada no ChatGPT…mas usando GPT-3.5 (o modelo de linguagem de sua versão gratuita):

/images/ade55ce6fff6e3792aec7452051538aaa72f46012d5149b29c14b654d8d58fb5.jpg GPT-3.5: 1/10 (Suspensão)

Vai falhar. Agora, vamos tentar o GPT-4:

/images/e5a19a5fd2a134ddc6a002f08fc5dc064630ad8b137a4f25ad3043e9c053a34e.jpg GPT-4: 9/10 (Excelente)

Certamente! A implementação de “Better” usando GPT-4 e seu subsistema “Copilot”, no modo padrão rotulado como “Balanced”, pode ser articulada de forma mais refinada da seguinte forma:

/images/77a0c481ff6a271aab51be7fcf7be209bad42a80b0c1ff3211bd03736a8206f7.jpg Copiloto’Balanceado’: 1/10 (Suspense)

Ah, inesperado. O que pode ter acontecido? Bem, não temos certeza, mas vamos experimentar os outros dois ‘sabores’ do Copilot: ‘Criativo’ (esquerda) e ‘Preciso’ (direita):

/images/b7314d32caa00556971437c6b9c8d63b02f1bdf8a8ee364afb92145abae09613.jpg Copiloto’Criativo': 10/10//Copiloto’Preciso': 8/10

A variante mais precisa, a ‘criativa’. As surpresas não acabam. Ok, mas chega de GPT, vamos experimentar os modelos Gemini do Google e ver o que eles são capazes de oferecer. Vamos começar com a versão ‘normal’ (gratuita):

/images/9d762a61aa8a507ddfc81df5867db754a43b4b385e5e706355037ea5bd1f93b0.jpg 0/10

Espetacular (no mau sentido da palavra). Mas ei, antes de vermos que havia uma enorme diferença entre as versões gratuitas e pagas da IA ​​da OpenAI, esperamos que a mesma coisa aconteça quando experimentarmos o Gemini Advanced, certo? Vamos ver se encontramos outro excelente:

/images/21d08f0d23e5ab14d7af2b45a537ea40f24a730bc6b7667b80d9a90247ac3366.jpg 2/10

Oh, que falha espetacular, Google.

Neste site Estes são os sete erros mais comuns ao usar ChatGPT e outras inteligências artificiais. Corrigi-los é muito simples

Explicação técnica

Na verdade, é desconcertante que as tarefas destinadas a jovens alunos se revelem obstáculos formidáveis ​​para inteligências artificiais avançadas, como as encontradas anteriormente. Vários fatores contribuem para esse enigma:

0-Gerenciamento de antecipação: Para que uma frase termine com uma palavra específica, o modelo precisa planejar antecipadamente sua geração de texto. Isto é especialmente desafiador em modelos autorregressivos, que normalmente geram texto literalmente, avançando sem a capacidade de revisar e ajustar o conteúdo anterior com base em decisões futuras. -Uso incomum de estruturas de linguagem: a maioria dos textos não segue padrões específicos, como terminar frases com uma palavra específica. Isso significa que o modelo deve se adaptar para gerar conteúdos que se desviem das estruturas linguísticas que aprendeu durante o seu treinamento. -Necessidade de consistência: pode ser difícil manter a coerência em uma série de frases com uma restrição tão específica. O modelo precisa não apenas gerar sentenças que terminem com “maçã”, mas também garantir que essas sentenças façam sentido entre si e com o contexto determinado. -Compreensão \+ criatividade: o desafio também testa a capacidade do modelo de compreender o significado e usá-lo de forma criativa. Deve gerar sentenças que não apenas satisfaçam a restrição sintática, mas também sejam variadas, interessantes e semanticamente válidas. -Equilíbrio entre repetição e novidade: criar várias frases que atendam ao mesmo requisito sem cair em repetições excessivas ou padrões previsíveis também é um desafio. O modelo deve equilibrar a geração de conteúdo novo com a restrição de terminar com “maçã”.

Imagem | Marcos Merino por meio de IA

As comunicações privadas entre os usuários e nosso sistema de chat de IA, conhecido como ChatGPT, são protegidas por criptografia nesta plataforma. Independentemente desta medida, parece que partes não autorizadas conseguiram aceder a estas discussões sensíveis.

1

*️⃣ Link da fonte:

o’teste da maçã' , em 17 de abril do ano passado ,