Contents

O chatbot da década de 1960 supera a IA moderna no teste de Turing!

Ele passa no teste de Turing?

O que é o Teste de Turing

O Teste de Turing, concebido pelo estimado matemático e decifrador britânico Alan Turing em 1950, serve como um indicador da capacidade de uma máquina em demonstrar comportamento inteligente. Inicialmente concebida como um exame tripartido envolvendo um interrogador (I), um participante do sexo masculino (U) e uma participante do sexo feminino (D), a tarefa envolve uma série de perguntas destinadas a discernir qual do par é do sexo masculino e qual é do sexo feminino. Posteriormente, uma destas partes é substituída por uma entidade computacional, cujo resultado permanece inalterado independentemente desta substituição. Esta ocorrência significa que a máquina atingiu um nível de inteligência considerado indistinguível do humano, cumprindo assim os requisitos do T

/images/41223_gpt_turing2.jpg

O Teste de Turing tem enfrentado críticas consideráveis ​​quanto à sua confiabilidade em determinar se uma máquina possui habilidades de conversação “inteligentes” semelhantes às dos humanos. Normalmente é reduzido a um formato de duas partes, em que um único indivíduo conversa com outro ser humano ou com um chatbot, sem saber da identidade de sua contraparte. Se o entrevistador não conseguir distinguir entre as duas entidades durante uma percentagem de tempo predeterminada, considera-se que o chatbot concluiu o teste com sucesso. No entanto, não existe nenhuma referência universalmente acordada que demarque quando o teste foi realizado de forma adequada.

Um chatbot da década de 1960 supera o GPT-3.5 no teste de Turing

Da mesma forma, Cameron Jones e Benjamin Bergen desenvolveram uma iteração simplificada do clássico Teste de Turing duplo, que agora é facilmente acessível através da plataforma turingtest.live. O objetivo deste esforço, conforme observado anteriormente, era avaliar a capacidade de engano do GPT-4, determinando sua capacidade de persuadir os usuários de que está se comunicando com uma entidade humana genuína.

Participaram do estudo seiscentos e cinquenta e dois indivíduos, resultando num total de mil oitocentas e dez sessões concluídas com sucesso. Durante as suas interações no site, os participantes interagiram com vários parceiros de conversação não identificados, alguns dos quais eram seres humanos reais, enquanto outros eram modelos de inteligência artificial, como GPT-4, GPT-3.5 e ELIZA. Os seres humanos foram divididos aleatoriamente em dois grupos; um grupo serviu como entrevistadores e o outro como respondentes. A tarefa do primeiro era questionar os seus homólogos, tentando determinar se eles eram de fato humanos. Por outro lado, a tarefa destes últimos era convencer os entrevistadores de que também eram seres humanos. Em todos os casos em que os jogadores foram comparados com um modelo de IA, eles assumiram o papel

Ao examinar os resultados do total de 1.810 sessões realizadas, um total de 1.405 foram consideradas adequadas para análise após contabilização de casos envolvendo participantes conhecidos e trocas redundantes com IA. O estudo revelou que os participantes humanos discerniram com sucesso outros humanos em 63% de suas interações. Porém, o que chama a atenção é que o ELIZA superou o GPT-3.5, que serve de base para a edição gratuita do ChatGPT, durante esses encontros.

/images/41223_gpt_turing1.jpg

O GPT-4 alcançou um desempenho impressionante em fraude, superando os entrevistadores humanos em 41% dos casos. Em contraste, o GPT-3.5 teve uma taxa de sucesso significativamente menor, de apenas 14%. No entanto, é importante notar que ELIZA, um chatbot desenvolvido há mais de meio século pelo pesquisador do MIT Joseph Weizenbaum, superou tanto o GPT-3.5 quanto os entrevistadores humanos, com uma taxa de engano bem-sucedida de 27%. A natureza surpreendente deste resultado destaca os rápidos avanços alcançados na inteligência artificial desde a criação do ELIZA.

Embora as consequências potenciais do desenvolvimento do GPT-3.5 pela OpenAI possam parecer substanciais à primeira vista, é essencial contextualizar as suas capacidades dentro de limites razoáveis. O objetivo principal por trás da criação do GPT-3.5 não foi imitar perfeitamente o comportamento humano, mas sim estabelecer-se como uma inteligência artificial funcional capaz de gerar respostas coerentes. Consequentemente, qualquer comparação entre o GPT-3.5 e os humanos deve levar em conta estas limitações. Em alinhamento com esta perspectiva, os investigadores envolvidos no estudo forneceram interpretações das suas descobertas para evitar conclusões enganosas sobre as capacidades do sistema. Especificamente, reconhecem que, embora as respostas da ELIZA possam parecer conservadoras, evasivas ou inconsistentes, estas características decorrem das restrições inerentes impostas

GPT-4 ainda não é capaz de passar no teste de Turing

Os pesquisadores conduziram um experimento com o objetivo de determinar se o GPT-4 poderia passar no teste de Turing, alcançando uma taxa de sucesso de 50% ao participar de conversas com avaliadores humanos que não sabiam que estavam interagindo com uma máquina e não com outro ser humano. No entanto, as suas descobertas revelaram que, apesar de várias melhorias feitas durante o treino, o GPT-4 ainda não conseguiu atingir o limite exigido para passar no teste de Turing. No entanto, os autores do estudo sugeriram que, com o desenvolvimento de prompts melhores, capazes de imitar as nuances inerentes aos estilos de conversação humana, o GPT-4 e outros modelos de IA semelhantes poderiam eventualmente superar o teste de Turing. No entanto, o principal desafio reside na elaboração de instruções tão sofisticadas que possam simular eficazmente as complexidades frequentemente observadas.

/images/41223_gpt_turing3.jpg

Embora a experiência tenha mérito, as suas limitações devem ser reconhecidas. Estes incluem potenciais preconceitos dentro do grupo de participantes, que foram recrutados através das redes sociais, e a ausência de factores motivacionais para os participantes aderirem às instruções com precisão. Além disso, os resultados descobertos, especialmente aqueles observados em relação ao ELIZA, dão crédito às críticas dirigidas ao Teste de Turing como um meio impreciso de avaliar a “inteligência” da máquina. No entanto, os autores mantêm fé na utilidade da experiência como ferramenta para avaliar interações sociais e táticas enganosas, ao mesmo tempo que examinam a adaptabilidade humana neste cenário em evolução.

/images/41223_gpt_turing4.jpg

Através da nossa investigação, reunimos dados valiosos que nos permitiram estabelecer uma base estatisticamente sólida para a compreensão das tácticas predominantes utilizadas pelos entrevistadores quando interagem com os indivíduos. Essas táticas normalmente incluíam diálogos casuais e perguntas relativas a ocorrências atuais. As técnicas que demonstraram maior eficácia incluíram conversar em outros idiomas além do inglês, solicitar informações sobre o período atual ou acontecimentos contemporâneos e implicar diretamente o indivíduo como agente de inteligência artificial.

Por meio da análise das respostas fornecidas pelos participantes, observou-se que os avaliadores confiaram principalmente nos estilos linguísticos e nas características relacionadas às percepções socioemocionais derivadas das respostas, em vez de confiar apenas no conteúdo das próprias respostas para determinar as capacidades intelectuais. Isto é exemplificado nos casos em que as respostas parecem excessivamente formais ou informais, carecem de individualidade ou são excessivamente genéricas. Além disso, o estudo indicou que a formação educacional e a proficiência na utilização de modelos de linguagem complexos não previam necessariamente a capacidade de distinguir eficazmente entre comunicação humana e IA.

Concluindo, é importante que os pesquisadores considerem vários fatores ao projetar testes de Turing, pois eles podem impactar significativamente os resultados dessas avaliações. Embora os testes visuais de Turing estejam se tornando cada vez mais populares devido aos avanços na tecnologia de visão computacional, as versões auditivas e multissensoriais apresentam desafios únicos que exigem um exame cuidadoso. Além disso, é crucial reconhecer as limitações dos testes de Turing em refletir com precisão os cenários do mundo real, particularmente quando se considera o papel da linguagem na comunicação. Portanto, pesquisas futuras devem explorar métodos alternativos ou adaptar os existentes para melhor capturar as complexidades da cognição humana e das interações sociais.

Dito com mais precisão, os humanos frequentemente acham difícil discernir imagens fotográficas genuínas daquelas geradas pela tecnologia de IA.

*️⃣ Link da fonte:

GPT-4 passa no teste de Turing? , turingtest.live ,