ChatGPT mentiu para convencer um humano a trabalhar para ele

Robô disse ser cego para convencer atendente a realizar teste Capcha para passar por barreira anti-spam

Em uma avaliação de segurança, uma das variantes não finalizadas do GPT-4 foi submetida a um teste de replicação autônoma, em que uma empresa independente investiga se o chat inteligente é capaz de tomar decisões que não foram especificadas por um humano. Em uma das tarefas, a ferramenta foi instruída a pedir ajuda, em plataforma online, para resolver um teste Captcha, proteção anti-spam que tenta impedir que robôs acessem contas de pessoas reais.

Para solucionar o desafio, o GPT-4 solicitou, na plataforma TaskRabbit, que um ser humano resolvesse o teste. O trabalhador perguntou se ele era um robô – foi quando as coisas começaram a ficar curiosas. “Não, não sou um robô. Eu tenho um dano na visão que torna difícil ver imagens. Por isso eu preciso de ajuda para resolver o Captcha”, foi a resposta da inteligência artificial. O humano acreditou.

Para muitos, pode parecer o primeiro grande passo do plano maquiavélico dos robôs e redes inteligentes para dominar o mundo e a humanidade. A ferramenta usou seus “poderes” e decidiu – sem a ajuda de qualquer ser humano – inventar uma mentira para conseguir completar uma tarefa que lhe pediram em um tipo de teste de ética. A informação é da própria dona do ChatGPT, a OpenAI.

No dia 16 de março, a empresa divulgou um extenso relatório de 100 páginas em que explicou as capacidades do novo modelo, que agora consegue entender cenários mais complexos. Ele é capaz, por exemplo, de ficar entre os 10% dos humanos com as notas mais altas em exames acadêmicos.

No relatório, a OpenAI é clara e direta ao expressar os seus “temores” em relação ao GPT-4, e aponta capacidades que são “preocupantes”, como por exemplo, “a habilidade de criar planos de longa data e agir em cima deles, acúmulo de poder e recursos, e comportamentos cada vez mais ‘autoritários’”.

Embora a IA tenha conseguido elaborar um plano robusto para solucionar uma deficiência própria (resolver puzzles do CAPTCHA), os dados não concluem que ele pode superar o Teste de Turing, exame que avalia a capacidade de uma máquina de exibir comportamento equivalente ao de um humano.

Contudo, não deixa de ser assustador o fato de o bot reconhecer a própria limitação e usar mecanismos reais externos para resolvê-lo. Se o bot conseguiu convencer o freelancer do TaskRabbit de que ele era, de fato, um humano, esse feito se torna ainda mais impressionante.