O problema da IA já não são as alucinações, mas sim acertar bem demais

Um dos temas de discussão frequente pelos utilizadores de Large Language Models são as alucinações, as falhas nos resultados que obtemos quando colocamos um desafio a qualquer sistema de Inteligência Artificial. Toda a gente tem ou conhece uma situação anedótica em que uma resposta foi totalmente fora do contexto e da imagem ou vídeo que apresenta pessoas com 6 dedos ou mais do que um par de mãos. Mas e quando a IA acerta cada vez melhor? Como reagimos? Confiamos e…

O AI Fluency Index da Anthropic (2026) analisou milhares de interações e identificou uma tendência clara: quanto mais limpo e completo parece o output da IA, menor a probabilidade de ser verificado (1). A mesma tendência já tinha sido identificada em situações onde as respostas são apresentadas de forma detalhada e estruturada passo a passo, aumentando a confiança e reduzindo ainda mais a propensão para questionar os resultados (2). O erro evidente levanta suspeitas, o erro potencial passa, levando a que o texto bom, paradoxalmente, seja o mais perigoso, não porque esteja certo ou errado, mas porque parece suficientemente certo para não ser escrutinado.

Para além da confiança existem outros fatores. Um deles é o automation bias, a tendência para aceitar automaticamente a resposta de um sistema automatizado, mesmo quando está errada ou deva ser reavaliada. Este comportamento, bastante estudado pela psicologia cognitiva em contextos como a aviação e a medicina, sugere que profissionais experientes que o adotam ignoram informação crítica e seguem de forma automatizada recomendações erradas sugeridas pelos equipamentos (3). Também a economia cognitiva é associada à utilização de sistemas de apoio à decisão (4). A poupança de energia pode ser relacionada com o benefício esperado: por exemplo, numa tarefa de baixo risco, o resultado da IA pode ser mais facilmente aceite sem verificação; se pelo contrário, for uma tarefa muito complexa, é também mais económico aceitar o resultado do que verificar a sua autenticidade.

E o expoente máximo é a “rendição cognitiva” (cognitive surrender), um conceito recentemente formalizado, que descreve a adoção das respostas da IA sem qualquer escrutínio, abdicando do próprio julgamento crítico (5). Num conjunto de três experiências com mais de 1.300 participantes, os autores demonstraram que este comportamento aumenta a confiança dos utilizadores, mesmo perante erros óbvios da máquina.

Participantes que consultavam um modelo de linguagem de IA seguiam as suas recomendações em cerca de 80% dos casos, mesmo quando estas estavam deliberadamente erradas e faziam-no com mais confiança do que quando respondiam sozinhos.

O fenómeno é mais pronunciado em pessoas com elevada confiança na tecnologia ou menor motivação para o esforço analítico e pode ser mais frequente do que se pensa. Já no passado tinha sido demonstrado que o acesso constante a motores de busca na Internet altera os nossos processos cognitivos e a retenção de dados. Numa série de quatro experiências publicadas na revista Science, quando colocado perante questões difíceis o cérebro humano é condicionado a pensar imediatamente em computadores como ferramenta de auxílio e a esquecer informações que acreditamos estarem guardadas digitalmente, focando a nossa memória apenas na localização onde esses dados podem ser recuperados (6).

Nesta avaliação de alterações comportamentais, investigadores do MIT que acompanharam utilizadores do Chat GPT ao longo de vários meses e apresentam indicadores ainda mais perturbadores: uma redução do envolvimento cognitivo com diminuições mensuráveis ao nível neural, linguístico e comportamental fruto da utilização de IA (7). E pior, o efeito agravou-se com o tempo. Os participantes não eram menos exigentes no início, mas à medida que o tempo foi passando tornaram-se menos exigentes. O que confirma resultados anteriores que apontavam para uma erosão progressiva do pensamento crítico de alguns utilizadores, fruto do uso frequente de ferramentas de Inteligência Artificial (8), basicamente deixando de pensar.

Como se já não bastasse, em paralelo com a perspetiva comportamental, é também relevante considerar a natureza do desempenho da IA ao nível das tarefas. Num estudo com 758 consultores da empresa BCG nos EUA, sugere-se que a IA não melhora o desempenho de forma uniforme, operando antes numa “jagged technological frontier” (9). Este conceito sugere que os modelos de linguagem não são bons para todas as tarefas e que existe uma fronteira irregular que afeta a produtividade dos trabalhadores do conhecimento, pois algumas tarefas podem ser totalmente automatizadas, enquanto outras exigem supervisão humana total para corrigir erros. Esta fronteira não tem contornos definidos de forma clara, move-se à medida que os modelos de IA evoluem, é desigual, porque podemos resolver problemas extremamente complexos (dentro da fronteira) e, ao mesmo tempo, falhar em tarefas simples ou triviais (fora da fronteira) e é de difícil previsão, uma vez os utilizadores não sabem, com antecedência, que tarefa a IA realizará bem e qual falhará.

Assim, da próxima vez que usar um modelo de linguagem ou avaliar a utilização na sua equipa ou organização, reserve um momento para observar os seus comportamentos com a ferramenta. Que tarefas estão a ser delegadas sem verificação? Onde é que os resultados são aceites por serem “bons o suficiente”? A resposta a estas perguntas pode revelar pontos de melhoria concretos e ajudar a distinguir as tarefas em que a utilização de IA é mais adequada. As melhores práticas estão ainda a ser definidas, mas a recolha e análise consistente destes indicadores pode levar a melhorias do desempenho pessoal, das equipas e das organizações. Se tiver curiosidade, no próximo artigo darei continuidade a este tema, apresentando os centauros, ciborgues e o mais recente modo de co-criação com IA os auto-automadores.

(1) Anthropic (2026). AI Fluency Index. anthropic.com/research/AI-fluency-index

(2) Vasconcelos, H., et al. (2023). Explanations Can Reduce Overreliance on AI Systems During Decision-Making. Proceedings of the ACM on Human-Computer Interaction.

(3) Mosier, K. L. and Skitka, L. J. (1996). Human Decision Makers and Automated Decision Aids: Made for Each Other? In R. Parasuraman and M. Mouloua (Eds.), Automation and Human Performance. Erlbaum.

(4) Cummings, M. L. (2004). Automation Bias in Intelligent Time Critical Decision Support Systems. AIAA 1st Intelligent Systems Technical Conference.

(5) Shaw, S. D. and Nave, G. (2026). Thinking—Fast, Slow, and Artificial: How AI is Reshaping Human Reasoning and the Rise of Cognitive Surrender. SSRN Working Paper 6097646.

(6) Sparrow, B., Liu, J. and Wegner, D. M. (2011). Google Effects on Memory: Cognitive Consequences of Having Information at Our Fingertips. Science, 333(6043), pp. 776–778.

(7) Breum, S., et al. (2025). Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task. MIT Media Lab.

(8) Gerlich, M. (2025). AI and Cognitive Load: How Reliance on AI Tools Affects Critical Thinking. Societies, 15(1), 6.

(9) Dell’Acqua, F., McFowland, E., Mollick, E., et al. (2026). Navigating the Jagged Technological Frontier. Organization Science. [Preprint original: setembro 2023, SSRN 4573321]

Insights Relacionados

Tem os dados todos. E agora?

Relatório do Contexto Empresarial em Abril de 2026

La amistad y el mundo de los negocios

Há +45 anos a preparar líderes. Chegou a sua vez?