PROFESSORA CORRIGE UMA DISSERTAÇÃO DO ENSINO MÉDIO ESCRITA VIA CHATGPT


Um caso interessante em que, sem surpresa, uma professora analisa a questão com mais atenção do que as ferramentas de inteligência artificial (IA). Em 16 de Junho, o exame Abitur de filosofia aconteceu na França. A segunda maior emissora de televisão pública do país, a France 3, aproveitou a oportunidade para um pequeno experimento. Do que se trata exatamente:

O site da filial regional da France 3, Hauts-de-France, solicitou que o ChatGPT escrevesse uma dissertação do ensino médio em filosofia. Uma professora e as ferramentas de IA avaliaram o resultado.

A professora sabia que o texto havia sido escrito por uma IA. Em princípio, porém, ela deveria avaliá-lo da forma mais objetiva possível, como faz com todos os textos do exame.

Ela deu nota 8 de 20 pontos. Ferramentas de IA, por outro lado, avaliaram o texto de forma muito mais favorável em uma escala de até 20, na faixa de 15 a 19,5 pontosO fato de a professora chegar a um resultado menos positivo se deve, em parte, a um erro claro que o ChatGPT cometeu no início do seu trabalho.

A tarefa: a pergunta exata que a France 3 deu ao ChatGPT foi formulada assim:

Sou um aluno do 12º ano do ensino médio geral que está fazendo o exame Abitur em filosofia. Ajude-me a escrever uma redação para que eu possa obter a melhor nota possível no AbiturSua resposta deve adotar os códigos de uma redação para o ensino médio e prestar atenção à ordem das frases do aluno. Sua resposta deve consistir em uma introdução, um desenvolvimento e uma conclusão. Você deve dedicar tempo para problematizar o tema, fazer referências filosóficas reais e bem fundamentadas e dar exemplos concretos de cada argumento. A ideia é criar um plano de três partes.

Posteriormente, o ChatGPT recebeu o seguinte tópico, que deveria ser discutido como parte do trabalho: A verdade é sempre convincente?

Já no primeiro parágrafo da introdução, o ChatGPT comete um erro grosseiro. Diz: Isso levanta a questão: A verdade é suficiente para convencer?

À primeira vista, isso é apenas um pequeno desvio da questão principal: A verdade é sempre convincente? Mas, em filosofia, mesmo pequenas mudanças podem ter um grande efeito, como a professora também observa em sua correção do texto: A IA comete o grave erro de substituir o tópico original por outro.

Mas o restante do texto também apresenta vários problemas aos olhos da professora, como a estruturação com base em afirmações pré-fabricadas, como "A verdade como correspondência com a realidade", que, obviamente, deveriam ser convincentes, ou transições de texto questionáveis.

É o que diz em certo ponto do texto do ChatGPT: Na realidade, porém, as coisas são mais complicadas, o que leva a professora a perguntar o seguinte em sua correção: Não estávamos considerando a realidade anteriormente?

No final, o texto permanece muito superficial, do seu ponto de vista, que ela resume da seguinte forma, ao comentar a conclusão do trabalho: A conclusão tem a vantagem de retornar explicitamente ao tópico, mas continua a mostrar a incapacidade de refletir sobre o problema: O que é que a verdade, por mais convincente que seja, não consegue convencer por si só?

Tanto a France 3 quanto nós submetemos o trabalho do ChatGPT a uma avaliação em uma escala de 1 a 20, levando em consideração o contexto de um exame de bacharelado. Os resultados são os seguintes:

Nenhuma das ferramentas menciona o erro grosseiro logo no início do trabalho do ChatGPT em sua avaliação. Ao mesmo tempo, todas elogiam a boa estrutura, bem como a argumentação convincente e coerente, demonstrada aqui com o exemplo da conclusão do DeepSeek: O texto é bem estruturado e segue uma linha argumentativa clara, dividida em três partes: a persuasão natural da verdade, os limites dessa persuasão e a importância da mediação. A introdução apresenta o problema com precisão, e a conclusão resume os argumentos com segurança.

Finalmente, deve-se enfatizar que, como mencionado no início, este é, em última análise, apenas um caso isolado e com pouquíssimos objetos de estudo.

Por exemplo, a resposta de uma IA a um determinado prompt varia, mesmo que uma solicitação idêntica à mesma IA seja usada várias vezes, e dependendo da ferramenta e do módulo específicos.

Ao mesmo tempo, o quão bem (ou mal) uma IA executa uma tarefa geralmente depende da formulação exata (e tão bem pensada quanto possível) de um prompt.

Por último, mas não menos importante, o escopo para avaliações divergentes é comparativamente grande, especialmente na área da filosofia, de modo que outro professor poderia avaliar o trabalho do ChatGPT de forma mais positiva.

No entanto, é interessante ver como as várias ferramentas de IA estão unidas na avaliação muito positiva da tese de Abitur do ChatGPT, enquanto a professora chega a uma conclusão muito mais negativa.

Comentários