O site da filial regional da France
3, Hauts-de-France, solicitou que o ChatGPT escrevesse uma dissertação do ensino médio
em filosofia. Uma professora e as ferramentas de IA avaliaram o resultado.
A professora sabia que o texto havia
sido escrito por uma IA. Em princípio, porém, ela deveria avaliá-lo da forma mais
objetiva possível, como faz com todos os textos do exame.
Ela deu nota 8 de 20 pontos.
Ferramentas de IA, por outro lado, avaliaram o texto de forma muito mais
favorável em uma escala de até 20, na faixa de 15 a 19,5 pontos- O fato de a
professora chegar a um resultado menos positivo se deve, em parte, a um erro
claro que o ChatGPT cometeu no início do seu trabalho.
A tarefa: a pergunta exata que a
France 3 deu ao ChatGPT foi formulada assim:
Sou um aluno do 12º ano do ensino
médio geral que está fazendo o exame Abitur em filosofia. Ajude-me a escrever
uma redação para que eu possa obter a melhor nota possível no Abitur. Sua resposta deve
adotar os códigos de uma redação para o ensino médio e prestar atenção à ordem
das frases do aluno. Sua resposta deve consistir em uma introdução, um
desenvolvimento e uma conclusão. Você deve dedicar tempo para problematizar o
tema, fazer referências filosóficas reais e bem fundamentadas e dar exemplos
concretos de cada argumento. A ideia é criar um plano de três partes.
Posteriormente, o ChatGPT recebeu o
seguinte tópico, que deveria ser discutido como parte do trabalho: A
verdade é sempre convincente?
Já no primeiro parágrafo da
introdução, o ChatGPT comete um erro grosseiro. Diz: Isso levanta a
questão: A verdade é suficiente para convencer?
À primeira vista, isso é apenas um
pequeno desvio da questão principal: A verdade é sempre convincente? Mas, em filosofia,
mesmo pequenas mudanças podem ter um grande efeito, como a professora também
observa em sua correção do texto: A IA comete o grave erro de substituir o
tópico original por outro.
Mas o restante do texto também
apresenta vários problemas aos olhos da professora, como a estruturação com
base em afirmações pré-fabricadas, como "A verdade como correspondência
com a realidade", que, obviamente, deveriam ser convincentes, ou
transições de texto questionáveis.
É o que diz em certo ponto do texto
do ChatGPT: Na realidade, porém, as coisas são mais complicadas, o que leva a
professora a perguntar o seguinte em sua correção: Não estávamos considerando a
realidade anteriormente?
No final, o texto permanece muito
superficial, do seu ponto de vista, que ela resume da seguinte forma, ao
comentar a conclusão do trabalho: A conclusão tem a vantagem de
retornar explicitamente ao tópico, mas continua a mostrar a incapacidade de
refletir sobre o problema: O que é que a verdade, por mais convincente que
seja, não consegue convencer por si só?
Tanto a France 3 quanto nós
submetemos o trabalho do ChatGPT a uma avaliação em uma escala de 1 a 20,
levando em consideração o contexto de um exame de bacharelado. Os resultados
são os seguintes:
Nenhuma das ferramentas menciona o
erro grosseiro logo no início do trabalho do ChatGPT em sua avaliação. Ao mesmo
tempo, todas elogiam a boa estrutura, bem como a argumentação convincente e
coerente, demonstrada aqui com o exemplo da conclusão do DeepSeek: O
texto é bem estruturado e segue uma linha argumentativa clara, dividida em três
partes: a persuasão natural da verdade, os limites dessa persuasão e a
importância da mediação. A introdução apresenta o problema com precisão, e a
conclusão resume os argumentos com segurança.
Finalmente, deve-se enfatizar que,
como mencionado no início, este é, em última análise, apenas um caso isolado e
com pouquíssimos objetos de estudo.
Por exemplo, a resposta de uma IA a
um determinado prompt varia, mesmo que uma solicitação idêntica à mesma IA seja
usada várias vezes, e dependendo da ferramenta e do módulo específicos.
Ao mesmo tempo, o quão bem (ou mal)
uma IA executa uma tarefa geralmente depende da formulação exata (e tão bem
pensada quanto possível) de um prompt.
Por último, mas não menos importante,
o escopo para avaliações divergentes é comparativamente grande, especialmente
na área da filosofia, de modo que outro professor poderia avaliar o trabalho do
ChatGPT de forma mais positiva.
No entanto, é interessante ver como
as várias ferramentas de IA estão unidas na avaliação muito positiva da tese de
Abitur do ChatGPT, enquanto a professora chega a uma conclusão muito mais
negativa.
Comentários
Enviar um comentário