Integridade académica versus IA Generativa: Repensar o futuro da avaliação

Nos últimos 3 anos o surgimento de modelos generativos (ChatGPT, Gemini, Claude, Copilot) alterou radicalmente o cenário da avaliação académica. Ao mesmo tempo que abre oportunidades para feedback imediato e personalização, coloca em causa a equidade, a verificação de autoria e a validade dos resultados. Este artigo analisa exaustivamente os principais métodos de avaliação utilizados no ensino superior português, o seu grau de vulnerabilidade à IA Generativa e estratégias robustas para preservar a integridade académica, com enfoque no contexto lusófono e em conformidade com a legislação europeia (RGPD, AI Act).

Estrutura do artigo

Susceptibilidade global dos formatos de avaliação
Análise detalhada de cada método
Estratégias de mitigação e redesign
Ferramentas de deteção e respetivas limitações
Recomendações institucionais e políticas
Conclusão

Susceptibilidade geral dos principais formatos

Susceptibilidade de diferentes formatos de avaliação à utilização não detetada de IA generativa

Formato	Susceptibilidade IA	Evidência empírica	Estratégias de mitigação
Ensaios/trabalhos escritos em casa	Muito alta (≈94% passam despercebidos)1	Estudo-Turing Univ. Reading 20241	Redesign para tarefas processuais, reflexões metacognitivas, citação obrigatória de prompts, exames orais complementares
Projetos práticos longos	Média (23.8% de relatórios gerados por IA passaram)2	Student stress-test 20242	Registos de versão, apresentações síncronas, coavaliação, logs de IDE
Testes de escolha múltipla online	Alta se não monitorizados; porém 0% após análise estatística de padrões3	Hanson & FSU 2024 3	Item response analysis, bancos dinâmicos, proctoring limitado
Exame presencial escrito	Baixa (controlo físico)	Revisão de 12 estudos AI-cheating 2023-25 4	Supervisão humana, papel sem dispositivos
Exame oral síncrono	Muito baixa	THE Case-study 2024 5	Grades + gravação vídeo; rubricas claras
Portefólio digital progressivo	Baixa a média	Melbourne-CSHE 2023 6	Carimbos de data, feedback iterativo
Peer-review entre pares	Variável	AIAS piloto 2024 7	Transparência de prompts, coavaliação tutor
Avaliação automática de código	Média	CDIO 2024 sobre project-based AI 8	Plágio+similaridade, revisão oral
Laboratório presencial	Muito baixa	UC Londres 2025 meta-review	Supervisão, datasets inéditos

Ensaios e trabalhos escritos

Risco

94% das respostas ChatGPT em exames de psicologia passaram no crivo humano1.
Ferramentas de deteção (Turnitin AI, GPTZero) geram 1-20% de falsos positivos e até 35% de falsos negativos 9 10 11.

Ações

Reduzir peso de produtos finais; avaliar processo, planeamento e iteração.
Solicitar mapas conceptuais manuscritos, drafts comentados e reflexões sobre o uso de IA.
Implementar “declaração de uso de IA” obrigatória; estudos mostram 74% de omissões quando não sancionado 12.

Projetos práticos & portefólios

Risco

IA consegue gerar código ou relatórios funcionais; contudo testes de integração, defesa oral e versionamento Git expõem inconsistências 2.

Ações

Rubricas incluem critérios éticos de IA, análises de viés e documentação de prompts.
Peer-review formativo aumenta transparência 7.

Testes de escolha múltipla

Risco

ChatGPT acerta 60-80% das questões em química, mas padrões de resposta diferem estatisticamente dos humanos 3.

Ações

Aplicar análise de item-response e correlação de distratores.
Gerar pools adaptativos com randomização de números.
Introduzir questões de raciocínio escalonado que exijam cálculo intermedio manuscrito.

Exames orais

Vantagens

Confirma identidade, exige raciocínio espontâneo, permite follow-ups direcionados5.
Escalabilidade viável com painéis curtos (10–15 min).

Ações

Uso de rubricas digitais, gravação para moderação, perguntas ramificadas.

Ferramentas de deteção de IA

Ferramenta	Taxa falsos positivos	Taxa falsos negativos	Observações
Turnitin AI	1-4% alegado, mas casos de 750 papeis/ano mal sinalizados numa universidade média11	15-22%	Bias linguagem não nativa
GPTZero	1.3% FP 10	17-35% FN (±80% accuracy) 13	Bom para curtas passagens
Análise estatística (MCQ)	0% FP/FN em piloto 3	Requer banco histórico	Não aplicável a texto livre
Stylometry (WritePrint, JGAAP)	5-12% FP	18-40% FN	Fraco em textos curtos
LLM auto-detector (OpenAI deprecated)	Descontinuado 2023	—	Acurácia baixa

Limitação chave: qualquer texto ligeiramente parafraseado ou “regenerado” baixa a probabilidade de deteção abaixo de 50% 14.

Redesigned Assessment Blueprint

Matriz de Risco × Controlo

Formato	Risco Inerente	Controlo Pedagógico	Controlo Tecnológico
Ensaios	Elevado	Roteiro de drafts, citação de prompts	AI-detection + revisão por pares
Projetos	Médio	Apresentação oral, diário de bordo	Repositórios versionados
MCQ online	Elevado	Ítens aplicados em presencial	Análise estatística em lote
Oral síncrono	Baixo	Perguntas imprevisíveis	Gravação vídeo
Laboratório	Muito baixo	Supervisão	—

Recomendações institucionais

Políticas

Adotar modelo de “utilização transparente” em vez de proibição absoluta: exige descrição do apoio da IA nos anexos.
Harmonizar regulamentos internos com o AI Act: riscos “low”, “limited”, “high” (p. ex. exames profissionais) requerem documentação extra 15 16.

Formação docente

Workshops sobre design de avaliações autênticas, rubricas de ética e prompts‐engineering.
Partilha de casos de uso seguros (ex.: brainstorming inicial, geração de dados-dummy).

Infra-estrutura

Integração de logs de atividade (LMS, Git, Jupyter) nos sistemas de avaliação.
Pilotar plataformas de exame oral assíncrono com verificação biométrica moderada.

Conclusão

A preservação da integridade da avaliação não passa por “caçar batoteiros”, mas por redesenhar tarefas focadas em pensamento crítico, contexto real e transparência de meios. Quando o resultado pode ser produzido por IA em segundos, o valor educativo desloca-se para o processo, a argumentação e a prestação ao vivo. O ensino superior em Portugal dispõe já de exemplos de boas práticas; urge agora escalá-los sistematicamente, alinhando tecnologias, políticas e cultura académica.

TIC, Educação e Web

A tecnologia ao serviço da educação.

Integridade académica versus IA Generativa: Repensar o futuro da avaliação

Estrutura do artigo

Susceptibilidade geral dos principais formatos

Ensaios e trabalhos escritos

Risco

Ações

Projetos práticos & portefólios

Risco

Ações

Testes de escolha múltipla

Risco

Ações

Exames orais

Vantagens

Ações

Ferramentas de deteção de IA

Redesigned Assessment Blueprint

Matriz de Risco × Controlo

Recomendações institucionais

Políticas

Formação docente

Infra-estrutura

Conclusão

Like this:

Related

Leave a ReplyCancel reply

Estrutura do artigo

Susceptibilidade geral dos principais formatos

Ensaios e trabalhos escritos

Risco

Ações

Projetos práticos & portefólios

Risco

Ações

Testes de escolha múltipla

Risco

Ações

Exames orais

Vantagens

Ações

Ferramentas de deteção de IA

Redesigned Assessment Blueprint

Matriz de Risco × Controlo

Recomendações institucionais

Políticas

Formação docente

Infra-estrutura

Conclusão

Partilhar:

Like this:

Related

Leave a ReplyCancel reply

Discover more from TIC, Educação e Web