Nos últimos 3 anos o surgimento de modelos generativos (ChatGPT, Gemini, Claude, Copilot) alterou radicalmente o cenário da avaliação académica. Ao mesmo tempo que abre oportunidades para feedback imediato e personalização, coloca em causa a equidade, a verificação de autoria e a validade dos resultados. Este artigo analisa exaustivamente os principais métodos de avaliação utilizados no ensino superior português, o seu grau de vulnerabilidade à IA Generativa e estratégias robustas para preservar a integridade académica, com enfoque no contexto lusófono e em conformidade com a legislação europeia (RGPD, AI Act).
Estrutura do artigo
- Susceptibilidade global dos formatos de avaliação
- Análise detalhada de cada método
- Estratégias de mitigação e redesign
- Ferramentas de deteção e respetivas limitações
- Recomendações institucionais e políticas
- Conclusão
Susceptibilidade geral dos principais formatos

| Formato | Susceptibilidade IA | Evidência empírica | Estratégias de mitigação |
|---|---|---|---|
| Ensaios/trabalhos escritos em casa | Muito alta (≈94% passam despercebidos)1 | Estudo-Turing Univ. Reading 20241 | Redesign para tarefas processuais, reflexões metacognitivas, citação obrigatória de prompts, exames orais complementares |
| Projetos práticos longos | Média (23.8% de relatórios gerados por IA passaram)2 | Student stress-test 20242 | Registos de versão, apresentações síncronas, coavaliação, logs de IDE |
| Testes de escolha múltipla online | Alta se não monitorizados; porém 0% após análise estatística de padrões3 | Hanson & FSU 2024 3 | Item response analysis, bancos dinâmicos, proctoring limitado |
| Exame presencial escrito | Baixa (controlo físico) | Revisão de 12 estudos AI-cheating 2023-25 4 | Supervisão humana, papel sem dispositivos |
| Exame oral síncrono | Muito baixa | THE Case-study 2024 5 | Grades + gravação vídeo; rubricas claras |
| Portefólio digital progressivo | Baixa a média | Melbourne-CSHE 2023 6 | Carimbos de data, feedback iterativo |
| Peer-review entre pares | Variável | AIAS piloto 2024 7 | Transparência de prompts, coavaliação tutor |
| Avaliação automática de código | Média | CDIO 2024 sobre project-based AI 8 | Plágio+similaridade, revisão oral |
| Laboratório presencial | Muito baixa | UC Londres 2025 meta-review | Supervisão, datasets inéditos |
Ensaios e trabalhos escritos
Risco
- 94% das respostas ChatGPT em exames de psicologia passaram no crivo humano1.
- Ferramentas de deteção (Turnitin AI, GPTZero) geram 1-20% de falsos positivos e até 35% de falsos negativos 9 10 11.
Ações
- Reduzir peso de produtos finais; avaliar processo, planeamento e iteração.
- Solicitar mapas conceptuais manuscritos, drafts comentados e reflexões sobre o uso de IA.
- Implementar “declaração de uso de IA” obrigatória; estudos mostram 74% de omissões quando não sancionado 12.
Projetos práticos & portefólios
Risco
- IA consegue gerar código ou relatórios funcionais; contudo testes de integração, defesa oral e versionamento Git expõem inconsistências 2.
Ações
- Rubricas incluem critérios éticos de IA, análises de viés e documentação de prompts.
- Peer-review formativo aumenta transparência 7.
Testes de escolha múltipla
Risco
- ChatGPT acerta 60-80% das questões em química, mas padrões de resposta diferem estatisticamente dos humanos 3.
Ações
- Aplicar análise de item-response e correlação de distratores.
- Gerar pools adaptativos com randomização de números.
- Introduzir questões de raciocínio escalonado que exijam cálculo intermedio manuscrito.
Exames orais
Vantagens
- Confirma identidade, exige raciocínio espontâneo, permite follow-ups direcionados5.
- Escalabilidade viável com painéis curtos (10–15 min).
Ações
- Uso de rubricas digitais, gravação para moderação, perguntas ramificadas.
Ferramentas de deteção de IA
| Ferramenta | Taxa falsos positivos | Taxa falsos negativos | Observações |
|---|---|---|---|
| Turnitin AI | 1-4% alegado, mas casos de 750 papeis/ano mal sinalizados numa universidade média11 | 15-22% | Bias linguagem não nativa |
| GPTZero | 1.3% FP 10 | 17-35% FN (±80% accuracy) 13 | Bom para curtas passagens |
| Análise estatística (MCQ) | 0% FP/FN em piloto 3 | Requer banco histórico | Não aplicável a texto livre |
| Stylometry (WritePrint, JGAAP) | 5-12% FP | 18-40% FN | Fraco em textos curtos |
| LLM auto-detector (OpenAI deprecated) | Descontinuado 2023 | — | Acurácia baixa |
Limitação chave: qualquer texto ligeiramente parafraseado ou “regenerado” baixa a probabilidade de deteção abaixo de 50% 14.
Redesigned Assessment Blueprint
Matriz de Risco × Controlo
| Formato | Risco Inerente | Controlo Pedagógico | Controlo Tecnológico |
|---|---|---|---|
| Ensaios | Elevado | Roteiro de drafts, citação de prompts | AI-detection + revisão por pares |
| Projetos | Médio | Apresentação oral, diário de bordo | Repositórios versionados |
| MCQ online | Elevado | Ítens aplicados em presencial | Análise estatística em lote |
| Oral síncrono | Baixo | Perguntas imprevisíveis | Gravação vídeo |
| Laboratório | Muito baixo | Supervisão | — |
Recomendações institucionais
Políticas
- Adotar modelo de “utilização transparente” em vez de proibição absoluta: exige descrição do apoio da IA nos anexos.
- Harmonizar regulamentos internos com o AI Act: riscos “low”, “limited”, “high” (p. ex. exames profissionais) requerem documentação extra 15 16.
Formação docente
- Workshops sobre design de avaliações autênticas, rubricas de ética e prompts‐engineering.
- Partilha de casos de uso seguros (ex.: brainstorming inicial, geração de dados-dummy).
Infra-estrutura
- Integração de logs de atividade (LMS, Git, Jupyter) nos sistemas de avaliação.
- Pilotar plataformas de exame oral assíncrono com verificação biométrica moderada.
Conclusão
A preservação da integridade da avaliação não passa por “caçar batoteiros”, mas por redesenhar tarefas focadas em pensamento crítico, contexto real e transparência de meios. Quando o resultado pode ser produzido por IA em segundos, o valor educativo desloca-se para o processo, a argumentação e a prestação ao vivo. O ensino superior em Portugal dispõe já de exemplos de boas práticas; urge agora escalá-los sistematicamente, alinhando tecnologias, políticas e cultura académica.

