A inteligência artificial pode herdar «vícios» escondidos — e isso importa

*Imagem gerada por Claude Sonnet 4.6 Thinking*

Um estudo recente, publicado na revista Nature em abril de 2026, revelou algo que, à primeira vista, parece saído de um filme de ficção científica: os modelos de linguagem — a tecnologia por detrás do ChatGPT, do Claude ou do Gemini — conseguem transmitir comportamentos ocultos uns aos outros, mesmo quando os dados de treino parecem completamente inofensivos. O fenómeno chama-se aprendizagem subliminar (subliminal learning) e tem implicações diretas para quem usa IA na educação.

Vale a pena parar um momento para perceber o que está em jogo.

O que descobriram os investigadores?

A equipa, liderada por Alex Cloud e Minh Le, da Anthropic, em colaboração com a Truthful AI e várias universidades, desenhou uma experiência engenhosa. Pegaram num modelo de IA — o «professor» — e deram-lhe uma preferência simples, como gostar de corujas. Depois, pediram-lhe que gerasse algo aparentemente neutro: sequências de números. Nada de texto, nada de corujas, nada de linguagem natural. Apenas listas como «285, 574, 384, …».

Ora, quando um segundo modelo — o «aluno» — foi treinado exclusivamente com essas sequências numéricas, aconteceu o inesperado: ao ser questionado sobre o seu animal favorito, passou a responder «coruja» com uma frequência muito superior ao normal. A preferência do primeiro modelo viajou, de alguma forma, através de dados que nenhum ser humano conseguiria associar a corujas.

O efeito não se limitou a preferências inofensivas. Quando o modelo-professor apresentava comportamentos desalinhados — respostas agressivas, sugestões perigosas, desinformação —, os modelos-aluno treinados nos seus dados numéricos herdaram esses mesmos padrões. Em cerca de 10 % dos casos, o modelo-aluno produzia respostas classificadas como desalinhadas, incluindo sugestões de violência e de atos ilegais, apesar de nunca ter visto conteúdos desse tipo durante o treino.

***Clicar na imagem para ver a apresentação…***

Não é um erro de filtragem

Um dos aspetos mais surpreendentes deste trabalho é o rigor com que os dados foram filtrados. Os investigadores removeram qualquer número com conotações culturais negativas (como o 666 ou o 911), aplicaram filtros automáticos e manuais, e até usaram outros modelos de IA para detetar referências subtis. Mesmo assim, a transmissão de traços persistiu.

Mais revelador ainda: quando o modelo-professor e o modelo-aluno tinham origens diferentes — ou seja, não partilhavam a mesma arquitetura de base —, o efeito desaparecia. Isto sugere que a transmissão não depende do conteúdo visível dos dados, mas de padrões internos partilhados entre modelos da mesma família.

Os investigadores demonstraram, inclusivamente, um resultado teórico: basta um único passo de treino sobre dados gerados por um modelo semelhante para que o modelo-aluno se aproxime do comportamento do professor, independentemente do tema dos dados.

O que muda para quem trabalha em educação?

À primeira vista, esta investigação pode parecer demasiado técnica para o contexto escolar. Mas se olharmos com atenção, as implicações são concretas e relevantes.

1. Os dados de treino não são transparentes

Quando um professor ou um aluno usa uma ferramenta de IA generativa, não tem forma de saber que modelos contribuíram para o treino daquela aplicação. Este estudo mostra que propriedades indesejáveis podem viajar entre modelos sem deixar rasto visível nos dados. Isto reforça a necessidade de escolher ferramentas de IA com proveniência conhecida e de fornecedores que sejam transparentes quanto aos seus processos de treino e avaliação.

2. Avaliar o comportamento de um modelo não chega

Até agora, a abordagem mais comum para verificar a segurança de um modelo passava por testar as suas respostas: se o modelo não diz coisas perigosas, parece seguro. Este estudo põe em causa essa lógica. Um modelo pode comportar-se bem nas avaliações e, ainda assim, carregar propriedades latentes herdadas de versões anteriores ou de outros modelos. Para as escolas, o recado é claro: o historial e a reputação do fornecedor da tecnologia contam tanto como o desempenho visível da ferramenta.

3. A literacia em IA precisa de profundidade

Ensinar os alunos a usar o ChatGPT ou ferramentas semelhantes é importante, mas não basta. A literacia em IA deve incluir uma compreensão, ainda que básica, de como estes sistemas são construídos. Conceitos como «destilação de modelos», «dados de treino sintéticos» e «alinhamento» já não são matéria exclusiva de engenheiros. São temas que ajudam qualquer cidadão a avaliar criticamente a tecnologia que utiliza. Este tipo de conhecimento cabe, naturalmente, nas disciplinas de TIC, mas também em áreas como Cidadania e Desenvolvimento ou Filosofia.

4. A confiança cega é um risco

É tentador tratar os modelos de IA como caixas-negras que «simplesmente funcionam». Este estudo recorda-nos que a IA não é neutra. Os seus resultados dependem de cadeias de decisões — muitas delas invisíveis — que vão desde a escolha dos dados de treino até à seleção dos modelos que contribuem para a destilação. Professores e alunos devem manter sempre uma postura crítica perante os resultados gerados.

***Clicar na imagem para a ver maior.***

Uma analogia para a sala de aula

Se quiséssemos explicar este fenómeno a uma turma, poderíamos usar uma analogia simples: imaginem que um professor substituto escreve no quadro apenas exercícios de matemática, sem nunca falar de política. Mas, de alguma forma, os alunos que assistem às suas aulas durante tempo suficiente começam a adotar as suas opiniões políticas, sem que ninguém consiga apontar o momento em que isso aconteceu. É mais ou menos o que se passa com a aprendizagem subliminar entre modelos de IA — a influência viaja por canais que não conseguimos ver nem filtrar.

O que dizem os autores

Os próprios investigadores reconhecem limitações. Os cenários testados, embora variados — sequências numéricas, código Python e cadeias de raciocínio matemático —, são ainda simplificações face às aplicações reais de IA. Também não se sabe, para já, que tipos de propriedades complexas podem ou não ser transmitidos, nem se o efeito é reversível com treino adicional em dados «limpos».

Ainda assim, a mensagem central é clara: as avaliações de segurança da IA precisam de ir além do comportamento observável. É necessário examinar a origem dos modelos, a proveniência dos dados e os processos de construção.

Para saber mais

O estudo está disponível em acesso aberto e pode ser consultado na íntegra:

Cloud, A., Le, M., Chua, J., Betley, J., Sztyber-Betley, A., Mindermann, S., Hilton, J., Marks, S., & Evans, O. (2026). Language models transmit behavioural traits through hidden signals in data. Nature, 652, 615–621. https://doi.org/10.1038/s41586-026-10319-8

O código e os dados do estudo estão disponíveis em: https://github.com/MinhxLe/subliminal-learning

TIC, Educação e Web

A tecnologia ao serviço da educação.

A inteligência artificial pode herdar «vícios» escondidos — e isso importa | Estudo

O que descobriram os investigadores?

Não é um erro de filtragem

O que muda para quem trabalha em educação?

1. Os dados de treino não são transparentes

2. Avaliar o comportamento de um modelo não chega

3. A literacia em IA precisa de profundidade

4. A confiança cega é um risco

Uma analogia para a sala de aula

O que dizem os autores

Para saber mais

Like this:

Related

Leave a ReplyCancel reply

O que descobriram os investigadores?

Não é um erro de filtragem

O que muda para quem trabalha em educação?

1. Os dados de treino não são transparentes

2. Avaliar o comportamento de um modelo não chega

3. A literacia em IA precisa de profundidade

4. A confiança cega é um risco

Uma analogia para a sala de aula

O que dizem os autores

Para saber mais

Partilhar:

Like this:

Related

Leave a ReplyCancel reply

Discover more from TIC, Educação e Web