AMALIA não é o ChatGPT — O que é realmente a primeira IA soberana portuguesa

Portugal lançou a AMALIA — o primeiro grande modelo de linguagem em português europeu — mas quem esperava um rival do ChatGPT encontrou apenas silêncio digital: sem site, sem app. É, na verdade, uma infraestrutura de código aberto, de 9 mil milhões de parâmetros, treinada com 195 terabytes de dados do Arquivo.pt, destinada a hospitais, escolas e forças armadas que precisam de processar dados sensíveis sem os exportar para servidores estrangeiros. Custou 7 milhões de euros, supera rivais como o Llama e o Mistral nos exames nacionais, mas fica aquém em matemática — e o seu verdadeiro veredicto dependerá dos próximos 24 meses.


O momento em que o país parou — e a confusão que se seguiu

A 1 de julho de 2026, Portugal assistiu ao lançamento oficial daquilo que a comunicação política batizou de “o cérebro artificial português”: a Amália. O país estava expectante. Meses de antecipação mediática tinham criado uma ideia clara na mente de muitos portugueses — iria nascer um rival direto do ChatGPT, feito cá, a falar a nossa língua, acessível a qualquer cidadão com um telemóvel na mão.

Só que quem foi ao Google à procura de um site para experimentar a Amália no dia do lançamento encontrou… o vazio. Sem aplicação. Sem interface de conversação. Sem caixa de texto onde escrever “Olá”. E isto, importa sublinhar, não foi um erro informático. Foi exatamente aquilo que estava previsto.

O problema não está na tecnologia em si — está no abismo entre a narrativa mediática que foi construída e a realidade técnica do projeto. Perceber o que a Amália é, de facto, é o objetivo deste artigo.


O nome, o acrónimo e a homenagem

Antes de mergulhar na engenharia, comecemos pelo nome. AMALIA é um acrónimo para Assistente Multimodal Automático de Linguagem com Inteligência Artificial. É, simultaneamente, uma homenagem à lendária cantora Amália Rodrigues — a voz do fado que mais projetou a cultura portuguesa no mundo. Uma escolha simbólica que condensa num nome a ambição do projeto: a modernidade tecnológica ao serviço da identidade cultural portuguesa.

O projeto foi anunciado pelo primeiro-ministro Luís Montenegro no palco principal da Web Summit, em novembro de 2024, num contexto de entusiasmo com o potencial da inteligência artificial na transformação dos serviços públicos. Desde então, a expressão “ChatGPT português” ganhou tração instantânea nos meios de comunicação e nas redes sociais — e foi precisamente aí que começou o maior equívoco.


Amália não é uma aplicação. É uma infraestrutura.

Esta é a distinção fundamental que tudo muda. O ChatGPT é uma aplicação: um produto que assenta sobre um modelo de linguagem e oferece ao utilizador uma interface amigável de conversação. A Amália é um modelo de fundação (foundation model) — é a camada mais profunda, o motor debaixo do capô, o chassis sobre o qual outros podem construir os seus próprios veículos.

Quem quiser experimentar a Amália hoje não vai ao browser, não abre uma app. Tem de ir ao Hugging Face — uma plataforma técnica para engenheiros de software — procurar o ficheiro AMALIA-9B-0626-DPO e descarregá-lo. Depois, precisa de instalar ferramentas como o LM Studio ou o Ollama no seu computador para o conseguir executar, presumindo que tem memória RAM e capacidade de processamento gráfico suficientes. É uma barreira de entrada altíssima para o utilizador comum.

Mas há uma razão para isso. O utilizador comum não é o cliente final da Amália. O Estado português não construiu este motor para nós conversarmos sobre o estado do tempo. Construiu-o para que hospitais, tribunais, universidades e autarquias possam programar os seus próprios sistemas por cima dele.

Clicar na imagem para ver a apresentação…


O motor: arquitetura técnica para não-engenheiros

O ponto de partida: EuroLLM-9B

Construir um modelo de linguagem de raiz exige orçamentos astronómicos e meses de computação em supercomputadores. Portugal fez uma escolha pragmática: em vez de partir do zero, a equipa de investigação pegou num chassis pré-fabricado — o EuroLLM-9B, um modelo europeu de código aberto que já compreendia a estrutura básica das 24 línguas oficiais da União Europeia.

O EuroLLM-9B é, ele próprio, um projeto com dedo português: foi desenvolvido pela empresa Unbabel e treinado no supercomputador MareNostrum 5, em Barcelona. O que o consórcio nacional fez foi pegar neste chassis e afiná-lo exaustivamente para a realidade linguística e cultural de Portugal.

O combustível: 195 TB do Arquivo.pt

Para afinar o modelo, os investigadores extraíram 195 terabytes de dados diretamente do Arquivo.pt — a memória histórica de toda a internet portuguesa desde o final dos anos 90. Um volume colossal: 195 TB de texto puro equivale a dezenas de milhões de livros.[8]

Mas a internet não é uma biblioteca limpa. É cheia de lixo, de textos gerados por robôs e de conteúdo de baixa qualidade. E há um problema específico da língua portuguesa: a esmagadora maioria do conteúdo em português disponível online é do Brasil. Se os engenheiros simplesmente inserissem todos esses textos no supercomputador, a Amália começaria a responder com sintaxe e vocabulário brasileiro.

A solução foi radical: aplicar filtros de exclusão massivos sobre todos os domínios .br, complementados por ferramentas sofisticadas de deduplicação — que removem parágrafos e textos que se repetem demasiadas vezes (como termos e condições de sites). O resultado: uma base de dados de português europeu de altíssima qualidade, rica em legislação nacional, documentos oficiais e literatura.

O processo de treino: Deucalion e MareNostrum 5

Para processar este manancial de informação, dois supercomputadores trabalharam em paralelo, ininterruptamente durante meses: o Deucalion, instalado em Guimarães, e o MareNostrum 5, em Barcelona. A equipa de investigação, composta por mais de 60 investigadores e alunos das principais universidades portuguesas — Nova FCT, IST, Coimbra, Minho e Porto —, foi coordenada pelo professor João Magalhães, da Nova FCT.

O treino decorreu em três fases: pré-treino de qualidade, treino de instruções e treino de preferências. É nesta última fase que entra uma técnica particularmente interessante.

A afinação final: DPO — o “teste cego de degustação”

A técnica usada para ensinar à Amália como soar a português europeu chama-se Direct Preference Optimization (DPO) — otimização direta de preferências. Funciona assim: os investigadores geram duas respostas possíveis para a mesma pergunta. Uma tem pequenos desvios semânticos ou soa robótica; a outra soa perfeitamente a português de Portugal, com um tom neutro e institucional correto. O modelo é instruído: “a segunda é a ideal — fica com a segunda.” Ao fazer isto milhares de vezes, o modelo altera os seus pesos matemáticos internos para imitar espontaneamente o padrão preferido pelos avaliadores portugueses.

Os resultados técnicos publicados são inequívocos: o AMALIA-DPO atinge o melhor desempenho entre os modelos totalmente abertos por uma margem considerável, demonstrando domínio robusto das competências linguísticas específicas do português europeu.


Os 9 mil milhões de parâmetros: um peso pluma entre gigantes

O número “9B” no nome do ficheiro refere-se a 9.000 milhões de parâmetros — as unidades de informação que, por analogia biológica, funcionam como as conexões sinápticas de um cérebro artificial. É onde a informação e as correlações matemáticas da linguagem ficam armazenadas e pesadas.

No campeonato mundial da inteligência artificial, 9 mil milhões de parâmetros é considerado um modelo de dimensão reduzida a média. Para contexto: modelos como o GPT-4 operam na casa de centenas de milhares de milhões — possivelmente até triliões — de parâmetros, embora os valores exatos sejam segredo industrial.

Então, a Amália é fraca? Não necessariamente. A estratégia não é a de força bruta, mas a de hiperespecialização cirúrgica. E os benchmarks confirmam esta aposta.


Os benchmarks: onde a Amália ganha — e onde perde

As vitórias: provas nacionais e competência linguística

Avaliar um modelo especializado em português europeu com testes internacionais (todos em inglês) não faria sentido. Por isso, a equipa de investigação criou referenciais novos e exclusivos:

  • PTC (Portuguese Text Competence): avalia o conhecimento estrito da gramática do português de Portugal.
  • PTE (Portuguese Text Evaluation): põe a IA a resolver perguntas reais dos exames nacionais do ensino secundário português.
  • ALBA: avalia a proficiência semântica e cultural em português europeu, onde a Amália atingiu 43,6 pontos na versão final.

Nestes testes ultra-específicos, a Amália consegue bater modelos de código aberto consideravelmente maiores e mais financiados, incluindo o Mistral 7B (francês) e o Llama 3.1 da Meta. Nos exames nacionais portugueses de resposta longa, obteve a melhor pontuação entre todos os modelos totalmente open-source.

Se a tarefa for redigir um ofício burocrático para as finanças, resumir um poema de Fernando Pessoa com o contexto histórico exato, ou processar documentação jurídica em português correto, a Amália é, na sua categoria de peso, simplesmente imbatível.

As limitações: raciocínio matemático e lógica abstrata

A honestidade intelectual exige reconhecer os pontos fracos. Quando o teste exige raciocínio abstrato profundo — como resolver lógica matemática complexa — a Amália fica aquém, perdendo até para modelos da mesma dimensão como o Qwen 3 (chinês). Os próprios investigadores assumem frontalmente nos relatórios técnicos que não vale a pena estabelecer comparações diretas com sistemas fechados de grande escala, como o GPT-4, em tarefas generalistas complexas. Para o raciocínio de uso geral, o Vale do Silício continua a reinar supremo.


Os 7 milhões de euros: desperdício ou investimento visionário?

O projeto custou 5,5 milhões de euros provenientes do Plano de Recuperação e Resiliência (PRR), com um reforço adicional de 1,5 milhões anunciado para a fase seguinte, totalizando cerca de 7 milhões de euros de dinheiro público. A distribuição foi: 2,475 milhões para a Nova FCT, 1 milhão para o IST, 375 mil euros para cada uma das universidades do Porto, Minho e Coimbra, e 900 mil euros executados diretamente pela FCT.

À primeira vista, a comparação é esmagadora: a OpenAI e a Microsoft gastam dezenas, senão centenas de milhões em servidores num único trimestre. Então, qual é o argumento para investir 7 milhões?

A resposta chama-se soberania digital.


A soberania digital: o argumento que tudo justifica

O problema dos modelos comerciais

Ao usar modelos gigantes como o ChatGPT ou o Gemini, as instituições públicas estão constantemente a exportar dados dos cidadãos para infraestruturas privadas estrangeiras — quintas de servidores no Nevada ou em Shenzhen — onde esses dados podem ser usados para treinar as futuras versões comerciais dessas ferramentas.

As diretivas europeias recentes, em particular a NIS 2 (cibersegurança) e o AI Act (regulamento europeu da IA), vieram mudar drasticamente as regras do jogo. A proteção de dados críticos do Estado tornou-se não um luxo, mas uma obrigação legal. E os modelos privados são, por definição, caixas negras: não sabemos como tomam decisões, não conseguimos auditá-los, e as empresas que os desenvolvem protegem o seu código com fiereza comercial.

A licença Apache 2.0: o detalhe burocrático que vale milhões

A Amália foi lançada com uma licença Apache 2.0 — código totalmente aberto e gratuito para uso comercial e institucional. Isto significa que um hospital, um tribunal ou uma escola pode descarregar o modelo, instalá-lo nos seus próprios servidores, e usar e adaptar a tecnologia sem pagar um único cêntimo de licenciamento a ninguém — apenas a eletricidade e a manutenção da infraestrutura local.

Para instituições públicas com orçamentos limitados, a diferença entre pagar por cada 1.000 palavras geradas via API (custos recorrentes e perpétuos) e não pagar nada em licenças pode representar dezenas de milhões de euros poupados ao longo de uma década.

O caso da Marinha Portuguesa: IA offline em segurança máxima

Nenhum exemplo ilustra melhor a lógica da soberania digital do que o caso de uso das Forças Armadas. Um comandante da Marinha não pode, por razões evidentes de segurança nacional, abrir o browser a bordo e pedir ao ChatGPT para resumir rotas táticas de submarinos — estaria a entregar segredos de Estado em bandeja a infraestruturas privadas estrangeiras.

Com a Amália, a Marinha pode descarregar os ficheiros do modelo, instalá-los num servidor local no subsolo blindado de uma base militar, desligar literalmente o cabo de internet desse servidor, e deixar o modelo processar volumes massivos de planos de missão em ambiente completamente isolado e seguro. É o conceito de infraestrutura crítica levado ao século XXI: um analista militar incansável, fechado numa sala segura, que nunca comunica com o exterior.


A Amália na educação: a plataforma IA Edu

A educação é, a par da defesa, a área mais sensível no que toca à proteção de dados e à ética algorítmica. A FCT concebeu a plataforma IA Edu precisamente para levar a inteligência artificial de forma segura às escolas públicas.

O objetivo a curto prazo é claro: permitir a criação de tutores virtuais interativos e a geração automática de testes, apoiando professores no planeamento de aulas, na redação de sumários e na produção de materiais pedagógicos diferenciados.

O problema legal dos modelos estrangeiros nas escolas

Sob o quadro regulatório do AI Act europeu, as escolas não podem simplesmente expor menores a sistemas algorítmicos norte-americanos que perfilam comportamentos, recolhem telemetria e armazenam as conversas das crianças. Há uma obrigação legal crescente de auditar e perceber, ao detalhe, como a IA funciona por dentro — o que é tecnicamente impossível com modelos privados cujo código é secreto.

Com um modelo local, transparente e de código aberto como a Amália, o Estado cumpre o AI Act na íntegra: os textos dos alunos, as suas dúvidas sobre as matérias, as suas pesquisas nunca chegam a sair dos servidores educativos nacionais. E, além disso, garante-se que, desde o primeiro ciclo, o aluno interage com uma máquina que pensa, escreve e responde respeitando integralmente as normas do português europeu e o currículo académico nacional.


O lado político: entre a visão e o marketing

É aqui que a análise técnica tem de coexistir com uma leitura honesta do contexto político. O projeto foi anunciado em novembro de 2024 na Web Summit num tom “altamente otimista e futurista”, e a expressão “ChatGPT português” ganhou vida própria na comunicação pública. A discrepância entre essa promessa e a entrega técnica de 1 de julho — um modelo sem interface, disponível apenas a programadores — criou um flanco enorme para o desapontamento, e a crítica pública que se seguiu é legítima face à expectativa criada.

Acresce que o calendário de execução sofreu um atraso de cerca de 15 meses em relação às previsões iniciais, e analistas independentes apontam que a data de lançamento serviu estrategicamente para o governo reclamar um trunfo simbólico num momento mediático e politicamente oportuno.

Os críticos mais ferinos argumentam ainda que a retórica da “soberania digital” funciona como um guarda-chuva conveniente para mascarar o facto de Portugal continuar a arrendar o hardware pesado à Nvidia americana e a usar um chassis de software desenvolvido noutros países da Europa. É um ponto com alguma pertinência.

Mas descartar a Amália como mero exercício de relações públicas seria ignorar os dividendos estruturais que já estão em marcha: o projeto forçou a colaboração de mais de 60 investigadores de topo num consórcio nacional sem precedentes na história tecnológica portuguesa, criou know-how técnico instalado em Portugal e deixou uma âncora tecnológica disponível para o ecossistema de inovação nacional.


O que vem a seguir: a fase 2 até 2027

O lançamento de 1 de julho de 2026 não é um fim — é um ponto de partida. A próxima fase do projeto, prevista para 2027, inclui:

  • Expansão de parâmetros: o modelo deverá crescer dos atuais 9 mil milhões para os 22 mil milhões de parâmetros.
  • Capacidades de agentificação: a Amália passará a poder executar tarefas de forma autónoma e encadeada, não apenas responder a perguntas.
  • Multimodalidade completa: capacidade de processar não só texto, mas também imagens, vídeo e áudio.

Um investimento adicional de 1,5 milhões de euros foi anunciado para suportar esta evolução. O modelo continuará a ser desenvolvido com foco no português europeu e na lusofonia, com a ambição de servir os países lusófonos como uma infraestrutura partilhada.


A questão que fica: quem guarda a língua?

Há uma reflexão final que a análise desta iniciativa inevitavelmente suscita, e que diz respeito ao coração do projeto: a língua.

A Amália foi construída com uma dieta linguística altamente controlada — português europeu puro, sem gerúndios brasileiros, sem estrangeirismos digitais, sem o vocabulário que nasce organicamente nas redes sociais e na cultura pop. É uma escolha técnica compreensível. Mas levanta uma pergunta incómoda:

A língua portuguesa é um organismo vivo. Respira, adapta-se, cruza-se com a imigração, evolui com as gerações. Se a infraestrutura de IA que vai servir o Estado português durante os próximos anos foi treinada para ser a guardiã inflexível de uma versão da língua datada de 2026, não correremos o risco de criar uma cápsula do tempo linguística?

Daqui a dez anos, em vez de a Amália refletir as nuances e a vitalidade com que os portugueses realmente comunicam, poderá começar a ditar como devem escrever se quiserem que um sistema do Estado processe e entenda o seu pedido. É uma tensão profunda entre o controlo tecnológico e a evolução social orgânica — e é uma questão que merece ser debatida muito além dos relatórios técnicos e dos palcos da Web Summit.


Conclusão: um motor sem carro, por enquanto

A metáfora que melhor resume a Amália é a que foi dita no dia do lançamento: o Estado entregou um bloco de motor. Potente no que sabe fazer, honesto nas suas limitações, mas por si só incapaz de levar alguém a algum lado.

O verdadeiro teste de fogo não foi a conferência de imprensa. Serão os próximos 24 meses. A métrica de sucesso real será observar quantas autarquias, hospitais, PME e escolas vão efetivamente pegar nestes ficheiros de código aberto e construir soluções funcionais para o cidadão. Se o ecossistema nacional construir dezenas de “carros” funcionais à volta deste motor, os 7 milhões de euros terão sido um investimento visionário. Se o código ficar a ganhar pó num repositório sem adoção prática, terá sido apenas um monumento virtual caro a uma boa intenção.

A Amália não é o ChatGPT português. É algo diferente — e potencialmente mais importante a longo prazo. Mas explicar isso ao público português, com a honestidade que a comunicação política raramente permite, continua a ser o maior desafio desta iniciativa.


Artigo elaborado com base na análise aprofundada da documentação técnica, relatórios oficiais e cobertura jornalística do projeto AMALIA, com particular referência ao relatório técnico publicado em arXiv (março de 2026) e à cobertura do lançamento de 1 de julho de 2026.

Leave a Reply