A IA e a digitalização de línguas desfavorecidas

Mais de 6000 línguas excluídas do mundo digital

Download |

Quando um aluno abre o telemóvel e escreve uma mensagem em português, raramente pensa no que está por detrás desse gesto tão simples. Há um teclado desenhado para a sua língua, um corrector ortográfico que lhe sublinha os erros, um sistema de tradução que o ajuda com os trabalhos de inglês e até um assistente de voz que lhe responde quando pergunta que horas são. Tudo isto funciona porque o português pertence ao clube restrito das línguas digitalmente privilegiadas.

A esmagadora maioria das línguas do mundo não tem essa sorte. Um white paper publicado em 2025 pelo Stanford Institute for Human-Centered Artificial Intelligence (HAI) e pela iniciativa SILICON, da mesma universidade, traça um panorama que deveria fazer parte de qualquer aula sobre cidadania digital: das mais de 7000 línguas vivas no planeta, cerca de 6000 continuam digitalmente desfavorecidas — sem teclados, sem fontes tipográficas, sem corretores, sem tradutores automáticos, sem qualquer presença real no ecossistema tecnológico que governa as nossas vidas (Pava et al., 2025).

O artigo que se segue explora as principais conclusões deste estudo e procura traduzi-las para o contexto educativo: o que significa esta exclusão linguística para a forma como ensinamos, para a forma como os nossos alunos veem o mundo e para o papel que a inteligência artificial pode — ou não — desempenhar nessa equação.

O que significa, afinal, “exclusão digital linguística”?

Tendemos a pensar na inclusão digital como uma questão de acesso: ter internet, ter um computador, ter literacia suficiente para navegar num browser. Mas os autores deste estudo propõem uma visão mais profunda. De pouco serve ligar uma comunidade à internet se essa comunidade não consegue ler, escrever ou interagir na sua própria língua nos espaços digitais. Uma aplicação de telemedicina só é útil se compreender a língua materna do paciente. Uma plataforma educativa só funciona se o aluno se puder expressar no idioma em que pensa.

O white paper introduz o conceito de “língua digitalmente desfavorecida” (digitally disadvantaged language, ou DDL) para descrever idiomas que, em diferentes graus, estão impedidos de participar plenamente na era digital. E o espectro é amplo: vai desde línguas que não têm sequer uma presença mínima no universo digital até línguas que já dispõem de algumas ferramentas, mas permanecem longe do nível de suporte de que gozam o inglês, o mandarim ou o espanhol.

Um dado particularmente revelador: embora mais de um terço da juventude mundial vá viver em África até 2050, nenhuma língua africana figura entre as 34 mais utilizadas na internet. Este fosso não é apenas técnico — é político, cultural e, em última análise, educativo.

A pilha de ferramentas que damos por garantida

O estudo identifica nove ferramentas linguísticas essenciais para que uma língua exista plenamente no mundo digital, divididas em dois grupos. As cinco ferramentas fundacionais incluem a codificação do sistema de escrita no padrão Unicode (sem a qual nenhum dispositivo consegue sequer representar os caracteres de uma língua), fontes e tipos de letra legíveis e culturalmente adequados, teclados e métodos de introdução de texto, dados de localização (formatos de datas, números, plurais) e suporte para sistemas de escrita novos ou revitalizados.

Sobre estas, assentam quatro ferramentas de sustentação: deteção de discurso de ódio e conteúdo abusivo, moderação de conteúdos nocivos e proteção contra práticas predatórias, corretores gramaticais e ortográficos, e funcionalidades de acessibilidade como leitores de ecrã ou legendagem em línguas locais.

Aqui reside talvez a lição mais importante para quem trabalha em educação: sem a primeira camada, nada do resto funciona. E sem a segunda, mesmo quem já consegue escrever a sua língua num ecrã fica exposto a riscos que os falantes de línguas dominantes simplesmente não enfrentam — desde a desinformação sem filtro até ao cyberbullying sem moderação.

Onde entra a inteligência artificial?

O estudo mapeia, com detalhe considerável, as formas como a IA pode ajudar a acelerar e escalar o processo de digitalização linguística. Não se trata de substituir o trabalho humano — os autores são enfáticos nesse ponto — mas de aliviar estrangulamentos que, de outra forma, levariam décadas a resolver.

Nas fases iniciais da digitalização, quando uma comunidade está ainda a desenvolver ou a padronizar o seu sistema de escrita, ferramentas de IA como os sistemas grafema-fonema podem ajudar a garantir que os símbolos escritos correspondem de forma consistente aos sons da língua. Os analisadores morfológicos, por seu lado, aceleram a descoberta da estrutura das palavras — um passo fundamental para documentar e codificar qualquer idioma. E os sistemas de reconhecimento ótico de caracteres (OCR) conseguem identificar e classificar glifos a partir de manuscritos antigos, contribuindo para a preservação de evidências linguísticas.

Numa fase intermédia, quando a língua já pode ser representada nos dispositivos, outras ferramentas entram em cena. Os modelos de identificação linguística organizam grandes volumes de dados — textos e áudio recolhidos da web ou de arquivos — por língua, antes de os encaminhar para outras ferramentas. Os sistemas de reconhecimento automático de fala (ASR) convertem discurso oral em texto, eliminando um dos maiores gargalos do processo: a transcrição manual, em que um minuto de áudio pode exigir até uma hora de trabalho humano.

Nas fases mais avançadas, a IA torna-se a base de ferramentas que permitem aos falantes de uma língua não apenas escrevê-la digitalmente, mas usá-la de forma segura, acessível e precisa. A tradução automática, incluindo a tradução direta de fala para fala (como o sistema desenvolvido pela Meta para o hokkien em 2022), os sistemas de conversão de texto em fala, os alinhadores forçados (que sincronizam áudio com texto e estão na base de ferramentas como o ReadAlong Studio, para criação de livros interativos) e os grandes modelos de linguagem (LLMs) fazem parte deste arsenal.

O que isto tem a ver com a escola?

A resposta curta é: tudo. E vale a pena desdobrá-la em pelo menos quatro dimensões.

Primeiro, a literacia sobre a IA não pode ignorar o problema das línguas. Quando ensinamos os nossos alunos a usar — e a questionar — ferramentas de inteligência artificial, precisamos de lhes mostrar que essas ferramentas não são neutras. Um tradutor automático que funciona bem entre o inglês e o francês pode ser completamente inútil para um falante de wolof ou de quéchua. Um assistente de voz que responde em português não responde em mirandês. E um modelo de linguagem treinado maioritariamente em inglês carrega consigo os vieses, os valores e as lacunas culturais dessa dominância. Discutir a exclusão digital linguística com os alunos é uma porta de entrada para discussões mais amplas sobre equidade, poder e representação na tecnologia.

Segundo, a diversidade linguística é um tema transversal com enorme potencial pedagógico. Um professor de Geografia pode explorar o mapa das línguas em risco de extinção e a sua sobreposição com contextos pós-coloniais. Um professor de Informática pode desafiar os alunos a investigar por que razão o Unicode é tão importante — e o que acontece quando um sistema de escrita não está codificado. Um professor de Português pode discutir a diferença entre uma língua minoritária e uma língua minorizada, ou o que significa a padronização ortográfica num mundo digital. E qualquer professor pode usar o caso dos Māori — que construíram as suas próprias plataformas digitais e ferramentas de IA em vez de dependerem das grandes empresas tecnológicas — como um estudo de caso sobre autodeterminação e soberania dos dados.

Terceiro, o estudo alerta para um ciclo vicioso com implicações diretas na sala de aula. Línguas excluídas dos sistemas digitais não conseguem gerar os dados necessários para serem representadas na IA; e sem representação na IA, as barreiras à participação digital aumentam. Para comunidades indígenas, pós-coloniais ou minoritárias, esta invisibilidade digital reforça padrões históricos de marginalização. Quando um aluno de uma comunidade linguística desfavorecida não encontra a sua língua no teclado do computador da escola, a mensagem implícita é devastadora: a tua língua não conta.

Quarto, as ferramentas de IA para línguas com poucos recursos têm aplicações educativas concretas. Os alinhadores forçados, por exemplo, já estão a ser usados para criar livros de leitura acompanhada em línguas indígenas. Os sistemas de texto para fala, que agora conseguem gerar discurso inteligível com apenas cinco minutos de áudio de treino, podem servir de base a ferramentas de aprendizagem de pronúncia. E os modelos de linguagem, quando alimentados com dados validados pela comunidade, podem ajudar a construir corpora digitais para línguas que nunca os tiveram — como aconteceu com o nüshu, uma escrita rara usada por mulheres Yao na China, cujo primeiro corpus digital foi criado com o apoio de um LLM.

Clicar na imagem para ver a apresentação…

A IA não basta — e o estudo di-lo com frontalidade

Talvez a mensagem mais importante deste white paper seja a que modera o entusiasmo. A IA pode ser uma ferramenta preciosa, mas não resolve os problemas mais profundos do campo: o subfinanciamento crónico, a falta de coordenação entre iniciativas, a desconfiança justificada que muitas comunidades sentem em relação às empresas tecnológicas e a necessidade de que todo o processo de digitalização seja conduzido pelas próprias comunidades linguísticas.

Os autores são particularmente claros numa questão: a decisão de digitalizar uma língua não é uma conclusão prévia. Antes de qualquer passo técnico, é essencial haver deliberação comunitária. A criação de um sistema de escrita e a sua digitalização têm implicações profundas para a identidade cultural de uma comunidade. O consentimento e a participação dos falantes não são formalidades — são as condições de legitimidade de todo o processo.

Há ainda uma questão de justiça económica que merece atenção: como os LLMs cobram por token, e as línguas com menos recursos tendem a gerar mais tokens para a mesma tarefa, os falantes dessas línguas pagam significativamente mais pelo mesmo serviço. Falantes de bengali, amárico ou santali podem pagar pelo menos seis vezes mais do que falantes de inglês. Esta penalização não é inerente às línguas — resulta de escolhas de design tomadas sem a participação dessas comunidades.

O que podemos levar para a nossa prática

Para professores e escolas, este estudo oferece pelo menos três pistas de trabalho concretas.

A primeira é incorporar a questão da diversidade linguística digital nos programas de literacia digital e de cidadania. Não se trata de acrescentar mais uma “matéria” ao currículo, mas de enriquecer aquilo que já ensinamos com uma camada de consciência crítica que faz diferença.

A segunda é usar os exemplos do estudo — dos Māori ao urdu, do nüshu ao hokkien — como estudos de caso interdisciplinares que cruzam tecnologia, história, política e ética. São histórias com a força narrativa necessária para captar a atenção dos alunos e, ao mesmo tempo, a profundidade analítica que o ensino secundário e superior exigem.

A terceira é lembrar, sempre, que a tecnologia é feita de escolhas. E que essas escolhas — quem é incluído, quem é excluído, que línguas contam, que culturas são representadas — são eminentemente humanas. Ensinar isto pode ser a coisa mais importante que fazemos quando falamos de inteligência artificial na escola.


Referência

Pava, J. N., Mullaney, T. S., Meinhardt, C., Gao, A., & Yang, D. (2025). How can AI support language digitization and digital inclusion? [White paper]. Stanford University, Institute for Human-Centered Artificial Intelligence (HAI) & SILICON. https://hai.stanford.edu/

Leave a Reply