Como medir a disruptividade científica? uma nova abordagem baseada em Inteligência Artificial

Download do artigo |

A ciência avança por saltos. Algumas descobertas mudam completamente a direção de uma área do conhecimento — como aconteceu com a teoria da evolução, a mecânica quântica ou o CRISPR. Mas como identificar, de forma rigorosa e objetiva, quais são realmente esses trabalhos revolucionários? É precisamente a este desafio que responde um novo estudo publicado na revista Science Advances, da autoria de Munjung Kim, Sadamori Kojaku e Yong-Yeol Ahn, da Indiana University.

O Problema de Medir a Disruptividade

Nos últimos anos, tornou-se popular o uso do chamado índice de disrupção (CD index) para classificar artigos científicos como “disruptivos” ou “consolidadores”. Um artigo disruptivo seria aquele que redireciona o campo — as investigações futuras passam a citar o novo trabalho em vez dos anteriores. Um artigo consolidador, pelo contrário, aprofunda e confirma o que já existe.

O problema é que este índice tem limitações sérias:

  • Baseia-se apenas na estrutura local da rede de citações (relações diretas entre artigos)
  • Produz muitos valores iguais a zero, tornando difícil distinguir entre trabalhos
  • É extremamente sensível a ligações individuais entre artigos — um único link de citação pode fazer com que um artigo passe de “máximo disruptivo” para “mínimo disruptivo”
  • Falha em identificar descobertas simultâneas, ou seja, artigos que chegaram às mesmas conclusões de forma independente

Clicar na imagem para ver a apresentação…

A Nova Métrica: EDM (Embedding Disruptiveness Measure)

Para superar estas limitações, os investigadores propõem o EDM, uma métrica baseada em embeddings de grafos — uma técnica de inteligência artificial que representa cada artigo científico como um vetor num espaço de alta dimensão.

A ideia central é elegante: para cada artigo, o modelo aprende dois vetores distintos:

  • vetor passado (p) — que representa o contexto intelectual do artigo, ou seja, as obras em que ele se baseia (as suas referências e os seus “antecessores”)
  • vetor futuro (f) — que representa o impacto do artigo, ou seja, as obras que virão a citar e a usar esse trabalho (“descendentes”)

Se um artigo é verdadeiramente disruptivo, o seu impacto nos trabalhos futuros diverge radicalmente das fundações em que se baseia — a investigação posterior já não depende das obras que o precediam. Esta divergência é medida pela distância cosseno entre os dois vetores. Quanto maior a distância, maior a disruptividade.

Resultados: Um Salto Qualitativo na Identificação de Marcos Científicos

O EDM foi testado em mais de 55 milhões de artigos científicos da Web of Science e da American Physical Society, bem como em mais de 7 milhões de patentes. Os resultados são impressionantes:

  • O EDM identificou corretamente como altamente disruptivos 302 artigos galardoados com o Prémio Nobel e 278 artigos de marcos históricos da física, com muito maior fiabilidade do que o índice CD tradicional
  • Numa regressão logística multivariada, um aumento de 10 percentis no EDM corresponde a 1,34 vezes mais probabilidade de o artigo ser vencedor do Nobel — enquanto o índice CD tradicional não apresentou significância estatística nesta previsão
  • O EDM produz uma distribuição contínua e de alta resolução, permitindo distinguir subtilezas que o índice CD não consegue captar

O Caso das Descobertas Simultâneas

Um dos achados mais fascinantes do estudo é a capacidade do EDM de identificar descobertas simultâneas — situações em que dois grupos independentes chegam à mesma conclusão ao mesmo tempo.

O índice CD falha nestes casos de forma dramática. Quando dois artigos se citam mutuamente (por terem sido publicados ao mesmo tempo sobre o mesmo tema), o índice CD pode cair do máximo para o mínimo absoluto. O estudo ilustra isto com casos históricos célebres:

  • O méson J/ψ (1974): As equipas de B. Richter e S. Ting anunciaram simultaneamente a descoberta desta partícula subatómica. Por se citarem mutuamente, o índice CD dos seus artigos caiu para o percentil 0 (fundo da tabela). O EDM, pelo contrário, atribui-lhes percentil 95 e 97.
  • O mecanismo de Higgs (1964): O artigo de Peter Higgs cita o de Englert e Brout, publicado quase em simultâneo. Isso faz descer o D do artigo de Higgs para o percentil 0,1. O EDM coloca ambos os artigos no percentil 4 — reconhecendo corretamente a sua importância histórica.

Outros casos identificados incluem a descoberta da transcriptase reversa, a liberdade assintótica na cromodinâmica quântica e a difusão inelástica de eletrões e neutrões.

Como o EDM Deteta Descobertas Simultâneas Automaticamente

Além de corrigir erros do índice CD, o EDM permite ir mais longe: identificar sistematicamente descobertas simultâneas sem recorrer a listas de autores ou citações cruzadas.

A lógica é simples: se dois artigos relatam a mesma descoberta, a investigação futura cita-os em contextos semelhantes. Por isso, os seus vetores futuros devem ser próximos no espaço de embedding.

Os investigadores testaram esta hipótese com sucesso: dos 80 artigos com mais de 300 citações identificados como potenciais descobertas simultâneas, 64 (80%) foram confirmados como tal — com 34 sendo descobertas independentes verificadas nos próprios textos dos artigos, onde os autores mencionavam explicitamente o trabalho paralelo de outros grupos.

Implicações para a Ciência e para a Educação

Este estudo tem implicações que vão além da bibliometria:

Para a comunidade científica, o EDM oferece uma ferramenta mais justa para atribuir reconhecimento a contribuições transformadoras — incluindo aquelas que ficaram na sombra de trabalhos mais citados ou que foram fragmentadas em múltiplas publicações.

Para a história e filosofia da ciência, os resultados confirmam empiricamente a teoria de Merton sobre as descobertas múltiplas: os avanços simultâneos e independentes são a norma, não a exceção — tal como aconteceu com Newton e Leibniz no cálculo, ou com Darwin e Wallace na teoria da evolução.

Para a literacia de informação e o pensamento crítico, este estudo é um excelente exemplo de como as métricas que usamos para avaliar o conhecimento têm limitações e enviesamentos que precisam de ser compreendidos. Avaliar a qualidade e o impacto de um trabalho científico é sempre um processo complexo, contextual e multidimensional — algo que qualquer estudante e cidadão deve aprender a questionar.

Limitações Reconhecidas pelos Próprios Autores

Com rigor científico, os investigadores listam também as limitações do EDM:

  • Medir a evolução temporal da disruptividade exige retreinar o modelo, o que é computacionalmente exigente
  • Artigos com poucas citações ou sem referências não são bem capturados
  • A interpretabilidade é menos direta do que indicadores tradicionais baseados em redes
  • Não funciona bem quando as comunidades científicas não comunicam entre si (como no caso do teorema de Cook-Levin, ignorado durante anos por barreiras entre os EUA e a URSS)

Este estudo é um bom exemplo de como a inteligência artificial pode ser usada para compreender melhor a própria ciência — não apenas para produzir conhecimento novo, mas para reconhecer, com mais justiça, quem já o fez.

Referência: Kim, M., Kojaku, S., & Ahn, Y.-Y. (2026). Uncovering simultaneous breakthroughs with a robust measure of disruptiveness. Science Advances, 12(14), eadx3420. https://doi.org/10.1126/sciadv.adx3420

Leave a Reply