“Os dados são impressões digitais”: por isso ninguém é tão anónimo quanto pensa on-line

Os chamados dados “anónimos” podem ser facilmente usados para identificar tudo, desde os nossos registos médicos até históricos de compras

Olivia Solon em São Francisco

@oliviasolon

Ler na fonte.

“As migalhas digitais podem ser rastreadas para violar a privacidade das pessoas de formas que nunca esperavam”. Foto: Voisin / Phanie / Rex / Shutterstock

Em agosto de 2016, o governo australiano divulgou um conjunto de dados “anonimizado”, incluindo os registos de faturamento médico, incluindo todas as prescrições e cirurgias, de 2,9 milhões de pessoas.

Os nomes e outras características de identificação foram removidos dos registos num esforço para proteger a privacidade dos indivíduos, mas uma equipa de pesquisa da Universidade de Melbourne logo descobriu que era simples reidentificar as pessoas e aprender sobre todo o histórico médico sem o consentimento delas. , comparando o conjunto de dados com outras informações disponíveis publicamente, como relatos de celebridades com bébés ou atletas que tiveram cirurgias.

O governo retirou os dados de seu site, mas não antes de terem sido baixados 1.500 vezes.

Esse pesadelo da privacidade é um dos muitos exemplos de peças de informação aparentemente inócuas e “desidentificadas” que estão a ser submetidas a engenharia reversa para expor a identidade das pessoas. E isso só está a piorar à medida que as pessoas passam mais tempo de suas vidas on-line, polvilhando migalhas digitais que podem ser rastreadas até si para violar a sua privacidade de uma maneira que nunca esperaram.

Logs de táxi sem nome em Nova York foram comparados com tiros de paparazzi em locais da cidade para revelar que Bradley Cooper e Jessica Alba eram maus tippers . Em 2017, pesquisadores alemães foram capazes de identificar pessoas com base nos seus padrões de navegação na web “anónimos” . Esta semana, os pesquisadores da University College London mostraram como poderiam identificar um utilizador individual do Twitter com base nos metadados associados aos seus tweets , enquanto o aplicativo de rastreamento de condicionamento físico Polar revelou as casas e, em alguns casos, nomes de soldados e espiões .

“É conveniente fingir que é difícil re-identificar pessoas, mas é fácil. O tipo de coisa que fizemos foi o tipo de coisa que qualquer estudante de ciência de dados do primeiro ano poderia fazer ”, disse Vanessa Teague, uma das pesquisadoras da Universidade de Melbourne, para revelar as falhas nos dados abertos de saúde.

Um dos primeiros exemplos desse tipo de violação de privacidade ocorreu em 1996, quando a Comissão de Seguros do Grupo de Massachusetts divulgou dados “anónimos” que mostravam as visitas aos hospitais dos funcionários públicos . Tal como acontece com os dados australianos, o estado removeu identificadores óbvios, como nome, endereço e número de segurança social. Então o governador, William Weld, assegurou ao público que a privacidade dos pacientes era protegida.

Latanya Sweeney, uma graduada em ciência da computação que mais tarde se tornou a diretora de tecnologia da Federal Trade Commission, mostrou o quão errado Weld estava encontrando os seus registos médicos no conjunto de dados. Sweeney usou o código postal e data de nascimento de Weld, retirados dos cadernos eleitorais, e o conhecimento de que ele havia visitado o hospital em um determinado dia após o colapso durante uma cerimónia pública, para rastreá-lo. Enviou os seus registros médicos para o seu escritório.

Em trabalhos posteriores, Sweeney mostrou que 87% da população dos Estados Unidos poderia ser identificada unicamente pela sua data de nascimento, sexo e códigos postais de cinco dígitos.

“O ponto é que os dados que podem parecer anónimos não são necessariamente anónimos”, disse ela em depoimento a um comitê de privacidade do Departamento de Segurança Interna .

Mais recentemente, Yves-Alexandre de Montjoye, pesquisador de privacidade computacional, mostrou como a grande maioria da população pode ser identificada a partir dos padrões comportamentais revelados pelos dados de localização de telefones celulares . Ao analisar um banco de dados de telefones celulares dos locais aproximados (com base na torre de celular mais próxima) de 1,5 milhão de pessoas em 15 meses (sem outras informações de identificação) foi possível identificar exclusivamente 95% das pessoas com apenas quatro pontos de dados e tempos. Cerca de 50% podem ser identificados a partir de apenas dois pontos.

Os quatro pontos podem vir de informações disponíveis publicamente, incluindo o endereço residencial de uma pessoa, o endereço comercial e as postagens no Twitter marcadas geograficamente.

“Dados de localização são impressões digitais. É uma informação que provavelmente existe em uma ampla gama de conjuntos de dados e poderia ser usada como um identificador global ”, disse De Montjoye.

Particularmente para a população trabalhadora, este é o sonho de um stalker.

“Você muda de casa para o trabalho e vice-versa com padrões bastante regulares. Principalmente uma pessoa que mora no endereço A e trabalha no endereço B ”, disse Anna Johnston, diretora de consultoria da Salinger Privacy .

Mesmo que os dados de localização não revelem a identidade de um indivíduo, ele ainda pode colocar grupos de pessoas em risco, explicou ela. Um mapa público divulgado pelo aplicativo de fitness Strava , por exemplo, inadvertidamente se tornou um risco de segurança nacional, uma vez que revelou a localização e os movimentos de pessoas em bases militares secretas.

Em 2015, De Montjoye mostrou que era possível identificar o proprietário de um cartão de crédito entre as milhões de cobranças “anónimas” apenas conhecendo algumas das compras daquela pessoa.

Armado apenas com os nomes e locais de lojas onde as compras ocorreram, e as datas aproximadas e os valores de compra, De Montjoye foi capaz de identificar 94% das pessoas, observando apenas três transações. Isso significa que alguém poderia encontrar uma foto do Instagram de você tomando café com amigos, um tweet sobre uma compra recente e um recibo antigo, e eles poderiam combiná-lo com todo o histórico de compras.

Uma foto na mídia social pode, eventualmente, levar de volta a todo o histórico de transações. — Uma foto na media social pode, eventualmente, levar de volta a todo o histórico de transações. Foto: martin-dm / Getty Images

Montjoye e outros têm mostrado repetidas vezes que simplesmente não é possível anonimizar dados de nível de registo de unidade – dados relativos a indivíduos – não importando o quanto esses dados sejam reduzidos.

“Pode ter funcionado no passado, mas já não funciona”, disse ele.

Há muito pouco que as pessoas possam fazer para se proteger desse tipo de invasão de privacidade.

“Uma vez que os nossos dados chegam lá, ele tende a ser armazenado para sempre”, disse Arvind Narayanan, professor de ciência da computação em Princeton. “Há empresas especializadas em combinar dados sobre nós de diferentes fontes para criar dossiês virtuais e aplicar a mineração de dados para influenciar de várias maneiras.”

É possível reduzir a sua pegada digital individual, pagando apenas em dinheiro e trocando de celular, mas isso não é particularmente prático.

“Se você quer ser um membro funcional da sociedade, não tem a capacidade de restringir a quantidade de dados que lhe está sendo sugada para um nível significativo”, disse o pesquisador de segurança Chris Vickery .

Também torna extremamente difícil para o indivíduo dar consentimento informado sobre a maneira como seus dados são coletados por qualquer aplicativo ou serviço. As promessas feitas pelas empresas de não partilhar informações pessoalmente identificáveis são insignificantes quando é tão fácil re-identificar alguém.

“Tudo se resume a boa regulamentação e aplicação adequada”, disse De Montjoye, acrescentando que o Regulamento Geral de Proteção de Dados da Europa é um “passo na direção certa” .

“Uma das falhas da lei de privacidade é que ela leva muita responsabilidade para o consumidor num ambiente onde eles não estão bem equipados para entender os riscos”, disse Johnston. “Muito mais responsabilidade legal deve ser dada aos custodiantes [de dados, como governos, pesquisadores e empresas]”.

De Montjoye continua otimista, referindo-se ao “enorme potencial” do big data, particularmente para pesquisa médica e ciências sociais.

Ele propõe que, em vez de lançar grandes conjuntos de dados, os pesquisadores e os governos devem desenvolver interfaces que permitam que outros façam perguntas sobre os dados sem aceder aos arquivos brutos.

“A ideia é não perder o controle dos dados e garantir que os assuntos permaneçam anónimos”, disse ele.

“A privacidade não está morta. Precisamos disso e vamos chegar lá.

TIC, Educação e Web

A tecnologia ao serviço da educação.

“Os dados são impressões digitais”: por isso ninguém é tão anónimo quanto pensa on-line

Like this:

Related

Leave a ReplyCancel reply

Partilhar:

Like this:

Related

Leave a ReplyCancel reply

Discover more from TIC, Educação e Web