“When you look at the Internet, the Internet looks back at you.”1Kernighan, B. W. (2017). Understanding the digital world. Princeton University Press, p. 321

Temos andado a pensar muito na relação entre a privacidade e a desinformação. Na era da internet personalizada, como é que a experiência online de um ávido consumidor de notícias falsas diverge da experiência de outros indivíduos? Mais especificamente, como é que o consumo de desinformação afecta o conteúdo visualizado numa página ou os resultados de pesquisas em motores de busca? Neste post vou discutir brevemente como estudar a recolha de dados sobre utilizadores de páginas web por parte de partes terceiras pode ser benéfico para aprendermos mais sobre os mecanismos de difusão de desinformação nos dias de hoje assim como os desafios associados a fazê-lo de forma ética. 

Como sabemos, a distribuição de conteúdos criados por partes terceiras é um mecanismo substancial de financiamento para muitas páginas web. A possibilidade de poderem imbutir o seu conteúdo noutras páginas aliada com técnicas de segmentação baseadas em dados comportamentais, permitem que negócios consigam atingir o seu público-alvo facilmente onde quer que estejam na internet, seja através de pesquisas em motores de busca (sponsored searches) ou de conteúdos em páginas web (publicidade online ou sponsored content).

Para segmentar utilizadores na internet, redes de publicidade online e outras partes terceiras necessitam  de uma significativa quantidade de dados sobre os mesmos, desde a sua Geo-localização, que pode ser inferida através do endereço IP, aos seus interesses, que podem ser inferidos com base no histórico de navegação e comportamento online. Enquanto as páginas web parecem ser entidades unitárias armazenadas num servidor algures, muito do conteúdo visualizado pelos utilizadores, como por exemplo fonts ou algumas imagens, advém de partes terceiras à página visitada. Se lhes for permitido correr programas (tradicionalmente escritos em javascript) em várias páginas, estas partes terceiras podem atribuir identificadores únicos a cada utilizador e assim recolher dados sobre o seu histórico de navegação.  Estes identificadores únicos tipicamente vêm na forma de cookies, pequenos fragmentos de texto gerados para cada utilizador e que são armazenados no dispositivo do mesmo, ou são gerados com base em propriedades do dispositivo do utilizador que o tornam unicamente identificável (fingerprinting).

Não temos motivos para acreditar que o mesmo não ocorra em páginas de desinformação, longe disso. Vários relatos sobre criadores de conteúdo de desinformação desde jovens nos Balcãs a pais em subúrbios dos EUA sugerem que a indústria de produção de conteúdos falsos online poderá ser bastante lucrativa. Um recente relatório da ONG Global Disinformation Index estimou que as 480 páginas de desinformação monitorizadas num período de 5 meses receberam milhões em receita de publicidade online. Igualmente, encontramos vários relatos de publicidade direcionada sendo utilizada como ferramenta para a difusão de conteúdo falso. Veja-se, por exemplo, o caso da publicidade direcionada a Afro-Americanos na página da revista Newsweek, que promovia a prata coloidal como possível cura para a covid-19. Em linha com estes relatos, a nossa investigação preliminar sugere que a recolha de dados e monitorização de utilizadores parece ocorrer com maior frequência em páginas de desinformação no geral, mas especialmente se essa monitorização for feita por entidades relacionadas com publicidade online. 

Ainda assim, a monitorização e recolha de dados sobre utilizadores, assim como o seu impacto na sua experiência online em páginas web ou motores de busca, tem recebido bastante menos atenção do que outros tópicos como o papel das redes sociais na difusão de desinformação. Por exemplo, se procurarmos em bases de dados de artigos de notícias, como a Mediacloud, ou em servidores de artigos académicos antes da revisão por pares, como o arxiv, artigos sobre desinformação que contém palavras-chave2Mais informação sobre como replicar estes gráficos aqui relacionadas com redes sociais, privacidade, publicidade online ou motores de busca, descobrimos que o número de artigos relacionados com redes sociais é significativamente superior.

Pre-prints no arxiv

Artigos de notícias no mediacloud

Figura 1: Número de artigos (a nível global) contendo palavras-chave associadas com desinformação e palavras-chave associadas com publicidade, privacidade, motores de busca e redes sociais.

Mas como é que se estuda a recolha de dados de utilizadores e o seu impacto no contexto da desinformação? E como fazê-lo respeitando a privacidade dos utilizadores? Parecem existir essencialmente três formas. Primeiro, podemos pedir a utilizadores o acesso aos seus dados de navegação ou monitorizar os mesmos através de extensões web depois do seu consentimento informado. Contudo, normas éticas exigem que estes métodos apenas sejam utilizados se conseguirem verdadeiramente salvaguardar a privacidade dos participantes no estudo. Ainda que existam bastantes desenvolvimentos positivos nesta frente, continua a ser uma importante fronteira ética a ter em consideração. Segundo, podemos utilizar bots para simular utilizadores e assim navegar na internet da perspectiva de consumidores de desinformação sem nunca pedir dados aos mesmos.  Ainda assim, o risco de detecção de bots por parte de web-hosts aumenta o risco de análises enviesadas, pelo que é uma tarefa difícil. Claro que uma terceira opção, seria termos amigos em empresas como a Google.

Escusado será dizer que investigar desinformação em redes sociais continua a ser crucial. O nosso objectivo com este projecto é complementar esta investigação e perguntar o que é que acontece quando alguém clica num link de fake news descoberto no seu feed e decide “investigar o assunto”.