Embora o acesso a dados e as inferências que esse mesmo acesso permite possam ajudar a abordar problemas sociais complexos, também acarretam riscos à privacidade e à liberdade. Por esta razão, investigadores, governos e diferentes instituições, têm-se afastado da ideia de “Dados Abertos” e realizado esforços importantes para melhorar a proteção de dados. Estes esforços têm sido liderados pela UE com o Regulamento Geral sobre a Proteção de Dados (RGPD) e a recente Lei de Serviços Digitais (Digital Services Act) ao exigirem cada vez mais controlo no acesso a dados e sobre o tipo de análises permitidas.
Estas preocupações são profundamente legítimas e nova legislação é necessária, mas é importante que estas não impliquem encargos burocráticos desnecessários, dificultando a investigação e a inovação. Por exemplo, Portugal tem sido pioneiro na promoção de colaborações entre a academia e instituições públicas, ao oferecer financiamento a cientistas que trabalhem com dados para auxiliar a administração pública e apoiar o desenho de políticas públicas. No entanto, os investigadores são muitas vezes confrontados com processos de acesso a dados públicos demasiado restritos ou lentos para permitir interacções produtivas ou contribuir para a tomada de decisões. Contrariamente, é comum que empresas privadas envolvidas em projetos públicos tenham acesso quase ilimitado aos dados dos cidadãos, enquanto apoiam a construção de bases de dados ou quando oferecem serviços de consultoria estratégica. Importa assim desenvolver novos sistemas que facilitem o acesso a dados por parte de investigadores, garantindo ao mesmo tempo um tratamento ético e atento à privacidade.
Neste post, apresentamos um esboço para um desses sistemas e abrimos esta proposta à discussão. É inspirado no que tem sido adoptado noutras áreas da ciência, incluindo a biologia experimental, o controlo de produtos químicos perigosos ou a manipulação de material nuclear.
Em linhas gerais, defendemos que o acesso deve ser concedido a pessoas certificadas para a prossecução de objectivos específicos e delimitados, sujeitos a avaliação por comissões de ética. Mas, uma vez emitidas, estas certificações devem ter uma duração definida, durante a qual o acesso aos dados é facilitado. À semelhança do que acontece no caso de investigadores autorizados a fazer experimentação animal, uma vez certificados não têm de voltar a pedir autorização cada vez que iniciem uma nova experiência. Naturalmente, e ao contrário dos exemplos dados acima, estamos a referir-nos a dados pessoais e potencialmente sensíveis, pelo que os direitos dos cidadãos em relação à propriedade dos seus dados e o seu livre-arbítrio podem estar em jogo. Logo, os cidadãos também devem ter voz, individualmente ou por meio de organizações dedicadas à proteção dos direitos digitais do público, no processo de criação de legislação para regular esta área.
O esquema proposto, ainda que simplificado, seria o seguinte:
- Passo 1: Classificação dos dados. Diferentes tipos de dados seriam classificados de acordo com os níveis de risco associados aos mesmos à luz da RGPD. Classificações mais refinadas podem ser definidas pelos proprietários e controladores dos dados, envolvendo os cidadãos no processo;
- Passo 2: Certificação de Investigadores. Os Investigadores (dos sectores público e privado) com acesso a qualquer tipo de dados humanos seriam obrigados a fazer formação em temas relacionados com a gestão de dados, podendo incluir tópicos como ética e a proteção de dados ao abrigo do RGPD. Diferentes cursos ofereceriam diferentes certificações e estas, por sua vez, levariam a diferentes níveis de “acesso” a dados. Por exemplo, deve haver cursos diferentes para investigadores e trabalhadores que lidem com dados não-anonimizados ou pseudo-anonimizados, certificações para utilizadores mais e menos experientes. À semelhança do que acontece em cursos de experimentação animal ou de manuseamento de materiais radioativos, estes cursos devem ser certificados a nível institucional, nacional ou europeu, devendo também ser gratuitos e online, seja através de MOOCs ou de outros formatos similares;
- Passo 3: Avaliação e acesso. Os projetos de investigação seriam avaliados de forma independente por comités de ética e de protecção de dados. Tal como já é prática na investigação científica, este processo deverá ser gerido pelas próprias instituições onde a investigação decorrerá. Embora este passo seja já exigido a quem se candidata a financiamento europeu, acreditamos que o mesmo deve abranger todos os projectos que envolvam dados humanos.
- Passo 4: Acesso a Infraestruturas de Investigação. Uma vez estabelecidas as autoridades de certificação, tanto para projectos como para cientistas individuais, os sistemas de controlo de acesso devem ser integrados nas fontes de dados. Estes determinariam quem tem acesso (cientistas/projetos/trabalhadores certificados nível A teriam acesso apenas aos dados nível A, e assim por diante), quando e para que finalidade, assim como registariam e monitorizariam o acesso aos dados. Este esquema de certificação pode ser facilmente integrado nas infraestruturas de investigação (RI no acrónimo em inglês) já existentes.
Apresentámos aqui uma versão simplificada de um possível sistema vertical para facilitar o acesso a dados para investigação. Salientamos que esforços recentes na criação de novas RIs tornaram preocupações éticas e de privacidade centrais no seu desenvolvimento. Por exemplo, RIs desenvolvidas recentemente, como a SoBigData ou a Infraestrutura de Dados Integrada da Nova Zelândia, oferecem plataformas de data mining, onde investigadores podem realizar análises sobre dados sensíveis, tanto por motivos éticos como por de privacidade, em ambientes virtuais protegidos, não tendo nunca acesso aos dados originais. Sistemas de controlo de acesso como o aqui proposto, poderiam ser facilmente integrados nestas RIs, condicionando o acesso aos ambientes virtuais a uma autorização prévia, ao nível de acesso dos investigadores e no contexto dos projectos a desenvolver.