Quando as pesquisas são realizadas, como um censo, elas coletam informações sobre um grupo específico de pessoas. Para incentivar a participação e proteger a privacidade dos participantes da pesquisa, os pesquisadores tentam projetar a pesquisa de uma maneira que, quando as pessoas participam de uma pesquisa, não será possível corresponder à resposta individual de qualquer participante com os dados publicados.
Quando um site de compras on -line deseja conhecer as preferências e os hábitos de compras de seus usuários, ele decide recuperar os dados dos clientes do seu banco de dados e fazer análises sobre eles. As informações de dados pessoais incluem identificadores pessoais que foram coletados diretamente quando os clientes criaram suas contas. O site precisa pré-manipular os dados por meio de técnicas de desidentificação antes de analisar os registros de dados para evitar violar a privacidade de seus clientes.
A anonimização refere-se a separar irreversivelmente um conjunto de dados da identidade do colaborador de dados em um estudo para evitar qualquer re-identificação futura, mesmo pelos organizadores do estudo sob qualquer condição. A desidentificação também pode incluir a preservação de informações de identificação que só podem ser re-vinculadas por uma parte confiável em determinadas situações. Há um debate na comunidade de tecnologia sobre se os dados que podem ser re-vinculados, mesmo por uma parte confiável, devem ser considerados desidentificados.
Estratégias comuns de desidentificação estão mascarando identificadores pessoais e generalizando os quase-identificadores. A pseudonimização é a principal técnica usada para mascarar identificadores pessoais dos registros de dados e a anonimização da K geralmente é adotada para generalizar quase-identificadores.
A pseudonimização é realizada substituindo nomes reais por um ID temporário. Ele exclui ou mascara identificadores pessoais para tornar os indivíduos não identificados. Esse método possibilita rastrear o registro do indivíduo ao longo do tempo, mesmo que o registro seja atualizado. No entanto, não pode impedir que o indivíduo seja identificado se algumas combinações específicas de atributos no registro de dados identificam indiretamente o indivíduo.
K-anonimização define atributos que indiretamente apontam para a identidade do indivíduo como quase-identificadores (QIs) e lidam com dados fazendo com que pelo menos K indivíduos tenham a mesma combinação de valores de qi. Os valores de Qi são tratados seguindo padrões específicos. Por exemplo, a anonimização K substitui alguns dados originais nos registros por novos valores de intervalo e mantém alguns valores inalterados. A nova combinação de valores de qi impede que o indivíduo seja identificado e também evite destruir registros de dados.
A pesquisa sobre a desidentificação é impulsionada principalmente para proteger as informações de saúde. Algumas bibliotecas adotaram métodos usados no setor de saúde para preservar a privacidade de seus leitores.
Em Big Data, a desidentificação é amplamente adotada por indivíduos e organizações. Com o desenvolvimento de mídias sociais, comércio eletrônico e big data, às vezes é necessária a desidentificação e frequentemente usada para privacidade de dados quando os dados pessoais dos usuários são coletados por empresas ou organizações de terceiros que o analisam por seu próprio uso pessoal .
Nas cidades inteligentes, pode ser necessária a desidentificação para proteger a privacidade de residentes, trabalhadores e visitantes. Sem regulamentação estrita, a desidentificação pode ser difícil porque os sensores ainda podem coletar informações sem consentimento.
Sempre que uma pessoa participa de pesquisas de genética, a doação de uma amostra biológica geralmente resulta na criação de uma grande quantidade de dados personalizados. Esses dados são exclusivamente difíceis de desidentificar.
A anonimização dos dados genéticos é particularmente difícil devido à enorme quantidade de informações genotipicinas nos biotecimenses, aos laços que as amostras geralmente têm para o histórico médico e o advento das ferramentas modernas de bioinformática para mineração de dados. Houve demonstrações de que dados para indivíduos em coleções agregadas de conjuntos de dados genotípicos podem ser vinculados às identidades dos doadores de amostras.
Alguns pesquisadores sugeriram que não é razoável prometer aos participantes da Genética pesquisas que possam manter seu anonimato, mas, em vez disso, esses participantes devem aprender os limites do uso de identificadores codificados em um processo de deidentificação.
Em maio de 2014, o Conselho de Consultores do Presidente dos Estados Unidos sobre ciência e tecnologia considerou a desidentificação "um tanto útil como uma salvaguarda adicional", mas não "uma base útil para a política" como "não é robusta contra a futura reivindicação futura de curto prazo métodos".
A regra de privacidade HIPAA fornece mecanismos para usar e divulgar dados de saúde com responsabilidade, sem a necessidade de consentimento do paciente. Esses mecanismos se concentram em dois padrões de identificação da HIPAA-porto seguro e o método de determinação de especialistas. O porto seguro depende da remoção de identificadores específicos de pacientes (por exemplo, nome, número de telefone, endereço de e -mail etc.), enquanto o método de determinação de especialistas requer conhecimento e experiência com princípios e métodos estatísticos e científicos geralmente aceitos para tornar as informações não identificáveis individualmente.
O método Safe Harbor usa uma abordagem de lista de identificação e possui dois requisitos:
The removal or generalization of 18 elements from the data.That the Covered Entity or Business Associate does not have actual knowledge that the residual information in the data could be used alone, or in combination with other information, to identify an individual. Safe Harbor is a highly prescriptive approach to de-identification. Under this method, all dates must be generalized to year and zip codes reduced to three digits. The same approach is used on the data regardless of the context. Even if the information is to be shared with a trusted researcher who wishes to analyze the data for seasonal variations in acute respiratory cases and, thus, requires the month of hospital admission, this information cannot be provided; only the year of admission would be retained.A determinação de especialistas adota uma abordagem baseada em risco para a desidentificação que aplica padrões atuais e práticas recomendadas da pesquisa para determinar a probabilidade de que uma pessoa possa ser identificada a partir de suas informações de saúde protegidas. Este método exige que uma pessoa com conhecimento e experiência adequados com princípios e métodos estatísticos e científicos geralmente aceitos tornem as informações não identificáveis individualmente. Isso requer:
That the risk is very small that the information could be used alone, or in combination with other reasonably available information, by an anticipated recipient to identify an individual who is a subject of the information;Documents the methods and results of the analysis that justify such a determination.A principal lei sobre pesquisa em dados eletrônicos de registro de saúde é a regra de privacidade da HIPAA. Esta lei permite o uso do registro eletrônico de saúde de sujeitos falecidos para pesquisa (regra de privacidade da HIPAA (Seção 164.512 (i) (1) (iii))).