假名化用别名代替个人信息,使数据集更加私密。除非将假名数据与一组单独的信息相结合,否则无法将假名数据与可识别的人匹配。
阅读本文后,您将能够:
复制文章链接
假名化是从数据中删除个人标识符并用占位符值替换这些标识符的过程。它有时用于保护个人隐私或提高数据安全性。结合其他重要的隐私保护措施(例如加密),假名化可以帮助维护用户隐私。
一般来说,“假名”是用来隐藏身份的假名称。例如,许多书籍作者使用化名或“笔名”。数据假名化有点像这个概念,但假名值通常不公开使用。同样重要的是要注意,除了个人姓名外,任何个人信息都可以假名化。
想象一下 Alice 在流媒体服务上创建了一个帐户。作为注册过程的一部分,流媒体服务将她的名字存储在他们的数据库中。但是,该服务并未在其个人记录数据库(我们称之为数据库 1)中将她记录为“Alice”,而是使用假名化将“Alice”更改为“Person 17332”。
数据库 1:
名称 | 帐户类型 |
---|---|
Person 17332 | 正式成员 |
Person 12348 | 免费试用 |
Person 74738 | VIP 会员 |
Person 78383 | 正式成员 |
姓名及其对应假名的列表保存在一个单独的数据库中(我们称之为数据库 2)。只能访问数据库 1 的人将能够查看假名数据,但无法将该数据与特定个人(例如 Alice)进行匹配。要进行匹配,他们还需要访问数据库 2,即姓名和假名列表。
数据库 2:
名称 | 假名 |
---|---|
Alice | Person 17332 |
Bob | Person 12348 |
Carlos | Person 74738 |
David | Person 78383 |
现在想象一下,流媒体服务的流氓员工 Chuck 窃取了数据库 1。他分析了数据,但无法验证任何用户的身份,因为假名列表是单独存储的。除非他也窃取数据库 2,否则他无法对窃取的数据做太多事情。
通过这种方式,假名化有助于保护隐私并增强安全性。但是,仍然可以通过多种方式识别某人。如果识别数据没有单独存储,则可以识别个人——例如,如果 Chuck 也窃取了数据库 2,他可以很容易地通过姓名识别 Alice。此外,通常可以通过将数据与其他外部数据源相结合来识别假名化数据中的个人(想象一下,如果 Alice 在社交媒体上发布了关于在流媒体服务上拥有正式会员资格的消息)。
因此,假名化需要与其他进程和技术相结合才能保持数据的私密性。例如:假设流媒体服务使用加密来保护数据库 1 和 2,而不仅仅是假名化。如果 Chuck 窃取了这两个数据库,那么他现在只能看到:
数据库 1:
名称 | 帐户类型 |
---|---|
P0kOFAw20PHbOnT7oXXvlm4 lfOkGbahX+1XCv1VECrE= |
nm+nauwi7eePi7ZKJH0sIeV LbxBJgixIdL1sOXvsUnw= |
88X5ceFkvcYjG+WxROkAT6X Lh8wuqc3NctBP7mkIAYM= |
w+1iufZv3OrLPb7sESpeNIu 5kzX4IVaNYz7DhpSeFKo= |
Zh3MZza5QM0Q+BtNGBx7eel MafyehzZBv5I2zdodp8E= |
CGDoLDA7X/poEyTI+UWa8mu C9bjmbMfAmwhrNZbjUbc= |
WbAJpSq+GRuaVK5Qogdfa2t WYQq2Ge2GiS1zJsmUOG8= |
nm+nauwi7eePi7ZKJH0sIeV LbxBJgixIdL1sOXvsUnw= |
数据库 2:
名称 | 假名 |
---|---|
lenaV3sVToJ8FdDHNwLIMed 0AN5I+P7KSrN3nKj8WN8= |
P0kOFAw20PHbOnT7oXXvlm4 lfOkGbahX+1XCv1VECrE= |
srS9OH6GK4qa33jgZx+24ZJ ghF1BZE9Agc825l1c0lA= |
88X5ceFkvcYjG+WxROkAT6X Lh8wuqc3NctBP7mkIAYM= |
ddbqSa7o561pBZzFHebo2LZ vKrgWCKj7XM1n10/waw8= |
Zh3MZza5QM0Q+BtNGBx7eel MafyehzZBv5I2zdodp8E= |
TKtTr4dDNRd+yb6f4DzUlrg hC10OgUXlkR0X8wzkzJw= |
WbAJpSq+GRuaVK5Qogdfa2t WYQq2Ge2GiS1zJsmUOG8= |
出于这个原因,加密针对 Chuck 之类窥探者提供了更强的保护。了解有关隐私和加密的更多信息。
《通用数据保护条例》(GDPR) 提到假名化是一种可用于保护个人数据的方法,但它并不要求使用假名化。假名化不能保证隐私得到保护,也不能保证一个组织避免违反 GDPR。
事实上,GDPR 仍然将假名化数据视为个人数据,因为它可以通过添加额外信息与个人相关联。(在上面的示例中,可以通过添加来自数据库 2 的信息来识别 Alice 在数据库 1 中的会员级别。)GDPR 指出:
“经过假名化的个人数据,如果可以通过使用附加信息而找到所属的自然人,则应被视为可识别自然人的信息。”
因此,虽然假名化有助于保护数据,但仅靠其本身不足以维护隐私或 GDPR 合规性。
匿名化使数据完全匿名。识别信息被完全剥离,且与假名化不同,在理想情况下,该过程不能逆转。如果上面示例中的数据是匿名的,那么所有可以识别 Alice 的信息,比如她的名字,都会从数据库中删除,而不是被替换为假名:
名称 | 帐户类型 |
---|---|
******** | 正式成员 |
******** | 免费试用 |
******** | VIP 会员 |
******** | 正式成员 |
数据匿名化有助于保护隐私,但并非总是可行或可能。如果示例中的流媒体服务无法将帐户与特定人员相关联,他们将根本无法提供服务。
但是,在某些情况下,匿名化更可取。例如,医学研究人员有时会使用匿名的聚合医疗数据来保护隐私。此外,匿名数据仍然可以提供有价值的见解——例如,一些 Web 分析服务会匿名化他们的数据。
但即使是匿名数据也可能无法完全保护用户隐私。通过将匿名数据与其他数据集相结合、查看数据的上下文或使用其他几种方法,有时可以将匿名数据与特定的人相关联。即使是匿名的个人数据也需要通过加密、访问控制和其他保护措施来防止侵犯隐私。