Квазі-ідентифікатор
Квазі-ідентифікатор — це фрагменти інформації, які самі по собі не є унікальними ідентифікаторами[en], але досить добре корелюють із сутністю, щоб їх можна було об'єднати з іншими квазі-ідентифікаторами для створення унікального ідентифікатора.[1]
Таким чином, квазі-ідентифікатори, будучі об'єднаними, можуть стати персональною інформацією. Цей процес називається повторна ідентифікація[en]. Як приклад, Латанія Свіні[en] показала, що, незважаючи на те, що ні стать, ні дата народження, ні поштовий індекс однозначно не ідентифікують особу, поєднання всіх трьох є достатнім, щоб ідентифікувати 87 % осіб у Сполучених Штатах.[2]
Термін був введений Торе Даленіусом у 1986 році.[3] Відтоді квазі-ідентифікатори були основою кількох атак на оприлюднені дані. Наприклад, Суїні зв'язав медичні записи з загальнодоступною інформацією, щоб знайти медичні записи тодішнього губернатора штату Массачусетс, використовуючи унікальні квазіідентифікатори,[4][5] а Суіні, Абу і Вінн використовували публічні списки виборців, щоб повторно ідентифікувати учасників проекту «Особистий геном».[6] Крім того, Арвінд Нараянан і Віталій Шматіков обговорили квазі-ідентифікатори для вказівки статистичних умов для деанонімізації даних, опублікованих Netflix.[7]
Мотвані та Ін попереджають про потенційні порушення приватності, причиною яких можуть стати публікації великих обсягів державних та бізнес-даних, що містять квазі-ідентифікатори.[8]
- ↑ Glossary of Statistical Terms: Quasi-identifier. OECD. 10 листопада 2005. Архів оригіналу за 7 Листопада 2013. Процитовано 29 вересня 2013.
- ↑ Sweeney, Latanya. Simple demographics often identify people uniquely. Carnegie Mellon University, 2000. http://dataprivacylab.org/projects/identifiability/paper1.pdf [Архівовано 22 Березня 2022 у Wayback Machine.]
- ↑ Dalenius, Tore. Finding a Needle In a Haystack or Identifying Anonymous Census Records. Journal of Official Statistics, Vol.2, No.3, 1986. pp. 329—336. http://www.jos.nu/Articles/abstract.asp?article=23329 [Архівовано 2017-08-08 у Wayback Machine.]
- ↑ Anderson, Nate. Anonymized data really isn't—and here's why not. Ars Technica, 2009. https://arstechnica.com/tech-policy/2009/09/your-secrets-live-online-in-databases-of-ruin/ [Архівовано 15 Березня 2022 у Wayback Machine.]
- ↑ Barth-Jones, Daniel C. The're-identification'of Governor William Weld's medical information: a critical re-examination of health data identification risks and privacy protections, then and now. Then and Now (June 4, 2012) (2012).
- ↑ Sweeney, Latanya, Akua Abu, and Julia Winn. «Identifying participants in the personal genome project by name.» Available at SSRN 2257732 (2013).
- ↑ Narayanan, Arvind and Shmatikov, Vitaly. Robust De-anonymization of Large Sparse Datasets. The University of Texas at Austin, 2008. https://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf [Архівовано 26 Січня 2021 у Wayback Machine.]
- ↑ Rajeev Motwani and Ying Xu (2008). Efficient Algorithms for Masking and Finding Quasi-Identifiers (PDF). Proceedings of SDM’08 International Workshop on Practical Privacy-Preserving Data Mining. Архів оригіналу (PDF) за 16 Січня 2022. Процитовано 15 Березня 2022.