Унікальність (аналіз даних)
Унікальність () є показником ризику для вимірювання повторної ідентифікації високорозмірних анонімних даних[en]. Вперше представлена у 2013 році,[1] унікальність вимірюється кількістю точок p, необхідних для однозначної ідентифікації особи в наборі даних. Чим менше потрібно точок, тим унікальнішими є сліди і тим легше їх буде повторно ідентифікувати за допомогою зовнішньої інформації.
У високорозмірному наборі даних про поведінку людини, як-от метадані мобільного телефону, для кожної людини існують потенційно тисячі різних записів. У випадку метаданих мобільного телефону, історії транзакцій із кредитною карткою[en] та багатьох інших типів персональних даних ця інформація включає час і місце перебування особи.
У дослідженнях уніфікація широко використовується для ілюстрації повторної ідентифікації анонімних наборів даних. У 2013 році[1] Дослідники з MIT Media Lab показали, що лише 4 бали необхідні для однозначної ідентифікації 95% індивідуальних траєкторій у наборі деіндетифікованих[en] даних із 1,5 мільйонів мобільних траєкторій. Ці «точки» були парами місце-час, які з’являлися з роздільною здатністю 1 година та від 0,15 км² до 15 км². Було показано, що ці результати справедливі і для даних транзакцій кредитних карток[2] при цьому 4 точки достатньо для повторного визначення 90% траєкторій. Подальше дослідження вивчало унікальність програм, встановлених людьми на своїх смартфонах,[3] траєкторій транспортних засобів,[4] даних мобільного телефону з Бостона та Сінгапуру,[5] і даних про громадський транспорт у Сінгапурі, отриманих зі смарт-карт.[6]
Уніфікація () формально визначається як очікуване значення частки однозначно ідентифікованих траєкторій, заданих p точок, вибраних із цих траєкторій рівномірно випадковим чином. Повне обчислення набору даних вимагає рівномірного випадкового вибору точок p з кожної траєкторії , а потім перевірки, чи містить будь-яка інша траєкторія ці точки p. Усереднення за всіма можливими наборами точок p для кожної траєкторії призводить до значення . Зазвичай це надто дорого[3], оскільки вимагає врахування кожного можливого p набору точок для кожної траєкторії в наборі даних — траєкторій, які іноді містять тисячі точок.[1][2]
Натомість уніфікація зазвичай оцінюється за допомогою методів вибірки. Зокрема, враховуючи набір даних , оцінена унікальність обчислюється шляхом вибірки з частини траєкторій , а потім перевірки, чи кожна з траєкторії є унікальними в з урахуванням p випадково вибраних точок з кожного . Частка , яку можна однозначно ідентифікувати, є тоді оцінкою однозначності.
- ↑ а б в de Montjoye, Yves-Alexandre; Hidalgo, César A.; Verleysen, Michel; Blondel, Vincent D. (2013). Unique in the Crowd: The privacy bounds of human mobility. Scientific Reports. 3: 1376. Bibcode:2013NatSR...3E1376D. doi:10.1038/srep01376. PMC 3607247. PMID 23524645.
- ↑ а б de Montjoye, Yves-Alexandre; Radealli, Laura; Singh, Vivek Kumar; Pentland, Alex "Sandy" (2015). Unique in the shopping mall: On the reidentifiability of credit card metadata. Science. 347 (6221): 536—539. Bibcode:2015Sci...347..536D. doi:10.1126/science.1256297. PMID 25635097.
- ↑ а б Achara, Jagdish Prasad; Gergely, Acs; Castelluccia, Claude (2015). On the unicity of smartphone applications. Proceedings of the 14th ACM Workshop on Privacy in the Electronic Society. ACM: 27—36. arXiv:1507.07851. Bibcode:2015arXiv150707851P. doi:10.1145/2808138.2808146. ISBN 9781450338202. S2CID 15723203. Процитовано 22 листопада 2018.
- ↑ Pellungrini, Roberto; Pappalarado, Luca; Pratesi, Francesca; Monreale, Anna (2018). A Data Mining Approach to Assess Privacy Risk in Human Mobility Data. ACM Transactions on Intelligent Systems and Technology. ACM. 9 (3): 1—27. doi:10.1145/3106774.
- ↑ Xu, Yang; Belyi, Alexander; Bojic, Iva; Ratti, Carlo (2018). Human mobility and socioeconomic status: Analysis of Singapore and Boston. Computers, Environment and Urban Systems. Elsevier. 72 (November 2018): 51—67. doi:10.1016/j.compenvurbsys.2018.04.001. Процитовано 22 листопада 2018.
- ↑ Kondor, Daniel; Hashemian, Behrooz; de Montjoye, Yves-Alexandre (2018). Towards matching user mobility traces in large-scale datasets. IEEE Transactions on Big Data. IEEE. 6 (4): 714—726. arXiv:1709.05772. doi:10.1109/TBDATA.2018.2871693. S2CID 3569076.