Зниження розмірності
Частина з циклу |
Машинне навчання та добування даних |
---|
У статистиці, машинному навчанні та теорії інформації зниження розмірності є процесом скорочення кількості випадкових змінних[1] шляхом отримання множини головних змінних. Цей процес можна поділити на обирання ознак та виділяння ознак.[2]
Обирання ознак — це процес пошуку підмножини первісних змінних (ознак або властивостей) для використання в побудові моделі. Є три стратегії:
- фільтрування (наприклад, отримання інформації[en])
- обгортання (наприклад, пошук, який керується точністю)
- вкладення або вбудування (ознаки обираються для додавання або видалення при створенні моделі ґрунтуючись на помилках прогнозування)
Дивись також задачі комбінаторної оптимізації.
В деяких випадках аналіз даних, такий як класифікація або регресія, можна зробити у скороченому просторі більш точно, ніж у початковому.[3]
Конструювання ознак перетворює дані з багатовимірного простору в простір невеликої кількості вимірів. Таке перетворення може бути лінійним, як в методі головних компонент, проте також існує багато методів нелінійного зниження розмірності[en].[4][5] Для багатовимірних даних можна використати тензорне представлення для скорочення розмірності через навчання полілінійного підпростору[en].[6]
Основна лінійна техніка зменшення розмірності, метод головних компонент, здійснює лінійне відображення даних в менш вимірний простір таким чином, що максимізується дисперсія даних у маловимірному представленні. Фактично, будується матриця коваріації (а іноді й кореляції) даних, і обчислюються власні вектори цієї матриці. Власні вектори, що відповідають найбільшим власним числам (головні компоненти), тепер можуть бути використані для реконструкції великої частки дисперсії у вихідних даних. Більш того, перші кілька власних векторів часто можна тлумачити в термінах великомасштабної фізичної поведінки системи[джерело?][чому?]. Початковий простір зменшується (з втратою даних, проте, зберігається найважливіша дисперсія) до простору, який визначається кількома власними векторами.
РНМ розкладає невід'ємну матрицю на добуток двох невід'ємних матриць, що було перспективним інструментом в таких областях, де існують лише невід'ємні сигнали,[7][8] такі як астрономія[9][10]. РНМ добре відома завдяки правилу мультиплікативного оновлення Lee & Seung[7], який постійно розроблявся: включення невизначеностей[9], розгляд відсутніх даних та паралельність обчислень[11], послідовність побудови[11], що веде до стабільності та лінійності РНМ[10], як і інші оновлення.
За допомогою стабільної компонентної бази під час побудови та лінійності процесу моделювання, послідовний РНМ[11] здатний зберігати потік при прямому відтворенні навколозоряних структур в астрономії[10], як один із способів виявлення екзопланет, особливо при безпосередньому зображені навколозоряних дисків. У порівнянні з МГК, РНМ не видаляє середнє матриць, що призводить до нефізичних невід'ємних потоків, тому РНМ здатний зберігати більше інформації, ніж МГК, як показав Рен та інші[10].
Метод головних компонент можна використати нелінійним шляхом за допомогою ядрового трюку. Отримана методика здатна побудувати нелінійні відображення, які максимізують дисперсію даних. Отримана методика називається ядровий метод головних компонент[en].
Лінійний розділювальний аналіз (ЛРА) — це узагальнення лінійного дискримінанта Фішера, який використовується для статистики, розпізнавання образів та машинного навчання, щоб знайти лінійну комбінацію ознак, які характеризують або відокремлюють два або більше класів об'єктів або подій.
Автокодувальники можуть використовуватися для навчання нелінійним функціям зменшення розмірності та кодування разом із оберненою функцією, яка дозволяє перейти від кодуванного до оригінального зображення.
Для багатовимірних наборів даних, тобто таких, у яких більше 10 вимірів, перед застосування методу k-найближчих сусідів спочатку знижують розмірність з метою уникнення прокляття розмірності.[12]
Виділяння ознак та зниження розмірності можна об'єднати в один етап за допомогою методу головних компонент (МГК), лінійного розділювального аналізу (ЛРА), канонічного кореляційного аналізу (ККА) або розкладення невід'ємних матриць (РНМ) — методів попередньої обробки даних перед K-NN кластеризацією векторів ознак у просторі скороченої розмірності. У машинному навчанні цей процес також називається маловимірним вкладенням.[13]
Для дуже-багатовимірних наборів даних, наприклад, для пошуку подібності у потоках відео, ДНК даних або у багатовимірних часових рядах, застосовують швидке наближення K-NN пошуку за допомогою методів Locality-sensitive hashing[en], випадкова проєкція[en][14], тензорний скетч[15] та інші методи багатовимірного пошуку подібності, що доступні, наприклад, у наборі інструментів VLDB[en].
- ↑ Roweis, S. T.; Saul, L. K. (2000). Nonlinear Dimensionality Reduction by Locally Linear Embedding. Science. 290 (5500): 2323—2326. Bibcode:2000Sci...290.2323R. doi:10.1126/science.290.5500.2323. PMID 11125150.
- ↑ Pudil, P.; Novovičová, J. (1998). Novel Methods for Feature Subset Selection with Respect to Problem Knowledge. У Liu, Huan; Motoda, Hiroshi (ред.). Feature Extraction, Construction and Selection. с. 101. doi:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
- ↑ Rico-Sulayes, Antonio (2017). Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution. Revista Ingeniería Electrónica, Automática y Comunicaciones. 38 (3): 26—35. Архів оригіналу за 24 квітня 2018. Процитовано 12 серпня 2018.
- ↑ Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. ISBN 0-12-369446-9
- ↑ C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002
- ↑ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). A Survey of Multilinear Subspace Learning for Tensor Data (PDF). Pattern Recognition. 44 (7): 1540—1551. doi:10.1016/j.patcog.2011.01.004. Архів оригіналу (PDF) за 10 липня 2019. Процитовано 12 серпня 2018.
- ↑ а б Daniel D. Lee; H. Sebastian Seung (1999). Learning the parts of objects by non-negative matrix factorization. Nature. 401 (6755): 788—791. Bibcode:1999Natur.401..788L. doi:10.1038/44565. PMID 10548103.
{{cite journal}}
: Проігноровано невідомий параметр|last-author-amp=
(довідка) - ↑ Daniel D. Lee & H. Sebastian Seung (2001). Algorithms for Non-negative Matrix Factorization (PDF). Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press. с. 556—562. Архів оригіналу (PDF) за 19 червня 2018. Процитовано 13 серпня 2018.
- ↑ а б Blanton, Michael R.; Roweis, Sam (2007). K-corrections and filter transformations in the ultraviolet, optical, and near infrared. The Astronomical Journal. 133: 134. arXiv:astro-ph/0606170. Bibcode:2007AJ....133..734B. doi:10.1086/510127.
- ↑ а б в г Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). Non-negative Matrix Factorization: Robust Extraction of Extended Structures. The Astrophysical Journal. 852: 104. arXiv:1712.10317. Bibcode:2018ApJ...852..104R. doi:10.3847/1538-4357/aaa1f2.
{{cite journal}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) - ↑ а б в Zhu, Guangtun B. (19 грудня 2016). Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data. arXiv:1612.06037 [astro-ph.IM].
- ↑ Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) «When is „nearest neighbor“ meaningful?» [Архівовано 26 липня 2009 у Wayback Machine.]. Database Theory—ICDT99, 217—235
- ↑ Shaw, B.; Jebara, T. (2009). Structure preserving embedding. Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09 (PDF). с. 1. doi:10.1145/1553374.1553494. ISBN 9781605585161. Архів оригіналу (PDF) за 11 серпня 2017. Процитовано 14 серпня 2018.
- ↑ Bingham, E.; Mannila, H. (2001). Random projection in dimensionality reduction. Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining – KDD '01. с. 245. doi:10.1145/502512.502546. ISBN 158113391X.
- ↑ Shasha, D High (2004) Performance Discovery in Time Series Berlin: Springer. ISBN 0-387-00857-8
- Fodor, I. (2002) «A survey of dimension reduction techniques» [Архівовано 15 листопада 2014 у Wayback Machine.]. Center for Applied Scientific Computing, Lawrence Livermore National, Technical Report UCRL-ID-148494
- Cunningham, P. (2007) «Dimension Reduction» [Архівовано 19 жовтня 2017 у Wayback Machine.] University College Dublin, Technical Report UCD-CSI-2007-7
- Zahorian, Stephen A.; Hu, Hongbing (2011). Nonlinear Dimensionality Reduction Methods for Use with Automatic Speech Recognition. Speech Technologies. doi:10.5772/16863. ISBN 978-953-307-996-7.
- Lakshmi Padmaja, Dhyaram; Vishnuvardhan, B (18 серпня 2016). Comparative Study of Feature Subset Selection Methods for Dimensionality Reduction on Scientific Data: 31—34. doi:10.1109/IACC.2016.16. Процитовано 7 жовтня 2016.
- JMLR Special Issue on Variable and Feature Selection [Архівовано 9 листопада 2020 у Wayback Machine.]
- ELastic MAPs [Архівовано 20 липня 2011 у Wayback Machine.]
- Locally Linear Embedding [Архівовано 1 травня 2009 у Wayback Machine.]
- A Global Geometric Framework for Nonlinear Dimensionality Reduction