Лінійний розділювальний аналіз

Лінійний дискримінантний аналіз (англ. Linear discriminant analysis, LDA) — статистичний метод для розв'язку задачі класифікації. З його допомогою будуються лінійні комбінації предикторів, що відділяють області одного класу від іншого. LDA працює для будь-якої кількості класів, на відміну від таких методів як логістична регресія, що в першу чергу використовуються для бінарної класифікації.

Історія

Лінійний дискримінативний аналіз базується на використанні критерія Фішера, який був описаний британським статистиком і біологом Рональдом Фішером у задачі бінарної класифікації, розділення ірисів за розмірами частин квітки^[1].

У 1948 метод був узагальнений індійським математиком Кальямпуді Радхакришною Рао^[en] для довільної кількості класів^[2].

Алгоритм

LDA шукає проєкцію даних у деякий підпростір розмірності $min(K-1,p)$ або менше (де $K$ — кількість класів, $p$ — кількість ознак). Підпростір обирається так, щоб проєкції розподілів, що відносяться до різних класів, були розділені у ньому якомога сильніше. Таким чином класи розділюються за правилом^[3]^[4]:

Кожному класу ставиться у відповідність деяка функція вигляду $f_{i}(X)=w^{T}X+w_{0}$ . Ці функції називаються дискримінантними функціями. Матриця $w$ є матрицею проєкції, $||w||=1$ .
Кожна точка простору ознак класифікується відповідно до того, яка саме з дискримінантних функцій має найвище значення у ній.

Через те що всі функції є лінійними по Х, границі між областями простору, що відповідають різним класам (decision surface) завжди є гіперплощинами.

У найпростішому випадку двох класів підпростір є одномірним — прямою, і розділення відбувається за правилом :

$Class1:w^{T}x+w_{0}>0$
$Class2:w^{T}x+w_{0}<0$

Геометричний сенс функції $w^{T}x+w_{0}$ в такому випадку — відстань від гіперплощини розділяючої класи до точки даних^[5].

Дискримінантні функції будуються так, щоб зробити розділення класів якомога простішим. Існує кілька алгоритмів, які вирішують цю задачу, найвідомішими є дискримінантний аналіз Фішера і баєсівський класифікатор. У деяких випадках вони дають однакові результати, проте загалом це різні алгоритми.

Дискримінантний аналіз Фішера

Історично першою спробою побудувати лінійну дискримінантну модель була модель запропонована Фішером.

Нехай є два класи. Тоді підпростором найкращого розділення буде такий, що при проєктуванні на нього даних максимальним є відношення відстані між середнім значенням класів і розкидом всередині класу^[6].

Нехай $g_{i}(i=1,2)$ — елементи класу $i$ , а $N_{i}$ — кількість елементів у цьому класі. Тоді середнє значення по класу дорівнює

\mu _{i}={\frac {\sum \limits _{x\in g_{i}}x}{N}}

$\mu$ в цьому записі — p-вимірний вектор

середнє проєкції класу (скаляр)

{\tilde {\mu _{i}}}={\frac {\sum \limits _{x\in g_{i}}w^{T}x}{N}}=w^{T}\mu _{i}

розкид всередині класу

S_{wi}=\sum _{x\in g_{i}}(x-\mu _{i})^{2}=\sum _{x\in g_{i}}(x-\mu _{i})(x-\mu _{i})^{T}

розкид всередині проєкції елементів класу

{\tilde {S}}_{wi}=\sum _{x\in g_{i}}(w^{T}x-{\tilde {\mu _{i}}})^{2}=

$=\sum _{x\in g_{i}}(w^{T}x-w^{T}\mu _{i})(w^{T}x-w^{T}\mu _{i})^{T}=$

$=\sum _{x\in g_{i}}w^{T}(x-\mu _{i})(x-\mu _{i})^{T}w=w^{T}S_{wi}w$

Тоді функція, максимум якої необхідно знайти:

J(w)={\frac {({\tilde {\mu _{1}}}-{\tilde {\mu _{2}}})^{2}}{{\tilde {S}}_{w1}+{\tilde {S}}_{w2}}}={\frac {w^{T}S_{b}w}{w^{T}S_{w}w}}

Величину ${\tilde {S}}_{B}=({\tilde {\mu _{1}}}-{\tilde {\mu _{2}}})^{2}=w^{T}S_{b}w$ називають також міжкласовим розкидом(between-class scatter), тоді як ${\tilde {S_{w}}}={\tilde {S}}_{w1}+{\tilde {S}}_{w2}=w^{T}S_{w}w$ — внутрішньокласовим розкидом (within-class scatter matrix).

Продиференціювавши $J(w)$ по $w$ і прирівнявши результат до нуля отримуємо:

(w^{T}S_{w}w)2S_{b}w-(w^{T}S_{b}w)2S_{w}w=0

ділимо на $2w^{T}S_{w}w$ :

{\frac {w^{T}S_{w}w}{w^{T}S_{w}w}}S_{b}w-{\frac {w^{T}S_{b}w}{w^{T}S_{w}w}}S_{w}w=0

тоді

S_{b}w-J(w)S_{w}w=0

S_{w}^{-1}S_{b}w=J(w)w

оскільки $J(w)$ — скаляр, задача зводиться до пошуку власних векторів. Найкраще розділення буде досягнуто при проєкції на вектор, що відповідає найбільшому власному значенню.

У випадку двох класів також є більш простий спосіб оцінки w: через те що важливий лише напрямок вектору w, його можна визначити виходячи з того, що^[7]: $S_{w}^{-1}S_{b}w=S_{w}^{-1}(\mu _{1}-\mu _{2})(\mu _{1}-\mu _{2})^{T}w=S_{w}^{-1}(\mu _{1}-\mu _{2})a$ , де а — скаляр. Таким чином: $w\propto S_{w}^{-1}(\mu _{1}-\mu _{2})$

Модель Фішера працює у дуже широких межах, оскільки має досить мало вимог до розподілу даних, проте вона дає чіткого способу визначити границі класів після проєкції. Найбільш загальний принцип вибору полягає в тому, щоб кількість помилок першого і другого роду при класифікації була однаковою^[8]. В найпростішому варіанті гіперплощина розташовується рівно посередині між середніми значеннями класів.

Підхід може бути застосований і до більше ніж двох класів. У такому випадку, матриця проєкції $w$ має розміри $K-1\times p$ , а матриця міжкласового розкиду визначається як

S_{b}=\sum _{j=1}^{K}(\mu _{j}-\mu )(\mu _{j}-\mu )^{T}

,

де μ — загальне середнє по всіх класах.

У цьому випадку, w складається з $K-1$ стовпчиків, що відповідають найбільшим власним векторам матриці $S_{w}^{-1}S_{b}$ .

Головним чином такий алгоритм для великої кількості класів використовується як спосіб зниження розмірності (дані проєціюються на гіперплощину нижчої розмірності проте класифікатор не будується).

Щоб все ж побудувати модель багатокласової класифікації за цим підходом можна створити $(K-1)K/2$ окремих класифікаторів, які будуть попарно порівнювати класи, або ж $K$ класифікаторів, кожен з яких робить класифікацію один-проти-решти. Недоліком цього підходу є те, що при ньому деякі зони можуть мати невизначений клас — або через те що створюються цикли класифікацій (клас 2 більш ймовірний ніж клас 1, клас 3 більш ймовірний ніж клас 2, клас 1 більш ймовірний ніж клас 3), або через те, що жоден з класифікаторів один-проти-всіх не визначає точку як належну до "свого" класу^[9]^[10].

Тому для класифікації у викпадку 3 і більше класів зазвичай використовують описаний нижче баєсів класифікатор.

Баєсів класифікатор

Баєсів класифікатор застосовується до більш вузького випадку: якщо в усіх класах точки мають однаковий (багатовимірний нормальний) розподіл, що відрізняється лише середнім, тобто, матриці коваріації точок всередині кожного класу однакові^[11].

Часто коли говорять про лінійний розділювальний аналіз, то мається на увазі саме баєсівський класифікатор.

Згідно з теоремою Баєса, ймовірність того, що деяке спостереження $x$ належить до класу K, можна оцінити, знаючи розподіл значень всередині класів і ймовірності самих класів $\pi _{k}$ :

Pr(G=k|X=x)={\frac {f_{k}(x)\pi _{k}}{\sum \limits _{l=1}^{K}f_{l}(x)\pi _{l}}}

Багатовимірний нормальний розподіл точок що відносяться до класу $k$ задається як:

f_{K}(x)={\frac {1}{(2\pi )^{p/2}\left|\Sigma _{k}\right|^{1/2}}}e^{-{\frac {1}{2}}(x-\mu _{k})^{T}\Sigma _{k}^{-1}(x-\mu _{k})}

де $\mathbf {x} \in \mathbb {R} ^{p}$ , а $\Sigma _{K}$ — матриця коваріації.

Виразимо тоді логарифм співвідношення ймовірностей того, що спостереження x відноситься до класу $k$ і $l$ , припускаючи що матриці коваріації $\Sigma$ однакові для всіх класів (через що члени з $x^{2}$ скорочуються:

log{\frac {Pr(G=k|X=x)}{Pr(G=l|X=x)}}=\log {\frac {f_{k}(x)}{f_{l}(x)}}+\log {\frac {\pi _{k}}{pi_{l}}}=\log {\frac {\pi _{k}}{pi_{l}}}-{\frac {1}{2}}(\mu _{k}+\mu _{l})^{T}\Sigma ^{-1}(\mu _{k}-\mu _{l})+x^{T}\Sigma ^{-1}(\mu _{k}-\mu _{l})

Тоді функції

\delta _{k}=\log \pi _{k}+x^{T}\Sigma ^{-1}\mu _{k}-{\frac {1}{2}}\mu _{k}^{T}\Sigma ^{-1}\mu _{k}

і будуть питомими дискримінантними функціями. Спостереження належить до того класу, який має максимальну дискримінантну функцію у відповідній точці.

Параметри функції визначаються з вибіркових даних^[12]:

{\hat {\pi }}_{k}=N_{k}/N

{\hat {\mu }}_{k}=\sum _{x\in g_{k}}x/N_{k}

{\hat {\Sigma }}=\sum _{k=1}^{K}\sum _{x\in g_{k}}(x-{\hat {\mu }}_{k})(x-{\hat {\mu }}_{k})^{T}/(N-K)

Вимоги до даних

Для всіх варіантів LDA дані очікуються нормалізовані, з варіацією всіх ознак рівною одиниці. Для баєсівського класифікатора також важливо щоб усі класи мали багатовимірний гаусів розподіл а матриця коваріації була однаковою в усіх класах.

Аналіз чутливий до викидів тому бажано перевірити дані і видалити їх до початку роботи^[13].

Варіації алгоритму

Квадратичний дискримінантний аналіз

Якщо матриці коваріації не рівні, то скорочення квадратичних членів не відбувається. Відповідно, границі між класами будуть описуватися кривими другого порядку а не гіперплощинами, а кількість параметрів можелі сильно зросте. Така модель називається квадратичним дискримінантним аналізом (QDA).

Схожі результати можна отримати, додаючи в модель складні предиктори, наприклад, якщо до моделі з двома предикторами $x_{1}$ і $x_{2}$ додати ще три, які дорівнюють $x_{1}^{2},x_{1}x_{2},x_{2}^{2}$ , отримане лінійне рівняння відносно п'яти параметрів буде квадратичним відносно $x_{1}$ і $x_{2}$ . Проте, ці два підходи не є ідентичними, і отримані поверхні розділення класів різні, хоча часто різниця є невеликою^[14].

Можливі проміжні варіанти, де в якості матриці коваріації класу використовується матриця

\Sigma (a)_{k}=(1-a)\Sigma _{k}+a\Sigma ^{*}

де $a$ — деякий параметр від 0 до 1, а $\Sigma ^{*}$ — середня матриця коваріації по всіх класах (така як використовується в LDA)

Регуляризований дискримінантний аналіз

Матрицю коваріації в LDA можна замінити на

\Sigma (\gamma )=(1-\gamma )\Sigma +\gamma I\sigma ^{2}

,

де I — одинична матриця, $\gamma$ — параметр від 0 до 1, $\sigma$ — вектор стандартного відхилення кожного параметру всередині класу. Таким чином матриця стає ближчою до діагональної і вплив коваріацій зменшується. У крайньому випадку $\gamma =1$ всі змінні вважаються незалежними. Така модель називається наївною гаусівською баєсовою (англ. Gaussian Naive Bayes)^[15]. Її перевага полягає в значно меншій кількості параметрів моделі.

Література

Хасті Т., Тібширані Р., Фрідман Дж. Основы статистического обучения. — 2. — Київ : «Діалектика», 2020. — 768 с. — ISBN 978-617-7812-91-2.
Дуда Р.,Харт П. Распознавание образов и анализ сцен. — М. : «Мир», 1976. — 507 с.

Примітки

↑ The Use of Multiple Measurements in Taxonomic Problems(англ.)
↑ What is Linear Discriminant Analysis ?|Assumptions of Linear Discriminant Analysis | How LDA makes predictions ?|Advantages and Disadvantages of LDA(англ.)
↑ Linear Discriminat Analysis(рос.)
↑ Linear Discriminant Functions(англ.)
↑ Дуда,Харт, 1976, с. 146.
↑ A Tutorial on Data Reduction. Linear Discriminant Analysis(англ.)
↑ Fisher’s Linear Discriminant: Intuitively Explained(англ.)
↑ Threshold Selection Study on Fisher Discriminant Analysis Used in Exon Prediction for Unbalanced Data Sets(англ.)
↑ Classification(англ.)
↑ Дуда,Харт, 1976, с. 148.
↑ Хасті,Тібширані,Фрідман, 2020, с. 132.
↑ Хасті,Тібширані,Фрідман, 2020, с. 133.
↑ Linear Discriminant Analysis for Machine Learning(англ.)
↑ Хасті,Тібширані,Фрідман, 2020, с. 134.
↑ Differences between LDA, QDA and Gaussian Naive Bayes classifiers(англ.)

[1] The Use of Multiple Measurements in Taxonomic Problems(англ.)

[2] What is Linear Discriminant Analysis ?|Assumptions of Linear Discriminant Analysis | How LDA makes predictions ?|Advantages and Disadvantages of LDA(англ.)

[3] Linear Discriminat Analysis(рос.)

[4] Linear Discriminant Functions(англ.)

[FOOTNOTEДуда,Харт1976146-5] Дуда,Харт, 1976, с. 146.

[6] A Tutorial on Data Reduction. Linear Discriminant Analysis(англ.)

[7] Fisher’s Linear Discriminant: Intuitively Explained(англ.)

[8] Threshold Selection Study on Fisher Discriminant Analysis Used in Exon Prediction for Unbalanced Data Sets(англ.)

[9] Classification(англ.)

[FOOTNOTEДуда,Харт1976148-10] Дуда,Харт, 1976, с. 148.

[FOOTNOTEХасті,Тібширані,Фрідман2020132-11] Хасті,Тібширані,Фрідман, 2020, с. 132.

[FOOTNOTEХасті,Тібширані,Фрідман2020133-12] Хасті,Тібширані,Фрідман, 2020, с. 133.

[mlm-13] Linear Discriminant Analysis for Machine Learning(англ.)

[FOOTNOTEХасті,Тібширані,Фрідман2020134-14] Хасті,Тібширані,Фрідман, 2020, с. 134.

[15] Differences between LDA, QDA and Gaussian Naive Bayes classifiers(англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Лінійний розділювальний аналіз

Зміст

Історія