Ймовірнісна класифікація

У машинному навчанні, ймові́рнісний класифіка́тор (англ. probabilistic classifier) — це класифікатор, здатний для заданого зразка входу передбачувати розподіл імовірності над множиною класів, а не просто видавати найправдоподібніший клас, до якого повинен був би належати цей зразок. Імовірнісні класифікатори забезпечують класифікацію зі ступенем упевненості, що може бути корисним як саме по собі,^[1] так і при поєднанні класифікаторів у ансамблі.

Типи класифікації

Формально, «звичайний» класифікатор є якимось правилом або функцією, яка призначає зразкові $x$ мітку класу $ŷ$ :

{\hat {y}}=f(x)

Зразки походять із якоїсь множини $X$ (наприклад, множини всіх документів, або множини всіх зображень), тоді як мітки класів формують скінченну множину $Y$ , визначену до тренування.

Ймовірнісні ж класифікатори узагальнюють це поняття класифікаторів: замість функцій, вони є умовними розподілами $\Pr(Y\vert X)$ , що означає, що для заданого $x\in X$ вони призначають імовірності всім $y\in Y$ (і ці ймовірності дають у сумі одиницю). «Жорстка» класифікація тоді може здійснюватися шляхом застосуванням правила оптимального рішення^[2]^:39–40

{\hat {y}}=\operatorname {\arg \max } _{y}\Pr(Y=y\vert X)

або, українською, передбачуваний клас є тим, який має найвищу ймовірність.

Бінарні ймовірнісні класифікатори в статистиці також називають біноміальною регресією^[en]. В економетрії ймовірнісну класифікацію в цілому називають дискретним вибором.

Деякі моделі класифікації, такі як наївний баєсів класифікатор, логістична регресія та багатошарові перцептрони (при тренуванні за відповідної функції втрат) є природно ймовірнісними. Інші моделі, такі як опорно-векторні машини, такими не є, але існують методи перетворення їх на ймовірнісні класифікатори.

Породжувальне та обумовлювальне тренування

Деякі моделі, такі як логістична регресія, є тренованими обумовлювально: вони оптимізують на тренувальному наборі безпосередньо умовну ймовірність $\Pr(Y\vert X)$ (див. мінімізацію емпіричного ризику). Інші класифікатори, такі як наївний баєсів, тренуються породжувально: під час тренування знаходяться розподіл обумовлення класами $\Pr(X\vert Y)$ та апріорне класів $\Pr(Y)$ , а умовний розподіл $\Pr(Y\vert X)$ виводиться через правило Баєса.^[2]^:43

Калібрування ймовірності

Не всі класифікаційні моделі є природно ймовірнісними, а деякі, які є, зокрема, наївні баєсові класифікатори, дерева рішень та методи підсилювання, виробляють спотворені розподіли ймовірностей класів.^[3] У випадку дерев рішень, де $Pr(y | x)$ є пропорцією тренувальних зразків з міткою $y$ у листку, де закінчується $x$ , ці спотворення виникають тому, що алгоритми навчання, такі як C4.5 або CART^[ru], явно спрямовані на вироблення гомогенних листків (даючи ймовірності, близькі до нуля або одиниці, й відтак високий зсув) при одночасному використанні незначної кількості зразків для оцінки доречної пропорції (висока дисперсія).^[4]

Для класифікаційних моделей, які виробляють на своїх виходах якогось роду «бал» (такий як спотворений розподіл імовірності, або «знак відстані до гіперплощини» в опорно-векторній машині), існує кілька методів, які перетворюють ці бали на правильно відкалібровані^[en] ймовірності приналежності до класів.

Для бінарного випадку загальний підхід полягає в застосуванні масштабування Платта^[en], яке навчається моделі логістичної регресії на балах.^[5] Альтернативний метод із застосуванням ізотонічної регресії^[en],^[6] як правило, перевершує метод Платта, коли доступно достатньо тренувальних даних.^[3]

У багатокласовому^[en] випадку можна використовувати зведення до бінарних задач з наступним одновимірним калібруванням за описаним вище алгоритмом, і подальшим застосуванням алгоритму попарного з'єднання Гасті та Тібширані.^[7]

Оцінка ймовірнісної класифікації

До часто вживаних функцій втрат для ймовірнісної класифікації належать лог-втрати^[en] та середньоквадратична похибка між передбаченими та справжніми розподілами ймовірності. Перша з них зазвичай використовується для тренування логістичних моделей.

Метод, який використовується для призначення балів парам передбачених імовірностей та фактичних результатів розподілів, так, що різні передбачувальні методи можна порівнювати, називається оцінювальним правилом^[en].

Примітки

↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning. с. 348. Архів оригіналу за 26 січня 2015. Процитовано 30 жовтня 2016. В застосуваннях для добування даних інтерес часто полягає більше в самих імовірностях класів $p_{\ell }(x),\ell =1,\dots ,K$ , ніж у виконанні призначення класу. (англ.)
↑ ^а ^б Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. (англ.)
↑ ^а ^б Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Predicting good probabilities with supervised learning (PDF). ICML. doi:10.1145/1102351.1102430. Архів оригіналу (PDF) за 11 березня 2014. Процитовано 30 жовтня 2016. (англ.)
↑ Zadrozny, Bianca; Elkan, Charles (2001). Obtaining calibrated probability estimates from decision trees and naive Bayesian classifiers (PDF). ICML. с. 609—616. Архів оригіналу (PDF) за 24 липня 2015. Процитовано 30 жовтня 2016. (англ.)
↑ Platt, John (1999). Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods (PDF). Advances in large margin classifiers. 10 (3): 61—74. (англ.)
↑ Zadrozny, Bianca; Elkan, Charles (2002). Transforming classifier scores into accurate multiclass probability estimates. Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '02 (PDF). с. 694—699. doi:10.1145/775047.775151. ISBN 1-58113-567-X. CiteSeerX: 10.1.1.13.7457. Архів оригіналу (PDF) за 20 жовтня 2016. Процитовано 30 жовтня 2016. (англ.)
↑ Hastie, Trevor; Tibshirani, Robert (1998). Classification by pairwise coupling. The Annals of Statistics^[en]. 26 (2): 451—471. doi:10.1214/aos/1028144844. Zbl 0932.62071. CiteSeerX: 10.1.1.46.6032. (англ.)

[1] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning. с. 348. Архів оригіналу за 26 січня 2015. Процитовано 30 жовтня 2016. В застосуваннях для добування даних інтерес часто полягає більше в самих імовірностях класів $p_{\ell }(x),\ell =1,\dots ,K$ , ніж у виконанні призначення класу. (англ.)

[bishop-2] а ^б Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. (англ.)

[Niculescu-3] а ^б Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Predicting good probabilities with supervised learning (PDF). ICML. doi:10.1145/1102351.1102430. Архів оригіналу (PDF) за 11 березня 2014. Процитовано 30 жовтня 2016. (англ.)

[4] Zadrozny, Bianca; Elkan, Charles (2001). Obtaining calibrated probability estimates from decision trees and naive Bayesian classifiers (PDF). ICML. с. 609—616. Архів оригіналу (PDF) за 24 липня 2015. Процитовано 30 жовтня 2016. (англ.)

[platt99-5] Platt, John (1999). Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods (PDF). Advances in large margin classifiers. 10 (3): 61—74. (англ.)

[6] Zadrozny, Bianca; Elkan, Charles (2002). Transforming classifier scores into accurate multiclass probability estimates. Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '02 (PDF). с. 694—699. doi:10.1145/775047.775151. ISBN 1-58113-567-X. CiteSeerX: 10.1.1.13.7457. Архів оригіналу (PDF) за 20 жовтня 2016. Процитовано 30 жовтня 2016. (англ.)

[7] Hastie, Trevor; Tibshirani, Robert (1998). Classification by pairwise coupling. The Annals of Statistics^[en]. 26 (2): 451—471. doi:10.1214/aos/1028144844. Zbl 0932.62071. CiteSeerX: 10.1.1.46.6032. (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]