Ймовірнісна класифікація
Частина з циклу |
Машинне навчання та добування даних |
---|
У машинному навчанні, ймові́рнісний класифіка́тор (англ. probabilistic classifier) — це класифікатор, здатний для заданого зразка входу передбачувати розподіл імовірності над множиною класів, а не просто видавати найправдоподібніший клас, до якого повинен був би належати цей зразок. Імовірнісні класифікатори забезпечують класифікацію зі ступенем упевненості, що може бути корисним як саме по собі,[1] так і при поєднанні класифікаторів у ансамблі.
Формально, «звичайний» класифікатор є якимось правилом або функцією, яка призначає зразкові x мітку класу ŷ:
Зразки походять із якоїсь множини X (наприклад, множини всіх документів, або множини всіх зображень), тоді як мітки класів формують скінченну множину Y, визначену до тренування.
Ймовірнісні ж класифікатори узагальнюють це поняття класифікаторів: замість функцій, вони є умовними розподілами , що означає, що для заданого вони призначають імовірності всім (і ці ймовірності дають у сумі одиницю). «Жорстка» класифікація тоді може здійснюватися шляхом застосуванням правила оптимального рішення[2]
або, українською, передбачуваний клас є тим, який має найвищу ймовірність.
Бінарні ймовірнісні класифікатори в статистиці також називають біноміальною регресією[en]. В економетрії ймовірнісну класифікацію в цілому називають дискретним вибором.
Деякі моделі класифікації, такі як наївний баєсів класифікатор, логістична регресія та багатошарові перцептрони (при тренуванні за відповідної функції втрат) є природно ймовірнісними. Інші моделі, такі як опорно-векторні машини, такими не є, але існують методи перетворення їх на ймовірнісні класифікатори.
Деякі моделі, такі як логістична регресія, є тренованими обумовлювально: вони оптимізують на тренувальному наборі безпосередньо умовну ймовірність (див. мінімізацію емпіричного ризику). Інші класифікатори, такі як наївний баєсів, тренуються породжувально: під час тренування знаходяться розподіл обумовлення класами та апріорне класів , а умовний розподіл виводиться через правило Баєса.[2]
Не всі класифікаційні моделі є природно ймовірнісними, а деякі, які є, зокрема, наївні баєсові класифікатори, дерева рішень та методи підсилювання, виробляють спотворені розподіли ймовірностей класів.[3] У випадку дерев рішень, де Pr(y|x) є пропорцією тренувальних зразків з міткою y у листку, де закінчується x, ці спотворення виникають тому, що алгоритми навчання, такі як C4.5 або CART[ru], явно спрямовані на вироблення гомогенних листків (даючи ймовірності, близькі до нуля або одиниці, й відтак високий зсув) при одночасному використанні незначної кількості зразків для оцінки доречної пропорції (висока дисперсія).[4]
Для класифікаційних моделей, які виробляють на своїх виходах якогось роду «бал» (такий як спотворений розподіл імовірності, або «знак відстані до гіперплощини» в опорно-векторній машині), існує кілька методів, які перетворюють ці бали на правильно відкалібровані[en] ймовірності приналежності до класів.
Для бінарного випадку загальний підхід полягає в застосуванні масштабування Платта[en], яке навчається моделі логістичної регресії на балах.[5] Альтернативний метод із застосуванням ізотонічної регресії[en],[6] як правило, перевершує метод Платта, коли доступно достатньо тренувальних даних.[3]
У багатокласовому[en] випадку можна використовувати зведення до бінарних задач з наступним одновимірним калібруванням за описаним вище алгоритмом, і подальшим застосуванням алгоритму попарного з'єднання Гасті та Тібширані.[7]
До часто вживаних функцій втрат для ймовірнісної класифікації належать лог-втрати[en] та середньоквадратична похибка між передбаченими та справжніми розподілами ймовірності. Перша з них зазвичай використовується для тренування логістичних моделей.
Метод, який використовується для призначення балів парам передбачених імовірностей та фактичних результатів розподілів, так, що різні передбачувальні методи можна порівнювати, називається оцінювальним правилом[en].
- ↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning. с. 348. Архів оригіналу за 26 січня 2015. Процитовано 30 жовтня 2016.
В застосуваннях для добування даних інтерес часто полягає більше в самих імовірностях класів , ніж у виконанні призначення класу.
(англ.) - ↑ а б Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. (англ.)
- ↑ а б Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Predicting good probabilities with supervised learning (PDF). ICML. doi:10.1145/1102351.1102430. Архів оригіналу (PDF) за 11 березня 2014. Процитовано 30 жовтня 2016. (англ.)
- ↑ Zadrozny, Bianca; Elkan, Charles (2001). Obtaining calibrated probability estimates from decision trees and naive Bayesian classifiers (PDF). ICML. с. 609—616. Архів оригіналу (PDF) за 24 липня 2015. Процитовано 30 жовтня 2016. (англ.)
- ↑ Platt, John (1999). Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods (PDF). Advances in large margin classifiers. 10 (3): 61—74. (англ.)
- ↑ Zadrozny, Bianca; Elkan, Charles (2002). Transforming classifier scores into accurate multiclass probability estimates. Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '02 (PDF). с. 694—699. doi:10.1145/775047.775151. ISBN 1-58113-567-X. CiteSeerX: 10.1.1.13.7457. Архів оригіналу (PDF) за 20 жовтня 2016. Процитовано 30 жовтня 2016. (англ.)
- ↑ Hastie, Trevor; Tibshirani, Robert (1998). Classification by pairwise coupling. The Annals of Statistics[en]. 26 (2): 451—471. doi:10.1214/aos/1028144844. Zbl 0932.62071. CiteSeerX: 10.1.1.46.6032. (англ.)