Дерева рішень у машинному навчанні

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Дерева рішень у машинному навчанні використовуються як передбачувальні моделі, що відображають знання про об'єкт (представлені гілками) у множину рішень. Це один з підходів до передбачувального моделювання у статистиці, добуванні даних та машинному навчанні.

Три різні представлення дерева класифікації даних із кіфозу
Приклад дерева, що оцінює ймовірність кіфозу після операції для заданого віку пацієнта, та хребця, з якого було розпочато операцію. Одне й те саме дерево показано трьома способами. Ліворуч забарвлені листки показують імовірність кіфозу після операції, та відсоток пацієнтів у цьому листочку. Посередині дерево як графік у перспективі. Праворуч вид згори на середній графік. Імовірність кіфозу після операції є вищою в темніших областях. (Примітка: з тих пір, як було зібрано цей доволі маленький набір даних, лікування кіфозу значно просунулося.)

Огляд

[ред. | ред. код]
Дерево, що показує виживання пасажирів на Титанік ("sibsp" - це кількість подружжя або братів і сестер на борту). Цифри під листям показують ймовірність виживання та відсоток спостережень у листі. Підсумовуючи: Ваші шанси на виживання були б хорошими, якщо б Ви були (i) жінкою або (ii) чоловіком молодше 9,5 років із строго менше 3 братами та сестрами.

Навчання на дереві рішень - це метод, який зазвичай використовується в аналізі даних.[1] Мета - створити модель, яка передбачає значення цільової змінної на основі кількох вхідних змінних.


Дерево рішень - це просте представлення для класифікації прикладів. Для цього розділу припустимо, що всі вхідні дані Особливість мають скінченні дискретні області визначення, і існує одна цільова ознака, яка називається "класифікація". Кожен елемент домену класифікації називається `` класом . Дерево рішень або дерево класифікації - це дерево, в якому кожен внутрішній (нелистовий) вузол позначений вхідною ознакою. Дуги, що надходять від вузла, позначеного вхідною ознакою, позначаються кожним із можливих значень цільової ознаки, або дуга веде до підлеглого вузла прийняття рішень на іншій вхідній ознаці. Кожен лист дерева позначається класом або розподілом ймовірностей по класах, що означає, що набір даних класифікований деревом або до певного класу, або до певного розподілу ймовірностей (яке, якщо дерево рішень коректно побудоване, зміщений до певних підмножин класів).

Примітки

[ред. | ред. код]
  1. Rokach, Lior; Maimon, O. (2008). Data mining with decision trees: theory and applications. World Scientific Pub Co Inc. ISBN 978-9812771711.