Перейти до вмісту

Регуляризація (математика)

Матеріал з Вікіпедії — вільної енциклопедії.
(Перенаправлено з Хребтова регресія)
Обидві функції точно описують експериментальні точки з нульовою похибкою. Навчена модель може бути схильна вибирати зелену функцію, що може бути ближчою до справжньої невідомої функції розподілу, за допомогою , ваги регуляризуючого виразу.

Регуляризація, в математиці і статистиці, а також в задачах машинного навчання і обернених задачах[en], означає додавання деякої додаткової інформації, щоб знайти рішення некоректно поставленої задачі, або щоб уникнути перенавчання.

Використання регуляризації для класифікації

[ред. | ред. код]

Регуляризацію використовують у задачах класифікації. Емпіричне навчання класифікаторів на скінченному набору даних завжди є недостатньо визначеною задачею, бо в загальному випадку ми намагаємось вивести функцію від довільного по декільком заданим прикладам .

Загалом регуляризуючий вираз  додається до функції втрат:

де  — функція, що визначає похибку передбачення  для значень , (наприклад, квадрати похибок), а параметр  визначає важливість доданка для регуляризації. Зазвичай визначається як штраф за складність функції . Зокрема, поняття складності включає обмеження на гладкість та на норму векторного простору.[1]

Фактично, процедура регуляризації є спробою застосувати лезо Оккама до рішення (див. малюнок вище). З точки зору баєсового висновування, багато технік регуляризації є накладанням обмежень на апріорний вигляд розподілу параметрів моделі.

Узагальнення

[ред. | ред. код]

Регуляризація може використовуватись як спосіб покращення узагальнення для моделі у машинному навчанні.

Основна задача машинного навчання полягає в тому, щоб знайти функцію, сумарна похибка передбачень якої для всіх можливих значень була б мінімальною. Очікувана похибка виражається як:

Зазвичай в таких задачах лише частина усіх можливих даних, частково зашумлених, є доступною для навчання. Таким чином, очікувана похибка є необчислюваною величиною, і найкраще наближення — це емпірична похибка, що вираховується на базі  доступних зразків:

Без обмежень складності функціонального простору, в якому проводиться пошук, модель може бути навчена так, щоб відповідна їй функція проходила через кожну точку наявних даних . Але якщо значення містять шум, то модель може "страждати" від перенавчання і видавати погані значення очікуваних помилок. Регуляризація вводить штраф за включення зайвих областей функціонального простору, що використовується для побудови моделі і це може покращити узагальнення.

Регуляризація Тихонова

[ред. | ред. код]

При навчанні лінійною функцією, такою як , в якій шуканий вектор, -норма функції втрат відповідає регуляризації Тихонова[en]. Ця, одна з найбільш використовуваних форм регуляризації, виражається як:

У випадку загальної функції, ми беремо норму функції у її гільбертовому просторі з відтворювальним ядром[en]:

Оскільки норма  диференційовна, то проблема навчання з використанням регуляризації Тихонова, може бути розв'язана градієнтним спуском.

Регуляризація Тихонова для методу найменших квадратів

[ред. | ред. код]

Навчання з функцією втрат, вираженою методом найменших квадратів і регуляризація Тихонова можна розв'язати аналітично. 

необхідна умова екстремуму

Відповідно до оптимізаційної задачи, інші значення будуть давати більші значення для функції втрат. Це можна перевірити за допомогою другої похідної .

Цей алгоритм потребує  часу для тренування. Доданками тут є час на пошук зворотньої матриці і на обчислення , відповідно. Перевірка займає час .

Рання зупинка

[ред. | ред. код]

Рання зупинка може бути розглянута як регуляризація в часі. Загалом, такі методики як градієнтний спуск, мають тенденцію до створення все більш і більш складних функцій з часом. За допомогою регуляризації в часі складність моделі може контролюватися. 

На практиці, для впровадження цієї методики, використовується додатковий валідаційний масив даних, статистично незалежний від того, що використовується для тренування. Модель тренується до тих пір, доки результативність на валідаційному масиві не перестає зростати. Після цього модель тестується на тестовому масиві.

Див. також

[ред. | ред. код]

Примітки

[ред. | ред. код]
  1. Bishop, Christopher M. (2007). Pattern recognition and machine learning (вид. Corr. printing.). New York: Springer. ISBN 978-0387310732.

Посилання

[ред. | ред. код]