Перейти до вмісту

Виділяння ознак

Матеріал з Вікіпедії — вільної енциклопедії.

В машинному навчанні, розпізнаванні образів та в обробці зображень виділя́ння озна́к (англ. feature extraction) починається з первинного набору даних вимірювань, і будує похідні значення (ознаки), покликані бути інформативними та ненадлишковими, полегшувати наступні кроки навчання та узагальнення, і в деяких випадках вести до кращих тлумачень людьми. Виділяння ознак пов'язане зі зниженням розмірності.

Коли вхідні дані алгоритму є занадто великими, щоби їх можливо було обробити, і підозрюються на надлишковість (наприклад, одні й ті самі вимірювання як у метрах, так і в футах, або повторюваності в зображеннях, представлених пікселями), тоді їх може бути перетворено на скорочений набір ознак (що також називають вектором ознак). Визначення підмножини початкових ознак називають обиранням ознак.[1] Очікується, що обрані ознаки містять доречну інформацію з вхідних даних, так що бажане завдання може бути виконано із застосуванням цього скороченого представлення замість повних первинних даних.

Загальне

[ред. | ред. код]

Виділяння ознак включає зниження числа ресурсів, необхідних для опису великого набору даних. При виконанні аналізу складних даних одна з головних проблем випливає з кількості залучених змінних. Аналіз із великою кількістю змінних в загальному випадку вимагає великої кількості пам'яті та обчислювальних потужностей, а також він може спричинювати перенавчання алгоритмів класифікації тренувальних зразків, і поганого узагальнювання на нові зразки. Виділяння ознак є загальним терміном для позначення методів побудови таких поєднань змінних, щоби обходити ці проблеми, зберігаючи достатню точність опису даних. Багато практиків машинного навчання вважають, що належно оптимізоване виділяння ознак є запорукою ефективної побудови моделі.[2]

Результати може бути покращено шляхом застосування сконструйованих наборів залежних від конкретного застосування ознак, що зазвичай будує експерт. Один з таких процесів називають конструюванням ознак. Або ж застосовують загальні методики зниження розмірності, такі як:

Обробка зображень

[ред. | ред. код]

Однією з дуже важливих областей застосування є обробка зображень, у якій застосовують алгоритми для виявляння та виокремлювання різних бажаних частин або фігур (ознак) оцифрованого зображення або потоку відео. Це особливо важливо в області оптичного розпізнавання символів.

Низькорівнева

[ред. | ред. код]

Кривина

[ред. | ред. код]

Рух зображення

[ред. | ред. код]

На основі фігур

[ред. | ред. код]

Гнучкі методи

[ред. | ред. код]
  • Параметризовані фігури, що піддаються деформації
  • Активні контури (змії)

Виділяння ознак у програмному забезпеченні

[ред. | ред. код]

Багато програмних пакетів аналізу даних[en] забезпечують виявляння ознак та зниження розмірності. Поширені середовища чисельного програмування, такі як MATLAB, SciLab, NumPy та мова програмування R, забезпечують деякі з простіших методик виявляння ознак (наприклад, метод головних компонент) через вбудовані команди. Більш специфічні алгоритми є часто доступними як загальнодоступні сценарії або додатки від третіх сторін. Існують також програмні пакети, націлені на конкретні програмні застосування машинного навчання, що спеціалізуються на виділянні ознак.[3]

Див. також

[ред. | ред. код]

Примітки

[ред. | ред. код]
  1. Alpaydin, Ethem (2010). Introduction to Machine Learning. London: The MIT Press. с. 110. ISBN 978-0-262-01243-0. Архів оригіналу за 23 березня 2019. Процитовано 4 лютого 2017. (англ.)
  2. Its all about the features. Reality AI Blog. Вересень 2017. Архів оригіналу за 18 серпня 2019. Процитовано 18 серпня 2019. (англ.)
  3. Див., наприклад, https://reality.ai/ [Архівовано 25 березня 2021 у Wayback Machine.]