Перейти до вмісту

Модель «торба слів» у комп'ютерному зорі

Матеріал з Вікіпедії — вільної енциклопедії.
Візуалізація моделі "Торба слів"у комп'ютерному баченні

У комп'ютерному зорі модель "торба слів" (англ. bag-of-words model, модель BoW), яку іноді називають моделлю "сумки візуальних слів"[1], можна застосувати до класифікації або пошуку зображень, трактуючи характеристики зображення як слова. У класифікації документів торба слів — це розріджений вектор підрахунків появи слів; тобто розріджена гістограма над словником. У комп'ютерному зорі модель "торба слів" — це вектор підрахунків появи словника локальних характеристик зображення.

Представлення зображення на основі моделі BoW

[ред. | ред. код]

Щоб представити зображення за допомогою моделі BoW, зображення можна розглядати як документ. Подібним чином необхідно визначити «слова» в зображеннях. Щоб досягти цього, він зазвичай включає наступні три кроки: виявлення функції, опис функції та створення кодової книги.[2] Визначенням моделі BoW може бути «подання гістограми на основі незалежних ознак».[3] Індексування та пошук зображень на основі вмісту (CBIR), здається, є першим застосовувачем цієї техніки представлення зображень.[4]

Гістограма

Представлення ознак

[ред. | ред. код]

Після виявлення ознак кожне зображення абстрагується кількома локальними плямами. Методи подання функцій стосуються того, як представити патчі як числові вектори. Ці вектори називаються дескрипторами ознак. Хороший дескриптор повинен мати здатність певною мірою обробляти інтенсивність, обертання, масштаб і афінні варіації. Одним із найвідоміших дескрипторів є Scale-invariant Feature Transform (SIFT).[5] SIFT перетворює кожен патч у 128-вимірний вектор. Після цього кроку кожне зображення є набором векторів однакової розмірності (128 для SIFT), де порядок різних векторів не має значення.

Генерація кодової книги

[ред. | ред. код]

Останнім кроком для моделі BoW є перетворення векторно представлених патчів на «кодові слова» (аналогічні словам у текстових документах), що також створює «кодову книгу» (аналогію словнику слів). Кодове слово можна розглядати як представник кількох подібних патчів. Одним із простих методів є кластеризація k-середніх по всіх векторах.[6] Потім кодові слова визначаються як центри вивчених кластерів. Кількість кластерів є розміром кодової книги (аналогічно розміру словника слів).

Таким чином, кожна пляма в зображенні зіставляється з певним кодовим словом через процес кластеризації, і зображення може бути представлено гістограмою кодових слів.

Навчання та розпізнавання на основі моделі BoW

[ред. | ред. код]

Дослідники комп'ютерного зору розробили кілька методів навчання, щоб використовувати модель BoW для завдань, пов'язаних із зображеннями, наприклад, категоризації об'єктів . Ці методи можна умовно розділити на дві категорії: неконтрольовані та контрольовані моделі. Для проблеми категоризації кількох міток матрицю плутанини можна використовувати як показник оцінки.

Моделі без нагляду

[ред. | ред. код]

Ось деякі позначки для цього розділу. Припустимо, розмір кодової книги дорівнює .

  •  : кожен патч є V-вимірним вектором, один компонент якого дорівнює одиниці, а всі інші компоненти дорівнюють нулю (для налаштування кластеризації k-середніх одиничний компонент, що дорівнює одиниці, вказує на кластер, який належить до). The -го кодового слова в кодовій книзі можна представити як і для .
  •  : кожне зображення представлено , усі патчі на зображенні
  •  : -те зображення в колекції зображень
  •  : категорія зображення
  •  : основна думка або тема патча
  •  : пропорція суміші

Оскільки модель BoW є аналогією моделі BoW в НЛП, генеративні моделі, розроблені в текстових областях, також можуть бути адаптовані в комп'ютерному зорі. Обговорюються проста наївна модель Баєса та ієрархічні моделі Баєса.

Нейронна мережа Наївного Баєса

Наївний Баєс

[ред. | ред. код]

Найпростішим є наївний класифікатор Баєса .[1] Використовуючи мову графічних моделей, наївний класифікатор Баєса описується наведеним нижче рівнянням. Основна ідея (або припущення) цієї моделі полягає в тому, що кожна категорія має свій власний розподіл у книгах кодів і що розподіли кожної категорії помітно відрізняються. Візьмемо для прикладу категорію обличчя та категорію автомобіля. Категорія обличчя може підкреслювати кодові слова, які представляють «ніс», «око» та «рот», тоді як категорія автомобіля може підкреслювати кодові слова, які представляють «колесо» та «вікно». Отримавши набір навчальних прикладів, класифікатор вивчає різні розподіли для різних категорій. Рішення про категоризацію прийнято в

Томас Баєс
англ. Thomas Bayes
НаціональністьАнглієць
ГалузьТеорія імовірностей
Відомий завдяки:Теорема Баєса,метод Наївного Баєса

Оскільки наївний класифікатор Баєса простий, але ефективний, його зазвичай використовують як базовий метод для порівняння.

Ієрархічні баєсівські моделі

[ред. | ред. код]

Основне припущення наївної моделі Баєса іноді не виконується. Наприклад, зображення природної сцени може містити кілька різних тем. Імовірніший прихований семантичний аналіз (pLSA)[7] і прихований розподіл Діріхле (LDA)[8] є двома популярними тематичними моделями з текстових доменів для вирішення схожої проблеми з кількома «темами». Візьмемо для прикладу LDA. Для моделювання зображень природної сцени за допомогою LDA проводиться аналогія з аналізом документів:

Ієрархія баєвської моделі
  • категорія зображення зіставляється з категорією документа;
  • пропорція суміші основної думки відображає пропорцію суміші тем;
  • індекс основної думки зіставляється з індексом теми;
  • кодове слово зіставляється зі словом.

Цей метод показує багатообіцяні результати в класифікації природних сцен за 13 категоріями природних сцен .[9]

Контрольовані моделі

[ред. | ред. код]

Оскільки зображення представлені на основі моделі BoW, можна спробувати будь-яку дискримінаційну модель, придатну для категоризації текстових документів, наприклад машину опорних векторів і AdaBoost .[10] Трюк ядра також застосовний, коли використовується класифікатор на основі ядра, наприклад SVM. Ядро Pyramid match є нещодавно розробленим на основі моделі BoW. Підхід до локальних особливостей використання представлення моделі BoW, навченого класифікаторами машинного навчання з різними ядрами (наприклад, EMD-ядро та kernel) було ретельно протестовано в області розпізнавання текстур і об'єктів.[11] Повідомлялося про дуже обнадійливі результати щодо ряду наборів даних. Цей підхід[11] досяг дуже вражаючих результатів у PASCAL Visual Object Classes Challenge .

Ядро відповідності піраміди

[ред. | ред. код]
Зображення до «Ядра відповідності піраміди»

Ядро відповідності піраміди (англ. pyramid match kernel)[12] — це швидкий алгоритм (лінійна складність замість класичної квадратичної складності) ядерна функція (задовольняє умову Мерсера), яка відображає функції BoW або набір функцій у високій розмірності на багатовимірні гістограми з різною роздільною здатністю . Перевагою цих гістограм із різною роздільною здатністю є їх здатність фіксувати супутні елементи. Ядро пірамідної відповідності будує гістограми з різною роздільною здатністю, об'єднуючи точки даних у дискретні області зростаючого розміру. Таким чином, точки, які не збігаються при високій роздільній здатності, мають шанс збігатися при низькій роздільній здатності. Ядро пірамідної відповідності виконує приблизну відповідність подібності без явного пошуку чи обчислення відстані. Замість цього він перетинає гістограми для наближення оптимального збігу. Відповідно, час обчислення є лише лінійним за кількістю ознак. Порівняно з іншими підходами до ядра, ядро пірамідального збігу є набагато швидшим, але забезпечує еквівалентну точність. Ядро пірамідної відповідності було застосовано до бази даних ETH-80 і бази даних Caltech 101 із багатообіцяючими результатами.[12][13]

Обмеження та останні розробки

[ред. | ред. код]

Одним із сумнозвісних недоліків BoW є те, що він ігнорує просторові відносини між патчами, які дуже важливі для представлення зображення. Дослідники запропонували кілька методів включення просторової інформації. Для покращення рівня функцій функції корелограми можуть фіксувати просторову співпояву функцій.[14] Для генеративних моделей також враховуються відносні позиції[15] кодових слів. Модель ієрархічної форми та зовнішнього вигляду для людських дій[16] вводить новий шар частин (модель сузір'я) між пропорцією суміші та функціями BoW, який фіксує просторові відносини між частинами в шарі. Для дискримінаційних моделей просторове пірамідне зіставлення[17] виконує пірамідне зіставлення шляхом поділу зображення на дедалі точніші підобласті та обчислення гістограм локальних особливостей у кожній підобласті. Нещодавно доповнення локальних дескрипторів зображення (тобто SIFT(scale-invariant feature transform) їх просторовими координатами, нормалізованими шириною та висотою зображення, виявилося надійним і простим підходом до кодування просторових координат[18][19], який вводить просторову інформацію в модель BoW.

Модель BoW ще не була ретельно перевірена на незмінність точки огляду та незмінність масштабу, і продуктивність неясна. Крім того, модель BoW для сегментації та локалізації об'єктів недостатньо зрозуміла.[20]

Систематичне порівняння конвеєрів класифікації виявило, що кодування статистики першого та другого порядку (Вектор локально агрегованих дескрипторів (Vector of Locally Aggregated Descriptors, VLAD)[21] і Вектор Фішера (Fisher Vector[en], FV)) значно підвищило точність класифікації порівняно з BoW, а також зменшило розмір книги кодів, таким чином зменшуючи обчислювальні зусилля для створення кодової книги.[22] Крім того, нещодавнє детальне порівняння методів кодування та об'єднання[23] для BoW показало, що статистика другого порядку в поєднанні з розрідженим кодуванням і відповідним об'єднанням, таким як нормалізація потужності, може ще більше перевершити вектори Фішера та навіть наблизитися до результатів простих моделей згорткової нейронної мережі. на деяких наборах даних розпізнавання об'єктів, таких як Oxford Flower Dataset 102 .

Див. також

[ред. | ред. код]

Примітки

[ред. | ред. код]
  1. а б Csurka, Gabriella; Dance, Christopher; Fan, Lixin; Willamowski, Jutta; Bray, Cédric (2004). Visual Categorization with Bags of Keypoints (PDF) (англійською) (вид. Workshop on Statistical Learning in Computer Vision). с. 1—22.
  2. Fei-Fei Li; Perona, P. (2005). A Bayesian Hierarchical Model for Learning Natural Scene Categories. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Т. 2. с. 524—531. doi:10.1109/CVPR.2005.16. ISBN 978-0-7695-2372-9.
  3. L. Fei-Fei; R. Fergus; A. Torralba. Recognizing and Learning Object Categories, CVPR 2007 short course.
  4. Qiu, G. (2002). Indexing chromatic and achromatic patterns for content-based colour image retrieval (PDF). Pattern Recognition. 35 (8): 1675—1686. Bibcode:2002PatRe..35.1675Q. doi:10.1016/S0031-3203(01)00162-5.
  5. Vidal-Naquet; Ullman (1999). Object recognition with informative features and linear classification. Proceedings Ninth IEEE International Conference on Computer Vision. с. 1150—1157. doi:10.1109/ICCV.2003.1238356. ISBN 978-0-7695-1950-0.
  6. T. Leung; J. Malik (2001). Representing and recognizing the visual appearance of materials using three-dimensional textons (PDF). International Journal of Computer Vision. 43 (1): 29—44. doi:10.1023/A:1011126920638.
  7. Sivic, J.; Russell, B.C.; Efros, A.A.; Zisserman, A.; Freeman, W.T. (2005). Discovering objects and their location in images. Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. с. 370. doi:10.1109/ICCV.2005.77. ISBN 978-0-7695-2334-7. {{cite book}}: |access-date= вимагає |url= (довідка); |archive-url= вимагає |url= (довідка)
  8. D. Blei; A. Ng & M. Jordan (2003). Lafferty, John (ред.). Latent Dirichlet allocation (PDF). Journal of Machine Learning Research. 3 (4–5): 993—1022. doi:10.1162/jmlr.2003.3.4-5.993. Архів оригіналу (PDF) за 22 серпня 2008. Процитовано 10 грудня 2007.
  9. Fei-Fei Li; Perona, P. (2005). A Bayesian Hierarchical Model for Learning Natural Scene Categories. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Т. 2. с. 524—531. doi:10.1109/CVPR.2005.16. ISBN 978-0-7695-2372-9.
  10. Serre, T.; Wolf, L.; Poggio, T. (2005). Object Recognition with Features Inspired by Visual Cortex. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Т. 2. с. 994. doi:10.1109/CVPR.2005.254. ISBN 978-0-7695-2372-9. {{cite book}}: |access-date= вимагає |url= (довідка); |archive-url= вимагає |url= (довідка)
  11. а б Jianguo Zhang; Marcin Marszałek; Svetlana Lazebnik; Cordelia Schmid (2007). Local Features and Kernels for Classification of Texture and Object Categories: a Comprehensive Study (PDF). International Journal of Computer Vision. 73 (2): 213—238. doi:10.1007/s11263-006-9794-4. Архів оригіналу (PDF) за 13 квітня 2018. Процитовано 1 грудня 2023.
  12. а б Grauman, K.; Darrell, T. (2005). The pyramid match kernel: discriminative classification with sets of image features. Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. с. 1458. doi:10.1109/ICCV.2005.239. ISBN 978-0-7695-2334-7.
  13. Jianchao Yang; Kai Yu; Yihong Gong; Huang, T. (2009). Linear spatial pyramid matching using sparse coding for image classification. 2009 IEEE Conference on Computer Vision and Pattern Recognition. с. 1794. doi:10.1109/CVPR.2009.5206757. ISBN 978-1-4244-3992-8. {{cite book}}: |access-date= вимагає |url= (довідка); |archive-url= вимагає |url= (довідка)
  14. Savarese, S.; Winn, J.; Criminisi, A. (2006). Discriminative Object Class Models of Appearance and Shape by Correlatons. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR'06). Т. 2. с. 2033. doi:10.1109/CVPR.2006.102. ISBN 978-0-7695-2597-6. {{cite book}}: |access-date= вимагає |url= (довідка); |archive-url= вимагає |url= (довідка)
  15. Sudderth, E.B.; Torralba, A.; Freeman, W.T.; Willsky, A.S. (2005). Learning hierarchical models of scenes, objects, and parts. Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. с. 1331. doi:10.1109/ICCV.2005.137. ISBN 978-0-7695-2334-7. {{cite book}}: |access-date= вимагає |url= (довідка); |archive-url= вимагає |url= (довідка)
  16. Niebles, Juan Carlos; Li Fei-Fei (2007). A Hierarchical Model of Shape and Appearance for Human Action Classification. 2007 IEEE Conference on Computer Vision and Pattern Recognition. с. 1. doi:10.1109/CVPR.2007.383132. ISBN 978-1-4244-1179-5.
  17. Lazebnik, S.; Schmid, C.; Ponce, J. (2006). Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR'06). Т. 2. с. 2169. doi:10.1109/CVPR.2006.68. ISBN 978-0-7695-2597-6. {{cite book}}: |access-date= вимагає |url= (довідка); |archive-url= вимагає |url= (довідка)
  18. Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian (1 травня 2013). Comparison of mid-level feature coding approaches and pooling strategies in visual concept detection. Computer Vision and Image Understanding. 117 (5): 479—492. doi:10.1016/j.cviu.2012.10.010. ISSN 1077-3142.
  19. Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (24 лютого 2017). Higher-order occurrence pooling for bags-of-words: Visual concept detection (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (2): 313—326. doi:10.1109/TPAMI.2016.2545667. ISSN 0162-8828. PMID 27019477. {{cite journal}}: |hdl-access= вимагає |hdl= (довідка)
  20. L. Fei-Fei; R. Fergus; A. Torralba. Recognizing and Learning Object Categories, CVPR 2007 short course.
  21. Jégou, H.; Douze, M.; Schmid, C.; Pérez, P. (1 червня 2010). Aggregating local descriptors into a compact image representation. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (PDF). с. 3304—3311. doi:10.1109/CVPR.2010.5540039. ISBN 978-1-4244-6984-0.
  22. Seeland, Marco; Rzanny, Michael; Alaqraa, Nedal; Wäldchen, Jana; Mäder, Patrick (24 лютого 2017). Plant species classification using flower images—A comparative study of local feature representations. PLOS ONE. 12 (2): e0170629. Bibcode:2017PLoSO..1270629S. doi:10.1371/journal.pone.0170629. ISSN 1932-6203. PMC 5325198. PMID 28234999.
  23. Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (24 лютого 2017). Higher-order occurrence pooling for bags-of-words: Visual concept detection (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (2): 313—326. doi:10.1109/TPAMI.2016.2545667. ISSN 0162-8828. PMID 27019477. {{cite journal}}: |hdl-access= вимагає |hdl= (довідка)

Джерела

[ред. | ред. код]

Посилання

[ред. | ред. код]