Модель «торба слів» у комп'ютерному зорі
У комп'ютерному зорі модель "торба слів" (англ. bag-of-words model, модель BoW), яку іноді називають моделлю "сумки візуальних слів"[1], можна застосувати до класифікації або пошуку зображень, трактуючи характеристики зображення як слова. У класифікації документів торба слів — це розріджений вектор підрахунків появи слів; тобто розріджена гістограма над словником. У комп'ютерному зорі модель "торба слів" — це вектор підрахунків появи словника локальних характеристик зображення.
Щоб представити зображення за допомогою моделі BoW, зображення можна розглядати як документ. Подібним чином необхідно визначити «слова» в зображеннях. Щоб досягти цього, він зазвичай включає наступні три кроки: виявлення функції, опис функції та створення кодової книги.[2] Визначенням моделі BoW може бути «подання гістограми на основі незалежних ознак».[3] Індексування та пошук зображень на основі вмісту (CBIR), здається, є першим застосовувачем цієї техніки представлення зображень.[4]
Після виявлення ознак кожне зображення абстрагується кількома локальними плямами. Методи подання функцій стосуються того, як представити патчі як числові вектори. Ці вектори називаються дескрипторами ознак. Хороший дескриптор повинен мати здатність певною мірою обробляти інтенсивність, обертання, масштаб і афінні варіації. Одним із найвідоміших дескрипторів є Scale-invariant Feature Transform (SIFT).[5] SIFT перетворює кожен патч у 128-вимірний вектор. Після цього кроку кожне зображення є набором векторів однакової розмірності (128 для SIFT), де порядок різних векторів не має значення.
Останнім кроком для моделі BoW є перетворення векторно представлених патчів на «кодові слова» (аналогічні словам у текстових документах), що також створює «кодову книгу» (аналогію словнику слів). Кодове слово можна розглядати як представник кількох подібних патчів. Одним із простих методів є кластеризація k-середніх по всіх векторах.[6] Потім кодові слова визначаються як центри вивчених кластерів. Кількість кластерів є розміром кодової книги (аналогічно розміру словника слів).
Таким чином, кожна пляма в зображенні зіставляється з певним кодовим словом через процес кластеризації, і зображення може бути представлено гістограмою кодових слів.
Дослідники комп'ютерного зору розробили кілька методів навчання, щоб використовувати модель BoW для завдань, пов'язаних із зображеннями, наприклад, категоризації об'єктів . Ці методи можна умовно розділити на дві категорії: неконтрольовані та контрольовані моделі. Для проблеми категоризації кількох міток матрицю плутанини можна використовувати як показник оцінки.
Ось деякі позначки для цього розділу. Припустимо, розмір кодової книги дорівнює .
- : кожен патч є V-вимірним вектором, один компонент якого дорівнює одиниці, а всі інші компоненти дорівнюють нулю (для налаштування кластеризації k-середніх одиничний компонент, що дорівнює одиниці, вказує на кластер, який належить до). The -го кодового слова в кодовій книзі можна представити як і для .
- : кожне зображення представлено , усі патчі на зображенні
- : -те зображення в колекції зображень
- : категорія зображення
- : основна думка або тема патча
- : пропорція суміші
Оскільки модель BoW є аналогією моделі BoW в НЛП, генеративні моделі, розроблені в текстових областях, також можуть бути адаптовані в комп'ютерному зорі. Обговорюються проста наївна модель Баєса та ієрархічні моделі Баєса.
Найпростішим є наївний класифікатор Баєса .[1] Використовуючи мову графічних моделей, наївний класифікатор Баєса описується наведеним нижче рівнянням. Основна ідея (або припущення) цієї моделі полягає в тому, що кожна категорія має свій власний розподіл у книгах кодів і що розподіли кожної категорії помітно відрізняються. Візьмемо для прикладу категорію обличчя та категорію автомобіля. Категорія обличчя може підкреслювати кодові слова, які представляють «ніс», «око» та «рот», тоді як категорія автомобіля може підкреслювати кодові слова, які представляють «колесо» та «вікно». Отримавши набір навчальних прикладів, класифікатор вивчає різні розподіли для різних категорій. Рішення про категоризацію прийнято в
Томас Баєс | |
---|---|
англ. Thomas Bayes | |
Національність | Англієць |
Галузь | Теорія імовірностей |
Відомий завдяки: | Теорема Баєса,метод Наївного Баєса |
Оскільки наївний класифікатор Баєса простий, але ефективний, його зазвичай використовують як базовий метод для порівняння.
Основне припущення наївної моделі Баєса іноді не виконується. Наприклад, зображення природної сцени може містити кілька різних тем. Імовірніший прихований семантичний аналіз (pLSA)[7] і прихований розподіл Діріхле (LDA)[8] є двома популярними тематичними моделями з текстових доменів для вирішення схожої проблеми з кількома «темами». Візьмемо для прикладу LDA. Для моделювання зображень природної сцени за допомогою LDA проводиться аналогія з аналізом документів:
- категорія зображення зіставляється з категорією документа;
- пропорція суміші основної думки відображає пропорцію суміші тем;
- індекс основної думки зіставляється з індексом теми;
- кодове слово зіставляється зі словом.
Цей метод показує багатообіцяні результати в класифікації природних сцен за 13 категоріями природних сцен .[9]
Оскільки зображення представлені на основі моделі BoW, можна спробувати будь-яку дискримінаційну модель, придатну для категоризації текстових документів, наприклад машину опорних векторів і AdaBoost .[10] Трюк ядра також застосовний, коли використовується класифікатор на основі ядра, наприклад SVM. Ядро Pyramid match є нещодавно розробленим на основі моделі BoW. Підхід до локальних особливостей використання представлення моделі BoW, навченого класифікаторами машинного навчання з різними ядрами (наприклад, EMD-ядро та kernel) було ретельно протестовано в області розпізнавання текстур і об'єктів.[11] Повідомлялося про дуже обнадійливі результати щодо ряду наборів даних. Цей підхід[11] досяг дуже вражаючих результатів у PASCAL Visual Object Classes Challenge .
Ядро відповідності піраміди (англ. pyramid match kernel)[12] — це швидкий алгоритм (лінійна складність замість класичної квадратичної складності) ядерна функція (задовольняє умову Мерсера), яка відображає функції BoW або набір функцій у високій розмірності на багатовимірні гістограми з різною роздільною здатністю . Перевагою цих гістограм із різною роздільною здатністю є їх здатність фіксувати супутні елементи. Ядро пірамідної відповідності будує гістограми з різною роздільною здатністю, об'єднуючи точки даних у дискретні області зростаючого розміру. Таким чином, точки, які не збігаються при високій роздільній здатності, мають шанс збігатися при низькій роздільній здатності. Ядро пірамідної відповідності виконує приблизну відповідність подібності без явного пошуку чи обчислення відстані. Замість цього він перетинає гістограми для наближення оптимального збігу. Відповідно, час обчислення є лише лінійним за кількістю ознак. Порівняно з іншими підходами до ядра, ядро пірамідального збігу є набагато швидшим, але забезпечує еквівалентну точність. Ядро пірамідної відповідності було застосовано до бази даних ETH-80 і бази даних Caltech 101 із багатообіцяючими результатами.[12][13]
Одним із сумнозвісних недоліків BoW є те, що він ігнорує просторові відносини між патчами, які дуже важливі для представлення зображення. Дослідники запропонували кілька методів включення просторової інформації. Для покращення рівня функцій функції корелограми можуть фіксувати просторову співпояву функцій.[14] Для генеративних моделей також враховуються відносні позиції[15] кодових слів. Модель ієрархічної форми та зовнішнього вигляду для людських дій[16] вводить новий шар частин (модель сузір'я) між пропорцією суміші та функціями BoW, який фіксує просторові відносини між частинами в шарі. Для дискримінаційних моделей просторове пірамідне зіставлення[17] виконує пірамідне зіставлення шляхом поділу зображення на дедалі точніші підобласті та обчислення гістограм локальних особливостей у кожній підобласті. Нещодавно доповнення локальних дескрипторів зображення (тобто SIFT(scale-invariant feature transform) їх просторовими координатами, нормалізованими шириною та висотою зображення, виявилося надійним і простим підходом до кодування просторових координат[18][19], який вводить просторову інформацію в модель BoW.
Модель BoW ще не була ретельно перевірена на незмінність точки огляду та незмінність масштабу, і продуктивність неясна. Крім того, модель BoW для сегментації та локалізації об'єктів недостатньо зрозуміла.[20]
Систематичне порівняння конвеєрів класифікації виявило, що кодування статистики першого та другого порядку (Вектор локально агрегованих дескрипторів (Vector of Locally Aggregated Descriptors, VLAD)[21] і Вектор Фішера (Fisher Vector[en], FV)) значно підвищило точність класифікації порівняно з BoW, а також зменшило розмір книги кодів, таким чином зменшуючи обчислювальні зусилля для створення кодової книги.[22] Крім того, нещодавнє детальне порівняння методів кодування та об'єднання[23] для BoW показало, що статистика другого порядку в поєднанні з розрідженим кодуванням і відповідним об'єднанням, таким як нормалізація потужності, може ще більше перевершити вектори Фішера та навіть наблизитися до результатів простих моделей згорткової нейронної мережі. на деяких наборах даних розпізнавання об'єктів, таких як Oxford Flower Dataset 102 .
- Доречно-векторна машина, ймовірнісна розріджена ядрова модель, ідентична у функційному вигляді до ОВМ
- Послідовна мінімальна оптимізація
- Методологія картографування
- Модель векторного простору
- Модель «торба слів»
- Конструювання ознак
- Об'єктно-орієнтоване програмування
- Згорткова нейронна мережа
- Простір масштабів
- ↑ а б Csurka, Gabriella; Dance, Christopher; Fan, Lixin; Willamowski, Jutta; Bray, Cédric (2004). Visual Categorization with Bags of Keypoints (PDF) (англійською) (вид. Workshop on Statistical Learning in Computer Vision). с. 1—22.
- ↑ Fei-Fei Li; Perona, P. (2005). A Bayesian Hierarchical Model for Learning Natural Scene Categories. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Т. 2. с. 524—531. doi:10.1109/CVPR.2005.16. ISBN 978-0-7695-2372-9.
- ↑ L. Fei-Fei; R. Fergus; A. Torralba. Recognizing and Learning Object Categories, CVPR 2007 short course.
- ↑ Qiu, G. (2002). Indexing chromatic and achromatic patterns for content-based colour image retrieval (PDF). Pattern Recognition. 35 (8): 1675—1686. Bibcode:2002PatRe..35.1675Q. doi:10.1016/S0031-3203(01)00162-5.
- ↑ Vidal-Naquet; Ullman (1999). Object recognition with informative features and linear classification. Proceedings Ninth IEEE International Conference on Computer Vision. с. 1150—1157. doi:10.1109/ICCV.2003.1238356. ISBN 978-0-7695-1950-0.
- ↑ T. Leung; J. Malik (2001). Representing and recognizing the visual appearance of materials using three-dimensional textons (PDF). International Journal of Computer Vision. 43 (1): 29—44. doi:10.1023/A:1011126920638.
- ↑ Sivic, J.; Russell, B.C.; Efros, A.A.; Zisserman, A.; Freeman, W.T. (2005). Discovering objects and their location in images. Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. с. 370. doi:10.1109/ICCV.2005.77. ISBN 978-0-7695-2334-7.
{{cite book}}
:|access-date=
вимагає|url=
(довідка);|archive-url=
вимагає|url=
(довідка) - ↑ D. Blei; A. Ng & M. Jordan (2003). Lafferty, John (ред.). Latent Dirichlet allocation (PDF). Journal of Machine Learning Research. 3 (4–5): 993—1022. doi:10.1162/jmlr.2003.3.4-5.993. Архів оригіналу (PDF) за 22 серпня 2008. Процитовано 10 грудня 2007.
- ↑ Fei-Fei Li; Perona, P. (2005). A Bayesian Hierarchical Model for Learning Natural Scene Categories. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Т. 2. с. 524—531. doi:10.1109/CVPR.2005.16. ISBN 978-0-7695-2372-9.
- ↑ Serre, T.; Wolf, L.; Poggio, T. (2005). Object Recognition with Features Inspired by Visual Cortex. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Т. 2. с. 994. doi:10.1109/CVPR.2005.254. ISBN 978-0-7695-2372-9.
{{cite book}}
:|access-date=
вимагає|url=
(довідка);|archive-url=
вимагає|url=
(довідка) - ↑ а б Jianguo Zhang; Marcin Marszałek; Svetlana Lazebnik; Cordelia Schmid (2007). Local Features and Kernels for Classification of Texture and Object Categories: a Comprehensive Study (PDF). International Journal of Computer Vision. 73 (2): 213—238. doi:10.1007/s11263-006-9794-4. Архів оригіналу (PDF) за 13 квітня 2018. Процитовано 1 грудня 2023.
- ↑ а б Grauman, K.; Darrell, T. (2005). The pyramid match kernel: discriminative classification with sets of image features. Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. с. 1458. doi:10.1109/ICCV.2005.239. ISBN 978-0-7695-2334-7.
- ↑ Jianchao Yang; Kai Yu; Yihong Gong; Huang, T. (2009). Linear spatial pyramid matching using sparse coding for image classification. 2009 IEEE Conference on Computer Vision and Pattern Recognition. с. 1794. doi:10.1109/CVPR.2009.5206757. ISBN 978-1-4244-3992-8.
{{cite book}}
:|access-date=
вимагає|url=
(довідка);|archive-url=
вимагає|url=
(довідка) - ↑ Savarese, S.; Winn, J.; Criminisi, A. (2006). Discriminative Object Class Models of Appearance and Shape by Correlatons. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR'06). Т. 2. с. 2033. doi:10.1109/CVPR.2006.102. ISBN 978-0-7695-2597-6.
{{cite book}}
:|access-date=
вимагає|url=
(довідка);|archive-url=
вимагає|url=
(довідка) - ↑ Sudderth, E.B.; Torralba, A.; Freeman, W.T.; Willsky, A.S. (2005). Learning hierarchical models of scenes, objects, and parts. Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. с. 1331. doi:10.1109/ICCV.2005.137. ISBN 978-0-7695-2334-7.
{{cite book}}
:|access-date=
вимагає|url=
(довідка);|archive-url=
вимагає|url=
(довідка) - ↑ Niebles, Juan Carlos; Li Fei-Fei (2007). A Hierarchical Model of Shape and Appearance for Human Action Classification. 2007 IEEE Conference on Computer Vision and Pattern Recognition. с. 1. doi:10.1109/CVPR.2007.383132. ISBN 978-1-4244-1179-5.
- ↑ Lazebnik, S.; Schmid, C.; Ponce, J. (2006). Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR'06). Т. 2. с. 2169. doi:10.1109/CVPR.2006.68. ISBN 978-0-7695-2597-6.
{{cite book}}
:|access-date=
вимагає|url=
(довідка);|archive-url=
вимагає|url=
(довідка) - ↑ Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian (1 травня 2013). Comparison of mid-level feature coding approaches and pooling strategies in visual concept detection. Computer Vision and Image Understanding. 117 (5): 479—492. doi:10.1016/j.cviu.2012.10.010. ISSN 1077-3142.
- ↑ Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (24 лютого 2017). Higher-order occurrence pooling for bags-of-words: Visual concept detection (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (2): 313—326. doi:10.1109/TPAMI.2016.2545667. ISSN 0162-8828. PMID 27019477.
{{cite journal}}
:|hdl-access=
вимагає|hdl=
(довідка) - ↑ L. Fei-Fei; R. Fergus; A. Torralba. Recognizing and Learning Object Categories, CVPR 2007 short course.
- ↑ Jégou, H.; Douze, M.; Schmid, C.; Pérez, P. (1 червня 2010). Aggregating local descriptors into a compact image representation. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (PDF). с. 3304—3311. doi:10.1109/CVPR.2010.5540039. ISBN 978-1-4244-6984-0.
- ↑ Seeland, Marco; Rzanny, Michael; Alaqraa, Nedal; Wäldchen, Jana; Mäder, Patrick (24 лютого 2017). Plant species classification using flower images—A comparative study of local feature representations. PLOS ONE. 12 (2): e0170629. Bibcode:2017PLoSO..1270629S. doi:10.1371/journal.pone.0170629. ISSN 1932-6203. PMC 5325198. PMID 28234999.
- ↑ Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (24 лютого 2017). Higher-order occurrence pooling for bags-of-words: Visual concept detection (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (2): 313—326. doi:10.1109/TPAMI.2016.2545667. ISSN 0162-8828. PMID 27019477.
{{cite journal}}
:|hdl-access=
вимагає|hdl=
(довідка)
- G. Csurka; C. Dance; L.X. Fan; J. Willamowski & C. Bray (2004). Visual categorization with bags of keypoints. Proc. of ECCV International Workshop on Statistical Learning in Computer Vision.
- J. Sivic & A. Zisserman (2003). Video Google: A Text Retrieval Approach to Object Matching in Videos (PDF). Proc. of ICCV.[недоступне посилання з 01.09.2023]
- Fei-Fei Li; Perona, P. (2005). A Bayesian Hierarchical Model for Learning Natural Scene Categories. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Т. 2. с. 524—531. doi:10.1109/CVPR.2005.16. ISBN 978-0-7695-2372-9. S2CID 6387937.
- L. Fei-Fei; R. Fergus & A. Torralba. Recognizing and Learning Object Categories, CVPR 2007 short course.
- Qiu, G. (2002). Indexing chromatic and achromatic patterns for content-based colour image retrieval (PDF). Pattern Recognition. 35 (8): 1675—1686. Bibcode:2002PatRe..35.1675Q. doi:10.1016/S0031-3203(01)00162-5.
- T. Leung; J. Malik (2001). Representing and recognizing the visual appearance of materials using three-dimensional textons (PDF). International Journal of Computer Vision. 43 (1): 29—44. doi:10.1023/A:1011126920638. S2CID 14915716.
- T. Hoffman (1999). Probabilistic Latent Semantic Analysis (PDF). Proc. of the Fifteenth Conference on Uncertainty in Artificial Intelligence. Архів оригіналу (PDF) за 10 липня 2007. Процитовано 10 грудня 2007.
- D. Blei; A. Ng & M. Jordan (2003). Lafferty, John (ред.). Latent Dirichlet allocation (PDF). Journal of Machine Learning Research. 3 (4–5): 993—1022. doi:10.1162/jmlr.2003.3.4-5.993. Архів оригіналу (PDF) за 22 серпня 2008. Процитовано 10 грудня 2007.
- Jianguo Zhang; Marcin Marszałek; Svetlana Lazebnik; Cordelia Schmid (2007). Local Features and Kernels for Classification of Texture and Object Categories: a Comprehensive Study (PDF). International Journal of Computer Vision. 73 (2): 213—238. doi:10.1007/s11263-006-9794-4. S2CID 1486613.
- Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian (1 травня 2013). Comparison of mid-level feature coding approaches and pooling strategies in visual concept detection. Computer Vision and Image Understanding. 117 (5): 479—492. doi:10.1016/j.cviu.2012.10.010. ISSN 1077-3142.
- Jégou, H.; Douze, M.; Schmid, C.; Pérez, P. (1 червня 2010). Aggregating local descriptors into a compact image representation. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (PDF). с. 3304—3311. doi:10.1109/CVPR.2010.5540039. ISBN 978-1-4244-6984-0. S2CID 1912782.
- Сумка візуальних слів у двох словах, короткий посібник від Бетеї Давіди.
- Демо для двох класифікаторів сумок слів від Л. Фей-Фея, Р. Фергуса та А. Торральби.
- Набір інструментів Caltech Large Scale Image Search Toolbox: набір інструментів Matlab/C++, який реалізує пошук у перевернутому файлі для моделі Bag of Words. Він також містить реалізації для швидкого приблизного пошуку найближчого сусіда з використанням рандомізованого kd-дерева, хешування з урахуванням місцевості та ієрархічних k-середніх .
- Бібліотека DBoW2: бібліотека, яка реалізує швидкий пакет слів у C++ із підтримкою OpenCV .