Узагальнений структурний тензор

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

В аналізі зображень[en] узага́льнений структу́рний те́нзор (УСТ, англ. generalized structure tensor, GST) — розширення декартового структурного тензора до криволінійних координат.[1] Його переважно використовують для виявляння та подання параметрів «напрямку» кривих, так само як декартів структурний тензор виявляє та подає напрямок у декартових координатах. Найкраще досліджено сімейства кривих, породжених парами локально ортогональних функцій.

Це широко відомий метод у застосуваннях обробки зображень і відео, включно з комп'ютерним баченням, наприклад, у біометричній ідентифікація за відбитками пальців[2] та дослідженнях зрізів тканин людини.[3][4]

УСТ у двовимірних локально ортогональних базисах

[ред. | ред. код]

Нехай термін «зображення» (англ. "image") подає функцію , де  — дійсні змінні, а та  — дійснозначні функції. УСТ подає напрямок, уздовж якого зображення може зазнавати нескінченно малого перенесення з мінімальною похибкою (повних найменших квадратів[en]), уздовж «ліній», що відповідають таким умовам:

1. «Лінії» — це звичайні прямі в криволінійному координатному базисі

що є кривими в декартових координатах, як показано у рівнянні вище. Похибка вимірюється в сенсі , і її мінімальність відтак рахують відносно норми L2.

2. Функції становлять гармонічну пару, тобто задовольняють рівняння Коші — Рімана,

Відповідно, такі криволінійні координати локально ортогональні.

Тоді УСТ полягає в

де  — похибки (нескінченно малого) паралельного перенесення у найкращому (позначеному кутом ) і найгіршому (визначаному через ) напрямках. Функція  — це віконна функція, що визначає «зовнішній масштаб» (англ. "outer scale"), у якому виконуватиметься виявляння , яку можливо пропустити, якщо її вже включено до або якщо  — повне зображення (а не локальне). Матриця  — одинична матриця. Використовуючи ланцюгове правило, можливо показати, що наведене вище інтегрування можливо втілити як згортки в декартових координатах, застосовані до звичайного структурного тензора, коли утворюють пару дійсної та уявної частин аналітичної функції ,

де .[5] До прикладів аналітичних функцій належать , а також одночлени , , де  — довільне додатне або від'ємне ціле число. Одночлени в комп'ютерному баченні та обробці зображень також називають гармонічними функціями.

Таким чином, декартів структурний тензор — це окремий випадок УСТ, в якому й , тобто, гармонічна функція — це просто . Таким чином, обравши гармонічну функцію , можливо виявляти всі криві, які є лінійними поєднаннями її дійсної та уявної частин, лише за допомогою згорток на (прямокутних) сітках зображень, навіть якщо недекартові. Крім того, обчислення згортки можливо виконувати за допомогою комплексних фільтрів, застосовуваних до комплексної версії структурного тензора. Таким чином, втілення УСТ часто виконують із використанням комплексної версії структурного тензора, а не тензора (1,1).

Комплексний варіант УСТ

[ред. | ред. код]

Оскільки існує комплексна версія звичайного структурного тензора, існує також і комплексна версія УСТ

що ідентична своєму двоюрідному братові з тією різницею, що  — комплексний фільтр. Слід нагадати, що звичайного структурного тензора — це дійсний фільтр, який зазвичай визначають дискретизованим та масштабованим гауссіаном для окреслення околу, відомого також як зовнішній масштаб. Ця простота є причиною того, чому втілення УСТ переважно використовували наведену вище комплексну версію. Для сімейств кривих , визначених аналітичними функціями , можливо показати,[1] що функція визначення околу є комплекснозначною,

,

так званою похідною симетрії гауссіана. Таким чином, напрямкову мінливість візерунку, яку потрібно шукати, безпосередньо включено до функції визначення околу, й виявляння відбувається в просторі (звичайного) структурного тензора.

Основна концепція його використання в обробці зображень і комп'ютерному баченні

[ред. | ред. код]

Ефективне виявляння в зображеннях можливе шляхом обробки зображень для пари , . Основними обчислювальними елементами втілень УСТ є комплексні згортки (або відповідні матричні операції) та поточкові нелінійні відображення. Оцінку методом повних найменших квадратів[en] відтак отримують разом із двома похибками, та . За аналогією з декартовим структурним тензором, оцінюваний кут має подвійнокутове подання, тобто обчислення надають , і його можливо використовувати як ознаку форми, тоді як окремо або в поєднанні з можливо використовувати як міру якості (впевненості, певності) для цієї оцінки кута.

Логарифмічні спіралі, включно з колами, можливо, наприклад, виявляти (комплексними) згортками та нелінійними відображеннями.[1] Спіралі можуть бути в зображеннях у відтінках сірого (багатозначних), або в бінарному зображенні, тобто розташування елементів контурів відповідних фігур, таких як контури кіл або спіралей, не повинно бути відомим чи якимось чином позначеним.

Узагальнений структурний тензор можливо використовувати як альтернативу перетворенню Гафа в обробці зображень і комп'ютерному баченні для виявляння образів, чиї локальні спрямування можливо моделювати, наприклад точок з'єднання. До основних відмінностей належать:

  • Допускається від'ємне, а також комплексне голосування;
  • За допомогою одного шаблону можливо виявляти декілька образів, які належать до одного сімейства;
  • Бінаризація зображення не потрібна.

Фізична та математична інтерпретація

[ред. | ред. код]

Криволінійні координати УСТ можуть інтерпретувати фізичні процеси, застосовувані до зображень. Добре відома пара процесів складається з обертання та масштабування. Вони пов'язані з перетворенням координат та .

Якщо зображення складається з ізокривих, які можливо інтерпретувати через лише , тобто його ізокриві складаються з кіл , де  — будь-яка дійснозначна диференційовна функція, визначена на одному вимірі, то це зображення інваріантне до поворотів (навколо початку координат).

Операцію масштабування (включно зі зменшенням масштабу) моделюють подібно. Якщо зображення має ізокриві, схожі на «зірку» або велосипедні спиці, тобто, для деякої диференційовної одновимірної функції , то зображення інваріантне до масштабування (відносно початку координат).

У поєднанні,

інваріантна до певної величини обертання в поєднанні з масштабуванням, де цю величину уточнюють параметром .

Аналогічно, декартів структурний тензор — також подання паралельного перенесення. Тут фізичний процес полягає у звичайному паралельному перенесенні певної величини вздовж у поєднанні з паралельним перенесенням вздовж ,

де цю величину вказано параметром . Очевидно, тут позначує напрямок лінії.

Загалом, оцінений подає напрямок (в координатах ), уздовж якого нескінченно малі паралельні перенесення лишають зображення інваріантним, на практиці — найменшим варіантним. З кожною криволінійною координатною базисною парою існує пара нескінченно малих паралельних перенесень, лінійне поєднання яких є диференціальним оператором. Останні пов'язані з алгеброю Лі .

Різне

[ред. | ред. код]

«Зображення» (англ. "image") у контексті УСТ може означати як звичайне зображення, так і якийсь його окіл (локальне зображення), залежно від контексту. Наприклад, фотографія — це зображення, як і будь-який окіл у ній.

Див. також

[ред. | ред. код]

Примітки

[ред. | ред. код]
  1. а б в Bigun, J.; Bigun, T.; Nilsson, K. (December 2004). Recognition by symmetry derivatives and the generalized structure tensor. IEEE Transactions on Pattern Analysis and Machine Intelligence. 26 (12): 1590—1605. doi:10.1109/TPAMI.2004.126. PMID 15573820. (англ.)
  2. Fronthaler, H.; Kollreider, K.; Bigun, J. (2008). Local Features for Enhancement and Minutiae Extraction in Fingerprints. IEEE Transactions on Image Processing. 17 (3): 354—363. Bibcode:2008ITIP...17..354F. CiteSeerX 10.1.1.160.6312. doi:10.1109/TIP.2007.916155. PMID 18270124. (англ.)
  3. O. Schmitt; H. Birkholz (2010). Improvement in cytoarchitectonic mapping by combining electrodynamic modeling with local orientation in high-resolution images of the cerebral cortex. Microsc. Res. Tech. 74 (3): 225—243. doi:10.1109/TIP.2007.916155. PMID 18270124. (англ.)
  4. O. Schmitt; M. Pakura; T. Aach; L. Homke; M. Bohme; S. Bock; S. Preusse (2004). Analysis of nerve fibers and their distribution in histologic sections of the human brain. Microsc. Res. Tech. 63 (4): 220—243. doi:10.1002/jemt.20033. PMID 14988920.{{cite journal}}: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання) (англ.)
  5. Bigun, Josef (December 1997). Pattern Recognition in Images by Symmetries and Coordinate Transformations. Computer Vision and Image Understanding. 68 (3): 290—307. doi:10.1006/cviu.1997.0556. (англ.)