Користувач:Валентин Тихомиров/Чернетка

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Система відео розпізнання жестів мови глухонімих з використанням нейронних мереж у реальному часі – це комплекс методів та програмних рішень для створення систем відео та фото розпізнавання жестів для людей з вадами слуху які користуються мовою глухонімих. В системах відео розпізнання жестів мови глухонімих з використанням нейронних мереж основою являються згорткові нейроні мережі та системи комп'ютерного зору. Нейрона мережа вчиться на певних датасетах після чого може буде використана для пошуку жестів мови глухонімих на екрані комп'ютера, телефона тощо. Прикладом такої технології є сенсори Kinect та мобільний застосунок Hand Talk.

Загалом систему відео розпізнання жестів мови глухонімих з використанням нейронних мереж у реальному часі можна класифікувати як сукупність комп'ютерних технологій і математичних алгоритмів, яка дозволяє вирішувати задачу розпізнавання певної групи жестів руки. Дані можливості надають змогу автоматизувати сфери людської діяльності без використання клавіатури чи миші.

Огляд

[ред. | ред. код]

Більшості додатків комп'ютерного зору, крім позиції і орієнтації руки людини, потрібна додаткова інформація про її параметри. Дана проблема вирішується за допомогою так званих гістограм напрямків (orientation histograms) і карт напрямків (orientation maps) зображення, які не є чутливими до змін освітлення середовища. Дані жести і дана технологія розпізнавання конфігурацій руки на основі гістограм напрямків, були використані для розробки додатка управління анімаційним краном. Додаток працює в реальному часі, показує гарні результати при незначних змінах розміру руки, але відчутний до змін руху руки. Додаток вимагає окремого додаткового навчання для кожної людини, що буде працювати з даним додатком. Ця технологія дозволяє в режимі реального часу розпізнавати жест людини, якщо виконуються наступні умови:  

1. Рука повинна займати більшу частину зображення.

2. На зображенні використовується однорідний фон.

3. Жести мають бути обрані таким чином, щоб гістограми напрямків мали значні відмінності один від одного.

Методи розпізнавання

[ред. | ред. код]

Особливістю методів, заснованих на аналізі зовнішніх ознак жесту, є аналіз тільки зовнішнього вигляду (форми, позиції і т.д.) цільового об'єкта. Для розпізнавання не зберігається ніякої інформації про фізичних властивості даного об'єкту. Існують наступні методи розпізнавання жестів руки людини на основі аналізу зовнішніх ознак жесту:

Розпізнавання рухів на основі аналізу різниць зображень (MEI) – використання різниць кадрів відеоряду (MEI) дозволяє в реальному часу аналізувати рух об'єкта в відеоряді при стабільному, але необов'язково однорідному зображенні. На практиці дана технологія та її модифікації (як приклад, motion history image - MHI).

Розпізнавання конфігурації і позиції із застосуванням кольорових рукавичок – для вирішення задачі розпізнавання жестів руки часто застосовують кольорові рукавички. Даний метод дозволяє за допомогою вбудованої відеокамери в реальному часі розпізнавати жести рук і відстежувати рухи долоні в тривимірному просторі. Рукавичка повинна бути сконструйованою з двадцяти сегментів десяти різних кольорів. Використання невеликої кількості кольорів дозволяє розпізнати колір обраної точки зображення рукавички при різному освітленні, а спеціальне розміщення колірних сегментів не дозволяє отримати ідентичні зображення при 20 різних конфігураціях руки.

Розпізнавання конфігурації і позиції на основі аналізу контуру зображення руки – для полегшення завдання два динамічних жестів розглядаються, і частина жестів замінюється новими. У кольоровому зображенні руки видаляються всі точки, які не відповідають кольору шкіри людини. Отримане зображення перетворюється в бінарне зображення, після чого згладжується фільтром Гауса. Контури руки виділяються за допомогою оператора Собеля. (Оператор Собеля використовується в обробці зображень для виділення границь. Це дискретний диференціальний оператор, що обчислює наближене значення градієнта чи норми градієнта для яскравості зображення. Оператор Собеля базується на згортці зображення невеликими сепарабельними цілочисельними фільтрами в вертикальному та горизонтальному 21 напрямках.) Обчислюється описаний прямокутник контуру руки, центр якого відповідає початку координат.

Інструменти розробки

[ред. | ред. код]

Numerical Python - розширені математичні можливості, такі як маніпуляції з цілими векторами і матрицями;

Tkinter - побудова додатків з використанням графічного інтерфейсу користувача (GUI) на основі широко розповсюдженого на X-Windows Tk-інтерфейсу;

OpenGL - використання великої бібліотеки графічного моделювання дво- і тривимірних об'єктів Open Graphics Library фірми Silicon Graphics Inc.

OpenCV (англ. Open Source Computer Vision Library, бібліотека комп'ютерного зору з відкритим кодом) — бібліотека функцій та алгоритмів комп'ютерного зору, обробки зображень і чисельних алгоритмів загального призначення з відкритим кодом. Бібліотека надає засоби для обробки і аналізу вмісту зображень, у тому числі розпізнавання об'єктів на фотографіях (наприклад, осіб і фігур людей, тексту тощо), вистежування руху об'єктів, перетворення зображень, застосування методів машинного навчання і виявлення загальних елементів на різних 39 зображеннях.

CMake — крос-платформовий відкритий генератор сценаріїв складання.

Приклади

[ред. | ред. код]

Системи відео розпізнання жестів мови глухонімих з використанням нейронних мереж у реальному часі використовуються для передачі інформації в комп'ютер, який в подальшому може використовуватися для ідентифікації людини, управління комп'ютером. Розпізнавання жестів можна застосовувати в таких областях діяльності людини, як наприклад:

  1. Створення природних людино-машинних інтерфейсів для глухонімих
  2. Систему розпізнавання жестів можна застосувати для введення тексту в комп'ютер за допомогою жестів руки, що для глухонімих людей простіше і природніше, ніж введення тексту за допомогою клавіатури комп'ютера.
  3. Систему розпізнавання жестів можна застосувати для створення додатків онлайн зв'язку, коли пропускна здатність мережі мала і відеозв'язок неможливий.
  4. Маніпуляція тривимірними моделями об'єктів На сьогоднішній день, для роботи з тривимірними моделями зазвичай використовують комп'ютерну мишу, яка не дуже зручна для цього завдання. Маючи тривимірні координати руки і кінчиків пальців руки, можна створити систему, яка дозволить керувати моделями в усіх напрямках тривимірного простору.
  5. Додатки віртуальної реальності Доповнивши систему розпізнавання жестів пристроями, наприклад стереоскопічними окулярами, можна створити додатки віртуальної реальності, де користувач зможе «доторкатися» до віртуальних об'єктів.

Значимість

[ред. | ред. код]

Досягнення в галузі штучного інтелекту привели до появи широкого асортименту пристроїв з технологією розпізнавання жестів. Очікується, що до 2025 року сукупні темпи річного зростання ринку перевищать 27,9%. Згідно зі звітом Markets and Markets, у 2025 році загальна вартість ринку розпізнавання жестів досягне $32,3 млрд. Торік цей показник дорівнював $9,8 млрд.Також росте кількість інтернет-користувачів з вадами слуху, що обовлює швидкий розвиток технологій відео розпізнання жестів мови глухонімих з використанням нейронних мереж у реальному часі.

Дивиться також

[ред. | ред. код]

Примітки

[ред. | ред. код]

Посилання

[ред. | ред. код]