Перейти до вмісту

Двонаправлені рекурентні нейронні мережі

Матеріал з Вікіпедії — вільної енциклопедії.
Структура RNN та BRNN[1]

Двонаправлена рекурентна нейронна мережа (англ. bidirectional recurrent neural network, BRNN) з'єднують у протилежних напрямках два прихованих шари з однаковим входом. Завдяки такій формі породжувального навчання, вихідний шар рекурентної нейронної мережі може отримувати інформацію з минулих (попередніх) та майбутніх станів (наступних) одночасно.[2] Вони були винайдені в 1997 році Майком Шустером і Кулдіпом Палівалем.[1] BRNN були введені для збільшення кількості вхідної інформації, доступної для мережі. Наприклад, багатошаровий персептрон (MLP) та нейронна мережа з часовою затримкою (TDNNs) мають обмеження на гнучкість вхідних даних, оскільки вони вимагають фіксування вхідних даних. Стандартна рекурентна нейронна мережа (RNN) також має обмеження, оскільки майбутня вхідна інформація не може бути досягнута з поточного стану. Навпаки, BRNN не вимагає фіксації вхідних даних. Більш того, майбутня вхідна інформація доступна з поточного стану.

BRNN особливо корисні, коли наявність контексту вхідних даних покращує результат. Наприклад, при розпізнаванні рукописного тексту, точність може бути посилена розпізнанням букв, розташованих до і після поточної.

Архітектура

[ред. | ред. код]

Принцип BRNN полягає в тому, щоб розбити нейрони звичайної RNN на два напрямки: один для додатного напрямку часу (подальші стани), а інший для від'ємного напрямку часу (попередні стани). Вихід цих двох станів не пов'язаний з входами станів протилежного напрямку. Загальна структура RNN та BRNN бути зображена на діаграмі. Використовуючи два напрямки часу, може бути використана вхідна інформація з минулого та майбутнього поточного періоду, на відміну від стандартного RNN, що вимагає затримок для включення майбутньої інформації.[1]

Навчання

[ред. | ред. код]

BRNN можна навчити, використовуючи подібні алгоритми в порівнянні з RNN, тому що два спрямованих нейрони не мають ніяких взаємодій. Проте, коли застосовується зворотне поширення, потрібні додаткові процеси, оскільки оновлення вхідних і вихідних шарів не можуть бути виконані одночасно. Загальні процедури тренувань полягають у наступному: для форвардного проходу спочатку проходять подальші стани і попередні стани, а потім проходять вихідні нейрони. Для зворотного проходу спочатку проходять вихідні нейрони, після чого передаються подальші і попередні стани. Після проходження вперед і назад, ваги оновлюються.[1]

Застосунки

[ред. | ред. код]

BRNN застосовується у задача:

Див. також

[ред. | ред. код]

Література

[ред. | ред. код]
  1. а б в г Schuster, Mike, and Kuldip K. Paliwal. «Bidirectional recurrent neural networks.» Signal Processing, IEEE Transactions on 45.11 (1997): 2673—2681.2. Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan
  2. What are Bidirectional Recurrent Neural Networks?. deepai.org. Архів оригіналу за 16 лютого 2019.
  3. Graves, Alex, Santiago Fernández, and Jürgen Schmidhuber. «Bidirectional LSTM networks for improved phoneme classification and recognition.» Artificial Neural Networks: Formal Models and Their Applications–ICANN 2005. Springer Berlin Heidelberg, 2005. 799—804.
  4. Graves, Alan, Navdeep Jaitly, and Abdel-rahman Mohamed. «Hybrid speech recognition with deep bidirectional LSTM.» Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on. IEEE, 2013.
  5. Sundermeyer, Martin, et al. «Translation modeling with bidirectional recurrent neural networks.» Proceedings of the Conference on Empirical Methods on Natural Language Processing, October. 2014.
  6. Liwicki, Marcus, et al. «A novel approach to on-line handwriting recognition based on bidirectional long short-term memory networks.» Proc. 9th Int. Conf. on Document Analysis and Recognition. Vol. 1. 2007.
  7. Baldi, Pierre, et al. «Exploiting the past and the future in protein secondary structure prediction.» Bioinformatics 15.11 (1999): 937—946.
  8. Pollastri, Gianluca, and Aoife Mclysaght. «Porter: a new, accurate server for protein secondary structure prediction.» Bioinformatics 21.8 (2005): 1719—1720.
  9. Grella and Cangialosi «Non-Projective Dependency Parsing via Latent Heads Representation» (2018).
  10. Dernoncourt, Franck; Lee, Ji Young; Szolovits, Peter (15 травня 2017). NeuroNER: an easy-to-use program for named-entity recognition based on neural networks. arXiv:1705.05487 [cs.CL].

Посилання

[ред. | ред. код]