Whisper (система розпізнавання мовлення)
Тип | Трансформер (архітектура глибокого навчання) |
---|---|
Автори | OpenAI[1] |
Розробник | OpenAI |
Перший випуск | September 21, 2022 |
Ліцензія | MIT[2] |
Репозиторій | https://github.com/openai/whisper |
Вебсайт | openai.com/research/whisper |
Whisper — це модель машинного навчання для розпізнавання мовлення та транскрипції, створена OpenAI і вперше випущена як програмне забезпечення з відкритим кодом у вересні 2022 року[3]. Вона здатна транскрибувати мовлення англійською та кількома іншими мовами[4], а також може перекладати певну кількість мов англійською. OpenAI стверджує, що поєднання різних навчальних даних, використаних у його розробці, призвело до покращеного розпізнавання акцентів, фонового шуму та жаргону порівняно з попередніми підходами[5].
Whisper — це акустична модель глибокого навчання зі слабким контролем, створена з використанням архітектури трансформера кодера-декодера[6].
Розпізнавання мовлення має довгу історію досліджень; перші підходи використовували статистичні методи, такі як динамічне викривлення часу, а пізніше — приховані моделі Маркова. Приблизно у 2010-х роках підходи до глибоких нейронних мереж стали більш поширеними для моделей розпізнавання мовлення, які покращувалися дедалі більше завдяки великим даним і підвищеній обчислювальній продуктивності[7]. Ранні підходи до глибокого навчання в розпізнаванні мовлення включали згорткові нейронні мережі, які були обмежені через їх нездатність захоплювати послідовні дані. Це пізніше призвело до розвитку підходів Seq2seq, які включають рекурентні нейронні мережі, що використовували довгу короткочасну пам'ять.
Трансформери, представлені Google у 2017 році, витіснили багато попередніх сучасних підходів до розв'язання багатьох проблем у машинному навчанні та почали ставати основною нейронною архітектурою в таких сферах, як моделювання мови та комп'ютерний зір[8]; підходи до навчання акустичних моделей зі слабким контролем були визнані на початку 2020-х років перспективними для підходів до розпізнавання мови з використанням глибоких нейронних мереж[9].
Whisper було навчено за допомогою напівконтрольованого навчання на 680 000 годин багатомовних і багатозадачних даних, з яких близько однієї п'ятої (117 000 годин) були аудіоданими не для англійської мови. Whisper не перевершує моделі, які спеціалізуються на наборі даних LibriSpeech, хоча під час тестування на багатьох наборах даних модель надійніша і робить на 50 % менше помилок, ніж інші моделі[10].
Whisper має різну частоту помилок щодо транскрибування різними мовами, з вищою частотою помилок розпізнавання слів у мовах, які недостатньо представлені у навчальних даних[11].
Модель використовувалася як основа для уніфікованої моделі для розпізнавання мовлення та більш загального розпізнавання звуку[12].
Архітектура Whisper заснована на трансформаторі кодер-декодер. Вхідний звук розбивається на 30-секундні фрагменти, які перетворюються на кепстр Mel-частоти, який передається кодеру. Декодер навчений передбачати текстові підписи, які йдуть після цього. Спеціальні маркери використовуються для виконання кількох завдань, наприклад позначки часу на рівні фрази[10].
- ↑ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (6 грудня 2022). Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356 [eess.AS].
- ↑ https://api.github.com/repos/openai/whisper
- ↑ Golla, Ramsri Goutham (6 березня 2023). Here Are Six Practical Use Cases for the New Whisper API. Slator (амер.). Архів оригіналу за 25 березня 2023. Процитовано 12 серпня 2023.
- ↑ Dickson, Ben (3 жовтня 2022). How will OpenAI's Whisper model impact AI applications?. VentureBeat (амер.). Архів оригіналу за 15 березня 2023. Процитовано 12 серпня 2023.
- ↑ Wiggers, Kyle (21 вересня 2022). OpenAI open-sources Whisper, a multilingual speech recognition system. TechCrunch (амер.). Архів оригіналу за 12 лютого 2023. Процитовано 12 лютого 2023.
- ↑ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (6 грудня 2022). Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356 [eess.AS].
- ↑ Yu, Dong; Deng, Li (2014). Automatic speech recognition: a deep learning approach. Signals and communication technology (англ.) (вид. 2015th). London Heidelberg: Springer. с. 9. ISBN 978-1-4471-5778-6.
- ↑ Kamath, Uday; Graham, Kenneth L.; Emara, Wael (2022). Transformers for machine learning: a deep dive. Chapman & Hall/CRC machine learning & pattern recognition (англ.) (вид. First). Boca Raton London New York: CRC Press, Taylor & Francis Group. с. xix. ISBN 978-0-367-76734-1.
- ↑ Paaß, Gerhard; Giesselbach, Sven (16 лютого 2023). Foundation Models for Speech, Images, Videos, and Control. Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms (англ.). с. 313—382. arXiv:2302.08575. doi:10.1007/978-3-031-23190-2_7. ISBN 978-3-031-23189-6.
- ↑ а б Introducing Whisper. openai.com (амер.). 21 вересня 2022. Архів оригіналу за 20 серпня 2023. Процитовано 21 серпня 2023.
- ↑ Wiggers, Kyle (1 березня 2023). OpenAI debuts Whisper API for speech-to-text transcription and translation. TechCrunch (амер.). Архів оригіналу за 18 липня 2023. Процитовано 21 серпня 2023.
- ↑ Yuan, Gong; Khurana, Sameer; Karlinsky, Leonid; Glass, James (2023). Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers. Interspeech 2023. с. 2798—2802. arXiv:2307.03183. doi:10.21437/Interspeech.2023-2193.