Matecat

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Matecat
Ліцензія GNU Lesser General Public License[1]
Статус авторських прав захищено авторським правомd
Офіційний сайт

Matecat — це вебінструмент для автоматизованого перекладу (CAT), випущений як відкрите програмне забезпечення під ліцензією Lesser General Public License (LGPL). Matecat безкоштовний для бюро перекладів, перекладачів і корпоративних користувачів[2].

Огляд[ред. | ред. код]

Назва Matecat — це абревіатура від Machine Translation Enhanced Computer Assisted Translation («Автоматизований переклад із покращеним машинним перекладом»). Matecat — результат трирічного дослідного проєкту, який тривав з листопада 2011 року по жовтень 2014 року. Проєкт фінансувався Сьомою рамковою програмою Європейського Союзу з досліджень, технологічного розвитку та демонстрації за грантовою угодою № 287688[3][4]. На його реалізацію було виділено понад 2 500 000 євро європейських коштів[5].

Консорціум проєкту очолював FBK (Fondazione Bruno Kessler) — міжнародний дослідницький центр, який базується в Тренто, Італія. До нього входив Translated[6] — постачальник мовних рішень на основі штучного інтелекту, заснований Марко Тромбетті[en] та Ізабель Андріє (Isabelle Andrieu) з Університету Ле-Мана[fr] та Единбурзького університету[7].

Інструменти автоматизованого перекладу[ред. | ред. код]

Інструменти автоматизованого перекладу (CAT-інструменти) забезпечують доступ до пам'яті перекладів (англ. TM), термінологічних баз (англ. TB), конкордансу, а віднедавна й до механізмів або служб машинного перекладу (МП). Поєднання в одному інтерфейсі пропозицій із системи машинного перекладу як доповнення до збігів у пам'яті перекладу зумовлена нещодавніми дослідженнями[8][9][10], які показали, що постредагування пропозицій із системи машинного перекладу підвищує рівень точності перекладу і його швидкість.

Matecat полегшує редагування результатів машинного перекладу та керування процесом локалізації. Він покращує якість пропозицій щодо перекладу, використовуючи дані щодо тематики тексту (наприклад, юридичної термінології), а також використовує машинне навчання для автоматичного покращення пропозицій з часом[11]. Matecat розроблено як перекладацький робочий інструмент і як дослідницьку платформу для інтеграції нових функцій машинного перекладу, проведення експериментів із постредагуванням і вимірювання продуктивності користувачів.

Технологія перекладу[ред. | ред. код]

Машинний переклад[ред. | ред. код]

Matecat працює як вебсервер, який з'єднується з іншими сервісами через відкриті API: службою машинного перекладу MyMemory[12], комерційним сервісом Перекладач Google (GT), ModernMT[13], DeepL[14] та кількома службами на основі Moses[15], визначеними у конфігураційному файлі. MyMemory і Перекладач Google доступні завжди; сервери Moses потребують встановлення й налаштування. Moses дає змогу розширити API GT для підтримки самонастроюваних, адаптивних до користувача та інформативних функцій машинного перекладу.

Версія Matecat із відкритим вихідним кодом за замовчуванням підтримує формат XLIFF[16], але конвертери можна налаштувати й на підтримку інших форматів. Інструмент підтримує кодування Юнікоду (UTF-8), у тому числі нелатинські абетки та мови з писемністю справа наліво, а також обробляє тексти, які містять теги розмітки. Він підтримує узгодження, термінологічні бази і настроювані компоненти оцінювання якості, а також надає API для Moses Toolkit, який можна налаштувати відповідно до мов і доменів.

Matecat підтримує сервери на базі Moses, здатні забезпечити розширений зв'язок CAT зі службами машинного перекладу. Зокрема, API Перекладача Google доповнено інформацією про зворотний зв'язок, що надходить до служби машинного перекладу щоразу після редагування сегмента, а також розширеним виводом машинного перекладача, зокрема оцінкою достовірності, сітками слів[17] тощо. Розроблений МП-сервер підтримує багатопотоковість для роботи з кількома перекладачами одночасно, обробляє текстові сегменти з тегами та адаптується до постредагування, яке виконує кожен користувач[18].

Посилання[ред. | ред. код]

Примітки[ред. | ред. код]

  1. https://site.matecat.com/terms/
  2. About Matecat. site.matecat.com. Процитовано 17 травня 2024.
  3. EU – DG Translation – a folha — Portuguese language magazine. ec.europa.eu. Процитовано 17 травня 2024.
  4. Machine Translation Enhanced Computer Assisted Translation | MateCat Project | Fact Sheet | FP7. CORDIS | European Commission (англ.). Процитовано 17 травня 2024.
  5. Wayback Machine (PDF). web.archive.org. Процитовано 17 травня 2024.
  6. Professional language solutions for your business - Translated. translated.com (англ.). Процитовано 17 травня 2024.
  7. MateCat. FBK (амер.). Процитовано 27 травня 2024.
  8. https://web.archive.org/web/20141030154913/http://amta2012.amtaweb.org/AMTA2012Files/papers/123.pdf
  9. https://dl.acm.org/doi/10.1145/2470654.2470718
  10. http://www.mt-archive.info/10/MTS-2013-W4-Laubli.pdf
  11. MateCat. FBK (амер.). Процитовано 19 травня 2024.
  12. MyMemory - CAT tool integration. mymemory.translated.net. Процитовано 21 травня 2024.
  13. ModernMT (MMT) Plugin. guides.matecat.com (англ.). Процитовано 21 травня 2024.
  14. Machine Translation Providers. guides.matecat.com (англ.). Процитовано 21 травня 2024.
  15. Moses - Main/HomePage. www2.statmt.org. Процитовано 21 травня 2024.
  16. XLIFF 1.2 Specification. docs.oasis-open.org. Процитовано 21 травня 2024.
  17. Moses - Moses/WordLattices. www2.statmt.org. Процитовано 22 травня 2024.
  18. Nicola Bertoldi, Mauro Cettolo, and Marcello Federico. 2013. Cache-based Online Adaptation for Machine Translation Enhanced Computer Assisted Translation. In Proceedings of the MT Summit XIV, pages 35–42, Nice, France, September.