Пам'ять перекладів
Пам'ять перекладів (ПП; англ. translation memory, TM; іноді називається «Накопичувач перекладів») — база даних, що містить набір раніше перекладених текстів. Один запис в такій базі даних відповідає «одиниці перекладу» (англ. translation unit), за яку зазвичай береться одне речення (рідше — частина складносурядного речення, або абзац). Якщо чергове речення вихідного тексту точно збігається з реченням, що зберігається в базі (точна відповідність, англ. exact match), воно може бути автоматично підставлене у переклад. Нове речення може також трохи відрізнятися від того, що зберігається у базі (неточна відповідність, англ. fuzzy match). Таке речення може бути також підставлене у переклад, але перекладач буде повинен внести необхідні зміни.
Крім прискорення процесу перекладу фрагментів та періодичних змін, внесених до вже перекладених текстів (наприклад, нових версій програмних продуктів або змін у законодавстві), системи ПП також забезпечують одноманітність перекладу термінології в однакових фрагментах, що особливо важливо при технічному перекладі. З другого боку, якщо перекладач регулярно підставляє до свого перекладу точні відповідності, витягнуті з баз перекладів, без контролю їх використання у новому контексті, якість перекладеного тексту може погіршитися.
Зазвичай, програмним продуктам, що використовують бази ТМ, притаманні спільні функціональні можливості, характеристики.
- Імпорт
- Імпорт — це перенесення текстового файлу до пам'яті перекладів.
- Текстовий редактор
- Власне, тут і здійснюється переклад. Всі програми мають два вікна — для оригіналу та перекладу. Коли у вікно оригіналу вводиться текст, починається пошук аналогічного фрагменту в базі даних. Якщо в пам’яті знаходиться аналогічний фрагмент, він виводиться у вікно перекладу автоматично. Якщо точного збігу не знайдено, у вікно виводиться найбільш схожий фрагмент, вказується відсоток збігу. Можна встановлювати у процентах міру збігу між текстом для перекладу та текстом в базі. Чим більший відсоток схожості, тим менша імовірність знаходження потрібного тексту. Встановлюючи менший відсоток, можна отримати матеріал, який буде корисним, хоча б для довідки.
- Перекладач самостійно редагує запропонований фрагмент згідно з оригіналом, посилає в пам'ять бази даних та переходить до наступного фрагменту. Якщо база знаходиться в мережі, вона є доступною для усіх; поповнення бази здійснюється автоматично, кожним працівником/перекладачем/користувачем.
- Текстовий парсинг
- Парсинг є синтаксичним аналізом тексту. Важливим є розрізнити пунктуацію, щоб, наприклад, відрізнити кінець речення від абревіатури.
- Лінгвістичний парсинг
- Підготовка списків фразеологічних зворотів, термінів тощо.
- Сегментація
- Вибір найбільш підходящих для перекладу сегментів тексту. Фрагменти, на котрі поділяються тексти, називають сегментами. Імовірність повтору мовних одиниць обернено-пропорційна їх довжині. За сегменти зазвичай приймаються одне чи декілька речень, частина речення чи словосполучення, лише в деяких випадках одне слово, оскільки слова часто повторюються в тексті, але ці повтори найчастіше є марними:
We have just robbed a bank. He sat on the bank of the river.
- Вирівнювання
- Сегменти одного тексту, зіставленні сегментам перекладеного тексту, називаються вирівняними. Тексти, перекладені на різні мови, називають паралельними. Тобто вирівнювання паралельних текстів — це зіставлення початкового та перекладеного текстів за сегментами.
- Виділення термінології
- Скорочення обсягу ручного перекладу термінології. Підрахунок повторювання слів та словосполучень, створення статистики, що дає змогу оцінити обсяг безпосередньо роботи перекладача для виконання перекладу.
- Експорт
- Перенос тексту з пам'яті перекладів до зовнішнього текстового файлу.
- Пошук
- Знаходження декількох варіантів перекладу (збігів).
- Точний збіг
- Точний збіг — збіг знак до знаку. Під час перекладу речень (та більших сегментів) це означає, що сегмент був перекладений раніше. Такий збіг називають «100% match».
- Контекстний точний збіг
- (In Context Exact (ICE) match/Guaranteed Match). ICE match — це точний збіг у тому самому місці в параграфі тексту.
- Приблизний збіг
- Якщо збіг був неточний, він часто позначається у процентному співвідношенні від 0% до 100%. Часто ці дані не відтворюються в інших системах пам'яті перекладів, лише за умови вказування методів підрахунку.
- Конкорданс
- Виділивши термін або ідіому, можна знайти всі вирівняні сегменти минулих перекладів що їх містять.
- Обслуговування
- В процесі накопичення в базі білінгів їх кількість може зростати настільки, що зміст бази може вийти за її межі. Можуть з’являтися неточності чи помилки, особливо якщо база використовується багатьма користувачами. З’являється необхідність щось редагувати чи уточнювати, або ж і взагалі знищувати, що все одно не вирішує проблему докорінно.
- Автоматичний переклад
- ПП часто надають можливість повністю автоматизованого перекладу та заміни.
- Автоматичний пошук
- Пошук та виведення інформації відбувається автоматично по мірі просування текстом.
- Автоматична заміна
- Точні збіги можуть бути автоматично замінені при роботі з новим варіантом перекладеного раніше тексту.
- Робота в мережі
- Передбачає співпрацю з іншими перекладачами.
- Термінологічний словник
- Всі програми мають свої термінологічні словники, що є звичайними електронними словниками, які можна імпортувати, поповнювати та редагувати.
- Централізована ПП
- Зберігання ПП на центральному сервері, який співпрацює з кожною окремою ПП на комп’ютерах мережі. Збільшується імовірність знайдення збігів на 30—60 %. Зазвичай централізовані ПП є частиною системи управління глобалізацією (globalization management system (GMS)), яка включає центральну термінологічну базу (глосарій), механізм робочого процесу, підрахунок вартості та інші інструменти.
Першу програму, що використовувала базу ПП, — Translation Manager — створила компанія IBM. Спочатку компанія використовувала її виключно у власних цілях — для локалізації (адаптації на іноземні мови) власних програмних продуктів. Потім програма була запропонована ринку і довго була монополістом у галузі. Проста у використанні, швидка, вона забезпечувала гарні можливості для індивідуальних налаштувань користувача.
Програма SDLX, розроблена англійською компанією SDL для своїх співробітників, мала недоліки пов’язані з незручностями етапів перекладу. Текст неможливо безпосередньо імпортувати в редактор — спочатку його потрібно видозмінити в SDL Edit — одній з 3 частин програми.
Програма Déjà Vu користується у перекладачів в Європі популярністю завдяки своїй гнучкості та адаптивності. Окрім зручності, вона вирізняється співвідношенням ціна/якість. Спеціалісти відмічають, що від початку ця програма розроблялась в контакті з майбутніми юзерами. Відомо, що остання версія програми тестувалась також й російськими перекладачами. Їхні статті й відгуки були опубліковані в MultiLingual Computing & Technology.
Популярна в Європі також програма STAR Transit. За своєю ідеологією вона зовсім не схожа на продукти класу: на відміну від їхнього принципу «Information at your fingertips», початкові дані STAR Transit зберігає в текстовому форматі у вигляді файлів, котрі користувач розміщує в директорії. Потім перекладач вказує які директорії/файли йому потрібні, а програма формує мережу посилань, з якими буде йти робота. В Росії та Україні STAR Transit не отримав широкого розповсюдження, а PROMT, офіційний дистриб’ютор Transit, переключився на розповсюдження Translator’s Workbench фірми Trados.
Translator’s Workbench, або просто Trados, швидко отримав визнання в Україні й Росії, спочатку серед перекладацьких фірм, а потім й серед індивідуальних перекладачів. Великою перевагою є те, що він інтегрується в такі відомі програмні продукти як Word та інтернет-браузери і можна використовувати всі його інструменти. Trados є надзвичайно зручним для пересічного перекладача, що не знайомий з програмуванням, він зрозуміліший ніж інші програми типу. Всі елементи управління мають підказки. Цей продукт має всі корисні інструменти, які в інших продуктах є лише в частковій наявності.
Наприкінці 2008 року з'явилася перша вітчизняна система ПП AnyMem, розроблена київською компанією Advanced International Translations.
- Скорочення обсягу та часу праці перекладача, заощадження коштів. Завдяки накопиченим перекладам в базі ТМ, перекладач може економити сили, час та гроші при перекладі нових текстів схожих тематик, так як не потрібно знову перекладати повторювані фрагменти й витрачати час на пошуки термінів, характерних для конкретної галузі чи компанії. Інструкції, попереджувальні повідомлення, об’яви тощо можуть бути перекладені одноразово, а використані багаторазово.
- Покращення послідовності перекладу, що особливо важливо при роботі кількох перекладачів над одним проектом.
- Збільшення прибутків. За рахунок прискорення темпів збільшується продуктивність, отже, з’являється можливість виконати більше замовлень.
- Поліпшення якості послуг. Окрім швидкості перекладу, системи ТМ надають точність перекладу термінів, що особливо важливо для спеціалізованих текстів.
- Конкурентні переваги. Пояснюючи своїм клієнтам, що ви використовуєте технологію, що може знизити вартість їх замовлень, ви приваблюєте більше замовників.
- Статус професіонала на ринку. Технологія ТМ широко розповсюджена в Європі та США, де вимоги до перекладачів мати навички праці в галузі ПП стали стандартом. В Росії та Україні ця технологія лише розвивається, але найбільші професіональні компанії вже прийняли використання ПП за норму, намагаючись відповідати високому стандарту якості.
- Часто постає питання самої суті перекладу: донести «послання» тексту, а не надати сухий переклад речень.
- Є потенціальний ризик відсутності відношень (смислових) окремого речення до сусідніх речень та тексту в цілому.
- Оригінал має бути в електронному вигляді.
- Одна помилка поширюється на весь проект.
- Бажане довготривале користування.
- Підходить не до всіх типів текстів.
- Переклад може стати монотонним.
- При зміні працевлаштування може знадобитися опановувати новий програмний продукт.
- Грошове питання. Різноманіття програм створює таку проблему, що для різних проектів, видавничих систем, текстових процесорів можуть знадобитися різні програми, а коштують вони від 200 до 2,5 тис. доларів. Також додаткових витрат може потребувати імпортування старих перекладів в нові бази даних та потреба у додаткових програмних продуктах.
- Обслуговування баз ПП все ще залишається не автоматизованою працею. Помилки при обслуговуванні можуть мати негативні наслідки.
- Перекладачам-початківцям важко працевлаштуватися не маючи дорогих ТМ-програм, наявність яких вважається ознакою професіоналізму
У кожній конкретній системі ПП дані зберігаються в своєму власному форматі (текстовий формат у Wordfast, база даних Access у Déjà Vu), але існує міжнародний стандарт TMX (англ. Translation Memory eXchange format), заснований на XML, який можуть створювати практично усі системи ПП. Завдяки цьому результати роботи перекладачів можна обмінювати між додатками; тобто перекладач, що працює з OmegaT, може використовувати ПП, створену у Trados і навпаки.
Більшість систем ПП як мінімум підтримують створення і використання словників користувача, створення нових баз даних на основі паралельних текстів (англ. alignment), а також напівавтоматичне витягнення термінології з оригінальних та паралельних текстів.
Відповідно до недавніх оглядів використання систем ПП до найпопулярніших систем відносяться:[1]
- Déjà Vu
- OmegaT (безкоштовна система, поширювана за ліцензією GNU)
- SDLX [2]
- Trados (найпопулярніша програма, що довгий час була стандартом ПП)
- Star Transit
- Wordfast (реалізована як набір макросів для MS Word)
- Lokalize (вільнорозповсюджувана, працює на GNU/Linux, Windows, Mac OS X)
- Transolution
- Open Language Tools
- Інструменти перекладу Google
У кінці 2008 року з'явилася перша вітчизняна система ПП AnyMem, розроблена київською компанією Advanced International Translations.
Translation Memory Exchange Format — Обмін пам'яттю перекладів. Цей стандарт дозволяє взаємний обмін між різними постачальниками пам'яті перекладів. TMX є загальноприйнятим форматом у середовищі перекладачів та вважається найкращим під час імпорту й експорту пам'ятей перекладів. Остання версія цього стандарту (1.4b) дозволяє відновлювати оригінальні документи та документи перекладу з файлу TMX.
Termbase Exchange format — Обмін базами термінів. Це формат прийнятий LISA (Асоціація стандартів індустрії локалізації), котрий зараз переглядається та перевидається згідно з ISO 30042. Він дозволяє проводити обмін термінологічними даними, у тому числі детальною лексичною інформацією. Основна база TBX визначається стандартами ISO: ISO 12620, ISO 12200 та ISO 16642. ISO 12620 забезпечує реєстр чітко визначених «категорій даних» зі стандартизованими іменами, що функціонують як типи елементів даних або зумовлені значення. ISO 12200 (відомий також як MARTIF) забезпечує основу для стержневої структури TBX. ISO 16642 (відомий також як Terminological Markup Framework — Структура термінологічної розмітки) включає структурну метамодель для термінологічної мови розмітки (Terminology Markup Languages) у цілому.
Universal Terminology eXchange — Універсальний обмін термінологією. Стандарт спеціально створений для користувацьких словників в машинному перекладі, але може використовуватись для загальних глосаріїв, доступних для людини. Ціллю UTX є прискорити обмін словниками, та їх повторне використання своєю надзвичайно простою та практичною специфікацією.
SRX створений для посилення формату TMX та задля більшої ефективності обміну пам'яттю перекладів поміж програмами. Можливість вказувати правила сегментації, що використовувались у попередньому перекладі, підвищує ефективність формату.
Означає Globalization, Internationalization, Localization, and Translation (Глобалізація, Інтернаціоналізація, Локалізація, Переклад). Стандарт GILT Metrics складається з трьох частин: GMX-V для показників обсягу, GMX-C для показників складності, а також GMX-Q для показників якості. Запропонований стандарт GILT Metrics має завдання квантифікувати обсяг робіт та вимоги якості для виконання будь-якого завдання GILT.
Відкритий стандарт, сумісний із XML, що використовується для обміну термінологічними та лексичними даними. Хоч спочатку він був запропонований як засіб для обміну лексичними даними між приватними словниками машинного перекладу, поступово цей формат перетворився на загальніший стандарт для термінологічного обміну.
XML Localisation Interchange File Format — XML формат для взаємообміну при локалізації, створений як єдиний формат файлів для взаємообміну, що може розпізнаватися будь-яким провайдером локалізації. XLIFF — це найкращий у сучасній індустрії перекладів засіб для обміну інформацією у форматі XML.
Translation Web Services Веб послуги для перекладу, визначає необхідні виклики для користування вебсервісами при відправленні та отриманні файлів та повідомлень, маючих відношення до проектів локалізації. Замислювався як детальна система автоматизації більшої частину процесу локалізації за допомогою сервісів Інтернету.
Цей підхід до пам'яті перекладів базується на концепції текстової пам'яті, що суміщає авторську пам'ять та пам'ять перекладів. Формат xml:tm був переданий Lisa OSCAR компанією XML-INTL.
Gettext Portable Object format. Хоча, PO не часто розглядається як формат пам'яті перекладів, файли PO — це двомовні файли, що використовуються при запам'ятовуванні перекладів аналогічно пам'яті перекладів. Зазвичай, система пам'яті перекладів PO, складатиметься з різних файлів в дереві каталогів. Звичайними інструментами для роботи з файлами PO є GNU Gettext Tools та Translate Toolkit. Також існують програми редагування PO файлів, та звичайні текстові редактори, які теж можуть використовуватись для їх редагування.
- ↑ Див. стор. 26 у Imperial College London Translation Memories Survey 2006 [Архівовано 25 березня 2007 у Wayback Machine.] (документ PDF)
- ↑ В результаті придбання в червні 2005 року компанії Trados британською компанією SDL International у 2006 з'явився єдиний продукт TRADOS SDLX 2006
- ↑ Стандарти Localization Industry Standards Association (LISA).