Користувач:Михалевич Поліна/Лематизація

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Лематизація ( або лематизація ) у лінгвістиці — це процес групування відмінюваних форм слова так, щоб їх можна було проаналізувати як єдиний елемент, ідентифікований за лемою слова або словниковою формою. [1]

У комп’ютерній лінгвістиці лематизація — це один з методів морфологічного аналізу, метою якого є приведення словоформи до її основної словникової форми (леми). У результаті лематизації від словоформи відокремлюються флективні закінчення та утворюється основна форма слова (наприклад, для іменників – це називний відмінок, однина; для прикметників – називний відмінок, однина, чоловічій рід; для дієслів – інфінітивна форма).

У багатьох мовах слова виступають у кількох відмінюваних формах. Наприклад, в англійській мові дієслово «to walk» може виглядати як «walk», «walked», «walks» або «walking». Основна форма «ходити», яку можна знайти в словнику, називається лемою для цього слова. З’єднання форми основи з частиною мови часто називають лексемою слова.

Лематизація тісно пов'язана зі стемінгом . Різниця полягає в тому, що стемер оперує одним словом без знання контексту, і тому не може розрізняти слова, які мають різні значення залежно від частини мови. Однак стемери, як правило, легше реалізувати та працювати швидше. Знижена «точність» може не мати значення для деяких програм. Насправді, коли використовується в системах пошуку інформації, стемінг покращує точність запам’ятовування запиту або справжню позитивну швидкість порівняно з лематизацією. Тим не менш, стемінг зменшує точність або частку позитивно позначених екземплярів, які насправді є позитивними, для таких систем. [2]

Алгоритми

[ред. | ред. код]

Тривіальний спосіб зробити лематизацію - простий пошук у словнику. Це добре працює для прямих відмінюваних форм, але система на основі правил буде потрібна для інших випадків, наприклад у мовах з довгими складними словами . Такі правила можна створювати вручну або вивчати автоматично з анотованого корпусу .

Використання в біомедицині

[ред. | ред. код]

Морфологічний аналіз опублікованої біомедичної літератури може дати корисні результати. Морфологічна обробка біомедичного тексту може бути більш ефективною за допомогою спеціалізованої програми лематизації для біомедицини та може підвищити точність практичних завдань вилучення інформації . [3]

Робота пошукових систем

[ред. | ред. код]

Лематизація слів потрібна для прискорення індексування та обробки запитів в пошукових системах. Таким чином можна поліпшити позиції сайту в видачі. Є спеціальний алгоритм, завдяки якому пошукачі зберігають кожен інтернет-ресурс у базі даних. Пошукові запити виконують перетворення аналогічним чином.

Система пошуку здійснює морфологічний розбір будь-якого запиту. Для цього ключова фраза перетворюється в первинну форму. Пошуковик видасть однакові сторінки незалежно від того, що вказав користувач. Це дозволяє читачам потрапляти на потрібні веб-ресурси, в яких міститься ключовий запит.

Дивись також

[ред. | ред. код]
  • Канонізація

Список літератури

[ред. | ред. код]
  1. Collins English Dictionary, entry for "lemmatise"
  2. Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press.
  3. Liu, H.; Christiansen, T.; Baumgartner, W. A.; Verspoor, K. (2012). BioLemmatizer: A lemmatization tool for morphological processing of biomedical text. Journal of Biomedical Semantics. 3: 3. doi:10.1186/2041-1480-3-3. PMC 3359276. PMID 22464129.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)

[1]

[[Категорія:Комп'ютерна лінгвістика]]

  1. Лематизація (PDF).