Перейти до вмісту

Лематизація

Матеріал з Вікіпедії — вільної енциклопедії.

Лематизація (або лематизація) у лінгвістиці — це процес групування відмінюваних форм слова так, щоб їх можна було проаналізувати як єдиний елемент, ідентифікований за лемою слова або словниковою формою.[1]

У комп'ютерній лінгвістиці лематизація — це алгоритмічний процес визначення леми слова на основі його передбачуваного значення. На відміну від стемінгу, лематизація залежить від правильного визначення передбачуваної частини мови та значення слова в реченні, а також у ширшому контексті, що оточує це речення, наприклад, у сусідніх реченнях або навіть у цілому документі. Як результат, розробка ефективних алгоритмів лематизації є відкритою областю дослідження.[2][3][4]

У багатьох мовах слова виступають у кількох відмінюваних формах. Наприклад, в англійській мові дієслово «to walk» може виглядати як «walk», «walked», «walks» або «walking». Основна форма «ходити», яку можна знайти в словнику, називається лемою для цього слова. З'єднання форми основи з частиною мови часто називають лексемою слова.

Лематизація тісно пов'язана зі стемінгом . Різниця полягає в тому, що стемер оперує одним словом без знання контексту, і тому не може розрізняти слова, які мають різні значення залежно від частини мови. Однак стемери, як правило, легше реалізувати та працювати швидше. Знижена «точність» може не мати значення для деяких програм. Насправді, коли використовується в системах пошуку інформації, стемінг покращує точність запам'ятовування запиту або справжню позитивну швидкість порівняно з лематизацією. Тим не менш, стемінг зменшує точність або частку позитивно позначених екземплярів, які насправді є позитивними, для таких систем.[5]

Алгоритми

[ред. | ред. код]

Тривіальний спосіб зробити лематизацію — простий пошук у словнику. Це добре працює для прямих відмінюваних форм, але система на основі правил буде потрібна для інших випадків, наприклад у мовах з довгими складними словами . Такі правила можна створювати вручну або вивчати автоматично з анотованого корпусу .

Див. також

[ред. | ред. код]
  • Канонізація

Примітки

[ред. | ред. код]
  1. Collins English Dictionary, entry for «lemmatise»
  2. WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages (PDF). Архів оригіналу (PDF) за 1 листопада 2016. Процитовано 17 квітня 2023.
  3. . Lisbon. {{cite conference}}: Пропущений або порожній |title= (довідка)
  4. Bergmanis, Toms; Goldwater, Sharon. Context Sensitive Neural Lemmatization with Lematus (PDF). Архів оригіналу (PDF) за 31 грудня 2019. Процитовано 17 квітня 2023.
  5. Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press.