Користувач:Світлана Потіха/Чернетка
Національний корпус польської мови (часто скорочений до NKJP ) - корпус польської мови , започаткований у 2012 році. Розроблено Інститутом комп’ютерних наук Польської академії наук , Інститутом польської мови Польської академії наук , польськими науковими видавництвами PWN та кафедрою обчислювальної та корпусної лінгвістики Лодзинського університету. Проект виконано на замовлення Міністерства науки і вищої освіти .
Національний корпус польської мови | |
---|---|
Narodowy Korpus Języka Polskiego | |
Посилання | nkjp.pl |
Тип | наукова література |
Мови | польська і англійська |
Стан | активний |
Лінгвістичний корпус – це сукупність текстів, у яких можна знайти типове використання окремого слова чи фрази, а також їх значення та граматичну функцію. Без доступу до мовного корпусу неможливо займатися лінгвістичними дослідженнями, писати словники, граматики та підручники з мови, створювати чутливі до польської мови пошукові системи, машини машинного перекладу та програмне забезпечення передових мовних технологій.
Мовні корпуси є важливим інструментом для лінгвістів, але вони також корисні для інженерів-програмістів, дослідників літератури та культури, істориків, бібліотекарів та інших спеціалістів з мистецтва та інформатики.
Національний корпус польської мови є спільною ініціативою чотирьох установ: Інституту комп'ютерних наук, Польської академії наук (координатор), Інституту польської мови, Польської академії наук, польських наукових видавництв PWN та Департаменту обчислень і корпусу. Він виконаний як науково-дослідний проект Міністерства науки та вищої освіти .
Ці чотири установи розпочали співпрацю для створення довідкового корпусу польської мови, що містить понад півтори сотні мільйонів слів. Корпус доступний для пошуку за допомогою передових інструментів, які аналізують польську флексію та структуру польського речення.
Список джерел для корпусів містить класичну літературу, щоденні газети, спеціалізовані періодичні видання та журнали, стенограми розмов, різноманітні короткочасні та інтернет-тексти. Щоб корпус був надійним, він повинен не тільки містити велику кількість слів, а й різноманітність текстів за темою та жанром. Розмови мають представляти мовців як чоловіків, так і жінок у різних вікових групах, які приїжджають з різних регіонів Польщі.[1][2]
ось це втулити кудись як доповнення
Вже існують національні корпуси, складені англійцями , німцями , чехами та росіянами . Полякам також потрібен великий, добре збалансований мовний корпус – мовне джерело, доступне в Інтернеті.(це в кінець статті напевно)))
Корпусний пошуковий механізм PELCRA для даних NKJP створено в рамках проекту Національний корпус польської мови . Це дозволяє шукати збалансовану версію корпусу зібраних як частина проект.Пошукова система PELCRA проста у використанні і швидко повертає навіть дуже великі набори результатів, які також можна завантажити у вигляді електронних таблиць. Спеціальний синтаксис запиту також дозволяє використовувати морфологічні та орфографічні розширення, шукати в одному запиті лексічні варіанти та гнучкі фразеологічні сполуки.
Пошукова система NKJP PELCRA також пропонує функцію візуалізації реєстру та генерування часових рядів для слів, фраз та ідіом.
Національний корпус польської мови є матеріальною базою для нового Великого словника польської мови, створеного в рамках науково-дослідного проекту в Інституті польської мови Польської академії наук. Частина текстів, зібраних у рамках NKJP, на постійній основі використовуються в проекті Польсько-Російського Корпусу, що входить до складу факультету польських студій Варшавського університету у співпраці з Педагогічним університетом в Уфі та Національним корпусом російської мови. NKJP також використовується в багатьох інших проектах, що здійснюються в Інституті комп’ютерних наук Польської академії наук і в підрозділах, що співпрацюють з IPI PAN, включаючи Вроцлавський технологічний університет (наприклад, у створенні наступних версій Słowosetcia[3]) та Університет науки і техніки AGH (включаючи лінгвістичний семінар для аналізу та розпізнавання мовлення та систему діалогу між людиною і комп’ютером).
На основі даних NKJP підготовлено стаття опубліковано 28 травня 2012 року на новинному порталі TokFM. Вроцлавський університет науки і техніки використовував доступ до програмування NKJP PELCRA для створення та тестування систем розшифровки слів. Для добору слів 2011 року використано програму «Слова дня». Радіопередача в «Trójki Club».[4]
Розмовні дані, зібрані в рамках NKJP, були доступні на платформі META-SHARE[5] за відкритою ліцензією. Університет Редінга використовував пошукову систему NKJP PELCRA для антропологічних досліджень. Університет Утрехта отримав ліцензію на використання підкорпусу розмовної мови NKJP для проведення досліджень з моделювання мовлення.
Барселонський університет використав близько 500 тис. корпусів. слова для мого власного дослідження.
Рік | Автор | Назва роботи | Примітки |
---|---|---|---|
2008 | Адам Пшепьорковський | Linguistic resources and tools at ICS PAS: Towards interoperability | ст. 491-499 |
2009 | Рафал Млодзкі та Адам Пшепьорковський
Адам Пшепьорковський |
The WSD Development EnvironmentA comparison of two morphosyntactic tagsets of Polish. | ст. 185-189
ст. 138-144 |
2010 | Катажина Гловинська, Адам Пшепьорковський | The Design of Syntactic Annotation Levels in the National Corpus of PolishTowards the Annotation of Named Entities in the National Corpus of Polish | |
2011 | Пьотр Пензік
Анна Анджейчук |
Providing corpus feedback for translators with the PELCRA search engine for NKJPDwoje urodzin to brzmi dziwnie. Norma językowa dotycząca połączeń rzeczowników plurale tantum z liczebnikami a jej realizacja w tekstach. | ст. 135-144
ст. 273-283 |
2012 | Лукаш Дегурський | Towards the lemmatisation of Polish nominal syntactic groups using a shallow grammar. |
- ↑ Książki w korpusie NKJP. www.nkjp.pl. Процитовано 16 квітня 2022.
- ↑ Prasa w korpusie NKJP. www.nkjp.pl. Процитовано 16 квітня 2022.
- ↑ Słowosieć. plwordnet.pwr.wroc.pl. Процитовано 16 квітня 2022.
- ↑ Program Trzeci Polskiego Radia. trojka.polskieradio.pl (пол.). Процитовано 16 квітня 2022.
- ↑ META-SHARE — META Multilingual Europe Technology Alliance. www.meta-net.eu. Процитовано 16 квітня 2022.