Користувач:Світлана Потіха/Чернетка

Національний корпус польської мови
Національний корпус польської мови
Narodowy Korpus Języka Polskiego
Посилання	nkjp.pl
Тип	наукова література
Мови	польська і англійська
Стан	активний

Національний корпус польської мови

Національний корпус польської мови (часто скорочений до NKJP ) - корпус польської мови , започаткований у 2012 році. Розроблено Інститутом комп’ютерних наук Польської академії наук , Інститутом польської мови Польської академії наук , польськими науковими видавництвами PWN та кафедрою обчислювальної та корпусної лінгвістики Лодзинського університету. Проект виконано на замовлення Міністерства науки і вищої освіти .

Про проєкт NKJP

Лінгвістичний корпус – це сукупність текстів, у яких можна знайти типове використання окремого слова чи фрази, а також їх значення та граматичну функцію. Без доступу до мовного корпусу неможливо займатися лінгвістичними дослідженнями, писати словники, граматики та підручники з мови, створювати чутливі до польської мови пошукові системи, машини машинного перекладу та програмне забезпечення передових мовних технологій.

Мовні корпуси є важливим інструментом для лінгвістів, але вони також корисні для інженерів-програмістів, дослідників літератури та культури, істориків, бібліотекарів та інших спеціалістів з мистецтва та інформатики.

Автори

Національний корпус польської мови є спільною ініціативою чотирьох установ: Інституту комп'ютерних наук, Польської академії наук (координатор), Інституту польської мови, Польської академії наук, польських наукових видавництв PWN та Департаменту обчислень і корпусу. Він виконаний як науково-дослідний проект Міністерства науки та вищої освіти .

Ці чотири установи розпочали співпрацю для створення довідкового корпусу польської мови, що містить понад півтори сотні мільйонів слів. Корпус доступний для пошуку за допомогою передових інструментів, які аналізують польську флексію та структуру польського речення.

Зміст

Список джерел для корпусів містить класичну літературу, щоденні газети, спеціалізовані періодичні видання та журнали, стенограми розмов, різноманітні короткочасні та інтернет-тексти. Щоб корпус був надійним, він повинен не тільки містити велику кількість слів, а й різноманітність текстів за темою та жанром. Розмови мають представляти мовців як чоловіків, так і жінок у різних вікових групах, які приїжджають з різних регіонів Польщі.^[1]^[2]

ось це втулити кудись як доповнення

Вже існують національні корпуси, складені англійцями , німцями , чехами та росіянами . Полякам також потрібен великий, добре збалансований мовний корпус – мовне джерело, доступне в Інтернеті.(це в кінець статті напевно)))

Про пошукову систему

Корпусний пошуковий механізм PELCRA для даних NKJP створено в рамках проекту Національний корпус польської мови . Це дозволяє шукати збалансовану версію корпусу зібраних як частина проект.Пошукова система PELCRA проста у використанні і швидко повертає навіть дуже великі набори результатів, які також можна завантажити у вигляді електронних таблиць. Спеціальний синтаксис запиту також дозволяє використовувати морфологічні та орфографічні розширення, шукати в одному запиті лексічні варіанти та гнучкі фразеологічні сполуки.

Пошукова система NKJP PELCRA також пропонує функцію візуалізації реєстру та генерування часових рядів для слів, фраз та ідіом.

Застосування корпусу

Національний корпус польської мови є матеріальною базою для нового Великого словника польської мови, створеного в рамках науково-дослідного проекту в Інституті польської мови Польської академії наук. Частина текстів, зібраних у рамках NKJP, на постійній основі використовуються в проекті Польсько-Російського Корпусу, що входить до складу факультету польських студій Варшавського університету у співпраці з Педагогічним університетом в Уфі та Національним корпусом російської мови. NKJP також використовується в багатьох інших проектах, що здійснюються в Інституті комп’ютерних наук Польської академії наук і в підрозділах, що співпрацюють з IPI PAN, включаючи Вроцлавський технологічний університет (наприклад, у створенні наступних версій Słowosetcia^[3]) та Університет науки і техніки AGH (включаючи лінгвістичний семінар для аналізу та розпізнавання мовлення та систему діалогу між людиною і комп’ютером).

2012 рік

На основі даних NKJP підготовлено стаття опубліковано 28 травня 2012 року на новинному порталі TokFM. Вроцлавський університет науки і техніки використовував доступ до програмування NKJP PELCRA для створення та тестування систем розшифровки слів. Для добору слів 2011 року використано програму «Слова дня». Радіопередача в «Trójki Club».^[4]

2011 рік

Розмовні дані, зібрані в рамках NKJP, були доступні на платформі META-SHARE^[5] за відкритою ліцензією. Університет Редінга використовував пошукову систему NKJP PELCRA для антропологічних досліджень. Університет Утрехта отримав ліцензію на використання підкорпусу розмовної мови NKJP для проведення досліджень з моделювання мовлення.

2009 рік

Барселонський університет використав близько 500 тис. корпусів. слова для мого власного дослідження.

Публікації


Рік	Автор	Назва роботи	Примітки
2008	Адам Пшепьорковський	Linguistic resources and tools at ICS PAS: Towards interoperability	ст. 491-499
2009	Рафал Млодзкі та Адам Пшепьорковський Адам Пшепьорковський	The WSD Development EnvironmentA comparison of two morphosyntactic tagsets of Polish.	ст. 185-189 ст. 138-144
2010	Катажина Гловинська, Адам Пшепьорковський	The Design of Syntactic Annotation Levels in the National Corpus of PolishTowards the Annotation of Named Entities in the National Corpus of Polish
2011	Пьотр Пензік Анна Анджейчук	Providing corpus feedback for translators with the PELCRA search engine for NKJPDwoje urodzin to brzmi dziwnie. Norma językowa dotycząca połączeń rzeczowników plurale tantum z liczebnikami a jej realizacja w tekstach.	ст. 135-144 ст. 273-283
2012	Лукаш Дегурський	Towards the lemmatisation of Polish nominal syntactic groups using a shallow grammar.

Джерела

↑ Książki w korpusie NKJP. www.nkjp.pl. Процитовано 16 квітня 2022.
↑ Prasa w korpusie NKJP. www.nkjp.pl. Процитовано 16 квітня 2022.
↑ Słowosieć. plwordnet.pwr.wroc.pl. Процитовано 16 квітня 2022.
↑ Program Trzeci Polskiego Radia. trojka.polskieradio.pl (пол.). Процитовано 16 квітня 2022.
↑ META-SHARE — META Multilingual Europe Technology Alliance. www.meta-net.eu. Процитовано 16 квітня 2022.

[1] Książki w korpusie NKJP. www.nkjp.pl. Процитовано 16 квітня 2022.

[2] Prasa w korpusie NKJP. www.nkjp.pl. Процитовано 16 квітня 2022.

[3] Słowosieć. plwordnet.pwr.wroc.pl. Процитовано 16 квітня 2022.

[4] Program Trzeci Polskiego Radia. trojka.polskieradio.pl (пол.). Процитовано 16 квітня 2022.

[5] META-SHARE — META Multilingual Europe Technology Alliance. www.meta-net.eu. Процитовано 16 квітня 2022.

[1]

[2]

[3]

[4]

[5]