Чеський національний корпус

Чеський національний корпус (ЧНК) (чес. Český národní korpus) — великий електронний корпус писемної та розмовної чеської мови, розроблений Інститутом Чеського національного корпусу (ICNC) на факультеті мистецтв Карлового університету в Празі^[1]. Корпус використовується для викладання та дослідження з корпусної лінгвістики. Його мета – систематично відображати чеську та інші мови в порівнянні з нею.

Історія створення

Ідея щодо створення ЧНК була вперше висунута у 1991 році та підтримана представниками Факультету філософії Карлового університету, Факультету математики та фізики Карлового університету, Університету Масарика, Університету Палацького, Інституту чеської мови Академії наук Чехії.

Заснований був в 1994 році.

Передумовами для створення корпусу слугували такі фактори, як відхилення сучасної чеської мови від загальноприйнятих норм (створення корпусу допомогло б позбавити чеську лексикографію від подібних відхилень) і стабілізація політичної ситуації (ширша співпраця з міжнародною науковою спільнотою допомогла привнесенню комп′ютерної лексикографії та корпусної лінгвістики, як окремих гілок, у чеську лінгвістику).

Укладачі

Станом на 10 вересня 2017 року над Чеським національним корпусом працюють:

Директор Міхал Кршен
Заступник директора Варцлав Цврчек
Секретар Луціє Новакова
Професор Франтішек Чермак
Професор і голова секції діахронічного корпусу Карел Кучера
Голова лінгвістичної секції Варцлав Цврчек
Голова обчислювальної секції Павел Вондржичка
Голова секції розмовного корпусу Марія Копршивова
Голова секції лінгвістичного аналізу й анотацій Томаш Елінек
Голова секції паралельного корпусу Александр Розен
Та інші^[2]

Склад та об'єм корпусу


Корпус письмових текстів	~2705 млн слововживань
Корпус усних текстів	~4 млн слововживань
Діахронічний корпус	~1,95 млн слововживань
Корпус іноземних мов	~6248 млн слововживань
Паралельний корпус	~92 млн слововживань

Загальний об’єм корпусу складає понад 9 млрд слововживань, з яких лематизовано і розмічено тегами ~8894,5 млн.

Сфери уваги

Чеський національний корпус систематично зосереджується на таких сферах:

Синхронні письмові корпуси: корпуси серії SYN відображають чеську мову 20-го та 21-го століття (особливо останніх двадцяти років) і становлять ядро проєкту. Тексти збагачуються метаданими, лематизацією та морфологічними тегами.
Сучасна спонтанна розмовна чеська: корпуси серії ORAL містять сучасну, спонтанну розмовну мову, яка використовується в неформальних ситуаціях по всій Чехії (на відміну від підготовлених, переданих або написаних текстів, які зазвичай зустрічаються в розмовних корпусах).
Багатомовний паралельний корпус: InterCorp – це великий корпус чеських текстів, узгоджених на рівні речення з перекладами на або з більш ніж 30 мов. Основу корпусу складають вирівняні вручну та вичитані художні тексти.
Діахронічний корпус чеської мови: Корпус історичної чеської мови DIAKORP включає тексти з 14 століття. Сьогодні DIAKORP зосереджується на 19 столітті. Довгострокова мета DIAKORP полягає в тому, щоб створити корпус, що охоплює період з 1850 року по теперішній час, і поєднати дані з серією SYN.
Спеціалізовані лінгвістичні дані: ICNC також бере участь у зборі мовних даних для конкретних дослідницьких цілей, включаючи DIALEKT (діалектне мовлення), CzeSL (тексти, написані людьми, які не є рідними, хто вивчає чеську), DEAF (чеські тексти, написані глухими), або Ієронім (перекладна і неперекладна чеська).

Джерела текстів

Основними джерелами текстів ЧНК є:

Тексти, отримані в електронному вигляді від видавництв й індивідуальних власників
Текстів, взятих із газет (складають абсолютну більшість текстів корпусу – близько 60%)
Тексти словників (наприклад, корпус FSC2000 посилається на Частотний словник чеської мови)

Окремий корпус ЧНК присвячений антиутопії Джорджа Орвелла «1984», порівняно невеликий розмір якої (80 000 слів і 20 000 пунктуаційних знаків) дозволив вручну розмітити текст майже бездоганно.

Доступ

На сайті існує два види доступу: публічний і повний.

Неавторизований користувач може шукати тільки в корпусі SYN2010, об′єм якого складає всього 100 млн слів, що становить одну дев′яносту всієї бази Чеського національного корпусу. SYN2010 складається^[3] на 40% із художньої літератури, на 27% із технічної літератури і на 33% із журналістських робіт. Більшість текстів корпусу були створені з 2005 по 2009 рік.

Слова видаються в форматі concordance lines, коли кожна стрічка являє собою частину тексту, в якому є заданий вислів. Для публічного доступу можливі використання базових регулярних висловлювань, також можливий пошук за ключовими словам.

Зареєстрований користувач має повний доступ до бази даних Інституту ЧНК, а також до спеціального менеджера корпусу Bonito.

Співпраця

З корпусом співпрацюють такі наукові інституції:^[4]

Інститут формальної і прикладної лінгвістики і Математико-фізичний факультет Карлового університету
Кафедра комп′ютерних наук факультету електротехніки Чеського технічного університету
Факультет інформатики Університету Масарика
Педагогічний факультет Університету Масарика
Департамент чеського і слов’янського мовознавства, факультет філології Університету Масарика
Муніципальні бібліотеки в Празі
Сілезький університет
Університет Градець-Кралове
Університет Палацького
Інститут чеської мови Академії наук Чехії

Також корпус співпрацює з факультетом слов’янських мов Браунського університету (США), факультетом філософії і літератури Гранадського університету (Іспанія), Інститутом німецької мови в Мангаймі (Німеччина), Амстердамським університетом (Нідерланди) та іншими великими науковими центрами.

Примітки

↑ Charles University - Czech Universities. www.czechuniversities.com. Процитовано 3 травня 2022.
↑ People | Institute of the Czech National Corpus. ucnk.ff.cuni.cz. Процитовано 4 травня 2022.
↑ Public Access. web.archive.org. 29 жовтня 2013. Архів оригіналу за 29 жовтня 2013. Процитовано 4 травня 2022. [Архівовано 2013-10-29 у Wayback Machine.]
↑ Cooperation | Institute of the Czech National Corpus. ucnk.ff.cuni.cz. Процитовано 4 травня 2022.

[1] Charles University - Czech Universities. www.czechuniversities.com. Процитовано 3 травня 2022.

[2] People | Institute of the Czech National Corpus. ucnk.ff.cuni.cz. Процитовано 4 травня 2022.

[3] Public Access. web.archive.org. 29 жовтня 2013. Архів оригіналу за 29 жовтня 2013. Процитовано 4 травня 2022. [Архівовано 2013-10-29 у Wayback Machine.]

[4] Cooperation | Institute of the Czech National Corpus. ucnk.ff.cuni.cz. Процитовано 4 травня 2022.

[1]

[2]

[3]

[4]