Чеський національний корпус
Чеський національний корпус (ЧНК) (чес. Český národní korpus) — великий електронний корпус писемної та розмовної чеської мови, розроблений Інститутом Чеського національного корпусу (ICNC) на факультеті мистецтв Карлового університету в Празі[1]. Корпус використовується для викладання та дослідження з корпусної лінгвістики. Його мета – систематично відображати чеську та інші мови в порівнянні з нею.
Ідея щодо створення ЧНК була вперше висунута у 1991 році та підтримана представниками Факультету філософії Карлового університету, Факультету математики та фізики Карлового університету, Університету Масарика, Університету Палацького, Інституту чеської мови Академії наук Чехії.
Заснований був в 1994 році.
Передумовами для створення корпусу слугували такі фактори, як відхилення сучасної чеської мови від загальноприйнятих норм (створення корпусу допомогло б позбавити чеську лексикографію від подібних відхилень) і стабілізація політичної ситуації (ширша співпраця з міжнародною науковою спільнотою допомогла привнесенню комп′ютерної лексикографії та корпусної лінгвістики, як окремих гілок, у чеську лінгвістику).
Станом на 10 вересня 2017 року над Чеським національним корпусом працюють:
- Директор Міхал Кршен
- Заступник директора Варцлав Цврчек
- Секретар Луціє Новакова
- Професор Франтішек Чермак
- Професор і голова секції діахронічного корпусу Карел Кучера
- Голова лінгвістичної секції Варцлав Цврчек
- Голова обчислювальної секції Павел Вондржичка
- Голова секції розмовного корпусу Марія Копршивова
- Голова секції лінгвістичного аналізу й анотацій Томаш Елінек
- Голова секції паралельного корпусу Александр Розен
- Та інші[2]
Корпус письмових текстів | ~2705 млн слововживань |
Корпус усних текстів | ~4 млн слововживань |
Діахронічний корпус | ~1,95 млн слововживань |
Корпус іноземних мов | ~6248 млн слововживань |
Паралельний корпус | ~92 млн слововживань |
Загальний об’єм корпусу складає понад 9 млрд слововживань, з яких лематизовано і розмічено тегами ~8894,5 млн.
Чеський національний корпус систематично зосереджується на таких сферах:
- Синхронні письмові корпуси: корпуси серії SYN відображають чеську мову 20-го та 21-го століття (особливо останніх двадцяти років) і становлять ядро проєкту. Тексти збагачуються метаданими, лематизацією та морфологічними тегами.
- Сучасна спонтанна розмовна чеська: корпуси серії ORAL містять сучасну, спонтанну розмовну мову, яка використовується в неформальних ситуаціях по всій Чеській Республіці (на відміну від підготовлених, переданих або написаних текстів, які зазвичай зустрічаються в розмовних корпусах).
- Багатомовний паралельний корпус: InterCorp – це великий корпус чеських текстів, узгоджених на рівні речення з перекладами на або з більш ніж 30 мов. Основу корпусу складають вирівняні вручну та вичитані художні тексти.
- Діахронічний корпус чеської мови: Корпус історичної чеської мови DIAKORP включає тексти з 14 століття. Сьогодні DIAKORP зосереджується на 19 столітті. Довгострокова мета DIAKORP полягає в тому, щоб створити корпус, що охоплює період з 1850 року по теперішній час, і поєднати дані з серією SYN.
- Спеціалізовані лінгвістичні дані: ICNC також бере участь у зборі мовних даних для конкретних дослідницьких цілей, включаючи DIALEKT (діалектне мовлення), CzeSL (тексти, написані людьми, які не є рідними, хто вивчає чеську), DEAF (чеські тексти, написані глухими), або Ієронім (перекладна і неперекладна чеська).
Основними джерелами текстів ЧНК є:
- Тексти, отримані в електронному вигляді від видавництв й індивідуальних власників
- Текстів, взятих із газет (складають абсолютну більшість текстів корпусу – близько 60%)
- Тексти словників (наприклад, корпус FSC2000 посилається на Частотний словник чеської мови)
Окремий корпус ЧНК присвячений антиутопії Джорджа Орвелла «1984», порівняно невеликий розмір якої (80 000 слів і 20 000 пунктуаційних знаків) дозволив вручну розмітити текст майже бездоганно.
На сайті існує два види доступу: публічний і повний.
Неавторизований користувач може шукати тільки в корпусі SYN2010, об′єм якого складає всього 100 млн слів, що становить одну дев′яносту всієї бази Чеського національного корпусу. SYN2010 складається[3] на 40% із художньої літератури, на 27% із технічної літератури і на 33% із журналістських робіт. Більшість текстів корпусу були створені з 2005 по 2009 рік.
Слова видаються в форматі concordance lines, коли кожна стрічка являє собою частину тексту, в якому є заданий вислів. Для публічного доступу можливі використання базових регулярних висловлювань, також можливий пошук за ключовими словам.
Зареєстрований користувач має повний доступ до бази даних Інституту ЧНК, а також до спеціального менеджера корпусу Bonito.
З корпусом співпрацюють такі наукові інституції:[4]
- Інститут формальної і прикладної лінгвістики і Математико-фізичний факультет Карлового університету
- Кафедра комп′ютерних наук факультету електротехніки Чеського технічного університету
- Факультет інформатики Університету Масарика
- Педагогічний факультет Університету Масарика
- Департамент чеського і слов’янського мовознавства, факультет філології Університету Масарика
- Муніципальні бібліотеки в Празі
- Сілезький університет
- Університет Градець-Кралове
- Університет Палацького
- Інститут чеської мови Академії наук Чехії
Також корпус співпрацює з факультетом слов’янських мов Браунського університету (США), факультетом філософії і літератури Гранадського університету (Іспанія), Інститутом німецької мови в Мангаймі (Німеччина), Амстердамським університетом (Нідерланди) та іншими великими науковими центрами.
- ↑ Charles University - Czech Universities. www.czechuniversities.com. Процитовано 3 травня 2022.
- ↑ People | Institute of the Czech National Corpus. ucnk.ff.cuni.cz. Процитовано 4 травня 2022.
- ↑ Public Access. web.archive.org. 29 жовтня 2013. Архів оригіналу за 29 жовтня 2013. Процитовано 4 травня 2022. [Архівовано 2013-10-29 у Wayback Machine.]
- ↑ Cooperation | Institute of the Czech National Corpus. ucnk.ff.cuni.cz. Процитовано 4 травня 2022.