Закон Ципфа
Закон Ципфа | |
Названо на честь | Джордж Ципф[1] |
---|---|
Досліджується в | теорія ймовірностей |
Першовідкривач або винахідник | Джордж Ципф |
Формула | |
Підтримується Вікіпроєктом | Вікіпедія:Проєкт:Математика |
Закон Ципфа у Вікісховищі |
Зако́н Ци́пфа (Зіпфа) — лінгвостатистичний закон, згідно з яким відношення рангу слова в частотному словнику до частотності слова в мові становить постійну величину (константу).
Інакше кажучи, якщо всі слова мови (або просто достатньо довгого тексту) впорядкувати за спаданням частоти їхнього використання, то частота n-го слова в такому списку виявиться приблизно обернено пропорційною його порядковому номеру n (так званому рангу цього слова)[2]. Наприклад, друге за вживаністю слово трапляється приблизно вдвічі рідше, ніж перше, третє — втричі рідше, ніж перше, і так далі.
Американський дослідник Джордж Ципф дійшов висновку, що існує залежність між числом різних значень одного слова і його відносною частотою вживання. Кількість значення наближається до квадратного кореня від частоти слова: т = f , де т — число значень, а f — відносна частота. Інша закономірність, встановлена Ципфом, має таке формулювання: відношення рангу слова в частотному словнику до частотності слова в мові становить постійну величину (константу) rf = с, де r — ранг слова в частотному словнику, f — частота слова, с — постійна величина. Тісний зв'язок існує також між частотними характеристиками слова в пам'яті та в словнику.
Закон Ципфа може бути застосований до будь-якого тексту, записаного природною або штучною мовою, коду (наприклад, ДНК) або сигналу, при цьому правила викладення інформації можуть лишатись невідомими. Як наслідок, закон дозволяє визначити наявність інформації в повідомленні навіть у випадках, коли саме повідомлення не може бути дешифроване.
В результаті статистичного аналізу Рукопису Войнича, написаного невідомою мовою, було доведено, що цей рукопис містить осмислену інформацію. Аналіз проводився з використанням методу, що лежить в основі закону Ципфа[3].
- Кочерган М. П. Загальне мовознавство: підручник / Михайло Петрович Кочерган. — Київ: Академія, 2003. — С. 398.
- Henri Guiter, Michail V. Arapov (Hrsg.): Studies on Zipf's Law (= Quantitative Linguistics. Bd. 16). Studienverlag Brockmeyer, Bochum 1982, ISBN 3-88339-244-8.
- ↑ Крістал Д. The Cambridge Encyclopedia of Language — Видавництво Кембриджського університету, 1987. — С. 87. — ISBN 978-0-521-42443-1
- ↑ Fagan, Stephen; Gençay, Ramazan (2010), An introduction to textual econometrics, у Ullah, Aman; Giles, David E. A. (ред.), Handbook of Empirical Economics and Finance, CRC Press, с. 133—153, ISBN 9781420070361. P. 139: «For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words.»
- ↑ «Слишком много совпадений» [Архівовано 15 липня 2013 у Wayback Machine.](рос.)