Закон Гіпса

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Типовий графік, який ілюструє закон Гіпса. По осі x — розмір тексту, по осі y — число різних слів у тексті. Порівняйте значення на двох осях

Закон Гіпса (англ. Heaps' law) — емпірична закономірність у лінгвістиці, що описує розподіл числа різних слів у документі (або наборі документів) як функцію від його довжини. Описується формулою

,

де VR — число різних слів у тексті розміру n. K і β — вільні параметри, визначаються емпірично. Для англійського корпусу текстів, K зазвичай лежить між 10 і 100, а β між 0.4 і 0.6.

Закон часто приписують Гарольду Стенлі Гіпсу (Harold Stanley Heaps), але вперше його відкрив Густав Гердан (Gustav Herdan).[1] З деяким наближенням закон Гердана — Гіпса асимптотично еквівалентний закону Ципфа про частоту окремих слів у тексті.[2]

Див. також

[ред. | ред. код]

Примітки

[ред. | ред. код]
  1. Egghe, (2007): «Herdan's law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon».
  2. Kornai, (1999); Baeaza-Yates та Navarro, (2000); van Leijenhorst та van der Weide, (2003).

Посилання

[ред. | ред. код]
  • Baeza-Yates, Ricardo; Navarro, Gonzalo, Block addressing indices for approximate text retrieval, Journal of the American Society for Information Science, 51 (1): 69—82, doi:10.1002/(sici)1097-4571(2000)51:1<69::aid-asi10>3.0.co;2-c.
  • Egghe, L. (2007), Untangling Herdan's law and Heaps' law: Mathematical and informetric arguments, Journal of the American Society for Information Science and Technology, 58 (5): 702, doi:10.1002/asi.20524.
  • Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206—208).
  • Herdan, Gustav (1960), Type-token mathematics, The Hague: Mouton.
  • Kornai, Andras (1999), Zipf's law outside the middle range, у Rogers, James (ред.), Proceedings of the Sixth Meeting on Mathematics of Language, University of Central Florida, с. 347—356.
  • Milička, Jiří (2009), Type-token & Hapax-token Relation: A Combinatorial Model, Glottotheory. International Journal of Theoretical Linguistics, 1 (2): 99—110, doi:10.1515/glot-2009-0009.
  • van Leijenhorst, D. C; van der Weide, Th. P. (2005), A formal derivation of Heaps' Law, Information Sciences, 170 (2–4): 263—272, doi:10.1016/j.ins.2004.03.006.