Перейти до вмісту

Індекс дисперсії

Матеріал з Вікіпедії — вільної енциклопедії.

У теорії ймовірностей і статистиці, індекс дисперсії, [1]  коефіцієнт дисперсії, відносна дисперсія або дисперсія-до-середнього відношення, як коефіцієнт варіації, нормована міра розсіяння: це міра використовується для кількісного визначення, чи є набір спостережуваних явищ згрупованим або розосередженим в порівнянні зі стандартною статистичною моделлю.

Він визначається як відношення дисперсії σ ²до середнього значення μ ,

Він також відомий як фактор Фано, хоча цей термін іноді зарезервований для віконних даних (середнє значення і дисперсія обчислюються над субпопуляцією), де індекс дисперсії використовується в окремому випадку, коли вікно нескінченно. Відносна дисперсія часто обчислюється через різні проміжки часу або по малих областях в просторі, які можна назвати «вікна», а отриману статистику називають фактором Фано.

Воно визначається тільки тоді коли середнє значення μ відмінне від нуля, і, як правило, використовується тільки для позитивних статистичних даних, таких як дані підрахунку або часу між подіями, або де передбачається, що вихідний розподіл буде експоненціальним розподілом або розподілом Пуассона.

Термінологія

[ред. | ред. код]

У цьому контексті, спостерігається набір даних що може складатися з часу виникнення зумовлених подій, таких як землетруси в даному регіоні з даної величини, або з місць в географічному просторі рослин даного виду. Детальна інформація про такі події спочатку перетворюються в епізодах числа подій або явищ у кожній з безлічі рівного розміру за часом або просторових областей.

Вище зазначене визначає індекс дисперсії для підрахунку.[1] Інше визначення застосовується для індексу дисперсії для інтервалів,[2] де величини — оброблені довжини тимчасових інтервалів між подіями. Загальним використанням є те, що «індекс дисперсії» означає індекс дисперсії для підрахунку.

Інтерпретація

[ред. | ред. код]

Деякі дистрибутиви, в першу чергу розподіл Пуассона, мають однакову дисперсію і середнє значення, тоді VMR = 1. геометричний розподіл і від'ємний біноміальний розподіл мають VMR> 1, в той час як біноміальний розподіл має VMR <1, а постійна випадкова величина має VMR = 0. З цього виходить наступна таблиця:

Розподіл VMR
Випадкова постійна величина VMR = 0 not dispersed
Біноміальний розподіл 0 < VMR < 1 under-dispersed
Розподіл Пуассона VMR = 1
Від'ємний біноміальний розподіл VMR > 1 over-dispersed

Це можна вважати аналогом класифікації конічних перетинів ексцентриситетом; для деталей дивись кумулянти конкретних імовірнісних розподілів.

Коли коефіцієнт дисперсії менше 1, то набір даних є «менше дисперсії»: ця умова може ставитися до моделей виникнення, які є більш регулярними, ніж випадковістю, пов'язаних з процесом Пуассона. Наприклад, якщо точки рівномірно поширені в просторі, періодичні події будуть менше дисперсії.

Якщо показник дисперсії більше 1, набір даних, називається надмірно розосередженим: це може відповідати існуванню кластерів входжень. Концентровані дані надмірно розосереджені.

З точки зору інтервальних відліків, надмірній дисперсії відповідає більше інтервалів з низьким числом і більше інтервалів з високим числом, порівняно з розподілом Пуассона.

Актуальність індексу дисперсії є те, що він має значення одиниці, коли розподіл ймовірностей числа появ в інтервалі є розподілом Пуассона. Таким чином, міра може бути використана для оцінки того, що дані можуть бути змодельовані з використанням процесу Пуассона.

Зразок на основі оцінки індексу дисперсії може бути використаний для побудови формального тестування статистичної гіпотези для адекватності моделей, що слідують розподілу Пуассона.[3][4]

Відносна дисперсія є хорошою мірою ступеня випадковості даного явища. Цей метод також широко використовується в управлінні валютою.

Приклад

[ред. | ред. код]

Для випадково диффундирующих частинок (броунівський рух), розподіл числа частинок усередині даного обсягу є пуассоновским, тобто VMR = 1. Тому, щоб оцінити, чи дана просторова структура (якщо у вас є спосіб виміряти його) обумовлена чисто дифузією або, якщо будь-яка взаємодія між частинками бере участь: ділять простір на ділянки, квадрати або одиниці вибірки (ОВ), порахувати кількість особин в кожному патчі або ОВ, і вичислити відносну дисперсію. Дисперсії значно вище ніж 1 позначають кластерний розподіл, де випадковості не достатньо, щоб задушити потенціал тяжіння між частинками.

Статистика

[ред. | ред. код]

Перший хто обговорив використання тесту для виявлення відхилень від Пуассона або біноміального розподілу, здається, був Лексіс в 1877. Одне з випробувань яке він розвивав було співвідношення Лексіса.

Цей індекс був вперше викорастаний в ботаниці Клепхема в 1936 році.

Якщо змінні будуть розподілені за Пуассоном, то індекс дисперсії поширюється у вигляді χ2 статистики з n — 1 ступенями при великих n та μ > 3.[5] Для багатьох цікавих  випадків це наближення є точним і Фішер в 1950 році отримав точний тест для нього..

Хоель вивчив перші чотири моменти його розподілу .[6] Він виявив, що наближення до χ2 статистики має місце, якщо μ > 5.

Див. також

[ред. | ред. код]

Подібні відношення

[ред. | ред. код]

Джерела

[ред. | ред. код]
  • Карташов М. В. Імовірність, процеси, статистика. — Київ : ВПЦ Київський університет, 2007. — 504 с.
  • Гнеденко Б. В. Курс теории вероятностей. — 6-е изд. — Москва : Наука, 1988. — 446 с.(рос.)
  • Гихман И. И., Скороход А. В., Ядренко М. В. Теория вероятностей и математическая статистика. — Київ : Вища школа, 1988. — 436 с.(рос.)
  • Cox, D. R.; Lewis, P. A. W. (1966). The Statistical Analysis of Series of Events. London: Methuen.
  • Upton, G.; Cook, I. (2006). Oxford Dictionary of Statistics (вид. 2nd). Oxford University Press. ISBN 978-0-19-954145-4.