Бета-біноміальний розподіл |
---|
Функція ймовірностей |
Функція розподілу ймовірностей |
Параметри |
n ∈ N0 — число випробувань (дійсне) (дійсне) |
---|
Носій функції |
k ∈ { 0, …, n } |
---|
Розподіл імовірностей |
де — Бета-функція |
---|
Функція розподілу ймовірностей (cdf) |
де 3F2(a;b;x) — узагальнена гіпергеометрична функція |
---|
Середнє |
|
---|
Дисперсія |
|
---|
Коефіцієнт асиметрії |
|
---|
Коефіцієнт ексцесу |
See text |
---|
Твірна функція моментів (mgf) |
де — гіпергеометрична функція |
---|
Характеристична функція |
|
---|
Генератриса (pgf) |
|
У теорії ймовірностей і статистиці, бета-біноміальний розподіл являє собою сімейство дискретних імовірнісних розподілів на скінченному носії невід'ємних цілих чисел, що виникає коли ймовірність успіху в кожному з фіксованих чи відомого числа випробувань Бернуллі або невідома, або є випадковою. Бета-біноміальний розподіл — це біноміальний розподіл, у якому ймовірність успіху в кожному з n випробувань не є фіксованою, а є випадковою реалізацією бета-розподіленої випадкової величини. Розподіл часто використовується в байєсівській статистиці, емпіричних методах Байєса та класичній статистиці для виявлення наддисперсії в біноміально розподілених даних.
Він зводиться до звичайного розподілу Бернуллі, коли n=1. Для α=β=1, це дискретний рівномірний розподіл від 0 до n. Він також як завгодно добре наближує біноміальний розподіл для великих α і β . Аналогічно, зводиться негативного біноміального розподілу при великими значеннями β і n. Бета-біноміальний є одновимірною версією мультиноміального розподілу Діріхле, оскільки біноміальний та бета-розподіл є одновимірними версіями мультиноміального та розподілу Діріхле відповідно.
Особливий випадок, коли α і β є цілими числами, також відомий як негативний гіпергеометричний розподіл.
Мотивація та виведення[ред. | ред. код]
Як складений розподіл[ред. | ред. код]
Бета-розподіл — це спряжений розподіл біноміального розподілу . Цей факт дозволяє аналітично вивести складений розподіл, якщо вважати параметр у біноміальному розподілі як випадкову реалізацію бета-розподіленої випадкової величини. А саме, якщо
тоді
де Bin( n, p ) означає біноміальний розподіл, а де p — випадкова величина з бета-розподілом.
тоді складений розподіл визначається як
Використовуючи властивості бета-функції, вираз можна переписати
Бета-біноміал як модель урни[ред. | ред. код]
Бета-біноміальний розподіл також можна пояснити за допомогою моделі урн для цілих додатних значень α і β, відомої як модель урни Полі. Зокрема, уявіть собі урну, що містить α червоних кульок та β чорних кульок, звідки їх виймають навмання. Якщо дістали червону кульку, то до урни повертають дві червоні кульки. Аналогічно з чорними кульками, якщо дістають чорну кулю, то натомість в урну повертають дві чорні. Якщо експеримент повторити n разів, то ймовірність отримати k червоних куль буде мати бета-біноміальний розподіл з параметрами n, α і β .
Якщо випадкові випробування здійснюються з простою заміною (повертають тільки одну, ту що щойно дістали, кульку), то маємо справу з біноміальним розподілом, а якщо експеримент здійснюються без заміни, то спостерігаємо реалізацію гіпергеометрично розподіленої випадкової величини.
Моменти та властивості[ред. | ред. код]
Перші три моменти
Ексцес задається формулою
Позначимо , тоді середнє можна записати як
і дисперсія як
де . Параметр відомий як кореляція «всередині класу» або «внутрішньокластерна» кореляція. Саме ця позитивна кореляція призводить до надмірної дисперсії.
Методом моментів можна отримати оцінки, а саме запишемо перший і другий моменти бета-біноміального розподілу
і прирівняємо ці нецентральні моменти до першого та другого нецентрального моменту вибірки відповідно
розв’яжемо для α і β і отримуємо
Ці оцінки можуть виглядати безглуздо негативними, що є доказом того, що дані є або нерозподілені зовсім або розподілені недостатньо у порівнянні до біноміального розподілу. У цьому випадку біноміальний розподіл і гіпергеометричний розподіл є альтернативними кандидатами відповідно.
Оцінка максимальної ймовірності[ред. | ред. код]
Хоч формула оцінки методом максимальної правдоподібності є непрактичною, враховуючи, що щільність складається із звичних функцій (гамма-функції та/або бета-функції), їх можна легко знайти за допомогою прямої чисельної оптимізації. Оцінки максимальної правдоподібності на основі емпіричних даних можуть бути обчислені за допомогою загальних методів підгонки мультиноміальних розподілів Полі, методи для яких описані в (Minka 2003). Пакет R VGAM через функцію vglm, використовуючи метод максимальної правдоподібності, полегшує оцінку УЛМ моделей з результатами, розподіленими за бета-біноміальним розподілом. Немає явної вимоги аби n було фіксованим впродовж спостережень.
Наведені нижче дані показують кількість дітей чоловічої статі серед перших 12 дітей у 6115 сім'ях з 13-ма дітьми, взятих із лікарняних карт Саксонії 19 століття (Sokal and Rohlf, с.59 від Ліндсі). 13-ту дитину ігнорують, щоб пом’якшити ефект від того, що родина перестала пробувати завести дитину за умови досягнення бажаної статі.
Хлопчики
|
0
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
11
|
12
|
Родини
|
3
|
24
|
104
|
286
|
670
|
1033
|
1343
|
1112
|
829
|
478
|
181
|
45
|
7
|
Перші два емпіричні моменти
тому оцінка методом моментів
Оцінка методом максимальної ймовірності можна вирахувати чисельними методами
і максимальна логарифмічна правдоподібність
звідси знаходимо AIC
AIC для конкуруючої біноміальної моделі є AIC = 25070.34, таким чином, бачимо, що бета-біноміальна модель забезпечує кращу відповідність даним, тобто присутні докази надмірної дисперсії. Трайверс і Віллард висувають теоретичне обгрунтування гетерогенності (також відомої як «розривність») у гендерній схильності нащадків ссавців (тобто надмірна дисперсність).
Краща припасовка особливо добре помітна в хвостах
Хлопці
|
0
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
11
|
12
|
Спостережувані родини
|
3
|
24
|
104
|
286
|
670
|
1033
|
1343
|
1112
|
829
|
478
|
181
|
45
|
7
|
Очікуваний число (бета-біноміальний)
|
2.3
|
22.6
|
104.8
|
310.9
|
655.7
|
1036.2
|
1257.9
|
1182.1
|
853.6
|
461.9
|
177,9
|
43.8
|
5.2
|
Очікуваний число ( біноміальний p = 0,519215)
|
0.9
|
12.1
|
71.8
|
258.5
|
628.1
|
1085.2
|
1367.3
|
1265.6
|
854.2
|
410,0
|
132.8
|
26.1
|
2.3
|
Подальші байєсівські міркування[ред. | ред. код]
Зручно перепараметризувати розподіли так, щоб очікуване середнє значення апріорного розподілу було одним параметром, нехай
де
таким чином
Апостеріорний розподіл ρ ( θ | k ) також є бета-розподілом:
І
тоді як граничний розподіл m ( k | μ, M ) визначається як
Підставляючи назад M і μ, в термінах і , отримаємо:
який і є очікуваним бета-біноміальним розподілом з параметрами і .
Ми також можемо використати метод повторних матсподівань, щоб знайти очікуване значення граничних моментів. Запишемо нашу модель як двоступеневу модель складної вибірки. Нехай k i — кількість успіхів із n i спроб для події i :
Можемо знайти покрокові оцінки моментів для середнього та дисперсії, використовуючи моменти для розподілів у двокроковій моделі:
(Тут ми використовували закон повного матсподівання і закон повної дисперсії.)
Знайдемо точкові оцінки і . Розрахункове середнє розраховується з вибірки
Оцінку гіперпараметра M можна обчислити використовуючи оцінки моментів для дисперсії з двокрокової моделі:
І розв'яжемо для М:
де
Оскільки тепер ми маємо оцінки параметрів, і , для основного розподілу можемо знайти точкову оцінку для ймовірності успіху події i . Її можна обчислити як середнє зважене значення оцінки події і . Враховуючи наші точкові оцінки для апріора, можна підставити їхні значення, щоб знайти точкову оцінку для апостеріору
Можемо записати апостеріорну оцінку як середньозважене:
де називається коефіцієнтом усадки .
- де є дискретним рівномірним розподілом .
- Мультиноміальний розподіл Діріхле
|
---|
| | | Дискретні одновимірні зі скінченним носієм |
|
---|
| Дискретні одновимірні з нескінченним носієм |
|
---|
| Неперервні одновимірні з носієм на обмеженому проміжку |
|
---|
| Неперервні одновимірні з носієм на напів-нескінченному проміжку |
|
---|
| Неперервні одновимірні з носієм на всій дійсній прямій |
|
---|
| Неперервні одновимірні з носієм змінного типу |
|
---|
| Змішані неперервно-дискретні одновимірні |
|
---|
| Багатовимірні (спільні) |
|
---|
| Напрямкові |
|
---|
| Вироджені та сингулярні[en] |
|
---|
| Сімейства |
|
---|
|