Бета-біноміальний розподіл

Бета-біноміальний розподіл
Бета-біноміальний розподіл
	Функція ймовірностей
	Функція розподілу ймовірностей
Параметри	n ∈ N0 — число випробувань; (дійсне) ; (дійсне)
Носій функції	k ∈ { 0, …, n }
Розподіл імовірностей	; ; де — Бета-функція
Функція розподілу ймовірностей (cdf)	; ; де 3F2(a;b;x) — узагальнена гіпергеометрична функція;
Середнє
Дисперсія
Коефіцієнт асиметрії
Коефіцієнт ексцесу	See text
Твірна функція моментів (mgf)	де — гіпергеометрична функція
Характеристична функція	;
Генератриса (pgf)	;

У теорії ймовірностей і статистиці, бета-біноміальний розподіл являє собою сімейство дискретних імовірнісних розподілів на скінченному носії невід'ємних цілих чисел, що виникає коли ймовірність успіху в кожному з фіксованих чи відомого числа випробувань Бернуллі або невідома, або є випадковою. Бета-біноміальний розподіл — це біноміальний розподіл, у якому ймовірність успіху в кожному з n випробувань не є фіксованою, а є випадковою реалізацією бета-розподіленої випадкової величини. Розподіл часто використовується в байєсівській статистиці, емпіричних методах Байєса та класичній статистиці для виявлення наддисперсії в біноміально розподілених даних.

Він зводиться до звичайного розподілу Бернуллі, коли n=1. Для α=β=1, це дискретний рівномірний розподіл від 0 до n. Він також як завгодно добре наближує біноміальний розподіл для великих α і β . Аналогічно, зводиться негативного біноміального розподілу при великими значеннями β і n. Бета-біноміальний є одновимірною версією мультиноміального розподілу Діріхле, оскільки біноміальний та бета-розподіл є одновимірними версіями мультиноміального та розподілу Діріхле відповідно.

Особливий випадок, коли α і β є цілими числами, також відомий як негативний гіпергеометричний розподіл.

Мотивація та виведення

Як складений розподіл

Бета-розподіл — це спряжений розподіл біноміального розподілу . Цей факт дозволяє аналітично вивести складений розподіл, якщо вважати параметр $p$ у біноміальному розподілі як випадкову реалізацію бета-розподіленої випадкової величини. А саме, якщо

X\sim \operatorname {Bin} (n,p)

тоді

P(X=k\mid p,n)=L(p\mid k)={n \choose k}p^{k}(1-p)^{n-k}

де Bin( n, p ) означає біноміальний розподіл, а де p — випадкова величина з бета-розподілом.

{\begin{aligned}\pi (p\mid \alpha ,\beta )&=\mathrm {Beta} (\alpha ,\beta )\\[5pt]&={\frac {p^{\alpha -1}(1-p)^{\beta -1}}{\mathrm {B} (\alpha ,\beta )}}\quad {\text{for }}0\leq p\leq 1,\end{aligned}}

тоді складений розподіл визначається як

{\begin{aligned}f(k\mid n,\alpha ,\beta )&=\int _{0}^{1}L(p\mid k)\pi (p\mid \alpha ,\beta )\,dp\\[6pt]&={n \choose k}{\frac {1}{\mathrm {B} (\alpha ,\beta )}}\int _{0}^{1}p^{k+\alpha -1}(1-p)^{n-k+\beta -1}\,dp\\[6pt]&={n \choose k}{\frac {\mathrm {B} (k+\alpha ,n-k+\beta )}{\mathrm {B} (\alpha ,\beta )}}.\end{aligned}}

Використовуючи властивості бета-функції, вираз можна переписати

f(k\mid n,\alpha ,\beta )={\frac {\Gamma (n+1)}{\Gamma (k+1)\Gamma (n-k+1)}}{\frac {\Gamma (k+\alpha )\Gamma (n-k+\beta )}{\Gamma (n+\alpha +\beta )}}{\frac {\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}}.

Бета-біноміал як модель урни

Бета-біноміальний розподіл також можна пояснити за допомогою моделі урн для цілих додатних значень α і β, відомої як модель урни Полі. Зокрема, уявіть собі урну, що містить α червоних кульок та β чорних кульок, звідки їх виймають навмання. Якщо дістали червону кульку, то до урни повертають дві червоні кульки. Аналогічно з чорними кульками, якщо дістають чорну кулю, то натомість в урну повертають дві чорні. Якщо експеримент повторити n разів, то ймовірність отримати k червоних куль буде мати бета-біноміальний розподіл з параметрами n, α і β .

Якщо випадкові випробування здійснюються з простою заміною (повертають тільки одну, ту що щойно дістали, кульку), то маємо справу з біноміальним розподілом, а якщо експеримент здійснюються без заміни, то спостерігаємо реалізацію гіпергеометрично розподіленої випадкової величини.

Моменти та властивості

Перші три моменти

{\begin{aligned}\mu _{1}&={\frac {n\alpha }{\alpha +\beta }}\\[8pt]\mu _{2}&={\frac {n\alpha [n(1+\alpha )+\beta ]}{(\alpha +\beta )(1+\alpha +\beta )}}\\[8pt]\mu _{3}&={\frac {n\alpha [n^{2}(1+\alpha )(2+\alpha )+3n(1+\alpha )\beta +\beta (\beta -\alpha )]}{(\alpha +\beta )(1+\alpha +\beta )(2+\alpha +\beta )}}\end{aligned}}

Ексцес задається формулою

\beta _{2}={\frac {(\alpha +\beta )^{2}(1+\alpha +\beta )}{n\alpha \beta (\alpha +\beta +2)(\alpha +\beta +3)(\alpha +\beta +n)}}\left[(\alpha +\beta )(\alpha +\beta -1+6n)+3\alpha \beta (n-2)+6n^{2}-{\frac {3\alpha \beta n(6-n)}{\alpha +\beta }}-{\frac {18\alpha \beta n^{2}}{(\alpha +\beta )^{2}}}\right].

Позначимо $\pi ={\frac {\alpha }{\alpha +\beta }}\!$ , тоді середнє можна записати як

\mu ={\frac {n\alpha }{\alpha +\beta }}=n\pi \!

і дисперсія як

\sigma ^{2}={\frac {n\alpha \beta (\alpha +\beta +n)}{(\alpha +\beta )^{2}(\alpha +\beta +1)}}=n\pi (1-\pi ){\frac {\alpha +\beta +n}{\alpha +\beta +1}}=n\pi (1-\pi )[1+(n-1)\rho ]\!

де $\rho ={\tfrac {1}{\alpha +\beta +1}}$ . Параметр $\rho$ відомий як кореляція «всередині класу» або «внутрішньокластерна» кореляція. Саме ця позитивна кореляція призводить до надмірної дисперсії.

Точкові оцінки

Метод моментів

Методом моментів можна отримати оцінки, а саме запишемо перший і другий моменти бета-біноміального розподілу

{\begin{aligned}\mu _{1}&={\frac {n\alpha }{\alpha +\beta }}\\[6pt]\mu _{2}&={\frac {n\alpha [n(1+\alpha )+\beta ]}{(\alpha +\beta )(1+\alpha +\beta )}}\end{aligned}}

і прирівняємо ці нецентральні моменти до першого та другого нецентрального моменту вибірки відповідно

{\begin{aligned}{\widehat {\mu }}_{1}&:=m_{1}={\frac {1}{N}}\sum _{i=1}^{N}X_{i}\\[6pt]{\widehat {\mu }}_{2}&:=m_{2}={\frac {1}{N}}\sum _{i=1}^{N}X_{i}^{2}\end{aligned}}

розв’яжемо для α і β і отримуємо

{\begin{aligned}{\widehat {\alpha }}&={\frac {nm_{1}-m_{2}}{n({\frac {m_{2}}{m_{1}}}-m_{1}-1)+m_{1}}}\\[5pt]{\widehat {\beta }}&={\frac {(n-m_{1})(n-{\frac {m_{2}}{m_{1}}})}{n({\frac {m_{2}}{m_{1}}}-m_{1}-1)+m_{1}}}.\end{aligned}}

Ці оцінки можуть виглядати безглуздо негативними, що є доказом того, що дані є або нерозподілені зовсім або розподілені недостатньо у порівнянні до біноміального розподілу. У цьому випадку біноміальний розподіл і гіпергеометричний розподіл є альтернативними кандидатами відповідно.

Оцінка максимальної ймовірності

Хоч формула оцінки методом максимальної правдоподібності є непрактичною, враховуючи, що щільність складається із звичних функцій (гамма-функції та/або бета-функції), їх можна легко знайти за допомогою прямої чисельної оптимізації. Оцінки максимальної правдоподібності на основі емпіричних даних можуть бути обчислені за допомогою загальних методів підгонки мультиноміальних розподілів Полі, методи для яких описані в (Minka 2003). Пакет R VGAM через функцію vglm, використовуючи метод максимальної правдоподібності, полегшує оцінку УЛМ моделей з результатами, розподіленими за бета-біноміальним розподілом. Немає явної вимоги аби n було фіксованим впродовж спостережень.

Приклад

Наведені нижче дані показують кількість дітей чоловічої статі серед перших 12 дітей у 6115 сім'ях з 13-ма дітьми, взятих із лікарняних карт Саксонії 19 століття (Sokal and Rohlf, с.59 від Ліндсі). 13-ту дитину ігнорують, щоб пом’якшити ефект від того, що родина перестала пробувати завести дитину за умови досягнення бажаної статі.

Хлопчики	0	1	2	3	4	5	6	7	8	9	10	11	12
Родини	3	24	104	286	670	1033	1343	1112	829	478	181	45	7

Перші два емпіричні моменти

{\begin{aligned}m_{1}&=6.23\\m_{2}&=42.31\\n&=12\end{aligned}}

тому оцінка методом моментів

{\begin{aligned}{\widehat {\alpha }}&=34.1350\\{\widehat {\beta }}&=31.6085.\end{aligned}}

Оцінка методом максимальної ймовірності можна вирахувати чисельними методами

{\begin{aligned}{\widehat {\alpha }}_{\mathrm {mle} }&=34.09558\\{\widehat {\beta }}_{\mathrm {mle} }&=31.5715\end{aligned}}

і максимальна логарифмічна правдоподібність

\log {\mathcal {L}}=-12492.9

звідси знаходимо AIC

{\mathit {AIC}}=24989.74.

AIC для конкуруючої біноміальної моделі є AIC = 25070.34, таким чином, бачимо, що бета-біноміальна модель забезпечує кращу відповідність даним, тобто присутні докази надмірної дисперсії. Трайверс і Віллард висувають теоретичне обгрунтування гетерогенності (також відомої як «розривність») у гендерній схильності нащадків ссавців (тобто надмірна дисперсність).

Краща припасовка особливо добре помітна в хвостах

Хлопці	0	1	2	3	4	5	6	7	8	9	10	11	12
Спостережувані родини	3	24	104	286	670	1033	1343	1112	829	478	181	45	7
Очікуваний число (бета-біноміальний)	2.3	22.6	104.8	310.9	655.7	1036.2	1257.9	1182.1	853.6	461.9	177,9	43.8	5.2
*Очікуваний число ( біноміальний p* = 0,519215)**	0.9	12.1	71.8	258.5	628.1	1085.2	1367.3	1265.6	854.2	410,0	132.8	26.1	2.3

Подальші байєсівські міркування

Зручно перепараметризувати розподіли так, щоб очікуване середнє значення апріорного розподілу було одним параметром, нехай

{\begin{aligned}\pi (\theta \mid \mu ,M)&=\operatorname {Beta} (M\mu ,M(1-\mu ))\\[6pt]&={\frac {\Gamma (M)}{\Gamma (M\mu )\Gamma (M(1-\mu ))}}\theta ^{M\mu -1}(1-\theta )^{M(1-\mu )-1}\end{aligned}}

де

{\begin{aligned}\mu &={\frac {\alpha }{\alpha +\beta }}\\[6pt]M&=\alpha +\beta \end{aligned}}

таким чином

{\begin{aligned}\operatorname {E} (\theta \mid \mu ,M)&=\mu \\[6pt]\operatorname {Var} (\theta \mid \mu ,M)&={\frac {\mu (1-\mu )}{M+1}}.\end{aligned}}

Апостеріорний розподіл ρ ( θ | k ) також є бета-розподілом:

{\begin{aligned}\rho (\theta \mid k)&\propto \ell (k\mid \theta )\pi (\theta \mid \mu ,M)\\[6pt]&=\operatorname {Beta} (k+M\mu ,n-k+M(1-\mu ))\\[6pt]&={\frac {\Gamma (M)}{\Gamma (M\mu )\Gamma (M(1-\mu ))}}{n \choose k}\theta ^{k+M\mu -1}(1-\theta )^{n-k+M(1-\mu )-1}\end{aligned}}

І

\operatorname {E} (\theta \mid k)={\frac {k+M\mu }{n+M}}.

тоді як граничний розподіл m ( k | μ, M ) визначається як

{\begin{aligned}m(k\mid \mu ,M)&=\int _{0}^{1}\ell (k\mid \theta )\pi (\theta \mid \mu ,M)\,d\theta \\[6pt]&={\frac {\Gamma (M)}{\Gamma (M\mu )\Gamma (M(1-\mu ))}}{n \choose k}\int _{0}^{1}\theta ^{k+M\mu -1}(1-\theta )^{n-k+M(1-\mu )-1}\,d\theta \\[6pt]&={\frac {\Gamma (M)}{\Gamma (M\mu )\Gamma (M(1-\mu ))}}{n \choose k}{\frac {\Gamma (k+M\mu )\Gamma (n-k+M(1-\mu ))}{\Gamma (n+M)}}.\end{aligned}}

Підставляючи назад M і μ, в термінах $\alpha$ і $\beta$ , отримаємо:

m(k\mid \alpha ,\beta )={\frac {\Gamma (n+1)}{\Gamma (k+1)\Gamma (n-k+1)}}{\frac {\Gamma (k+\alpha )\Gamma (n-k+\beta )}{\Gamma (n+\alpha +\beta )}}{\frac {\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}}.

який і є очікуваним бета-біноміальним розподілом з параметрами $n,\alpha$ і $\beta$ .

Ми також можемо використати метод повторних матсподівань, щоб знайти очікуване значення граничних моментів. Запишемо нашу модель як двоступеневу модель складної вибірки. Нехай k _i — кількість успіхів із n _i спроб для події i :

{\begin{aligned}k_{i}&\sim \operatorname {Bin} (n_{i},\theta _{i})\\[6pt]\theta _{i}&\sim \operatorname {Beta} (\mu ,M),\ \mathrm {i.i.d.} \end{aligned}}

Можемо знайти покрокові оцінки моментів для середнього та дисперсії, використовуючи моменти для розподілів у двокроковій моделі:

\operatorname {E} \left({\frac {k}{n}}\right)=\operatorname {E} \left[\operatorname {E} \left(\left.{\frac {k}{n}}\right|\theta \right)\right]=\operatorname {E} (\theta )=\mu

{\begin{aligned}\operatorname {var} \left({\frac {k}{n}}\right)&=\operatorname {E} \left[\operatorname {var} \left(\left.{\frac {k}{n}}\right|\theta \right)\right]+\operatorname {var} \left[\operatorname {E} \left(\left.{\frac {k}{n}}\right|\theta \right)\right]\\[6pt]&=\operatorname {E} \left[\left(\left.{\frac {1}{n}}\right)\theta (1-\theta )\right|\mu ,M\right]+\operatorname {var} \left(\theta \mid \mu ,M\right)\\[6pt]&={\frac {1}{n}}\left(\mu (1-\mu )\right)+{\frac {n-1}{n}}{\frac {(\mu (1-\mu ))}{M+1}}\\[6pt]&={\frac {\mu (1-\mu )}{n}}\left(1+{\frac {n-1}{M+1}}\right).\end{aligned}}

(Тут ми використовували закон повного матсподівання і закон повної дисперсії.)

Знайдемо точкові оцінки $\mu$ і $M$ . Розрахункове середнє ${\widehat {\mu }}$ розраховується з вибірки

{\widehat {\mu }}={\frac {\sum _{i=1}^{N}k_{i}}{\sum _{i=1}^{N}n_{i}}}.

Оцінку гіперпараметра M можна обчислити використовуючи оцінки моментів для дисперсії з двокрокової моделі:

s^{2}={\frac {1}{N}}\sum _{i=1}^{N}\operatorname {var} \left({\frac {k_{i}}{n_{i}}}\right)={\frac {1}{N}}\sum _{i=1}^{N}{\frac {{\widehat {\mu }}(1-{\widehat {\mu }})}{n_{i}}}\left[1+{\frac {n_{i}-1}{{\widehat {M}}+1}}\right]

І розв'яжемо для М:

{\widehat {M}}={\frac {{\widehat {\mu }}(1-{\widehat {\mu }})-s^{2}}{s^{2}-{\frac {{\widehat {\mu }}(1-{\widehat {\mu }})}{N}}\sum _{i=1}^{N}1/n_{i}}},

де

s^{2}={\frac {N\sum _{i=1}^{N}n_{i}({\widehat {\theta _{i}}}-{\widehat {\mu }})^{2}}{(N-1)\sum _{i=1}^{N}n_{i}}}.

Оскільки тепер ми маємо оцінки параметрів, ${\widehat {\mu }}$ і ${\widehat {M}}$ , для основного розподілу можемо знайти точкову оцінку ${\tilde {\theta }}_{i}$ для ймовірності успіху події i . Її можна обчислити як середнє зважене значення оцінки події ${\widehat {\theta _{i}}}=k_{i}/n_{i}$ і ${\widehat {\mu }}$ . Враховуючи наші точкові оцінки для апріора, можна підставити їхні значення, щоб знайти точкову оцінку для апостеріору

{\tilde {\theta _{i}}}=\operatorname {E} (\theta \mid k_{i})={\frac {k_{i}+{\widehat {M}}{\widehat {\mu }}}{n_{i}+{\widehat {M}}}}={\frac {\widehat {M}}{n_{i}+{\widehat {M}}}}{\widehat {\mu }}+{\frac {n_{i}}{n_{i}+{\widehat {M}}}}{\frac {k_{i}}{n_{i}}}.

Фактори усадки

Можемо записати апостеріорну оцінку як середньозважене:

{\tilde {\theta }}_{i}={\widehat {B}}_{i}\,{\widehat {\mu }}+(1-{\widehat {B}}_{i}){\widehat {\theta }}_{i}

де ${\widehat {B}}_{i}$ називається коефіцієнтом усадки .

{\widehat {B_{i}}}={\frac {\widehat {M}}{{\widehat {M}}+n_{i}}}

Пов'язані розподіли

$BB(1,1,n)\sim U(0,n)\,$ де $U(a,b)\,$ є дискретним рівномірним розподілом .

Див. також

Мультиноміальний розподіл Діріхле

Посилання

Minka, Thomas P. (2003). Estimating a Dirichlet distribution [Архівовано 26 жовтня 2008 у Wayback Machine.]. Microsoft Technical Report.

Зовнішні посилання

Using the Beta-binomial distribution to assess performance of a biometric identification device [Архівовано 27 вересня 2007 у Wayback Machine.]
Fastfit [Архівовано 10 травня 2008 у Wayback Machine.] contains Matlab code for fitting Beta-Binomial distributions (in the form of two-dimensional Pólya distributions) to data.
Interactive graphic: Univariate Distribution Relationships [Архівовано 18 лютого 2022 у Wayback Machine.]
Beta-binomial functions in VGAM R package [Архівовано 19 січня 2022 у Wayback Machine.]
Beta-binomial distribution in Sandia National Labs Cognitive Foundry Java library [Архівовано 21 березня 2021 у Wayback Machine.]

п о р Розподіли ймовірності
Перелік розподілів імовірності
Дискретні одновимірні зі скінченним носієм	Бенфорда Бернуллі бета-біноміальний біноміальний біноміальний Пуассона^[en] гіпергеометричний дискретний рівномірний категорійний Радемахера^[en] Ципфа Ципфа — Мандельброта^[en]
Дискретні одновимірні з нескінченним носієм	Бореля^[en] бета-негативний біноміальний від'ємний біноміальний геометричний Ґауса — Кузьмина Делапорта^[en] Дзета-розподіл дискретний фазовий^[en] Конвея — Максвелла — Пуассона^[en] логарифмічний параболічний фрактальний^[en] Пуассона розширений від'ємний біноміальний^[en] Скелама^[en] Юла — Саймона^[en]
Неперервні одновимірні з носієм на обмеженому проміжку	ARGUS^[en] арксинусний^[en] Бейтса бета Болдінґа — Ніколса Ірвіна — Гола^[en] квантилі^[en] Кумарасвамі^[en] логістично-нормальний нецентральний бета^[en] півколо Вігнера^[en] піднятий косинусний^[en] прямокутний бета^[en] рівномірний трикутний^[en] У-квадратичний^[en]
Неперервні одновимірні з носієм на напів-нескінченному проміжку	Беніні Бенктандера I типу^[en] Бенктандера II типу^[en] Берра^[en] бета-простий^[en] Вейбула гамма (обернений) ґамма/Ґомперца гіперекспоненційний^[en] гіперерлангів^[en] гіпоекспоненційний^[en] Готелінґа^[en] Ґомперца^[en] Ґумбеля II типу^[en] Дагума^[en] Девіса^[en] експоненційний експоненційно-логарифмічний^[en] Ерланга згорнений нормальний^[en] зсунений Ґомперца^[en] Колмогорова Леві логарифмічний Коші^[en] логарифмічно-лапласів^[en] логарифмічно-логістичний^[en] логарифмічно-нормальний Ломакса лямбда Уїлкса^[en] Максвелла — Больцмана Максвелла — Ютнера^[en] матрично-експоненційний^[en] Міттага-Лефлера^[en] Накаґамі напівлогістичний^[en] напівнормальний^[en] нецентрований хі-квадрат обернений нормальний^[en] обернений хі-квадрат^[en] масштабований обернений хі-квадрат^[en] Парето полівейбулів^[en] присічений нормальний^[en] Райса Рейлі релятивістський Брейта — Вігнера^[en] узагальнений обернений нормальний^[en] фазовий^[en] Фішера Флорі—Шульца Фреше хі хі-квадрат
Неперервні одновимірні з носієм на всій дійсній прямій	асиметричний нормальний^[en] геометричний стійкий^[en] гіперболічний секансний^[en] Гольцмарка^[en] Ґумбеля^[en] Ґумбеля I типу^[en] дисперсійний гамма^[en] експоненційний ступеневий^[en] z Фішера Скісний Коші Ландау^[en] Лапласа асиметричний Лапласа^[en] логістичний нецентральний t^[en] нормальний (Ґауса) нормально-обернений ґаусів^[en] стійкий S_U Джонсона^[en] t Стьюдента Трейсі — Відома^[en] узагальнений гіперболічний^[en] узагальнений нормальний^[en] Фойґта
Неперервні одновимірні з носієм змінного типу	зсунений логарифмічно-логістичний^[en] q-вейбулів^[en] q-гауссів q-експоненційний^[en] лямбда Тьюкі^[en] узагальнений екстремальних значень^[en] узагальнений Парето
Змішані неперервно-дискретні одновимірні	спрямлений ґаусів^[en]
Багатовимірні (спільні)	Дискретні від'ємний поліноміальний^[en] Еванса^[en] поліноміальний поліноміальний Діріхле^[en] Неперервні багатовимірний нормальний багатовимірний t^[en] багатовимірний стійкий^[en] Діріхле нормальний гамма^[en] нормально-обернений гамма^[en] узагальнений Діріхле^[en] Матричнозначні Вішарта^[en] матричний гамма^[en] матричний нормальний^[en] матричний t^[en] нормальний Вішарта^[en] нормально-обернений Вішарта^[en] обернений Вішарта^[en] обернений матричний гамма^[en]
Напрямкові	Одновимірні (кругові) напрямкові намотаний асиметричний Лапласа^[en] намотаний експоненційний^[en] намотаний Коші^[en] намотаний Леві^[en] намотаний нормальний^[en] круговий рівномірний^[en] рівномірний фон Мізаса^[en] Двовимірні (сферичні) Кента^[en] Двовимірні (тороїдні) двовимірний фон Мізаса^[en] Багатовимірні Бінгема^[en] фон Мізаса — Фішера^[en]
Вироджені та сингулярні^[en]	Вироджені Дельта-функція Дірака Сингулярні Кантора
Сімейства	експоненційні^[en] еліптичні намотані^[en] зсуву-масштабу^[en] кругові^[en] максимальної ентропії^[en] Пірсона^[en] природні експоненційні^[en] складені Пуассона^[en] сумішеві Твіді^[en]