У теорії ймовірностей і статистиці, бета-біноміальний розподіл являє собою сімейство дискретних імовірнісних розподілів на скінченному носії невід'ємних цілих чисел, що виникає коли ймовірність успіху в кожному з фіксованих чи відомого числа випробувань Бернуллі або невідома, або є випадковою. Бета-біноміальний розподіл — це біноміальний розподіл, у якому ймовірність успіху в кожному з n випробувань не є фіксованою, а є випадковою реалізацією бета-розподіленої випадкової величини. Розподіл часто використовується в байєсівській статистиці, емпіричних методах Байєса та класичній статистиці для виявлення наддисперсії в біноміально розподілених даних.
Бета-розподіл — це спряжений розподілбіноміального розподілу . Цей факт дозволяє аналітично вивести складений розподіл, якщо вважати параметр у біноміальному розподілі як випадкову реалізацію бета-розподіленої випадкової величини. А саме, якщо
Бета-біноміальний розподіл також можна пояснити за допомогою моделі урн для цілих додатних значень α і β, відомої як модель урни Полі. Зокрема, уявіть собі урну, що містить α червоних кульок та β чорних кульок, звідки їх виймають навмання. Якщо дістали червону кульку, то до урни повертають дві червоні кульки. Аналогічно з чорними кульками, якщо дістають чорну кулю, то натомість в урну повертають дві чорні. Якщо експеримент повторити n разів, то ймовірність отримати k червоних куль буде мати бета-біноміальний розподіл з параметрами n, α і β .
Якщо випадкові випробування здійснюються з простою заміною (повертають тільки одну, ту що щойно дістали, кульку), то маємо справу з біноміальним розподілом, а якщо експеримент здійснюються без заміни, то спостерігаємо реалізацію гіпергеометрично розподіленої випадкової величини.
де . Параметр відомий як кореляція «всередині класу» або «внутрішньокластерна» кореляція. Саме ця позитивна кореляція призводить до надмірної дисперсії.
Методом моментів можна отримати оцінки, а саме запишемо перший і другий моменти бета-біноміального розподілу
і прирівняємо ці нецентральні моменти до першого та другого нецентрального моменту вибірки відповідно
розв’яжемо для α і β і отримуємо
Ці оцінки можуть виглядати безглуздо негативними, що є доказом того, що дані є або нерозподілені зовсім або розподілені недостатньо у порівнянні до біноміального розподілу. У цьому випадку біноміальний розподіл і гіпергеометричний розподіл є альтернативними кандидатами відповідно.
Хоч формула оцінки методом максимальної правдоподібності є непрактичною, враховуючи, що щільність складається із звичних функцій (гамма-функції та/або бета-функції), їх можна легко знайти за допомогою прямої чисельної оптимізації. Оцінки максимальної правдоподібності на основі емпіричних даних можуть бути обчислені за допомогою загальних методів підгонки мультиноміальних розподілів Полі, методи для яких описані в (Minka 2003). Пакет R VGAM через функцію vglm, використовуючи метод максимальної правдоподібності, полегшує оцінку УЛМ моделей з результатами, розподіленими за бета-біноміальним розподілом. Немає явної вимоги аби n було фіксованим впродовж спостережень.
Наведені нижче дані показують кількість дітей чоловічої статі серед перших 12 дітей у 6115 сім'ях з 13-ма дітьми, взятих із лікарняних карт Саксонії 19 століття (Sokal and Rohlf, с.59 від Ліндсі). 13-ту дитину ігнорують, щоб пом’якшити ефект від того, що родина перестала пробувати завести дитину за умови досягнення бажаної статі.
AIC для конкуруючої біноміальної моделі є AIC = 25070.34, таким чином, бачимо, що бета-біноміальна модель забезпечує кращу відповідність даним, тобто присутні докази надмірної дисперсії. Трайверс і Віллард висувають теоретичне обгрунтування гетерогенності (також відомої як «розривність») у гендерній схильності нащадків ссавців (тобто надмірна дисперсність).
тоді як граничний розподіл m ( k | μ, M ) визначається як
Підставляючи назад M і μ, в термінах і , отримаємо:
який і є очікуваним бета-біноміальним розподілом з параметрами і .
Ми також можемо використати метод повторних матсподівань, щоб знайти очікуване значення граничних моментів. Запишемо нашу модель як двоступеневу модель складної вибірки. Нехай k i — кількість успіхів із n i спроб для події i :
Можемо знайти покрокові оцінки моментів для середнього та дисперсії, використовуючи моменти для розподілів у двокроковій моделі:
Знайдемо точкові оцінки і . Розрахункове середнє розраховується з вибірки
Оцінку гіперпараметра M можна обчислити використовуючи оцінки моментів для дисперсії з двокрокової моделі:
І розв'яжемо для М:
де
Оскільки тепер ми маємо оцінки параметрів, і , для основного розподілу можемо знайти точкову оцінку для ймовірності успіху події i . Її можна обчислити як середнє зважене значення оцінки події і . Враховуючи наші точкові оцінки для апріора, можна підставити їхні значення, щоб знайти точкову оцінку для апостеріору
Fastfit [Архівовано 10 травня 2008 у Wayback Machine.] contains Matlab code for fitting Beta-Binomial distributions (in the form of two-dimensional Pólya distributions) to data.