Користувач:Yura Kuch/Біноміальний розподіл Пуассона

Біноміальний розподіл Пуассона
Біноміальний розподіл Пуассона
Параметри	— ймовірності успіху для кожного з випробувань
Носій функції	∈
Розподіл імовірностей
Функція розподілу ймовірностей (cdf)
Середнє
Медіана	{{{median}}}
Мода	{{{mode}}}
Дисперсія
Коефіцієнт асиметрії
Коефіцієнт ексцесу
Ентропія	{{{entropy}}}
Твірна функція моментів (mgf)
Характеристична функція	{{{char}}}

У теорії ймовірностей та статистиці біноміальний розподіл Пуассона є дискретним ймовірнісним розподілом суми незалежних випробувань Бернуллі, які не обов'язково мають однаковий розподіл. Концепція отримала назву на честь Сімеона Дені Пуассона.

Інакше кажучи, це ймовірнісний розподіл кількості успіхів у колекції з $n$ незалежних експериментів з можливими відповідями "так" або "ні" та імовірностями успіху $p_{1},p_{2},\dots ,p_{n}$ . Звичайний біноміальний розподіл є спеціальним випадком біноміального розподілу Пуассона, коли всі ймовірності успіху однакові, тобто $p_{1}=p_{2}=\cdots =p_{n}$ .

Визначення

Функція ймовірностей

Імовірність $k$ успішних випробувань із загальної кількості $n$ можна записати у вигляді суми ^[1]

\Pr(K=k)=\sum \limits _{A\in F_{k}}\prod \limits _{i\in A}p_{i}\prod \limits _{j\in A^{c}}(1-p_{j})

,

де $F_{k}$ - це множина всіх підмножин з $k$ ∈ $\mathbb {Z}$ , вибрані з колекції $\{1,2,3,...,n\}$ . До прикладу розглянемо випадок, якщо $n$ = $3$ , тоді $F_{2}=\left\{\{1,2\},\{1,3\},\{2,3\}\right\}$ . $A^{c}$ є доповненням до $A$ , тобто $A^{c}=\{1,2,3,\dots ,n\}\setminus A$ .

Множина $F_{k}$ міститиме ${\frac {n!}{(n-k)!k!}}$ елементів. Цю суму не можливо обчислити на практиці, якщо кількість випробувань $n$ мала (наприклад, якщо $n$ = $30$ , $F_{15}$ містить понад $10$ ^$20$ елементів). Однак існують інші, більш ефективні способи обчислення $\Pr(K=k)$ .

Поки жодна з ймовірностей успіху дорівнюватиме одиниці, обчислити ймовірність $k$ успіхів можливо за рекурсивною формулою ^[2] ^[3]

\Pr(K=k)={\begin{cases}\prod \limits _{i=1}^{n}(1-p_{i})&k=0\\{\frac {1}{k}}\sum \limits _{i=1}^{k}(-1)^{i-1}\Pr(K=k-i)T(i)&k>0\\\end{cases}}

,

де

T(i)=\sum \limits _{j=1}^{n}\left({\frac {p_{j}}{1-p_{j}}}\right)^{i}.

Рекурсивна формула не є чисельно стійкою, тому, якщо кількість випробувань $n$ перевищувати $20$ їй треба шукати заміну. Альтернативою може стати використання алгоритму «розділяй і володарюй»: якщо ми припустимо, що $n=2^{b}$ є степенем двійки, тоді позначивши через $f(p_{i:j})$ біном Пуассона $p_{i},\dots ,p_{j}$ , а оператор згортки через $*$ , маємо наступне: $f(p_{1:2^{b}})=f(p_{1:2^{b-1}})*f(p_{2^{b-1}+1:2^{b}})$ .

Іншою можливістю є використання дискретного перетворення Фур'є . ^[4]

\Pr(K=k)={\frac {1}{n+1}}\sum \limits _{l=0}^{n}C^{-lk}\prod \limits _{m=1}^{n}\left(1+(C^{l}-1)p_{m}\right)

,

де $C=\exp \left({\frac {2i\pi }{n+1}}\right)$ і $i={\sqrt {-1}}$ .

Існують й інші методи обчислення ймовірностей описані в «Статистичних застосуваннях біноміального Пуассона та умовного розподілу Бернуллі» Чена та Лю. ^[5]

Кумулятивна функція розподілу

Кумулятивну функцію розподілу (CDF) можна виразити як:

$\Pr(K\leq k)=\sum _{l=0}^{k}\sum \limits _{A\in F_{l}}\prod \limits _{i\in A}p_{i}\prod \limits _{j\in A^{c}}(1-p_{j})$ ,

де $F_{l}$ — це множина всіх підмножин розміру 𝑙, які можна вибрати з колекції $\{1,2,3,...,n\}$ .

Властивості

Середнє значення та дисперсія

Оскільки змінна, що розподілена за законом біноміального розподілу Пуассона, є сумою $n$ незалежних змінних, що розподілені за законом Бернуллі, її середнє значення та дисперсія будуть просто сумою середнього значення та дисперсії цих $n$ розподілених змінних Бернуллі:

\mu =\sum \limits _{i=1}^{n}p_{i}

,

\sigma ^{2}=\sum \limits _{i=1}^{n}(1-p_{i})p_{i}

.

Для фіксованого середнього ( $\mu$ ) та розміру ( $n$ ), дисперсія максимальна, коли всі ймовірності успіху однакові (біноміальний розподіл). Коли середнє значення фіксоване, дисперсія обмежена зверху дисперсією розподілу Пуассона з тим самим середнім значенням, яке досягається асимптотично при наближенні $n$ до нескінченності.

Нерівність Чернова

Ймовірність того, що біноміальний розподіл Пуассона стає великим, може бути обмежена за допомогою його функції згортки моментів наступним чином (дійсна, коли $s\geq \mu$ і для будь-якого $t>0$ ):

{\begin{aligned}\Pr[S\geq s]&\leq \exp(-st)\operatorname {E} \left[\exp \left[t\sum _{i}X_{i}\right]\right]\\&=\exp(-st)\prod _{i}(1-p_{i}+e^{t}p_{i})\\&=\exp \left(-st+\sum _{i}\log \left(p_{i}(e^{t}-1)+1\right)\right)\\&\leq \exp \left(-st+\sum _{i}\log \left(\exp(p_{i}(e^{t}-1))\right)\right)\\&=\exp \left(-st+\sum _{i}p_{i}(e^{t}-1)\right)\\&=\exp \left(s-\mu -s\log {\frac {s}{\mu }}\right),\end{aligned}}

де ${\textstyle t=\log \left(s/\mu \right)}$ . Подібно до хвостових меж біноміального розподілу .

Обчислювальні методи

За посиланням ^[6] наведене обговорення методу оцінки функції маси ймовірності біноміального розподілу Пуассона. На ньому базуються наступні програмні реалізації:

Пакет R poibin був наданий разом із документом ^[6], який доступний для обчислення cdf, pmf, квантильної функції та генерації випадкових чисел біноміального розподілу Пуассона. Для обчислення PMF можна вказати алгоритм DFT або рекурсивний алгоритм для обчислення точного PMF, а також можна вказати методи апроксимації з використанням нормального розподілу та розподілу Пуассона.
poibin — реалізація Python — може обчислювати PMF і CDF, для цього використовує метод DFT, описаний у статті.

Дивись також

Теорема Ле Кама

Список літератури

↑ Wang, Y. H. (1993). On the number of successes in independent trials (PDF). Statistica Sinica. 3 (2): 295—312.
↑ Shah, B. K. (1994). On the distribution of the sum of independent integer valued random variables. American Statistician. 27 (3): 123—124. JSTOR 2683639.
↑ Chen, X. H.; A. P. Dempster; J. S. Liu (1994). Weighted finite population sampling to maximize entropy (PDF). Biometrika. 81 (3): 457. doi:10.1093/biomet/81.3.457.
↑ Fernandez, M.; S. Williams (2010). Closed-Form Expression for the Poisson-Binomial Probability Density Function. IEEE Transactions on Aerospace and Electronic Systems. 46 (2): 803—817. Bibcode:2010ITAES..46..803F. doi:10.1109/TAES.2010.5461658.
↑ Chen, S. X.; J. S. Liu (1997). Statistical Applications of the Poisson-Binomial and conditional Bernoulli distributions. Statistica Sinica. 7: 875—892.
↑ ^а ^б Hong, Yili (March 2013). On computing the distribution function for the Poisson binomial distribution. Computational Statistics & Data Analysis. 59: 41—51. doi:10.1016/j.csda.2012.10.006. Помилка цитування: Некоректний тег <ref>; назва «hong2013» визначена кілька разів з різним вмістом

[[Категорія:Факторіали і біноміальні коефіцієнти]] [[Категорія:Дискретні розподіли]]

[1] Wang, Y. H. (1993). On the number of successes in independent trials (PDF). Statistica Sinica. 3 (2): 295—312.

[2] Shah, B. K. (1994). On the distribution of the sum of independent integer valued random variables. American Statistician. 27 (3): 123—124. JSTOR 2683639.

[3] Chen, X. H.; A. P. Dempster; J. S. Liu (1994). Weighted finite population sampling to maximize entropy (PDF). Biometrika. 81 (3): 457. doi:10.1093/biomet/81.3.457.

[4] Fernandez, M.; S. Williams (2010). Closed-Form Expression for the Poisson-Binomial Probability Density Function. IEEE Transactions on Aerospace and Electronic Systems. 46 (2): 803—817. Bibcode:2010ITAES..46..803F. doi:10.1109/TAES.2010.5461658.

[5] Chen, S. X.; J. S. Liu (1997). Statistical Applications of the Poisson-Binomial and conditional Bernoulli distributions. Statistica Sinica. 7: 875—892.

[hong2013-6] а ^б Hong, Yili (March 2013). On computing the distribution function for the Poisson binomial distribution. Computational Statistics & Data Analysis. 59: 41—51. doi:10.1016/j.csda.2012.10.006. Помилка цитування: Некоректний тег <ref>; назва «hong2013» визначена кілька разів з різним вмістом

[1]

[2]

[3]

[4]

[5]

[6]