Достатня статистика для параметра
що визначає деяке сімейство
розподілів ймовірності — статистика
така, що умовна імовірність вибірки
при даному значенні
не залежить від параметра
Тобто виконується рівність:
![{\displaystyle \mathbb {P} (X\in {\bar {X}}|\mathrm {T} (X)=t,\theta )=\mathbb {P} (X\in {\bar {X}}|\mathrm {T} (X)=t),\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7a80fa19153661eaca9dcca246609c37d19d6d0a)
Достатня статистика
таким чином містить у собі всю інформацію про параметр
що може бути одержана на основі вибірки X. Тому поняття достатньої статистики широко використовується в теорії оцінки параметрів.
Найпростішою достатньою статистикою є сама вибірка
проте справді важливими є випадки коли величина достатньої статистики значно менша від величини вибірки, зокрема коли достатня статистика виражається лише кількома числами.
Достатня статистика
називається мінімальною достатньою, якщо для кожної достатньої статистики T існує невипадкова вимірна функція g, що
майже напевно.
Теорема факторизації дає спосіб практичного знаходження достатньої статистики для розподілу ймовірності. Вона дає достатні і необхідні умови достатності статистики і твердження теореми іноді використовується як означення.
Нехай
— деяка статистика, а
— умовна функція щільності чи функція ймовірностей (залежно від виду розподілу) для вектора спостережень X. Тоді
є достатньою статистикою для параметра
якщо і тільки якщо існують такі вимірні функції h і g, що можна записати:
![{\displaystyle f_{\theta }(x)=h(x)\,g(\theta ,\mathrm {T} (x))\,\!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/94f462f3c8cb5b25ba66ba959d0c5248a0181468)
Нижче подано доведення для часткового випадку коли розподіл ймовірностей є дискретним. Тоді
— функція ймовірностей. Нехай дана функція має факторизацію, як у твердженні теореми і
Тоді маємо:
![{\displaystyle {\begin{aligned}\mathbb {P} (X=x|\mathrm {T} (X)=t,\theta )&={\frac {\mathbb {P} (X=x|\theta )}{\mathbb {P} (\mathrm {T} (X)=t|\theta )}}&={\frac {h(x)\,g(\theta ,\mathrm {T} (x))}{\sum _{x:\mathrm {T} (x)=t}h(x)\,g(\theta ,\mathrm {T} (x))}}\\&={\frac {h(x)\,g(\theta ,t)}{\sum _{x:\mathrm {T} (x)=t}h(x)\,g(\theta ,t)}}&={\frac {h(x)\,}{\sum _{x:\mathrm {T} (x)=t}h(x)\,}}.\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/88e1a5b80a6a9954d9f3f3c2dfcc9f6f2e2e3776)
Звідси бачимо, що умовна ймовірність вектора X при заданому значенні статистики
не залежить від параметра і відповідно
— достатня статистика.
Навпаки можемо записати:
![{\displaystyle \mathbb {P} (X=x|\theta )=\mathbb {P} (X=x|\mathrm {T} (X)=t,\theta )\cdot \mathbb {P} (\mathrm {T} (X)=t|\theta ).\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d4eea90e1b7ff1bbbc6b273d264e182dc0e0e50a)
З попереднього маємо, що перший множник правої сторони не залежить від параметра
і його можна взяти за функцію h(x) з твердження теореми. Другий множник є функцією від
і
і його можна взяти за функцію
Таким чином одержано необхідний розклад, що завершує доведення теореми.
Нехай
— послідовність випадкових величин, що рівні 1 з імовірністю p і рівні 0 з імовірністю 1 - p (тобто мають розподіл Бернуллі). Тоді
![{\displaystyle \mathbb {P} (x_{1},\ldots x_{n}|p)=p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}=p^{\mathrm {T} (x)}(1-p)^{n-\mathrm {T} (x)}\,\!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4372b14398c2e27b1dad4130957ce8bfe1b65183)
якщо взяти
Тоді дана статистика є достатньою згідно з теоремою факторизації, якщо позначити
![{\displaystyle g(p,\mathrm {T} (x_{1},\ldots x_{n}))=p^{\mathrm {T} (x_{1},\ldots x_{n})}(1-p)^{n-\mathrm {T} (x_{1},\ldots x_{n})}\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b8c5000d7d8d22ebc3bf9ad3c70eccdee058983c)
![{\displaystyle h(x_{1},\ldots x_{n})=1}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bd951118af4bb9ab1fce5f0d0423b9cdbaaddf12)
Нехай
— послідовність випадкових величин з розподілом Пуассона. Тоді
![{\displaystyle \mathbb {P} (x_{1},\ldots x_{n}|\lambda )={e^{-\lambda }\lambda ^{x_{1}} \over x_{1}!}\cdot {e^{-\lambda }\lambda ^{x_{2}} \over x_{2}!}\cdots {e^{-\lambda }\lambda ^{x_{n}} \over x_{n}!}=e^{-n\lambda }\lambda ^{(x_{1}+x_{2}+\cdots +x_{n})}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}=e^{-n\lambda }\lambda ^{\mathrm {T} (x)}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/06fa5317350ab9ac4ed08bd423384def3702ad39)
де
Дана статистика є достатньою згідно з теоремою факторизації, якщо позначити
![{\displaystyle g(p,\mathrm {T} (x_{1},\ldots x_{n}))=e^{-n\lambda }\lambda ^{\mathrm {T} (x)}\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c540ee72872fac0d7886d615b5ab5d91d8fc11e2)
![{\displaystyle h(x_{1},\ldots x_{n})={1 \over x_{1}!x_{2}!\cdots x_{n}!}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/77764234936b631d2a85d4ef8ccd25e2c3a3c5c9)
Нехай
— послідовність рівномірно розподілених випадкових величин
. Для цього випадку
![{\displaystyle \mathbb {P} (x_{1},\ldots x_{n}|\lambda )=\left(b-a\right)^{-n}\mathbf {1} _{\{a\,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,b\}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/584f713afbefbebc3d85d6f558da75858c766002)
Звідси випливає, що статистика
є достатньою.
Для випадкових величин
з нормальним розподілом
достатньою статистикою буде
- Для достатньої статистики T та бієктивного відображення
статистика
теж є достатньою.
- Якщо
— статистична оцінка деякого параметра
— деяка достатня статистика і
то
є кращою оцінкою параметра в сенсі середньоквадратичного відхилення, тобто виконується нерівність
![{\displaystyle {\textrm {E}}[(\delta _{1}(X)-\vartheta )^{2}]\leq {\textrm {E}}[(\delta (X)-\vartheta )^{2}]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c2b1eb50d63790708e117e16b69298c7cba3ad67)
- причому рівність досягається лише коли
є вимірною функцією від T. (Теорема Рао — Блеквела)
- З попереднього одержується, що оцінка може бути оптимальною в сенсі середньоквадратичного відхилення лише коли вона є вимірною функцією мінімальної достатньої статистики.
- Якщо статистика
є достатньою і повною (тобто з того, що
випливає, що
), то довільна вимірна функція від неї є оптимальною оцінкою свого математичного сподівання.