Апріорна ймовірність

У баєсовому статистичному висновуванні апріо́рний розпо́діл ймові́рності (англ. prior probability distribution), що часто називають просто апріо́рне (англ. prior), деякої невизначеної кількості — це розподіл ймовірності p, що виражатиме чиєсь переконання про цю кількість перед врахуванням якогось свідчення. Наприклад, p може бути розподілом ймовірності пропорції виборців, що голосуватимуть за певного політика на майбутніх виборах. Він приписує цій кількості швидше невизначеність, ніж випадковість. Ця невідома кількість може бути параметром або латентною змінною.

Теорема Баєса застосовується шляхом множення апріорного на функцію правдоподібності з наступним нормуванням для отримання апостеріорного розподілу ймовірності, що є умовним розподілом цієї невизначеної кількості з урахуванням отриманих даних.

Апріорне часто є чисто суб'єктивною оцінкою досвідченого фахівця. Дехто при можливості обиратиме спряжений апріорний розподіл для спрощення обчислення апостеріорного розподілу.

Параметри апріорних розподілів називають гіперпараметрами, щоби відрізняти їх від параметрів моделі базових даних. Наприклад, якщо хтось використовує бета-розподіл для моделювання розподілу параметра p розподілу Бернуллі, то:

p є параметром базової системи (розподілу Бернуллі), а
α та β є параметрами апріорного розподілу (бета-розподілу), тобто гіперпараметрами.

Інформативні апріорні

Інформативне апріорне виражає характерну, чітку інформацію про змінну. Прикладом є апріорний розподіл температури завтра опівдні. Розсудливим підходом є прийняття як апріорного нормального розподілу з математичним сподіванням, що дорівнює сьогоднішній полуденній температурі, та дисперсією, що дорівнює одноденній дисперсії атмосферної температури, або розподілом температури для цього дня року.

Цей приклад має спільні властивості з багатьма апріорними, тобто, апостеріорне однієї задачі (сьогоднішньої температури) стає апріорним іншої задачі (завтрашня температура); більш раннє свідчення, що вже було враховано, є частиною апріорного і, по мірі акумулювання наступних свідчень, апріорне починає визначатися все більше свідченнями, ніж будь-яким початковим припущенням, за умови, що це початкове припущення узгоджувалося з можливістю того, що підказувало свідчення. Терміни «апріорне» та «апостеріорне» загалом є відносними до певної області визначення або спостереження.

Неінформативні апріорні

Неінформативне апріорне виражає невиразну або загальну інформацію про змінну. Термін «неінформативне апріорне» є почасти викривленням; часто таке апріорне можна було би назвати не дуже інформативним апріорним, або об'єктивним апріорним, тобто таким, що не було виявлено суб'єктивно. Неінформативні апріорні можуть виражати «об'єктивну» інформацію, таку як «ця змінна є додатною», або «ця змінна є меншою за певну межу».

Найпростішим та найстарішим правилом визначення неінформативного апріорного є принцип нейтральності^[en], що приписує рівні ймовірності всім можливостям.

У задачах оцінки параметрів використання неінформативного апріорного зазвичай дає результати, що не надто відрізняються від звичайного статистичного аналізу, оскільки функція правдоподібності часто видає більше інформації, ніж неінформативне апріорне.

Робилися деякі спроби пошуку ймовірностей а пріорі, тобто розподілів ймовірності, що в певному сенсі логічно викликаються природою чийогось стану невпевненості; вони є предметом філософської суперечки, в якій баєсівці різко діляться на дві школи: «об'єктивні баєсівці», що переконані в існуванні таких апріорних для багатьох корисних ситуацій, та «суб'єктивні баєсівці», що переконані, що на практиці апріорні зазвичай представляють суб'єктивні судження думки, що не може бути суворо обґрунтовано.^[1] Можливо, найсильнішу аргументацію об'єктивного баєсизму було запропоновано Едвіном Джейнсом^[en], головним чином на підставі наслідків симетрії та принципу максимальної ентропії^[en].

Як приклад апріорного а пріорі,^[2] розгляньмо ситуацію, в якій відомо, що під одним із наперстків A, B та C сховано кульку, але інша інформація про її місцезнаходження відсутня. В цьому випадку рівномірне апріорне p(A) = p(B) = p(C) = 1/3 інтуїтивно здається єдиним розумним вибором. Формальніше, ми бачимо, що задача залишається такою ж, якщо ми переміняємо мітки («A», «B» та «C») наперстків. Відтак було би дивним обирати апріорне, для якого переміна міток спричинила би зміну в наших передбаченнях стосовно того, під яким із них знайдеться кулька; рівномірне апріорне є єдиним, що зберігає цю інваріантність. Якщо прийняти цей принцип інваріантності, то можна побачити, що рівномірне апріорне є логічно правильним апріорним для представлення цього стану знання. Варто зауважити, що це апріорне є «об'єктивним» у сенсі того, що воно є правильним вибором для представлення певного типу знання, але воно не є об'єктивним у сенсі того, щоби бути незалежною від спостерігача властивістю світу: в реальності кулька існує під певним наперстком, і в цій ситуації говорити про ймовірності має сенс лише якщо є спостерігач із обмеженим знанням про дану систему.

Як більш спірний приклад Джейнс опублікував^[3] аргументацію на основі груп Лі, яка підказує, що апріорне, що представляє повну невизначеність про ймовірність, повинне бути апріорним Голдейна p⁻¹(1 − p)⁻¹. Прикладом, що наводить Джейнс, є повторні експерименти із знаходження хімікату в лабораторії, й ставлення питання, чи розчиняється він у воді. Апріорне Голдейна^[4]^[5] дає щоразу більше ваги $p=0$ та $p=1$ , показуючи, що зразок або кожного разу розчинятиметься, або ніколи не розчинятиметься, з однаковою ймовірністю. Однак, якщо спостерігатимуться зразки хімікату, що розчиняється в одному експерименті, і не розчинятиметься в іншому, тоді апріорне уточнюватиметься до рівномірного розподілу на відрізку [0, 1]. Це отримується застосуванням теореми Баєса до набору даних, що складається з одного спостереження розчинення й одного не розчинення, з використанням наведеного вище апріорного. Апріорне Голдейна критикувалося^[ким?] на тій підставі, що воно видає некоректний апостеріорний розподіл, що розташовує 100% вмісту ймовірності або в p = 0, або в p = 1, якщо скінченна кількість спостережень видали однаковий результат. Тому перевага віддається^[ким?] апріорному Джеффріса^[en] (див. нижче).

Може бути побудовано апріорні, пропорційні мірі Хаара, якщо параметричний простір X має структуру природної групи, що залишає інваріантним наш баєсів стан знання.^[3] Це може розглядатися як узагальнення принципу інваріантності, що використовується для підтвердження рівномірного апріорного над трьома наперстками у наведеному вище прикладі. Наприклад, у фізиці ми можемо очікувати, що експеримент даватиме однакові результати незалежно від нашого вибору початку системи координат. Це спричиняє групову структуру групи трансляції на X, що визначатиме апріорну ймовірність як постійну некоректну апріорну ймовірність. Аналогічно, деякі вимірювання є природно інваріантними до вибору довільного масштабу (наприклад, чи використовуються сантиметри, чи дюйми, фізичні результати будуть однаковими). В такому випадку група масштабування є структурою природної групи, і відповідне апріорне на X є пропорційним до 1/x. Іноді має значення, чи ми використовуємо лівоінваріантну, чи правоінваріантну міру Хаара. Наприклад, ліво- та правоінваріантні міри Хаара на афінній групі^[en] не є рівними. Бергер доводить,^[6] що правильним вибором є право-інваріантна міра Хаара.

Іншою ідеєю, яку обстоює Едвін Джейнс^[en], є використання принципу максимальної ентропії^[en] (англ. MAXENT). Спонукою є те, що ентропія Шеннона розподілу ймовірності вимірює кількість інформації, що міститься в розподілі. Що більшою є ентропія, то менше інформації надається цим розподілом. Отже, максимізуючи ентропію над придатним набором розподілів ймовірностей на X, можна знайти розподіл, що є найменш інформативним у тому сенсі, що він містить найменше інформації, відповідної до обмежень, що визначають цей набір. Наприклад, апріорне з максимальною ентропією на дискретному просторі, якщо задано лише те, що ймовірність нормується до 1, є апріорним, що призначає рівні ймовірності кожному станові. А в неперервному випадку апріорне з максимальною ентропією, якщо задано, що щільність нормалізується з нульовим середнім та одиничною дисперсією, є нормальним розподілом. Принцип мінімальної перехресної ентропії (англ. MINXENT) узагальнює принцип максимальної ентропії до випадку «уточнення» довільного апріорного розподілу придатними обмеженнями у максимально-ентропійному сенсі.

Споріднену ідею, референтне апріорне, було запропоновано Хосе-Мігелем Бернардо^[en].^[7] Тут ідея в тому, щоби максимізувати очікувану відстань Кульбака — Лейблера апостеріорного розподілу відносно апріорного. Це максимізує очікувану апостеріорну інформацію про X, коли апріорною щільністю є p(x); отже, у певному сенсі, p(x) є «найменш інформативним» апріорним X. Референтне апріорне визначається в асимптотичній границі, тобто, розглядається границя апріорних, отриманих таким чином, що кількість точок даних прямує до нескінченності. Референтні апріорні часто обирають як об'єктивні апріорні у багатовимірних задачах, оскільки інші правила (наприклад, правило Джеффріса^[en]) можуть призводити до апріорних із проблематичною поведінкою.

Об'єктивні апріорні розподіли можуть також виводитися з інших принципів, таких як теорії інформації та кодування (див., наприклад, мінімальну довжину опису) або частотна статистика (див. частотне парування). Такі методи застосовуються в теорії індуктивного висновування Соломонова^[en].

Філософські проблеми, пов'язані з неінформативними апріорними, пов'язано з вибором відповідної метрики, або шкали вимірювання. Припустімо, нам потрібне апріорне швидкості невідомого нам бігуна. Ми могли би вказати, скажімо, нормальний розподіл як апріорне його швидкості, але з іншого боку ми могли би вказати нормальний розподіл часу, що він витрачає на подолання 100 метрів, що є пропорційним до величини, зворотної першому апріорному. Це є дуже різні апріорні, але не ясно, якому з них віддати перевагу. Метод груп перетворень^[en] Джейнса, що часто не беруть до уваги, в деяких випадках може давати відповідь на це питання.^[3]^[8]

Аналогічно, якщо стоїть питання оцінки розподілу невідомої пропорції між 0 та 1, ми могли би сказати, що всі пропорції є однаково правдоподібними, й скористатися рівномірним розподілом. З іншого боку, ми могли би сказати, що однаково правдоподібними є порядки величини пропорцій, логарифмічне апріорне, що є рівномірним апріорним логарифму пропорції. Апріорне Джеффріса^[en] намагається розв'язати цю задачу шляхом обчислення апріорного, що виражає однакове переконання не залежно від вживаної метрики. Апріорним Джеффріса для невідомої пропорції p є p^−1/2(1 − p)^−1/2, що відрізняється від рекомендації Джейнса.

Апріорні, засновані на поняттях алгоритмічної ймовірності^[en], застосовуються в індуктивному висновуванні як база для індукції у дуже загальних умовах.

Практичні проблеми, пов'язані з неінформативними апріорними, включають вимогу того, щоби апостеріорний розподіл був коректним. Звичайні неінформативні апріорні на неперервних не обмежених змінних є некоректним. Це не повинне бути проблемою, якщо апостеріорний розподіл є коректним. Ще одна важлива проблема полягає в тому, що якщо неінформативне апріорне використовуватиметься регулярно, тобто, з багатьма різними наборами даних, то воно повинно мати добрі частотні властивості. Баєсової ймовірності ці проблеми зазвичай не стосуватимуться, але вони можуть бути важливими у даній ситуації. Наприклад, можна забажати, щоби правило рішення на базі апостеріорного розподілу було прийнятним^[en] за прийнятої функції втрат. На жаль, прийнятність часто важко перевірити, хоча деякі результати відомі.^[9] Ця проблема стоїть особливо гостро з ієрархічними баєсовими моделями; звичайні апріорні (наприклад, Джеффріса) можуть давати вкрай неприйнятні правила рішення, якщо застосовуватимуться на вищих рівнях ієрархії.

Некоректні апріорні

Нехай події $A_{1},A_{2},\ldots ,A_{n}$ є взаємовиключними та вичерпними. Якщо теорему Баєса записано як

P(A_{i}|B)={\frac {P(B|A_{i})P(A_{i})}{\sum _{j}P(B|A_{j})P(A_{j})}}\,,

то ясно, що такий самий результат було би отримано, якби всі апріорні ймовірності P(A_i) та P(A_j) було помножено на задану сталу; те саме справедливе для неперервної випадкової змінної. Якщо сума у знаменнику сходиться, то апостеріорні ймовірності так само даватимуть в сумі (або інтегралі) 1, навіть якщо апріорні значення цього не роблять, і таким чином апріорні можуть вимагати вказання лише в правильній пропорції. У розвиток цієї ідеї, в багатьох випадках сумі або інтегралові апріорних значень може навіть не бути потрібним бути скінченним для отримання змістовних відповідей для апостеріорних ймовірностей. У такому випадку апріорне називається некоре́ктним апріо́рним. Проте апостеріорний розподіл повинен бути коректним розподілом, якщо апріорний є некоректним. Це ясно з випадку, коли подія B не залежить від жодної з A_j.

Статистики іноді^{[джерело?]} використовують некоректні апріорні як неінформативні. Наприклад, якщо їм потрібен апріорний розподіл для середнього значення та дисперсії випадкової змінної, вони можуть розглядати p(m, v) ~ 1/v (для v > 0), що пропонуватиме «однакову правдоподібність» для всіх середніх значень, та те, що додатна дисперсія стає «менш правдоподібною» у зворотній пропорції до її значення. Багато авторів^[10]^[11]^{[джерело?]}^[12] застерігають про небезпеку переінтерпретації цих апріорних, оскільки вони не є густинами ймовірності. Єдина їхня доречність знаходиться у відповідному апостеріорному, допоки воно є однозначним для всіх спостережень. (Типовим контрприкладом є апріорне Голдейна.^{[прояснити: ком.]}^{[джерело?]})

Приклади

Приклади некоректних апріорних включають:

Β(0,0), бета-розподіл для α=0, β=0.
Рівномірний розподіл на нескінченному інтервалі (тобто, половина або вся дійсна пряма).
Логарифмічне апріорне на додатних дійсних числах^{[джерело?]}

Інші апріорні

Концепція алгоритмічної ймовірності^[en] забезпечує шлях для визначення апріорних ймовірностей на підставі відносної складності альтернативних моделей, що розглядаються.

Посилання

↑ Williamson, 2010.
↑ Jaynes, 2003.
↑ ^а ^б ^в Jaynes, 1968.
↑ Haldane, 1932.
↑ Haldane, 1948.
↑ Berger, 1985, с. 413.
↑ Bernardo, 1979.
↑ Jaynes, 2003, розділ 12 (зауважте, що розділ 12 не доступний в електронному препринті, але його можна бачити в попередньому перегляді у Google Books).
↑ Berger та Strawderman, 1996.
↑ Lindley, 1973.
↑ De Groot, 1937.
↑ Kass та Wasserman, 1996.

Література

Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). Bayesian Data Analysis (вид. III). CRC Press. ISBN 978-1439840955. Архів оригіналу за 26 червня 2015. Процитовано 26 червня 2015. (англ.)
Berger, James O. (1985). Statistical decision theory and Bayesian analysis. Berlin: Springer-Verlag. ISBN 0-387-96098-8. MR 0804611. (англ.)
Berger, James O.; Strawderman, William E. (1996). Choice of hierarchical priors: admissibility in estimation of normal means. Annals of Statistics^[en]. 24 (3): 931—951. doi:10.1214/aos/1032526950. MR 1401831. Zbl 0865.62004. (англ.)
Bernardo, Jose M. (1979). Reference Posterior Distributions for Bayesian Inference. Journal of the Royal Statistical Society^[en], Series B. 41 (2): 113—147. JSTOR 2985028. MR 0547240. (англ.)
James O. Berger; José M. Bernardo; Dongchu Sun (2009). The formal definition of reference priors. Annals of Statistics. 37 (2): 905—938. arXiv:0904.0156. doi:10.1214/07-AOS587. (англ.)
Jaynes, Edwin T. (Sep 1968). Prior Probabilities (PDF). IEEE Transactions on Systems Science and Cybernetics. 4 (3): 227—241. doi:10.1109/TSSC.1968.300117. Архів оригіналу (PDF) за 20 липня 2011. Процитовано 27 березня 2009. (англ.)
- Reprinted in Rosenkrantz, Roger D. (1989). E. T. Jaynes: papers on probability, statistics, and statistical physics. Boston: Kluwer Academic Publishers. с. 116—130. ISBN 90-277-1448-7. (англ.)
Jaynes, Edwin T. (2003). Probability Theory: The Logic of Science. Cambridge University Press. ISBN 0-521-59271-2. Архів оригіналу за 8 листопада 2020. (англ.)
Williamson, Jon (2010). review of Bruno di Finetti. Philosophical Lectures on Probability (PDF). Philosophia Mathematica. 18 (1): 130—135. doi:10.1093/philmat/nkp019. Архів оригіналу (PDF) за 9 червня 2011. Процитовано 2 липня 2010. (англ.)
Haldane, J.B.S. (1932). A note on inverse probability. Mathematical Proceedings of the Cambridge Philosophical Society. 28: 55—61. doi:10.1017/s0305004100010495. Архів оригіналу за 23 червня 2015. Процитовано 23 червня 2015. (англ.)
Haldane, J.B.S. (1948). The precision of observed values of small frequencies. Biometrika. 35: 297—300. doi:10.2307/2332350. (англ.)
Lindley, Dennis Victor (1973). Making decisions. London: Wiley. (англ.)
Kass, Robert E.; Wasserman, Larry (1996). The Selection of Prior Distributions by Formal Rules. Journal of the American Statistical Association. 91 (435): 1343—1370. doi:10.1080/01621459.1996.10477003. (англ.)

[FOOTNOTEWilliamson2010-1] Williamson, 2010.

[FOOTNOTEJaynes2003-2] Jaynes, 2003.

[FOOTNOTEJaynes1968-3] а ^б ^в Jaynes, 1968.

[FOOTNOTEHaldane1932-4] Haldane, 1932.

[FOOTNOTEHaldane1948-5] Haldane, 1948.

[FOOTNOTEBerger1985413-6] Berger, 1985, с. 413.

[FOOTNOTEBernardo1979-7] Bernardo, 1979.

[FOOTNOTEJaynes2003розділ_12_(зауважте,_що_розділ_12_не_доступний_в_електронному_препринті,_але_його_можна_бачити_в_попередньому_перегляді_у_Google_Books)-8] Jaynes, 2003, розділ 12 (зауважте, що розділ 12 не доступний в електронному препринті, але його можна бачити в попередньому перегляді у Google Books).

[FOOTNOTEBergerStrawderman1996-9] Berger та Strawderman, 1996.

[FOOTNOTELindley1973-10] Lindley, 1973.

[FOOTNOTEDe_Groot1937-11] De Groot, 1937.

[FOOTNOTEKassWasserman1996-12] Kass та Wasserman, 1996.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]