Ба́єсова ліні́йна регре́сія в статистиці — це підхід до лінійної регресії , в якому статистичний аналіз застосовується в контексті баєсового висновування . Якщо помилки регресійної моделі мають нормальний розподіл і якщо розглядається певна форма апріорного розподілу , то для апостеріорного розподілу ймовірності параметрів моделі доступні точні результати.
Розгляньмо стандартну задачу лінійної регресії , в якій для
i
=
1
,
.
.
.
,
n
{\displaystyle i=1,...,n}
ми вказуємо умовну ймовірність
y
i
{\displaystyle y_{i}}
для заданого вектора
k
×
1
{\displaystyle k\times 1}
провісників
x
i
{\displaystyle \mathbf {x} _{i}}
:
y
i
=
x
i
T
β
+
ϵ
i
,
{\displaystyle y_{i}=\mathbf {x} _{i}^{\rm {T}}{\boldsymbol {\beta }}+\epsilon _{i},}
де
β
{\displaystyle {\boldsymbol {\beta }}}
є вектором завдовжки
k
×
1
{\displaystyle k\times 1}
, а
ϵ
i
{\displaystyle \epsilon _{i}}
є незалежними однаково розподіленими випадковими величинами з нормальним розподілом :
ϵ
i
∼
N
(
0
,
σ
2
)
.
{\displaystyle \epsilon _{i}\sim N(0,\sigma ^{2}).}
Це відповідає такій функції правдоподібності :
ρ
(
y
|
X
,
β
,
σ
2
)
∝
(
σ
2
)
−
n
/
2
exp
(
−
1
2
σ
2
(
y
−
X
β
)
T
(
y
−
X
β
)
)
.
{\displaystyle \rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right).}
Розв'язком звичайних найменших квадратів [en] є оцінка вектора коефіцієнтів за допомогою псевдообернення Мура-Пенроуза :
β
^
=
(
X
T
X
)
−
1
X
T
y
{\displaystyle {\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} }
де
X
{\displaystyle \mathbf {X} }
є матрицею плану [en]
n
×
k
{\displaystyle n\times k}
, кожен з рядків якої є вектором провісників
x
i
T
{\displaystyle \mathbf {x} _{i}^{\rm {T}}}
, а
y
{\displaystyle \mathbf {y} }
є вектором-стовпцем
[
y
1
⋯
y
n
]
T
{\displaystyle [y_{1}\;\cdots \;y_{n}]^{\rm {T}}}
.
Це є частотним підходом, що передбачає наявність достатньої кількості вимірювань, щоби сказати щось суттєве про
β
{\displaystyle {\boldsymbol {\beta }}}
. За баєсового ж підходу дані надаються з додатковою інформацією у вигляді апріорного розподілу ймовірності . Ці апріорні переконання про параметри поєднуються з функцією правдоподібності даних згідно з теоремою Баєса для отримання апостеріорного переконання про параметри
β
{\displaystyle {\boldsymbol {\beta }}}
та
σ
{\displaystyle \sigma }
. Це апріорне може мати різний функціональний вигляд в залежності від області визначення та інформації, що доступна апріорі.
Для довільного апріорного розподілу може не існувати аналітичного розв'язку задачі пошуку апостеріорного розподілу . В цьому розділі ми розглянемо так зване спряжене апріорне , для якого апостеріорний розподіл може бути виведено аналітично.
Апріорне
ρ
(
β
,
σ
2
)
{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2})}
є спряженим до функції правдоподібності, якщо вона має такий самий функційний вигляд по відношенню до
β
{\displaystyle {\boldsymbol {\beta }}}
та
σ
{\displaystyle \sigma }
. Оскільки логарифмічна правдоподібність є квадратичною в
β
{\displaystyle {\boldsymbol {\beta }}}
, логарифмічна правдоподібність переписується так, що правдоподібність стає нормальною в
(
β
−
β
^
)
{\displaystyle ({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})}
. Запишімо
(
y
−
X
β
)
T
(
y
−
X
β
)
=
(
y
−
X
β
^
)
T
(
y
−
X
β
^
)
+
(
β
−
β
^
)
T
(
X
T
X
)
(
β
−
β
^
)
.
{\displaystyle {\begin{aligned}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\\&+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}}).\end{aligned}}}
Логарифмічна правдоподібність тепер переписується як
ρ
(
y
|
X
,
β
,
σ
2
)
∝
(
σ
2
)
−
v
/
2
exp
(
−
v
s
2
2
σ
2
)
(
σ
2
)
−
(
n
−
v
)
/
2
×
exp
(
−
1
2
σ
2
(
β
−
β
^
)
T
(
X
T
X
)
(
β
−
β
^
)
)
,
{\displaystyle {\begin{aligned}\rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})&\propto (\sigma ^{2})^{-v/2}\exp \left(-{\frac {vs^{2}}{2{\sigma }^{2}}}\right)(\sigma ^{2})^{-(n-v)/2}\\&\times \exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\right),\end{aligned}}}
де
v
s
2
=
(
y
−
X
β
^
)
T
(
y
−
X
β
^
)
,
{\displaystyle vs^{2}=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}),}
та
v
=
n
−
k
,
{\displaystyle v=n-k,}
де
k
{\displaystyle k}
є кількістю коефіцієнтів регресії.
Це підказує такий вигляд апріорного:
ρ
(
β
,
σ
2
)
=
ρ
(
σ
2
)
ρ
(
β
|
σ
2
)
,
{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2})=\rho (\sigma ^{2})\rho ({\boldsymbol {\beta }}|\sigma ^{2}),}
де
ρ
(
σ
2
)
{\displaystyle \rho (\sigma ^{2})}
є оберненим гамма-розподілом
ρ
(
σ
2
)
∝
(
σ
2
)
−
(
v
0
/
2
+
1
)
exp
(
−
v
0
s
0
2
2
σ
2
)
.
{\displaystyle \rho (\sigma ^{2})\propto (\sigma ^{2})^{-(v_{0}/2+1)}\exp \left(-{\frac {v_{0}s_{0}^{2}}{2{\sigma }^{2}}}\right).}
У записі, запропонованому в статті про обернений гамма-розподіл , це є густиною розподілу
Inv-Gamma
(
a
0
,
b
0
)
{\displaystyle {\text{Inv-Gamma}}(a_{0},b_{0})}
з
a
0
=
v
0
/
2
{\displaystyle a_{0}=v_{0}/2}
та
b
0
=
1
2
v
0
s
0
2
{\displaystyle b_{0}={\frac {1}{2}}v_{0}s_{0}^{2}}
з
v
0
{\displaystyle v_{0}}
та
s
0
2
{\displaystyle s_{0}^{2}}
як апріорних значень
v
{\displaystyle v}
та
s
2
{\displaystyle s^{2}}
відповідно. Рівносильно, це також може бути описано як зважений обернений розподіл хі-квадрат [en] ,
Scale-inv-
χ
2
(
v
0
,
s
0
2
)
.
{\displaystyle {\mbox{Scale-inv-}}\chi ^{2}(v_{0},s_{0}^{2}).}
Далі густина умовного апріорного
ρ
(
β
|
σ
2
)
{\displaystyle \rho ({\boldsymbol {\beta }}|\sigma ^{2})}
є нормальним розподілом ,
ρ
(
β
|
σ
2
)
∝
(
σ
2
)
−
k
/
2
exp
(
−
1
2
σ
2
(
β
−
μ
0
)
T
Λ
0
(
β
−
μ
0
)
)
.
{\displaystyle \rho ({\boldsymbol {\beta }}|\sigma ^{2})\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}\mathbf {\Lambda } _{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right).}
У записі нормального розподілу густина умовного апріорного є
N
(
μ
0
,
σ
2
Λ
0
−
1
)
.
{\displaystyle {\mathcal {N}}\left({\boldsymbol {\mu }}_{0},\sigma ^{2}\mathbf {\Lambda } _{0}^{-1}\right).}
Із вже визначеним апріорним, апостеріорний розподіл може бути виражено як
ρ
(
β
,
σ
2
|
y
,
X
)
∝
ρ
(
y
|
X
,
β
,
σ
2
)
ρ
(
β
|
σ
2
)
ρ
(
σ
2
)
{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto \rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\rho ({\boldsymbol {\beta }}|\sigma ^{2})\rho (\sigma ^{2})}
∝
(
σ
2
)
−
n
/
2
exp
(
−
1
2
σ
2
(
y
−
X
β
)
T
(
y
−
X
β
)
)
{\displaystyle \propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right)}
×
(
σ
2
)
−
k
/
2
exp
(
−
1
2
σ
2
(
β
−
μ
0
)
T
Λ
0
(
β
−
μ
0
)
)
{\displaystyle \times (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right)}
×
(
σ
2
)
−
(
a
0
+
1
)
exp
(
−
b
0
σ
2
)
.
{\displaystyle \times (\sigma ^{2})^{-(a_{0}+1)}\exp \left(-{\frac {b_{0}}{{\sigma }^{2}}}\right).}
За певного переформулювання[ 1] апостеріорне може бути переписано так, що апостеріорне середнє
μ
n
{\displaystyle {\boldsymbol {\mu }}_{n}}
вектора параметрів
β
{\displaystyle {\boldsymbol {\beta }}}
може бути виражено в термінах оцінки найменших квадратів
β
^
{\displaystyle {\hat {\boldsymbol {\beta }}}}
та апріорного середнього
μ
0
{\displaystyle {\boldsymbol {\mu }}_{0}}
, де підтримка апріорного вказується матрицею точності апріорного
Λ
0
{\displaystyle {\boldsymbol {\Lambda }}_{0}}
μ
n
=
(
X
T
X
+
Λ
0
)
−
1
(
X
T
X
β
^
+
Λ
0
μ
0
)
.
{\displaystyle {\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}(\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}).}
Для підтвердження того, що
μ
n
{\displaystyle {\boldsymbol {\mu }}_{n}}
дійсно є апостеріорним середнім, квадратні члени в експоненті може бути переформульовано як квадратичну форму [en] в
β
−
μ
n
{\displaystyle {\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n}}
.[ 2]
(
y
−
X
β
)
T
(
y
−
X
β
)
+
(
β
−
μ
0
)
T
Λ
0
(
β
−
μ
0
)
=
{\displaystyle (\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})+({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})=}
(
β
−
μ
n
)
T
(
X
T
X
+
Λ
0
)
(
β
−
μ
n
)
+
y
T
y
−
μ
n
T
(
X
T
X
+
Λ
0
)
μ
n
+
μ
0
T
Λ
0
μ
0
.
{\displaystyle ({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})+\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}.}
Тепер апостеріорне може бути виражено як добуток нормального розподілу на обернений гамма-розподіл :
ρ
(
β
,
σ
2
|
y
,
X
)
∝
(
σ
2
)
−
k
/
2
exp
(
−
1
2
σ
2
(
β
−
μ
n
)
T
(
X
T
X
+
Λ
0
)
(
β
−
μ
n
)
)
{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +\mathbf {\Lambda } _{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})\right)}
×
(
σ
2
)
−
(
n
+
2
a
0
)
/
2
−
1
exp
(
−
2
b
0
+
y
T
y
−
μ
n
T
(
X
T
X
+
Λ
0
)
μ
n
+
μ
0
T
Λ
0
μ
0
2
σ
2
)
.
{\displaystyle \times (\sigma ^{2})^{-(n+2a_{0})/2-1}\exp \left(-{\frac {2b_{0}+\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}}{2{\sigma }^{2}}}\right).}
Отже, апостеріорний розподіл може бути параметризовано таким чином.
ρ
(
β
,
σ
2
|
y
,
X
)
∝
ρ
(
β
|
σ
2
,
y
,
X
)
ρ
(
σ
2
|
y
,
X
)
,
{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto \rho ({\boldsymbol {\beta }}|\sigma ^{2},\mathbf {y} ,\mathbf {X} )\rho (\sigma ^{2}|\mathbf {y} ,\mathbf {X} ),}
де ці два множники відповідають густинам розподілів
N
(
μ
n
,
σ
2
Λ
n
−
1
)
{\displaystyle {\mathcal {N}}\left({\boldsymbol {\mu }}_{n},\sigma ^{2}{\boldsymbol {\Lambda }}_{n}^{-1}\right)}
та
Inv-Gamma
(
a
n
,
b
n
)
{\displaystyle {\text{Inv-Gamma}}\left(a_{n},b_{n}\right)}
, з їхніми параметрами, що задаються як
Λ
n
=
(
X
T
X
+
Λ
0
)
,
μ
n
=
(
Λ
n
)
−
1
(
X
T
X
β
^
+
Λ
0
μ
0
)
,
{\displaystyle {\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +\mathbf {\Lambda } _{0}),\quad {\boldsymbol {\mu }}_{n}=({\boldsymbol {\Lambda }}_{n})^{-1}(\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}),}
a
n
=
a
0
+
n
2
,
b
n
=
b
0
+
1
2
(
y
T
y
+
μ
0
T
Λ
0
μ
0
−
μ
n
T
Λ
n
μ
n
)
.
{\displaystyle a_{n}=a_{0}+{\frac {n}{2}},\qquad b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\rm {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).}
Це може інтерпретуватися як баєсове навчання, де параметри уточнюються відповідно до наступних рівнянь.
μ
n
=
(
X
T
X
+
Λ
0
)
−
1
(
Λ
0
μ
0
+
X
T
X
β
^
)
=
(
X
T
X
+
Λ
0
)
−
1
(
Λ
0
μ
0
+
X
T
y
)
,
{\displaystyle {\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}})=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+\mathbf {X} ^{\rm {T}}\mathbf {y} ),}
Λ
n
=
(
X
T
X
+
Λ
0
)
,
{\displaystyle {\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}),}
a
n
=
a
0
+
n
2
,
{\displaystyle a_{n}=a_{0}+{\frac {n}{2}},}
b
n
=
b
0
+
1
2
(
y
T
y
+
μ
0
T
Λ
0
μ
0
−
μ
n
T
Λ
n
μ
n
)
.
{\displaystyle b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\rm {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).}
Свідчення моделі
p
(
y
|
m
)
{\displaystyle p(\mathbf {y} |m)}
є ймовірністю даних за заданої моделі
m
{\displaystyle m}
. Воно також відоме як відособлена правдоподібність , а також як передбачувана апріорна густина. Тут модель визначається функцією правдоподібності
p
(
y
|
X
,
β
,
σ
)
{\displaystyle p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma )}
та апріорним розподілом параметрів, тобто,
p
(
β
,
σ
)
{\displaystyle p({\boldsymbol {\beta }},\sigma )}
. Свідчення моделі фіксує одним числом, наскільки гарно така модель пояснює ці спостереження. Свідчення моделі баєсової лінійної регресії, представлене в цьому розділі, може застосовуватись для порівняння конкурентних лінійних моделей баєсовим порівнянням моделей . Ці моделі можуть відрізнятися як кількістю та значеннями змінних-провісників, так і своїми апріорними параметрами моделі. Складність моделі вже враховано свідченням моделі, оскільки воно відособлює параметри інтегруванням
p
(
y
,
β
,
σ
|
X
)
{\displaystyle p(\mathbf {y} ,{\boldsymbol {\beta }},\sigma |\mathbf {X} )}
над усіма можливими значеннями
β
{\displaystyle {\boldsymbol {\beta }}}
та
σ
{\displaystyle \sigma }
.
p
(
y
|
m
)
=
∫
p
(
y
|
X
,
β
,
σ
)
p
(
β
,
σ
)
d
β
d
σ
{\displaystyle p(\mathbf {y} |m)=\int p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma )\,p({\boldsymbol {\beta }},\sigma )\,d{\boldsymbol {\beta }}\,d\sigma }
Цей інтеграл може бути обчислено аналітично, а розв'язок представлено наступним рівнянням.[ 3]
p
(
y
|
m
)
=
1
(
2
π
)
n
/
2
det
(
Λ
0
)
det
(
Λ
n
)
⋅
b
0
a
0
b
n
a
n
⋅
Γ
(
a
n
)
Γ
(
a
0
)
{\displaystyle p(\mathbf {y} |m)={\frac {1}{(2\pi )^{n/2}}}{\sqrt {\frac {\det({\boldsymbol {\Lambda }}_{0})}{\det({\boldsymbol {\Lambda }}_{n})}}}\cdot {\frac {b_{0}^{a_{0}}}{b_{n}^{a_{n}}}}\cdot {\frac {\Gamma (a_{n})}{\Gamma (a_{0})}}}
Тут
Γ
{\displaystyle \Gamma }
позначає гамма-функцію . Оскільки ми обрали спряжене апріорне, то відособлену правдоподібність також може бути легко обчислено розв'язанням наступного рівняння для довільних значень
β
{\displaystyle {\boldsymbol {\beta }}}
та
σ
{\displaystyle \sigma }
.
p
(
y
|
m
)
=
p
(
β
,
σ
|
m
)
p
(
y
|
X
,
β
,
σ
,
m
)
p
(
β
,
σ
|
y
,
X
,
m
)
{\displaystyle p(\mathbf {y} |m)={\frac {p({\boldsymbol {\beta }},\sigma |m)\,p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ,m)}{p({\boldsymbol {\beta }},\sigma |\mathbf {y} ,\mathbf {X} ,m)}}}
Зауважте, що це рівняння є ні чим іншим, як переформулюванням теореми Баєса . Підставлення формул для апріорного, правдоподібності та апостеріорного, та спрощення отримуваного виразу ведуть до аналітичного виразу, наведеного вище.
Виводити апостеріорний розподіл аналітично в загальному випадку може бути неможливо або непрактично. Проте можливо наближувати апостеріорне методом приблизного баєсового висновування , таким як вибірка Монте-Карло [ 4] або варіаційні баєсові методи [en] .
Особливий випадок
μ
0
=
0
,
Λ
0
=
c
I
{\displaystyle {\boldsymbol {\mu }}_{0}=0,\mathbf {\Lambda } _{0}=c\mathbf {I} }
називається гребеневою регресією .
Схожий аналіз може виконуватись для загального випадку багатовимірної регресії, і його частина забезпечує баєсову оцінку коваріаційних матриць [en] : див. багатовимірну баєсову лінійну регресію [en] .
↑ Проміжні кроки цього обчислення може бути знайдено в O'Hagan (1994) на початку розділу про лінійні моделі.
↑ Проміжні кроки є в Fahrmeir et al. (2009) на С. 188.
↑ Проміжні кроки цього обчислення можна знайти в O'Hagan (1994) на С. 257.
↑ Carlin and Louis(2008) and Gelman, et al. (2003) пояснюють, як використовувати вибіркові методи для баєсової лінійної регресії.
Box, G. E. P. ; Tiao, G. C. (1973). Bayesian Inference in Statistical Analysis . Wiley. ISBN 0-471-57428-7 . (англ.)
Carlin, Bradley P. and Louis, Thomas A. (2008). Bayesian Methods for Data Analysis, Third Edition . Boca Raton, FL: Chapman and Hall/CRC. ISBN 1-58488-697-8 . (англ.)
O'Hagan, Anthony (1994). Bayesian Inference . Kendall's Advanced Theory of Statistics. Т. 2B (вид. First). Halsted. ISBN 0-340-52922-9 . (англ.)
Gelman, Andrew [en] , Carlin, John B., Stern, Hal S. and Rubin, Donald B. (2003). Bayesian Data Analysis, Second Edition . Boca Raton, FL: Chapman and Hall/CRC. ISBN 1-58488-388-X . (англ.)
Walter Gero. Bayesian Linear Regression—Different Conjugate Models and Their (In)Sensitivity to Prior-Data Conflict . — 2009. Архівовано з джерела 5 січня 2015. Процитовано 10 вересня 2015. (англ.)
Goldstein, Michael; Wooff, David (2007). Bayes Linear Statistics, Theory & Methods . Wiley. ISBN 978-0-470-01562-9 . (англ.)
Fahrmeir, L., Kneib, T., and Lang, S. (2009). Regression. Modelle, Methoden und Anwendungen (вид. Second). Heidelberg: Springer. doi :10.1007/978-3-642-01837-4 . ISBN 978-3-642-01836-7 . (англ.)
Rossi, Peter E.; Allenby, Greg M.; McCulloch, Robert (2006). Bayesian Statistics and Marketing . John Wiley & Sons. ISBN 0470863676 . (англ.)
Thomas P. Minka (2001) Bayesian Linear Regression [Архівовано 26 жовтня 2008 у Wayback Machine .] , Microsoft research web page (англ.)