Теорема Гаусса — Маркова

У статистиці, теорема Гаусса-Маркова (або просто теорема Гаусса для деяких акторів)^[1] стверджує, що у звичайному методі найменших квадратів (ЗМНК) оцінювач має найменшу дисперсію вибірки в межах класу від лінійних неупереджених оцінок, якщо помилки у лінійній регресійній моделі є некорильованими, мають рівні дисперсії та очікуване значення нуля.^[2] Помилки не повинні бути нормальними, вони також не повинні бути незалежними та однаково розподіленими (лише некорильованими із середнім нулем та гомосцедастичними з кінцевою дисперсією). Не можна відмовлятись від вимоги щодо неупередженості оцінювача, оскільки упереджені оцінювачі існують з меншою дисперсією. Дивіться, наприклад оцінювач Джеймса-Штейна (який також знижує лінійність), регресійну регресію, або просто будь-який вироджений оцінювач.

Теорема була названа на честь Карла Фрідріха Гаусса та Андрія Маркова, хоча робота Гаусса значно передує роботі Маркова.^[3] Але в той час, як Гаусс отримував результат, припускаючи незалежність і нормальність, Марков звів припущення до форми, зазначеної вище.^[4] Подальше узагальнення до сферичних помилок дав Александер Ейткен.

Ствердження

Припустимо ми маємо матричні позначення,

{\underline {y}}=X{\underline {\beta }}+{\underline {\varepsilon }},\quad ({\underline {y}},{\underline {\varepsilon }}\in \mathbb {R} ^{n},{\underline {\beta }}\in \mathbb {R} ^{K}{\text{ and }}X\in \mathbb {R} ^{n\times K})

розширюються до,

y_{i}=\sum _{j=1}^{K}\beta _{j}X_{ij}+\varepsilon _{i}\quad \forall i=1,2,\ldots ,n

де $\beta _{j}$ не є випадковими, але un спостережуваних параметрів, $X_{ij}$ є невипадковими та спостережуваними (їх називають «пояснювальними змінними»), $\varepsilon _{i}$ випадкові, і так $y_{i}$ є випадковими. Випадкові величини $\varepsilon _{i}$ називаються «порушенням», «шумом» або просто «помилкою» (буде протиставлено «залишковим» далі в статті; див. помилки та залишки в статистиці). Зверніть увагу, що для включення константи у вищенаведену модель можна ввести константу як змінну $\beta _{K+1}$ з нещодавно введеним останнім стовпцем X є одиницею, тобто $X_{i(K+1)}=1$ для усіх $i$ . Зауважте, що хоча $y_{i},$ як вибіркові відповіді можна спостерігати наступні твердження та аргументи, включаючи припущення, докази та інші, припускають за єдиною умовою знання $X_{ij},$ але не $y_{i}.$

Припущення Гаусса-Маркова стосуються безлічі помилок випадкових величин, $\varepsilon _{i}$ :

Вони мають середній нуль: $\operatorname {E} [\varepsilon _{i}]=0.$
Вони гомосцедастичні, тобто всі мають однакову кінцеву дисперсію: $\operatorname {Var} (\varepsilon _{i})=\sigma ^{2}<\infty$ для усіх $i$ та
Виразні терміни помилок не пов'язані між собою: ${\text{Cov}}(\varepsilon _{i},\varepsilon _{j})=0,\forall i\neq j.$

Лінійна оцінка $\beta _{j}$ є лінійною комбінацією

{\widehat {\beta }}_{j}=c_{1j}y_{1}+\cdots +c_{nj}y_{n}

В якій коефіцієнтам $c_{ij}$ не дозволяється залежати від базових коефіцієнтів $\beta _{j}$ , оскільки вони не спостерігаються, але дозволяється залежати від значень $X_{ij}$ , оскільки ці дані є доступними. (Залежність коефіцієнтів від кожного $X_{ij}$ типово нелінійна; оцінювач є лінійним у кожному $y_{i}$ а отже і в кожному випадковому $\varepsilon ,$ саме тому це лінійна регресія.) Кажуть що оцінювач є неупередженим тоді і лише тоді

\operatorname {E} \left[{\widehat {\beta }}_{j}\right]=\beta _{j}

Незалежно від значень $X_{ij}$ . А тепер нехай $\sum \nolimits _{j=1}^{K}\lambda _{j}\beta _{j}$ буде деякою лінійною комбінацією коефіцієнтів. Тоді середньоквадратична похибка відповідної оцінки становить

\operatorname {E} \left[\left(\sum _{j=1}^{K}\lambda _{j}\left({\widehat {\beta }}_{j}-\beta _{j}\right)\right)^{2}\right],

Іншими словами, це очікування квадрата зваженої суми (по параметрах) різниць між оцінювачами та відповідними параметрами, які слід оцінити. (Оскільки ми розглядаємо випадок, коли всі оцінки параметрів є неупередженими, ця середньоквадратична похибка така ж, як і дисперсія лінійної комбінації.) Найкращий лінійний неупереджений оцінювач (СИНІЙ) вектора $\beta$ параметрів $\beta _{j}$ є найменшою середньоквадратичною похибкою для кожного вектора $\lambda$ параметрів лінійної комбінації. Це еквівалентно умов

\operatorname {Var} \left({\widetilde {\beta }}\right)-\operatorname {Var} \left({\widehat {\beta }}\right)

Є позитивною напіввизначеною матрицею для кожного іншого лінійного неупередженого оцінювача ${\widetilde {\beta }}$ .

Звичайний оцінювач найменших квадратів (ЗОНК) є функцією

{\widehat {\beta }}=(X'X)^{-1}X'y

з $y$ та $X$ (де $X'$ позначає переміщення з $X$ ), що мінімізує суму квадратів залишків (суми непередбачуваних значень):

\sum _{i=1}^{n}\left(y_{i}-{\widehat {y}}_{i}\right)^{2}=\sum _{i=1}^{n}\left(y_{i}-\sum _{j=1}^{K}{\widehat {\beta }}_{j}X_{ij}\right)^{2}.

Тепер теорема стверджує, що оцінювач ЗОНК є СИНІМ. Основна ідея доказу полягає в тому, що оцінювач найменших квадратів не корелює з кожною лінійною неупередженою оцінкою нуля, тобто з кожною лінійною комбінацією $a_{1}y_{1}+\cdots +a_{n}y_{n}$ коефіцієнти якої не залежать від неспостережуваного $\beta$ але очікуване значення якого завжди дорівнює нулю.

Зауваження

Доказ того, що ЗОНК справді МІНІМІЗУЄ суму суми квадратів залишків, може діяти наступним чином із розрахунком матриці Гесса та показуючи, що вона є позитивно визначеною.

Функція СКП (середньоквадратична похибка) яку ми хочемо мінімізувати, є

$f(\beta _{0},\beta _{1},\dots ,\beta _{p})=\sum _{i=1}^{n}(y_{i}-\beta _{0}-\beta _{1}x_{i1}-\dots -\beta _{p}x_{ip})^{2}$

Для моделі множинної регресії з p змінними. Першка похідна -

${\begin{aligned}{\frac {d}{d{\overrightarrow {\beta }}}}f&=-2X^{T}({\overrightarrow {y}}-X{\overrightarrow {\beta }})\\&=-2{\begin{bmatrix}\sum _{i=1}^{n}(y_{i}-\dots -\beta _{p}x_{ip})\\\sum _{i=1}^{n}x_{i1}(y_{i}-\dots -\beta _{p}x_{ip})\\\vdots \\\sum _{i=1}^{n}x_{ip}(y_{i}-\dots -\beta _{p}x_{ip})\end{bmatrix}}\\&={\overrightarrow {0}}_{p+1}\end{aligned}}$

,де X – матриця проектування

$X={\begin{bmatrix}1&x_{11}&\dots &x_{1p}\\1&x_{21}&\dots &x_{2p}\\&&\dots \\1&x_{n1}&\dots &x_{np}\end{bmatrix}}\in \mathbb {R} ^{n\times (p+1)};\qquad n\geqslant p+1$

матриця Гессе інших похідних

${\mathcal {H}}=2{\begin{bmatrix}n&\sum _{i=1}^{n}x_{i1}&\dots &\sum _{i=1}^{n}x_{ip}\\\sum _{i=1}^{n}x_{i1}&\sum _{i=1}^{n}x_{i1}^{2}&\dots &\sum _{i=1}^{n}x_{i1}x_{ip}\\\vdots &\vdots &\ddots &\vdots \\\sum _{i=1}^{n}x_{ip}&\sum _{i=1}^{n}x_{ip}x_{i1}&\dots &\sum _{i=1}^{n}x_{ip}^{2}\end{bmatrix}}=2X^{T}X$

Припускаючи стовпці $X$ є лінійно незалежними так, що $X^{T}X$ є зворотнім, нехай $X={\begin{bmatrix}{\overrightarrow {v_{1}}}&{\overrightarrow {v_{2}}}&\dots &{\overrightarrow {v}}_{p+1}\end{bmatrix}}$ , потім

$k_{1}{\overrightarrow {v_{1}}}+\dots +k_{p+1}{\overrightarrow {v}}_{p+1}=0\iff k_{1}=\dots =k_{p+1}=0$

Тепер нехай ${\overrightarrow {k}}=(k_{1},\dots ,k_{p+1})^{T}\in \mathbb {R} ^{(p+1)\times 1}$ буде власним вектором ${\mathcal {H}}$ .

${\overrightarrow {k}}\neq {\overrightarrow {0}}\implies (k_{1}{\overrightarrow {v_{1}}}+\dots +k_{p+1}{\overrightarrow {v}}_{p+1})^{2}>0$

З точки зору векторного множення це означає

${\begin{bmatrix}k_{1}&\dots &k_{p+1}\end{bmatrix}}{\begin{bmatrix}{\overrightarrow {v_{1}}}\\\vdots \\{\overrightarrow {v}}_{p+1}\end{bmatrix}}{\begin{bmatrix}{\overrightarrow {v_{1}}}&\dots &{\overrightarrow {v}}_{p+1}\end{bmatrix}}{\begin{bmatrix}k_{1}\\\vdots \\k_{p+1}\end{bmatrix}}={\overrightarrow {k}}^{T}{\mathcal {H}}{\overrightarrow {k}}=\lambda {\overrightarrow {k}}^{T}{\overrightarrow {k}}>0$

де $\lambda$ власне значення, що відповідає ${\overrightarrow {k}}$ . Більше того,

${\overrightarrow {k}}^{T}{\overrightarrow {k}}=\sum _{i=1}^{p+1}k_{i}^{2}>0\implies \lambda >0$

Нарешті, як власний ветор ${\overrightarrow {k}}$ був довільним, це означає що всі значення ${\mathcal {H}}$ тому є позитивними ${\mathcal {H}}$ є позитивно визначеним. Таким чином,

${\overrightarrow {\beta }}=(X^{T}X)^{-1}X^{T}Y$

Є справді місцевим мінімумом.

Доказ

Дозволимо ${\tilde {\beta }}=Cy$ бути ще одним лінійним оцінювачем $\beta$ with $C=(X'X)^{-1}X'+D$ де $D$ is a $K\times n$ ненульова матриця. Оскільки ми обмежуємося неупередженими оцінювачами, мІнімальна середньоквадратична похибка передбачає мінімальну дисперсію. Отже, мета полягає в тому, щоб показати, що такий оцінювач має дисперсію, не меншу, ніж у ${\widehat {\beta }},$ ЗОНК оцінювача. Обчислюємо:

{\begin{aligned}\operatorname {E} \left[{\tilde {\beta }}\right]&=\operatorname {E} [Cy]\\&=\operatorname {E} \left[\left((X'X)^{-1}X'+D\right)(X\beta +\varepsilon )\right]\\&=\left((X'X)^{-1}X'+D\right)X\beta +\left((X'X)^{-1}X'+D\right)\operatorname {E} [\varepsilon ]\\&=\left((X'X)^{-1}X'+D\right)X\beta &&\operatorname {E} [\varepsilon ]=0\\&=(X'X)^{-1}X'X\beta +DX\beta \\&=(I_{K}+DX)\beta .\\\end{aligned}}

Тому, оскільки $\beta$ є не спостережуваною, ${\tilde {\beta }}$ є неупередженим якщо і тільки якщо $DX=0$ . Потім:

{\begin{aligned}\operatorname {Var} \left({\tilde {\beta }}\right)&=\operatorname {Var} (Cy)\\&=C{\text{ Var}}(y)C'\\&=\sigma ^{2}CC'\\&=\sigma ^{2}\left((X'X)^{-1}X'+D\right)\left(X(X'X)^{-1}+D'\right)\\&=\sigma ^{2}\left((X'X)^{-1}X'X(X'X)^{-1}+(X'X)^{-1}X'D'+DX(X'X)^{-1}+DD'\right)\\&=\sigma ^{2}(X'X)^{-1}+\sigma ^{2}(X'X)^{-1}(DX)'+\sigma ^{2}DX(X'X)^{-1}+\sigma ^{2}DD'\\&=\sigma ^{2}(X'X)^{-1}+\sigma ^{2}DD'&&DX=0\\&=\operatorname {Var} \left({\widehat {\beta }}\right)+\sigma ^{2}DD'&&\sigma ^{2}(X'X)^{-1}=\operatorname {Var} \left({\widehat {\beta }}\right)\end{aligned}}

Оскільки DD' є позитивною напіввизначеною матрицею, $\operatorname {Var} \left({\tilde {\beta }}\right)$ перевищує $\operatorname {Var} \left({\widehat {\beta }}\right)$ позитивну напіввизначену матрицю.

Зауваження щодо доказу

Як зазначалося раніше, стан $\operatorname {Var} \left({\tilde {\beta }}\right)-\operatorname {Var} \left({\widehat {\beta }}\right)$ є позитивною напіввизначеною матрицею, що еквівалентно властивості, якою є найкращий лінійний неупереджений оцінювач $\ell ^{t}\beta$ є $\ell ^{t}{\widehat {\beta }}$ (найкращий в тому сенсі, що він має мінімальну дисперсію). Щоб побачити це, нехай $\ell ^{t}{\tilde {\beta }}$ інший лінійний неупереджений оцінювач $\ell ^{t}\beta$ .

{\begin{aligned}\operatorname {Var} \left(\ell ^{t}{\tilde {\beta }}\right)&=\ell ^{t}\operatorname {Var} \left({\tilde {\beta }}\right)\ell \\&=\sigma ^{2}\ell ^{t}(X'X)^{-1}\ell +\ell ^{t}DD^{t}\ell \\&=\operatorname {Var} \left(\ell ^{t}{\widehat {\beta }}\right)+(D^{t}\ell )^{t}(D^{t}\ell )&&\sigma ^{2}\ell ^{t}(X'X)^{-1}\ell =\operatorname {Var} \left(\ell ^{t}{\widehat {\beta }}\right)\\&=\operatorname {Var} \left(\ell ^{t}{\widehat {\beta }}\right)+\|D^{t}\ell \|\\&\geqslant \operatorname {Var} \left(\ell ^{t}{\widehat {\beta }}\right)\end{aligned}}

Більше того, рівність виконується якщо і тільки якщо $D^{t}\ell =0$ . Обчислюємо

{\begin{aligned}\ell ^{t}{\tilde {\beta }}&=\ell ^{t}\left(((X'X)^{-1}X'+D)Y\right)&&{\text{ зверху }}\\&=\ell ^{t}(X'X)^{-1}X'Y+\ell ^{t}DY\\&=\ell ^{t}{\widehat {\beta }}+(D^{t}\ell )^{t}Y\\&=\ell ^{t}{\widehat {\beta }}&&D^{t}\ell =0\end{aligned}}

Це доводить, що рівність виконується якщо і тільки якщо $\ell ^{t}{\tilde {\beta }}=\ell ^{t}{\widehat {\beta }}$ що надає унікальність оцінювачу ЗОНК як СИНЬОМУ.

Узагальнювач оцінки найменших квадратів

Узагальнені найменші квадрати (УНК), розроблені Аіткеном,^[5] розширюють теорему Гаусса-Маркова для випадку, коли вектор помилки має нескалярну коваріоційну матрицю.^[6] Оцінювач Аіткена також є СИНІМ.

Теорема Гаусса-Маркова, як зазначено в економетриці

У більшості методів обчислення ЗОНК регресори (параметри, що цікавлять) у матриці проектування $\mathbf {X}$ передбачають фіксування у повторних зразках. Це припущення вважається недоречним для переважно неекспериментальної науки, такої як економетрика.^[7] Натомість припущення теореми Гаусса-Маркова висловлюється умовно $\mathbf {X}$ .

Лінійність

Залежною змінною вважається лінійна функція змінних, зазначених у моделі. Специфікація повинна бути лінійною за своїми параметрами. Це не означає, що між незалежними та залежними змінними повинна існувати лінійна залежність. Незалежні змінні можуть приймати нелінійну форму, доки параметри є лінійними. Рівняння $y=\beta _{0}+\beta _{1}x^{2},$ кваліфікується як лінійне $y=\beta _{0}+\beta _{1}^{2}x$ може бути перетворене в лінійне шляхом заміни $\beta _{1}^{2}$ іншим параметром $\gamma$ . Наприклад, рівняння з параметром, що залежить від незалежної змінної, не кваліфікується як лінійне $y=\beta _{0}+\beta _{1}(x)\cdot x$ , де $\beta _{1}(x)$ є функцією $x$ .

Перетворення данних часто використовуються для перетворення рівняння в лінійну форму. Наприклад, функція Кобба-Дугласа - яка часто використовується в економіці, є нелінійною:

Y=AL^{\alpha }K^{1-\alpha }e^{\varepsilon }

Але це можна виразити в лінійній формі, взявши натуральний логарифм обох сторін:^[8]

\ln Y=\ln A+\alpha \ln L+(1-\alpha )\ln K+\varepsilon =\beta _{0}+\beta _{1}\ln L+\beta _{2}\ln K+\varepsilon

Це припущення також охоплює питання специфікації: припускаючи, що вибрано відповідну функціональну форму і відсутні пропущені змінні.

Однак слід пам’ятати, що параметри, що мінімізують залишки перетвореного рівняння, не обов'язково мінімізують залишки вихідного рівняння.

Сувора екзогенність

Для усіх $n$ спостережень, очікування – залежно від регресорів – терміну помилки, дорівнює нулю:^[9]

\operatorname {E} [\,\varepsilon _{i}\mid \mathbf {X} ]=\operatorname {E} [\,\varepsilon _{i}\mid \mathbf {x_{1}} ,\dots ,\mathbf {x_{n}} ]=0.

де $\mathbf {x} _{i}={\begin{bmatrix}x_{i1}&x_{i2}&\dots &x_{ik}\end{bmatrix}}^{\mathsf {T}}$ вектор даних регресорів для i спостереження, а отже $\mathbf {X} ={\begin{bmatrix}\mathbf {x_{1}^{\mathsf {T}}} &\mathbf {x_{2}^{\mathsf {T}}} &\dots &\mathbf {x_{n}^{\mathsf {T}}} \end{bmatrix}}^{\mathsf {T}}$ - це матриця даних або матриця проектування.

Геометрично з цього припущення випливає, що $\mathbf {x} _{i}$ та $\varepsilon _{i}$ є ортогональними один одному, так що їх внутрішній добуток (тобто поперечний момент) дорівнює нулю.

\operatorname {E} [\,\mathbf {x} _{j}\cdot \varepsilon _{i}\,]={\begin{bmatrix}\operatorname {E} [\,{x}_{j1}\cdot \varepsilon _{i}\,]\\\operatorname {E} [\,{x}_{j2}\cdot \varepsilon _{i}\,]\\\vdots \\\operatorname {E} [\,{x}_{jk}\cdot \varepsilon _{i}\,]\end{bmatrix}}=\mathbf {0} \quad {\text{ для всіх }}i,j\in n

Це припущення порушується, якщо пояснювальні змінні є стохастичними, наприклад, коли вони вимірюються з помилкою, або є ендогенними.^[10] Ендогенність може бути результатом одночасності, коли причинність протікає туди-сюди як між залежною, так і незалежною змінною. Для вирішення цієї проблеми зазвичай використовують інструментальні методи.

Повний ранг

Зразок матриці данних $\mathbf {X}$ повинен мати повний ранг стовпця.

\operatorname {rank} (\mathbf {X} )=k

Syfrit $\mathbf {X'X}$ не є оборотним, і оцінювач ЗОНК не може бути обчислений.

Порушенням цього припущення є досконала мультиколінеарність, тобто деякі пояснювальні змінні лінійно залежать. Один із сценаріїв, в якому це відбуватиметься, називається "фіксованою пасткою змінної", коли базова фіктивна змінна не опускається, що призводить до ідеальної кореляції між фіктивними змінними та постійним членом.^[11]

Мультиколінеарність (якщо вона не є "ідеальною") може мати наслідком менш ефективну, але все ще неупереджену оцінку. Оцінки будуть менш точними та високочутливими до певних наборів даних.^[12] Мультиколінеарність можна виявити за номером умови або коефіцієнтом дисперсії серед інших тестів.

Сферичні помилки

Зовнішній продукт вектора помилки повинний бути сферичним.

\operatorname {E} [\,{\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon ^{\mathsf {T}}}}\mid \mathbf {X} ]=\operatorname {Var} [\,{\boldsymbol {\varepsilon }}\mid \mathbf {X} ]={\begin{bmatrix}\sigma ^{2}&0&\dots &0\\0&\sigma ^{2}&\dots &0\\\vdots &\vdots &\ddots &\vdots \\0&0&\dots &\sigma ^{2}\end{bmatrix}}=\sigma ^{2}\mathbf {I} \quad {\text{with }}\sigma ^{2}>0

Це означає, що термін помилки має рівномірну дисперсію (гомоскедастичніть) і не має послідовної залежності.^[13] якщо це припущення порушується, ЗОНК все ще є неупередженим, але неефективним. Термін "сферичних помилок" буде описувати багатовимірний нормальний розподіл: якщо $\operatorname {Var} [\,{\boldsymbol {\varepsilon }}\mid \mathbf {X} ]=\sigma ^{2}\mathbf {I}$ у багатовимірній нормальній щільності, то рівняння $f(\varepsilon )=c$ - формула кульки з центром μ з радіусом σ у n-вимірному просторі.^[14]

Гетероскедастичність виникає, коли кількість помилок співвідноситься з незалежною змінною. Наприклад, при регресії витрат на їжу та доходів помилка корелює з доходом. Люди з низьким рівнем доходу зазвичай витрачають подібну суму на їжу, тоді як люди з високим рівнем доходу можуть витратити дуже велику суму або стільки ж, скільки витрачають люди з низьким доходом. Гетероскедастичність також може бути причиною змін у практиці вимірювання. Наприклад, коли статистичні органи вдосконалюють свої дані, похибка вимірювання зменшується, тому термін помилки з часом зменшується.

Це припущення порушується, коли існує автокореляція. Автокореляція може бути візуалізована на графіку даних, коли дане спостереження, швидше за все, лежить вище встановленої лінії, якщо сусідні спостереження також лежать вище встановленої лінії регресії. Автокореляція є загальною для даних часових рядів, де ряд даних може відчувати "інерцію". Якщо залежній змінній потрібно деякий час, щоб повністю поглинути удар. Також може відбуватися просторова автокореляція, географічні райони можуть мати подібні помилки. Автокореляція може бути результатом неправильної специфікації, наприклад, вибору неправильної функціональної форми. У цих випадках виправлення специфікації є одним із можливих способів боротьби з автокореляцією.

За наявності сферичних помилок узагальнений оцінювач найменших квадратів може бути показаний СИНІМ.^[6]

Див. також

Інша неупереджена статистика

Список літератури

↑ See chapter 7 of Johnson, R.A.; Wichern, D.W. (2002). Applied multivariate statistical analysis. Т. 5. Prentice hall.
↑ Theil, Henri (1971). Best Linear Unbiased Estimation and Prediction. Principles of Econometrics. New York: John Wiley & Sons. с. 119–124. ISBN 0-471-85845-5.
↑ Plackett, R. L. (1949). A Historical Note on the Method of Least Squares. Biometrika. 36 (3/4): 458—460. doi:10.2307/2332682.
↑ David, F. N.; Neyman, J. (1938). Extension of the Markoff theorem on least squares. Statistical Research Memoirs. 2: 105—116. OCLC 4025782.
↑ Aitken, A. C. (1935). On Least Squares and Linear Combinations of Observations. Proceedings of the Royal Society of Edinburgh. 55: 42—48. doi:10.1017/S0370164600014346.
↑ ^а ^б Huang, David S. (1970). Regression and Econometric Methods. New York: John Wiley & Sons. с. 127–147. ISBN 0-471-41754-8.
↑ Hayashi, Fumio (2000). Econometrics. Princeton University Press. с. 13. ISBN 0-691-01018-8.
↑ Walters, A. A. (1970). An Introduction to Econometrics. New York: W. W. Norton. с. 275. ISBN 0-393-09931-8.
↑ Hayashi, Fumio (2000). Econometrics. Princeton University Press. с. 7. ISBN 0-691-01018-8.
↑ Johnston, John (1972). Econometric Methods (вид. Second). New York: McGraw-Hill. с. 267–291. ISBN 0-07-032679-7.
↑ Wooldridge, Jeffrey (2012). Introductory Econometrics (вид. Fifth international). South-Western. с. 220. ISBN 978-1-111-53439-4.
↑ Johnston, John (1972). Econometric Methods (вид. Second). New York: McGraw-Hill. с. 159–168. ISBN 0-07-032679-7.
↑ Hayashi, Fumio (2000). Econometrics. Princeton University Press. с. 10. ISBN 0-691-01018-8.
↑ Ramanathan, Ramu (1993). Nonspherical Disturbances. Statistical Methods in Econometrics. Academic Press. с. 330–351. ISBN 0-12-576830-3.

Джерела

Davidson, James (2000). Statistical Analysis of the Regression Model. Econometric Theory. Oxford: Blackwell. с. 17–36. ISBN 0-631-17837-6.
Goldberger, Arthur (1991). Classical Regression. A Course in Econometrics. Cambridge: Harvard University Press. с. 160–169. ISBN 0-674-17544-1.
Theil, Henri (1971). Least Squares and the Standard Linear Model. Principles of Econometrics. New York: John Wiley & Sons. с. 101–162. ISBN 0-471-85845-5.

Посилання

Earliest Known Uses of Some of the Words of Mathematics: G (коротка історія та пояснення назви)
Proof of the Gauss Markov theorem for multiple linear regression (використовує матричну алгебру)
Доказ теореми Гаусса — Маркова з використанням геометрії

Портал «Математика»

[1] See chapter 7 of Johnson, R.A.; Wichern, D.W. (2002). Applied multivariate statistical analysis. Т. 5. Prentice hall.

[2] Theil, Henri (1971). Best Linear Unbiased Estimation and Prediction. Principles of Econometrics. New York: John Wiley & Sons. с. 119–124. ISBN 0-471-85845-5.

[3] Plackett, R. L. (1949). A Historical Note on the Method of Least Squares. Biometrika. 36 (3/4): 458—460. doi:10.2307/2332682.

[4] David, F. N.; Neyman, J. (1938). Extension of the Markoff theorem on least squares. Statistical Research Memoirs. 2: 105—116. OCLC 4025782.

[Aitken1935-5] Aitken, A. C. (1935). On Least Squares and Linear Combinations of Observations. Proceedings of the Royal Society of Edinburgh. 55: 42—48. doi:10.1017/S0370164600014346.

[Huang1970-6] а ^б Huang, David S. (1970). Regression and Econometric Methods. New York: John Wiley & Sons. с. 127–147. ISBN 0-471-41754-8.

[7] Hayashi, Fumio (2000). Econometrics. Princeton University Press. с. 13. ISBN 0-691-01018-8.

[8] Walters, A. A. (1970). An Introduction to Econometrics. New York: W. W. Norton. с. 275. ISBN 0-393-09931-8.

[9] Hayashi, Fumio (2000). Econometrics. Princeton University Press. с. 7. ISBN 0-691-01018-8.

[10] Johnston, John (1972). Econometric Methods (вид. Second). New York: McGraw-Hill. с. 267–291. ISBN 0-07-032679-7.

[11] Wooldridge, Jeffrey (2012). Introductory Econometrics (вид. Fifth international). South-Western. с. 220. ISBN 978-1-111-53439-4.

[12] Johnston, John (1972). Econometric Methods (вид. Second). New York: McGraw-Hill. с. 159–168. ISBN 0-07-032679-7.

[13] Hayashi, Fumio (2000). Econometrics. Princeton University Press. с. 10. ISBN 0-691-01018-8.

[14] Ramanathan, Ramu (1993). Nonspherical Disturbances. Statistical Methods in Econometrics. Academic Press. с. 330–351. ISBN 0-12-576830-3.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Тематичні сайти	Quora
Нормативний контроль	Freebase: /m/016t_z