Статистична значущість

Статистична значущість результату в статистиці являє собою оцінку міри впевненості в його «істинності» (у розумінні «репрезентативності вибірки»). У статистиці величину називають статистично значущою, якщо мала ймовірність чисто випадкового виникнення її або ще більш крайніх величин. Тут під крайністю розуміється ступінь відхилення від нульової гіпотези. Різниця називається «статистично значущою», якщо є дані, поява яких була б малоймовірна, якщо припустити, що ця різниця відсутня; цей вираз не означає, що дана різниця повинна бути велика, важлива, або значуща в загальному сенсі цього слова.

Рівень значущості тесту — це традиційне поняття перевірки гіпотез в частотній статистиці. Він визначається як імовірність ухвалити рішення відхилити нульову гіпотезу, якщо насправді нульова гіпотеза вірна (рішення відоме як похибка першого роду). Процес рішення часто спирається на p-величину (читається «пі-величина»): якщо p-величина менша або рівна рівню значущості, то нульова гіпотеза відкидається. Чим менша p-величина, тим більше значущою називається тестова статистика. Чим менша p-величина, тим сильніші підстави відкинути нульову гіпотезу.

Рівень значущості зазвичай позначають грецькою буквою α (альфа). Популярними рівнями значущості є 10%, 5%, 1%, і 0,1%. Якщо тест видає p-значення, менша або рівна α-рівню, то нульова гіпотеза відхиляється. Такі результати називають «статистично значущими». Наприклад, якщо хтось говорить, що «шанси того, що те, що трапилося, є збігом, рівним одному з тисячі», то мають на увазі рівень значущості 0,1%.

P-рівень (цей термін був уперше використаний у роботі Brownlee, 1960) — це показник, що перебуває в оберненій залежності від надійності результату. Вищий p-рівень відповідає нижчому рівневі довіри до знайденої у вибірці залежності між змінними. Саме, p-рівень являє собою імовірність помилки, зв'язаної з поширенням результату, що він спостерігається, на всю популяцію. Наприклад, p-рівень = 0,05 (тобто 1/20) показує, що існує 5% імовірність того, що знайдений у вибірці зв'язок між змінними є лише випадковою особливістю даної вибірки. Іншими словами, якщо дана залежність у популяції відсутня, а ви багаторазово проводили б подібні експерименти, то приблизно в одному з двадцяти повторень експерименту можна було б очікувати таку саме або сильнішу залежність між змінними. Відзначимо, що це не те саме, що стверджувати про реальну наявність залежності між змінними, котра в середньому може бути відтворена в 5% або 95% випадків; коли між змінними популяції існує залежність, імовірність повторення результатів дослідження, що показують наявність цієї залежності має назву статистична потужність плану. У багатьох дослідженнях p-рівень 0,05 розглядається як «припустима границя» рівня помилки.

Різні значення α-рівня мають свої переваги і недоліки. Менші α-рівні дають велику упевненість в тому, що вже встановлена альтернативна гіпотеза значуща, але при цьому є більший ризик не відкинути помилкову нульову гіпотезу (похибка другого роду), і таким чином менша статистична потужність. Вибір α-рівня неминуче вимагає компромісу між значущістю і потужністю, і, отже, між імовірністю похибок першого і другого роду. У вітчизняних наукових роботах часто вживається неправильний термін «достовірність» замість терміну «статистична значущість»^[1].

Використання при тестуванні статистичної гіпотези

У двобічному тесті^[en] область відхилення для рівня значущості $α = 0.05$ розділяється на обидва кінці розподілу вибірки і складає 5 % площі під кривою (не зафарбовані області).

Статистична значущість відіграє ключову роль при тестуванні статистичних гіпотез. Вона використовується для визначення того, чи слід вихилити нульову гіпотезу або ж прийняти її. Нульова гіпотеза — це припущення за замовчуванням, що нічого не сталося чи не змінилося^[2]. Щоб нульова гіпотеза була відхилена, спостережуваний результат повинен бути статистично значущим, тобто р-значення, яке спостерігається, є меншим за попередньо заданий рівень значущості $\alpha$ .

Щоб визначити, чи є результат статистично значущим, дослідник обчислює р-значення, яке є ймовірністю спостереження ефекту такої ж величини або більш крайньої, враховуючи, що нульова гіпотеза є істинною.^[3]^[4] Нульова гіпотеза відхиляється, якщо р-значення менше (або дорівнює) заданому рівню $\alpha$ . $\alpha$ також називається рівнем значущості і є ймовірністю відхилення нульової гіпотези, враховуючи, що вона є істинною (помилка I типу). Зазвичай рівень значущості встановлюється на рівні 5 % або нижче.

Наприклад, коли $\alpha$ дорівнює 5 %, умовна ймовірність помилки I типу, враховуючи, що нульова гіпотеза є істинною, дорівнює 5 %^[5], і статистично значущим результатом є той, де спостережуване р-значення є меншим (або дорівнює) 5 %^[6]. Коли дані беруться з вибірки, це означає, що область відхилення становить 5 % розподілу вибірки^[7]. Ці 5 % можуть бути розподілені по один бік розподілу вибірки, як в однобічному^[en] тесті, або можуть бути розділені по обидва боки розподілу, як у двобічному^[en] тесті, при цьому кожна сторона (або область відхилення) містить 2,5 % розподілу.

Обчислення

Як правило замість справжніх спостережень $\mathrm {X}$ є тестовою статистикою. Тестова статистика є скалярною функцією всіх спостережень, таких як середнє або коефіцієнт кореляції, які узагальнюють характеристики даних одним числом, що відносяться до конкретного запиту. Тестова статистика дотримується розподілу, визначеного функцією, яка використовується для визначення цієї тестової статистики, і розподілу вхідних даних спостережень.

Обчислення р-значення потребують нульової гіпотези, тестової статистики і даних. Незважаючи на те, що обчислення тестової статистики на наведених даних може бути простим, обчислення розподілу вибірки при нульовій гіпотезі, а потім його обчислення інтегральної функції розподілу часто складні. На сьогодні ці обчислення здійснюються з використанням статистичного програмного забезпечення. Часто з допомогою чисельних методів, а не точних формул. На початку ΧΧ століття замість зробленої таблиці значень інтерполяція або екстраполяція р-значень дискретних значень. Замість того щоб використовувати таблицю р-значень, Фішер опублікував список значень тестової статистики даних для фіксованих р-значень.

Приклади

Ось простий приклад, який демонструє потенційну пастку.

Кидок пари кубиків

Припустимо, що дослідник кидає пару кубиків один раз і нульова гіпотеза припускає, що кубики однакові, не зміщені в бік якогось числа або результату. Тестова статистика це сума випавших чисел. Дослідник кидає кубики і зауважує, що обидва кубики показують 6, що говорить про те, що тестова статистика дорівнює 12, і значення цього результату дорівнює 1/36 (оскільки з припущення нульової гіпотези, тестова статистика рівномірно розподілена), або близько 0,028 (найвищий статистичний тест з 6*6=36 можливих результатів). Якщо дослідник припускає рівень значущості 0,05, цей результат буде вважатися значущим, і гіпотеза про те, що кубики чесні, буде відхилена.

Розподіл

Якщо нульова гіпотеза вірна, то розподіл ймовірності р-значення рівномірний на відрізку {0,1}. Протилежність цьому, якщо альтернативна гіпотеза вірна, розподіл залежить від розміру вибірки та істинного значення досліджуваного параметра.

Розподіл р-значень для групи досліджень називають р-кривою. Крива залежить від чотирьох факторів: ймовірність того, що дослідження вивчає справжню гіпотезу, а не викривлену, силу досліджень істинної гіпотези, частоту першого типу помилки. р-крива може бути використана для оцінки достовірності наукової літератури, шляхом виявлення систематичної помилки.

Історія

Розрахунки р-величин сходять до 70 років де вони були обчислені П'єр-Симон Лапласом. ^[8] І величина була вперше офіційно представлена Карлом Пірсаном. Використання р-значення в статистиці популяризував Рональд Фішер. І р-значення відіграє ключову роль в його підході до цього питання у книзі «Статистичні методи для наукових працівників» (1925). Фішер пропонує рівень р=0,05 або 1 з 20 шансів випадкового перевищення як межа статистичної значущості, і застосовує це до нормального розподілу, отримавши таким чином правила двох стандартних відхилень для статистичної значущості. Потім він обчислює таблицю значень подібну таблиці значень Элдертона. Але, що дуже важливо, змінює роль $\mathrm {X} ^{2}$ і $\rho$ , тобто замість того щоб обчислювати р при різних значеннях Х² (і ступенів свободи n) він обчислює значення Х², які дають р значення, а саме 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50, 0,30, 0,20, 0,10, 0,05, 0,02, і 0,01. Це дозволяє заохочувати використання р-значень (особливо 0,05, 0,02, 0,01) у вигляді відсічення, а не самих обчислень і звітності р-значень. Такі ж таблиці потім були зібрані в «Фішер & Єйтс 1938» і закріпили цей підхід. Як ілюстрації застосування р-значень розробки тлумаченні експериментів у своїй наступній книзі «Розробка експериментів» (1935) Фішер представив експеримент з дегустації чаю леді, що є архітиповим прикладом р-значення. Для того, щоб оцінити заяву леді про те, що вона (Мюріель Брістоль) може розрізняти на смак, як приготований чай (спочатку додається молоко в чашку, а потім чай або чай, а потім молоко). Їй представили послідовно 8 чашок: 4 приготовані одним із способів, 4 – іншим, і попросили визначити спосіб приготування кожної чашки. В даному випадку нульовою гіпотезою було те, що у неї не було особливої здатності і р-значення рівнянь, так що Фішер був готовий відхилити нульову гіпотезу якщо все правильно класифікувати. В експерименті Брістоль правильно класифікувала всі 8 чашок. Фішер визначив р=0,05 і пояснив своє обґрунтування заявивши наступне: ^[9] Також він застосовує цей поріг до розробки експериментів, зазначивши, що було представлено лише шість чашок (кожної по три), ідеальна класифікація матиме р-значень $1/{\binom {6}{3}}=1/20=0.05$ , які б не зустрів такого рівня значущості. Також Фішер підкреслив часту інтерпретацію р в довгостроковій перспективі значень, припускаючи, що нульова гіпотеза вірна.

Неправильне розуміння

У більш пізних виданнях Фішер явно контрастує використання р-значення для статистичних висновків науки з методом Неймана-Пірсона, який він визначає як «приймальні процедури». Фішер виділяє, що в той час як фіксовані рівні, такі як 5%, 2% і 1% зручні, точне р-значення може бути використане, а сила доказів може бути і буде переглянута в подальших експериментах. Противагу прийняття рішень вимагає чіткого рішення без необоротних дій, і процедура заснована на вартості помилок, які не застосовні до наукових досліджень. Незважаючи на всюдисущість випробувань і значень, цей конкретний тест на статистичну значущість був підданий критиці за притаманні недоліки і потенційно неправильне тлумачення. Дані, отримані при порівнянні р-значень з рівнем значущості, дають один або два результати: або відкидання нульової гіпотези, або нульова гіпотеза не може бути відкинута на тому рівні значущості (що не означає що нульова гіпотеза вірна).у Формулювання Фішера є роз'яснення: низьке р-значення позначає або, що нульова гіпотеза вірна і дуже мало імовірно сталася, або, що нульова гіпотеза не вірна. Люди інтерпретують р-значення багатьма невірними способами. Саме по собі р-значення не дозволяє міркувати про ймовірності гіпотез або ряду гіпотез з попереднім розподілом ймовірності між ними, в яких може бути використана Баєсова статистика. Використовують функцію правдоподібності для всіх можливих значень попереднього замість р-значення для нульової гіпотези. Р-значення відноситься тільки до єдиної гіпотези, званою нульовій, і не відноситься до яких-небудь інши гіпотез, таких як альтернативна у перевірці статистичних гіпотез Нейман-Пірса.

Див. також

Примітки

↑ «ДОСТОВЕРНОСТЬ» ИЛИ «СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ». Архів оригіналу за 7 жовтня 2015. Процитовано 6 жовтня 2015.
↑ Meier, Kenneth J.; Brudney, Jeffrey L.; Bohte, John (2011). Applied Statistics for Public and Nonprofit Administration (вид. 3rd). Boston, MA: Cengage Learning. с. 189—209. ISBN 978-1-111-34280-7.
↑ Statistical Hypothesis Testing. www.dartmouth.edu. Архів оригіналу за 2 серпня 2020. Процитовано 11 листопада 2019. [Архівовано 2020-08-02 у Wayback Machine.]
↑ Devore, Jay L. (2011). Probability and Statistics for Engineering and the Sciences (вид. 8th). Boston, MA: Cengage Learning. с. 300–344. ISBN 978-0-538-73352-6.
↑ Healy, Joseph F. (2009). The Essentials of Statistics: A Tool for Social Research (вид. 2nd). Belmont, CA: Cengage Learning. с. 177—205. ISBN 978-0-495-60143-2.
↑ McKillup, Steve (2006). Statistics Explained: An Introductory Guide for Life Scientists (вид. 1st). Cambridge, UK: Cambridge University Press. с. 32–38. ISBN 978-0-521-54316-3.
↑ Health, David (1995). An Introduction To Experimental Design And Statistics For Biology (вид. 1st). Boston, MA: CRC press. с. 123—154. ISBN 978-1-857-28132-3.
↑ У сімдесятих Лаплас розглянув статистику майже півмільйона пологів. Статистичні дані показали надлишок хлопчиків порівняно з дівчатками. Він прийшов до висновку шляхом розрахунку р-значення, що надлишок був справжнім, але незбагненним.
↑ Звичайним і зручним для експерименту є взяті 5% як стандартний рівень значущості, в тому сенсі, що вони готові ігнорувати всі результати, які не в змозі досягти цих стандартів, і таким чином виключити з подальших дискусій більшу частину флуктуації, які випадково впровадили в результат експерименту.

Література

Корн Г.А., Корн Т.М. Справочник по математике для научных работников и инженеров. — М.: «Наука», 1973. — 832 с. [Архівовано 19 січня 2015 у Wayback Machine.](рос.)

Це незавершена стаття з математики.
Ви можете допомогти проєкту, виправивши або дописавши її.

[1] «ДОСТОВЕРНОСТЬ» ИЛИ «СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ». Архів оригіналу за 7 жовтня 2015. Процитовано 6 жовтня 2015.

[Meier-2] Meier, Kenneth J.; Brudney, Jeffrey L.; Bohte, John (2011). Applied Statistics for Public and Nonprofit Administration (вид. 3rd). Boston, MA: Cengage Learning. с. 189—209. ISBN 978-1-111-34280-7.

[:0-3] Statistical Hypothesis Testing. www.dartmouth.edu. Архів оригіналу за 2 серпня 2020. Процитовано 11 листопада 2019. [Архівовано 2020-08-02 у Wayback Machine.]

[Devore-4] Devore, Jay L. (2011). Probability and Statistics for Engineering and the Sciences (вид. 8th). Boston, MA: Cengage Learning. с. 300–344. ISBN 978-0-538-73352-6.

[Healy2009-5] Healy, Joseph F. (2009). The Essentials of Statistics: A Tool for Social Research (вид. 2nd). Belmont, CA: Cengage Learning. с. 177—205. ISBN 978-0-495-60143-2.

[Healy2006-6] McKillup, Steve (2006). Statistics Explained: An Introductory Guide for Life Scientists (вид. 1st). Cambridge, UK: Cambridge University Press. с. 32–38. ISBN 978-0-521-54316-3.

[Heath-7] Health, David (1995). An Introduction To Experimental Design And Statistics For Biology (вид. 1st). Boston, MA: CRC press. с. 123—154. ISBN 978-1-857-28132-3.

[8] У сімдесятих Лаплас розглянув статистику майже півмільйона пологів. Статистичні дані показали надлишок хлопчиків порівняно з дівчатками. Він прийшов до висновку шляхом розрахунку р-значення, що надлишок був справжнім, але незбагненним.

[9] Звичайним і зручним для експерименту є взяті 5% як стандартний рівень значущості, в тому сенсі, що вони готові ігнорувати всі результати, які не в змозі досягти цих стандартів, і таким чином виключити з подальших дискусій більшу частину флуктуації, які випадково впровадили в результат експерименту.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]