Медіана абсолютних відхилень
Медіана абсолютних відхилень (англ. median absolute deviation ()) – робастна міра мінливості для однофакторної вибірки кількісних даних, що є медіаною абсолютних відхилень від медіани[1]. Медіана абсолютних відхилень може розраховуватися і для генеральної сукупності.
В загальному випадку медіана абсолютних відхилень:
,
де - оператор медіани,
- медіана випадкової величини .
Медіана абсолютних відхилень є мірою розсіяння значень випадкової величини. В порівнянні з іншими мірами розсіяння, такими як дисперсія чи стандартне відхилення, є стійкою оцінкою до викидів, що виниклі в наборі даних. У стандартному відхиленні чи дисперсії відхилення від середнього беруться у квадраті, тому більші відхилення мають більшу вагу і, таким чином, викиди сильніше впливають на них. У невелика, як правило, кількість викидів не має ніякого значення. Медіана абсолютних відхилень широко використовується як альтернатива стандартному відхиленню для пошуку викидів в одномірних даних[2].
Крім того, що MAD - надійніша оцінка розсіяння, ніж дисперсія вибірки або стандартне відхилення, вона краще працює з розподілами без середнього або дисперсії типу, наприклад, розподілу Коші.
Нехай є набір значень 1, 1, 2, 2, 4, 6, 9. Медіана цього набору рівна 2. Абсолютні відхилення від медіани дорівнюють 1, 1, 0, 0, 2, 4, 7, медіана яких, у свою чергу, має значення 1 (оскільки впорядковані у неспадний ряд абсолютні відхилення становлять 0, 0, 1, 1 , 2, 4, 7). Отже, медіана абсолютних відхилень для цих даних дорівнює 1.
генеральної сукупності визначається аналогічно до вибірки, але на основі повного розподілу. Для симетричного розподілу з середнім значенням рівним нулю медіана абсолютних відхилень рівна 75-ти відсотковому квантилю розподілу.
На відміну від дисперсії, яка може й не існувати, для генеральної сукупності існує завжди. Наприклад, для стандартного розподілу Коші, дисперсія якого не визначена, медіана абсолютних відхилень рівна 1.
Між медіаною абсолютних відхилень та стандартним відхиленням для симетричних розподілів існує простий зв'язок (якщо стандартне відхилення для відповідного закону розподілу існує):
- де - множник, значення якого залежить від закону розподілу, наприклад, для нормального розподілу =1,4826[3].
- Для несиметричних розподілів залежність складніша.
Перша відома згадка про датується 1816 роком в науковій статті Карла Фрідріха Гаусса про визначення точності числових спостережень[4]
- ↑ Брюс П., Брюс Э. Практическая статистика для специалистов Data Science/Пер. с англ. - СПб: БХВ-Петербург, 2018. - 304 с: ил. ISBN 978-5-9775-3974-6.
- ↑ Чио К., Фримэн Д. Машинное обучение и безопасность/Пер. с англ. А. В. Снастина. - М.: ДМС Пресс, 2020. - 388 с.: ил. ISBN 978-5-97060-713-8.
- ↑ Rousseeuw, P. J.; Croux, C. (1993). Alternatives to the median absolute deviation. Journal of the American Statistical Association. 88 (424): 1273—1283. doi:10.1080/01621459.1993.10476408.
- ↑ Gauss, Carl Friedrich (1816). Bestimmung der Genauigkeit der Beobachtungen. Zeitschrift für Astronomie und Verwandte Wissenschaften. 1: 187—197.