Корелограма
Корелограма
В аналізі даних корелограмою називається зображення статистики кореляції. Наприклад, в аналізі часових рядів, корелограма, також знана як автокореляційна діаграма, являє собою графік зразка автокореляцій , в порівнянні з , (часові затримки).
Якщо використовується взаємно-кореляційна функція, результат називають поперечною корелограмою. Корелограми є широко використовуваним інструментом для перевірки випадковості в наборі даних. Випадковість знаходиться шляхом обчислення автокореляції для значень даних при різних часових затримках. Якщо випадково, такі автокореляції будуть близькі до нуля для будь-яких і всіх розділень часових затримок. Якщо невипадкове, то один або більше з автокореляції буде істотно відмінна від нуля.
Крім того, корелограми використовують в ідентифікації системи для Box-Jenkins моделі авторегресії ковзного середнього часового ряду. Автокореляція повинна бути близькою до нуль-випадковості, якщо аналітик не перевіряє випадковість, то справедливість багатьох з статистичних висновків попадає під сумнів. Корелограми є чудовим способом перевірки такої випадковості.
Корелограми допомагають знайти відповіді на такі питання:
- Чи дані насправді випадкові?
- Чи спостереження пов'язані з суміжними спостереженнями?
- Чи пов'язані спостереження з двічі зсунутим спостереженням?
- Чи є спостережуваний часовий ряд — білим шумом?
- Чи є спостережуваний часовий ряд — синусоїдою?
- Чи є спостережуваний часовий ряд — авторегресивним?
- Якою є модель, що підходить для спостереження за часовим рядом?
- Чи є модель : дійсною та достатньою?
- Чи є значення дійсним?
Випадковість (разом з фіксованою моделлю, фіксованими змінними та фіксованим розподілом) є одним з чотирьох припущень, які лежать в основі всіх процесів вимірювань. Припущення випадковості дуже важливе з таких причин:
- Більшість стандартних статистичних тестів залежать від випадковості. Валідність результатів тесту прямо пов'язане з тим, чи є дійсною припущена випадковість.
- Багато формул в статистиці залежать від випадковості припущення, найбільш поширеною є формула для визначення стандартного відхилення:
, Де S — це стандартне відхилення даних. Не зважаючи на те, що ця формула дуже поширення, її результати не мають цінності, якщо не триматися припущеної випадковості.
- Для одновимірних даних, за замовчуванням:
Якщо дані не є випадковими, ця модель — некоректна та не є дійсною, тому оцінки параметрів стають безглуздими.
Коефіцієнт автокореляції:
- ,
де ch — автоковаріаційна функція.
c0 — дисперсія функції
Отримане значення rh буде в діапазоні від −1 до 1.
Інколи використовують наступну формулу для автоваріації функції:
Хоча це визначення має менший відхил, (1/N) має деякі бажані статистичні властивості. Цю формулу часто використовують в літературі про статистику.
В один графік можна провести верхню та нижню межі для автокореляції за рівнем значущості: , з як передбачувана автокореляція для запізнення . Якщо автокореляція вище (нижче), ніж ця верхня (нижня) межа, то нульова гіпотеза, тобто що немає автокореляції в самій затримці та за її межами відкидається на рівні значущості. Цей тест є наближеним і припускає, що часовий ряд є гаусовим. У наведеній вище z1-α/2 квантиль нормального розподілу; SE — стандартна помилка, яка може бути обчислена за формулою Бартлетта:
- for
На картинці вище ми можемо відкинути нульову гіпотезу про те, що немає автокореляції між часовими точками, які є суміжними (запізнення = 1). Для інших періодів ніхто не може відкинути нульову гіпотезу про відсутність автокореляції.
Слід зазначити, що існують дві різні формули для генерації області впевненості:
1. Якщо корелограми використовується для перевірки випадковості (тобто не має часової залежності між даними), то краще використати наступну формулу:
де N є розмір вибірки, Z є квантиль функція стандартного нормального розподілу і α є рівень значущості. У цьому випадку, довірчі інтервали мають фіксовану довжину, яка залежить від розміру вибірки.
2. Корелограми також використовуються на стадії ідентифікації моделі для установки моделей типу ARIMA. У цьому випадку модель ковзного середнього значення визначений для даних і наступні області впевненості повинні бути сформовані:
де к-запізнення. У цьому випадку довірчі інтервали зростають в міру збільшення затримки.
Корелограми доступні у більшості статистичного програмного забезпечення загального призначення. Для створення такого типу графіка в R можна використовувати функції ACF і PACF.
Ця стаття не містить посилань на джерела. (грудень 2018) |