Передбачувальне моделювання
Передбачувальне моделювання (англ. predictive modelling) використовує статистику для передбачування наслідків.[1] Найчастіше подія, яку хочуть передбачити, перебуває в майбутньому, але передбачувальне моделювання можливо застосовувати до будь-якого типу невідомої події, незалежно від того, коли вона сталася. Наприклад, передбачувальні моделі часто використовують для виявляння злочинів та встановлювання підозрюваних після того, як злочин відбувся.[2]
У багатьох випадках модель обирають на основі теорії виявляння, щоби намагатися вгадувати ймовірність наслідку за заданого обсягу вхідних даних, наприклад, для заданого електронного листа визначати, наскільки правдоподібно він є спамом[en].
Моделі можуть використовувати один або більше класифікаторів, намагаючись визначати ймовірність приналежності набору даних до якоїсь множини. Наприклад, модель може бути використовувано для визначання того, чи є електронний лист спамом, чи не-спамом.
Залежно від меж визначення, передбачувальне моделювання є синонімом, або значною мірою перетинається з галуззю машинного навчання, як її частіше називають в академічному, дослідницькому та розробницькому контекстах. При комерційному розгортанні передбачувальне моделювання часто називають передбачувальною аналітикою[en].
Передбачувальне моделювання часто протиставляють причиннісному моделюванню[en]/аналізові. У першім може бути цілком достатньо використання індикаторів або посередників тих наслідків, які цікавлять. В другім прагнуть визначати справжні причинно-наслідкові зв'язки. Ця відмінність дала поштовх зростанню літератури в галузі дослідницьких методів та статистики, та загальне твердження, що «корелювання не означає спричинювання».
Для цілей передбачування можливо використовувати майже будь-яку статистичну модель. Взагалі кажучи, існує два класи передбачувальних моделей: параметричні[en] та непараметричні[en]. Третій клас, напівпараметричні[en] моделі, включає ознаки обох. Параметричні моделі роблять «конкретні припущення щодо одного чи більше параметрів сукупності, які характеризують розподіл(и), що лежать в її основі».[3] Непараметричні моделі «зазвичай включають менше припущень про структуру та форму розподілу [ніж параметричні моделі], але здебільшого містять сильні припущення щодо незалежностей».[4]
Моделювання підняття[en] — це методика для моделювання зміни ймовірності, спричиненої дією. Зазвичай це маркетингові дії, такі як пропозиція придбати товар, більше використовувати товар, або переукласти контракт. Наприклад, у кампанії з утримання ви хочете передбачити зміну ймовірності того, що клієнт залишиться клієнтом, якщо з ним зв'язатися. Модель зміни ймовірності дозволяє націлити кампанію з утримання на тих клієнтів, на яких ця зміна ймовірності буде виграшною. Це дозволяє програмі з утримання уникати спричинювання непотрібного відтоку[en] або втрачання клієнтів[en], не марнуючи гроші на зв'язування з людьми, які діятимуть в будь-якому разі .
Передбачувальне моделювання в археології бере основи в роботі Ґордона Віллі[en] середини 50-х років у долині Віру[en] в Перу.[5] Було проведено повні інтенсивні обстеження, після чого було визначено коваріативність між культурними рештками та природними особливостями, такими як схил та рослинність. Розвиток кількісних методів та більша доступність придатних даних призвели до зростання цієї дисципліни в 1960-х роках, і до кінця 1980-х років було досягнуто значного прогресу землевпорядниками по всьому світу.
Загалом, передбачувальне моделювання в археології встановлює статистично обґрунтовані причиннісні або коваріативні зв'язки між природними посередниками, такими як типи ґрунтів, висота, схил, рослинність, близькість до води, геологія, геоморфологія тощо, та наявністю археологічних артефактів. Завдяки аналізові цих кількісно вимірюваних ознак земель, які пройшли археологічні дослідження, іноді можливо передбачити «археологічну чутливість» незвіданих територій, виходячи з природних ознак у цих районах. Цю стратегію успішно застосовували великі землевпорядники в США, такі як Бюро з питань управління земельними ресурсами[en] (BLM), Міністерство оборони (DOD)[6][7] та численні дорожні та паркові агенції. Використовуючи передбачувальне моделювання у своїх планах управління культурними ресурсами, вони здатні ухвалювати обґрунтованіші рішення при плануванні заходів, які потенційно потребують порушення землі та впливають згодом на археологічні розкопки.
Передбачувальне моделювання широко застосовують в аналітичнім управлінні відносинами з клієнтами та в добуванні даних, щоби створювати моделі рівня клієнта, які описують правдоподібність вчинення клієнтом певних дій. Ці дії є зазвичай пов'язаними з продажами, маркетингом та утримуванням клієнтів.
Наприклад, велика споживацька організація, така як оператор мобільного зв'язку, матиме набір передбачувальних моделей для перехресного продажу[en], глибшого продажу (або продажу з навантаженням) та відтоку[en]. Також зараз типовішим для таких організацій є мати модель збережності з використанням моделі підняття[en]. Вона, на відміну від стандартної моделі передбачування відтоку, передбачує правдоподібність збереження клієнта в кінці контрактного періоду (зміну ймовірності відтоку).
Передбачувальне моделювання використовують у страхуванні транспортних засобів, щоби визначати ризик інцидентів у страхувальників на основі інформації, отриманої від страхувальників. Це широко застосовують у страхуванні на основі використання[en], де передбачувальні моделі використовують дані на основі телеметрії для побудови моделі передбачуваного ризику правдоподібності виникнення страхових вимог.[джерело?] Передбачувальні моделі автострахування типу «чорна скринька» використовують лише вхід від давача GPS або акселерометра.[джерело?] Деякі моделі для забезпечення покращених моделей ризику крім базової телеметрії включають широкий діапазон передбачувальних даних, включно зі складною водійською поведінкою, незалежними записами про аварії, дорожньою історією та профілями користувачів.[джерело?]
2009 року Parkland Health & Hospital System[en] розпочала аналіз електронних медичних карток з метою використання передбачувального моделювання для виявляння пацієнтів з високим ризиком реадмісії. Спершу лікарня зосереджувалася на пацієнтах із застійною серцевою недостатністю, але програма розширилася, включивши хворих на цукровий діабет, гострий інфаркт міокарда та пневмонію.[8]
2018 року Банерджі та ін.[9] запропонували модель глибокого навчання — імовірнісні прогностичні оцінки виживання пацієнтів із метастатичним раком (англ. Probabilistic Prognostic Estimates of Survival in Metastatic Cancer Patients, PPES-Met) — для оцінювання короткочасної тривалості життя (> 3 місяці) пацієнтів шляхом аналізу клінічних записів у вигляді вільного тексту в електронних медичних картках за збереження часової послідовності відвідувань. Цю модель було натреновано на великому наборі даних (10 293 пацієнта) та затверджено на відокремленому наборі даних (1818 пацієнтів). Вона досягла площі під кривою РХП (робоча характеристика приймача) в 0,89. Щоб забезпечити пояснюваність, вони розробили інтерактивний графічний інструмент, який може покращувати розуміння лікарем основ передбачень моделі. Висока точність та пояснюваність моделі PPES-Met може дозволити використовувати цю модель як інструмент підтримки ухвалювання рішень для персоналізації лікування метастатичного раку, та забезпечити цінну допомогу лікарям.
Передбачувальне моделювання в біржовій торгівлі — це процес моделювання, за якого ймовірність наслідку передбачується за допомогою набору передбачувальних змінних. Передбачувальні моделі можливо будувати для різних активів, таких як акції, ф'ючерси, валюти, біржові товари тощо.[джерело?] Торгові фірми все ще широко використовують передбачувальне моделювання для розробки стратегій та торгівлі. Воно використовує математично вдосконалене програмне забезпечення для оцінювання показників ціни, обсягу, відкритих позицій та інших історичних даних, щоб виявляти повторювані закономірності.[10]
Передбачувальне моделювання дає створювачам приводів перевагу, прогнозуючи результати на основі даних для кожної потенційної кампанії. Цей метод економить час та виявляє потенційні сліпі зони, допомагаючи клієнтові ухвалювати розумніші рішення.[11]
Незважаючи на відсутність широкого обговорення в панівній спільноті передбачувального моделювання, воно є методологією, яку широко використовували у фінансовій галузі в минулому, і деякі з її важливих невдач посприяли фінансовій кризі 2007—2008 років. Ці невдачі ілюструють небезпеку покладання виключно на моделі, які по суті є поглядом у минуле за своєю природою. Наступні приклади є далеко не повним переліком:
1) Рейтинги облігацій. S&P, Moody's та Fitch кількісно визначають імовірність дефолту[en] облігацій за допомогою дискретних змінних, званих рейтингом. Рейтинг може набувати дискретних значень від AAA до D. Цей рейтинг є предиктором ризику невиконання зобов'язань на основі різноманітних змінних, пов'язаних із позичальником та історичними макроекономічними даними. Ці рейтингові агенції зазнали невдачі зі своїми рейтингами на ринку забезпечених іпотечними кредитами боргових зобов'язаннь[en] (CDO) обсягом у 600 мільярдів доларів США. Майже весь сектор AAA (і сектор супер-AAA, новий рейтинг, який ці рейтингові агенції представили як надзвичайно безпечну інвестицію) на ринку CDO зазнав дефолтів або жорстко погіршився протягом 2008 року, при тому що багато з них отримали свої рейтинги менше ніж роком раніше.[джерело?]
2) Наразі жодну статистична модель, яка намагається передбачувати ціни на ринку акцій на основі історичних даних, не вважають такою, що послідовно робить правильні передбачення в довгостроковій перспективі. Однією з особливо пам'ятних невдач є Long-Term Capital Management[en], фонд, який найняв висококваліфікованих аналітиків, включно з лауреатом Нобелівської премії в галузі економічних наук, щоби розробити складну статистичну модель, яка передбачувала розрив у цінах[en] між різними цінними паперами. Ці моделі приносили разючі прибутки до великого краху, який змусив тодішнього голову Федерального резерву Алана Грінспена втрутитися з посередництвом в розробці плану порятунку брокерськими дилерами Уолл-стріт, щоби запобігти розпадові ринку облігацій.[джерело?]
Можливі фундаментальні обмеження передбачувальних моделей на основі допасовування до даних
[ред. | ред. код]1) Історія не може завжди точно передбачувати майбутнє. Використання виведених з історичних даних відношень для передбачування майбутнього неявно виходить з наявності певних тривалих умов чи сталих у складній системі. Це майже завжди призводить до певної неточності, коли система включає людей.[джерело?]
2) Проблема невідомих невідомих. Під час будь-якого збирання даних збирач спочатку визначає набір змінних, для яких збираються дані. Проте, наскільки широким не вважав би збирач свій вибір змінних, завжди існує можливість нових змінних, які не було розглянуто або навіть визначено, але які є критичними для результату.[джерело?]
3) Змагальна поразка алгоритму. Після того, як алгоритм стає загальновизнаним стандартом вимірювання, ним можуть скористатися люди, які розуміють цей алгоритм і мають стимул обдурити його або зманіпулювати результатом. Так сталося з рейтингом CDO, описаним вище. Дилери CDO активно виконували вимоги рейтингових агенцій для досягнення AAA або супер-AAA на момент випуску CDO, розумно маніпулюючи змінними, що були «невідомими» для «витончених» моделей цих рейтингових агенцій.[джерело?]
- Калібрування (статистика)[en]
- Прогнозний інтервал[en]
- Передбачувальна аналітика[en]
- Передбачувальне висновування[en]
- Теорія статистичного навчання
- Статистична модель
- ↑ Geisser, Seymour (1993). Predictive Inference: An Introduction. Chapman & Hall. с. [сторінка?]. ISBN 978-0-412-03471-8. (англ.)
- ↑ Finlay, Steven (2014). Predictive Analytics, Data Mining and Big Data. Myths, Misconceptions and Methods (вид. 1st). Palgrave Macmillan[en]. с. 237. ISBN 978-1137379276. (англ.)
- ↑ Sheskin, David J. (27 квітня 2011). Handbook of Parametric and Nonparametric Statistical Procedures. CRC Press. с. 109. ISBN 978-1439858011. (англ.)
- ↑ Cox, D. R. (2006). Principles of Statistical Inference. Cambridge University Press. с. 2. (англ.)
- ↑ Willey, Gordon R. (1953), "Prehistoric Settlement Patterns in the Virú Valley, Peru", Bulletin 155. Bureau of American Ethnology[en] (англ.)
- ↑ Heidelberg, Kurt, et al. «An Evaluation of the Archaeological Sample Survey Program at the Nevada Test and Training Range», SRI Technical Report 02-16, 2002 (англ.)
- ↑ Jeffrey H. Altschul, Lynne Sebastian, and Kurt Heidelberg, «Predictive Modeling in the Military: Similar Goals, Divergent Paths», Preservation Research Series 1, SRI Foundation, 2004 (англ.)
- ↑ Hospital Uses Data Analytics and Predictive Modeling To Identify and Allocate Scarce Resources to High-Risk Patients, Leading to Fewer Readmissions. Agency for Healthcare Research and Quality[en]. 29 січня 2014. Процитовано 19 березня 2019. (англ.)
- ↑ Banerjee, Imon та ін. (3 липня 2018). Probabilistic Prognostic Estimates of Survival in Metastatic Cancer Patients (PPES-Met) Utilizing Free-Text Clinical Narratives. Scientific Reports. 8 (10037 (2018)): 10037. Bibcode:2018NatSR...810037B. doi:10.1038/s41598-018-27946-5. PMC 6030075. PMID 29968730. (англ.)
- ↑ Predictive-Model Based Trading Systems, Part 1 - System Trader Success. System Trader Success (амер.). 22 липня 2013. Процитовано 25 листопада 2016. (англ.)
- ↑ Predictive Modeling for Call Tracking. Phonexa (брит.). 22 серпня 2019. Процитовано 25 лютого 2021. (англ.)
- Clarke, Bertrand S.; Clarke, Jennifer L. (2018), Predictive Statistics, Cambridge University Press (англ.)
- Iglesias, Pilar; Sandoval, Mônica C.; Pereira, Carlos Alberto de Bragança (1993), Predictive likelihood in finite populations, Brazilian Journal of Probability and Statistics[en], 7 (1): 65—82, JSTOR 43600831 (англ.)
- Kelleher, John D.; Mac Namee, Brian; D'Arcy, Aoife (2015), Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, worked Examples and Case Studies, MIT Press (англ.)
- Kuhn, Max; Johnson, Kjell (2013), Applied Predictive Modeling, Springer (англ.)
- To explain or to predict?, Statistical Science[en], 25 (3), 2010: 289—310, arXiv:1101.0891, doi:10.1214/10-STS330 (англ.)