Ансамблеве навчання
Частина з циклу |
Машинне навчання та добування даних |
---|
Ансамблеве навчання — техніка машинного навчання, що використовує кілька навчених алгоритмів з метою отримати кращу передбачальну ефективність[en], ніж можна отримати від кожного алгоритму окремо[1][2][3]. На відміну від статистичного ансамблю[en] в статистичній механіці, який зазвичай нескінченний, ансамбль моделей у машинному навчанні складається з конкретної скінченної множини альтернативних моделей, але зазвичай дозволяє існувати істотно гнучкішим структурам.
Алгоритми навчання з учителем найчастіше описують як розв'язання задачі пошуку у просторі гіпотез відповідної гіпотези — такої, що дозволяє робити гарні передбачення для конкретної задачі. Але пошук хорошої гіпотези може бути складною задачею. Ансамбль використовує комбінацію кількох гіпотез, сподіваючись, що вона виявиться кращою, ніж окремі гіпотези. Термін «ансамбль» зазвичай резервують для методів, які генерують кілька гіпотез за допомогою одного й того ж базового учня. Ширше поняття системи множинних класифікаторів також використовує кілька гіпотез, але згенерованих не за допомогою одного й того ж учня[джерело?].
Обчислення передбачення ансамблю зазвичай потребує більше обчислень, ніж передбачення однієї моделі, отже ансамблі можна вважати способом компенсації поганого алгоритму навчання додатковими обчисленнями. В ансамблі моделей зазвичай використовують швидкі алгоритми, такі як дерева рішень (наприклад, випадкові ліси), хоча повільні алгоритми можуть отримати переваги від ансамблевої техніки.
За аналогією, ансамблеву техніку використовують також у сценаріях навчання без учителя, наприклад, кластеризації на основі згоди[en] або у виявленні аномалій.
Ансамбль є алгоритмом навчання з учителем, оскільки його можна натренувати, а потім використати для здійснення передбачення. Тому тренований ансамбль надає одну гіпотезу. Ця гіпотеза, проте, необов'язково лежить у просторі гіпотез моделей, із яких її побудовано. Таким чином, ансамблі можуть мати більшу гнучкість у функціях, які можуть представляти. Ця гнучкість може, теоретично, швидше привести їх до перенавчання за тренувальними даними, ніж могло бути у випадку окремої моделі, але, на практиці, деякі техніки ансамблювання (особливо бутстрепова агрегація) схильні зменшувати проблеми, пов'язані з перенавчанням на тренувальних даних.
Емпірично ансамблі схильні давати кращі результати, якщо є відмінність моделей[4][5]. Тому в багатьох ансамблевих методах намагаються підвищити різницю комбінованих моделей[6][7]. Хоча, можливо, неінтуїтивні, більш випадкові алгоритми (подібні до випадкових дерев рішень) можна використати для отримання строгіших ансамблів, ніж продумані алгоритми (такі як дерева рішень зі зменшенням ентропії)[8]. Використання різних алгоритмів строгого навчання, проте, як було показано, ефективніше, ніж використання технік, які намагаються спростити моделі з метою забезпечити більшу відмінність[9].
Хоча кількість класифікаторів у ансамблі значно впливає на точність передбачення, цю проблему досліджено мало. Визначення апріорі розміру ансамблю та обсягів і швидкості великих потоків даних робить цей фактор навіть критичнішим для онлайнових ансамблів класифікаторів. Для визначення належної кількості компонентів використовувано переважно статистичні тести. Нещодавно теоретичний фреймворк дав привід припустити, що є ідеальне число класифікаторів ансамблю, таке, що число класифікаторів більше або менше від цього ідеального числа призводить до погіршення точності. Це називають «законом зменшення віддачі в побудові ансамблю». Цей теоретичний фреймворк показує, що використання числа незалежних класифікаторів, рівного кількості міток класу, дає найвищу точність[10][11].
Баєсів оптимальний класифікатор — це техніка класифікації. Він є ансамблем усіх гіпотез із простору гіпотез. У середньому жоден з ансамблів не може перевершувати його[12]. Наївний баєсів класифікатор — це версія, яка передбачає, що дані умовно незалежні від класу, і виконує обчислення за реальніший час. Кожній гіпотезі надається голос, пропорційний імовірності того, що тренувальні дані буде взято із системи, якщо гіпотеза була б істинною. Для отримання тренувальних даних скінченного розміру голос кожної гіпотези множиться на апріорну можливість такої гіпотези. Баєсів оптимальний класифікатор можна виразити такою рівністю:
- ,
де — передбачений клас, — множина всіх можливих класів, — клас гіпотез, — ймовірність, — тренувальні дані. Як ансамбль, баєсів оптимальний класифікатор представляє гіпотезу, яка не обов'язково належить до . Гіпотеза, представлена баєсовим оптимальним класифікатором, однак, є оптимальною гіпотезою у просторі ансамблів (простір усіх можливих ансамблів, які складаються лише з гіпотез простору ).
Формулу можна переписати за допомогою теореми Баєса, яка свідчить, що постеріорна ймовірність пропорційна апріорній імовірності:
звідки
Бутстрепове агрегування (беггінг), надає кожній моделі в ансамблі однакову вагу (голос). Щоб підтримувати варіантність, беггінг тренує кожну модель в ансамблі за допомогою випадково відібраної підмножини з тренувальної множини. Наприклад, алгоритм «випадкового лісу» комбінує випадкові дерева рішень із беггінгом, щоб отримати високу точність класифікації[13].
Підсилювання (бустинг) будує ансамбль послідовними приростами шляхом тренування кожної нової моделі, щоб виділити екземпляри, які попередні моделі класифікували помилково. Показано, що в деяких випадках підсилювання дає кращі результати, ніж бегінг, але має тенденцію до перенавчання на тренувальних даних. Найчастішою реалізацією підсилювання є алгоритм AdaBoost[en], хоча є повідомлення, що деякі нові алгоритми дають кращі результати.
Усереднення баєсівських параметрів (англ. Bayesian parameter averaging, BPA) — це техніка складання ансамблю, за якої намагаються апроксимувати баєсівський оптимальний класифікатор шляхом вибірок із простору гіпотез і комбінування їх за допомогою закону Баєса[14]. На відміну від баєсівського оптимального класифікатора, баєсівську модель усереднення можна реалізувати практично. Гіпотези зазвичай відбирають за допомогою техніки Монте-Карло, такої як MCMC. Наприклад, для вибирання гіпотез, які представляють розподіл , можна використати семплювання за Гіббсом[en]. Показано, що за деяких обставин, якщо гіпотези вибирають так і усереднюють згідно із законом Баєса, ця техніка має очікувану помилку, обмежену подвійною очікуваною помилкою баєсівського оптимального класифікатора[15]. Попри теоретичну коректність цієї техніки, в ранніх роботах на основі експериментальних даних висловлено припущення, що метод схильний до перенавчання і поводиться гірше, ніж прості техніки складання ансамблю, такі як беггінг[16] . Однак ці висновки ґрунтуються на недостатньому розумінні мети баєсівської моделі усереднення (БМУ) для комбінації моделей[17]. Крім того, теорія та практика БМУ має суттєві переваги. Недавні строгі доведення показують точність БМУ для вибору змінних та оцінення за багатовимірних умов[18] і дають емпіричне свідчення істотної ролі забезпечення розрідженості в БМУ в пом'якшенні перенавчання[19].
Комбінація баєсівських моделей (КБМ, англ. Bayesian model combination, BMC) — це алгоритмічне виправлення баєсівської моделі усереднення (БМУ,англ. Bayesian model averaging, BMA). Замість вибору кожної моделі до ансамблю індивідуально, алгоритм відбирає із простору можливих ансамблів (з вагами моделей, вибраних випадково з розподілу Діріхле з однорідними параметрами). Ця модифікація дозволяє уникнути тенденції БМУ віддати повну вагу одній моделі. Хоча КБМ обчислювально дещо витратніший порівняно з БМУ, він дає істотно кращі результати. Результати КБМ, як показано, в середньому кращі, ніж БМУ та беггінг[20].
Використання для обчислення ваги моделі закону Баєса неминуче тягне за собою обчислення ймовірності даних для кожної моделі. Зазвичай жодна з моделей в ансамблі не має такого ж розподілу, що й тренувальні дані, з яких їх згенеровано, так що всі члени коректно набувають значення, близького до нуля. Це добре працювало б, якби ансамбль був досить великим для вибірки з повного простору моделей, але таке трапляється рідко. Отже, кожен представник тренувального набору спонукає вагу ансамблю зрушуватися до моделі в ансамблі, яка найближча до розподілу тренувальних даних. Це суттєво зменшує необхідність надмірно складного методу вибору моделі.
Можливі ваги для ансамблю можна уявити як такі, що лежать на симплексі. На кожній вершині симплексу всі ваги задаються окремою моделлю ансамблю. БМУ збігається до вершини, яка ближче за розподілом до тренувальних даних. Для контрасту, КБМ збігається до точки, де цей розподіл проєктується в симплекс. Іншими словами, замість вибору однієї моделі, найближчої до розподілу, метод шукає комбінацію моделей, найближчу до розподілу.
Часто результати БМУ можна апроксимувати за допомогою перехресної перевірки для вибору моделі із відра моделей. Аналогічно, результати КБМ можна апроксимувати за допомогою перехресної перевірки для вибору кращої комбінації ансамблів із випадкової вибірки можливих ваг.
«Відро моделей» (англ. bucket of models) — це техніка збирання ансамблю, в якій використовують алгоритм вибору моделі для отримання кращої моделі для кожної задачі. Коли тестується лише одне завдання, відро моделей не може дати результату кращого, ніж найкраща модель у наборі, проте, в разі прогону для кількох задач, алгоритм зазвичай дає кращі результати, ніж будь-яка модель в наборі.
Найчастіше для вибору моделі використовують перехресну вибірку. Цей підхід описує такий псевдокод:
Для кожної моделі у відрі: Виконати c разів: (де 'c' - деяка константа) Випадково ділимо тренувальні дані на два набори: A і B. Тренуємо m за A Перевіряємо m за B Вибираємо модель, яка покаже найвищий середній результат
Перехресну вибірку можна описати як: «прожени всі на тренувальній множині і вибери ту, що працює краще»[21].
Виділення (англ. Gating) є узагальненням перехресної вибірки. Метод залучає тренування іншої моделі навчання для вирішення, яка з моделей у відрі більше придатна для розв'язання задачі. Часто для виділення моделі використовують перцептрон. Його можна використати для вибору «найкращої» моделі, або для отримання лінійної ваги для передбачень кожної моделі у відрі.
Коли відро моделей використовують із великим набором задач, може бути бажаним уникнути тренування деяких моделей, які потребують тривалого тренування. Ландмарк-навчання — це метанавчальний підхід, який шукає розв'язок цієї задачі. Він залучає для тренування лише швидкі (але неточні) алгоритми, а потім їх ефективність використовують для визначення, який із повільних (але точних) алгоритмів вибрати як найкращий[22].
Стогування (іноді зване стековим узагальненням) залучає тренування навчального алгоритму для комбінування передбачень кількох інших алгоритмів. Спочатку всі інші алгоритми тренуються за допомогою допустимих даних, потім алгоритми комбінування тренуються з метою зробити кінцевий прогноз за допомогою всіх прогнозів інших алгоритмів як додаткового входу. Якщо використовується довільний алгоритм комбінування, то стогування може теоретично представляти будь-яку техніку створення ансамблів, описану в цій статті, хоча на практиці як засіб алгоритму комбінування часто використовують модель логістичної регресії.
Стогування зазвичай дає кращу ефективність, ніж будь-яка окрема з тренувальних моделей[23]. Його успішно використовують як у задачах навчання з учителем (регресії[24], класифікації та дистанційного навчання[25]), так і задачах навчання без учителя (оцінення густини)[26]. Також його використовують для оцінки помилки беггінгу[3][27]. Стверджувалося, що метод перевершив баєсівську модель усереднення[28]. Два призери конкурсу Netflix[en] використовують змішування, яке можна вважати формою стогування[29].
- R: щонайменше три пакунки пропонують засоби для баєсівської моделі усереднення[30], а саме, пакет BMS (скорочення від Bayesian Model Selection)[31], пакет BAS (скорочення від Bayesian Adaptive Sampling)[32] та пакет BMA[33]. Пакет H2O пропонує багато моделей машинного навчання, включно з моделлю складання ансамблю, яку можна тренувати за допомогою Spark.
- Python: Scikit-learn, пакунок для машинного навчання мовою Python, пропонує пакунки для ансамблевого навчання, зокрема, для беггінгу та методів усереднення.
- MATLAB: ансамблі класифікаторів реалізовано в наборі засобів Statistics та Machine Learning[34].
У недавні роки, внаслідок зростання обчислювальної потужності, що дозволяє тренування великих навчальних ансамблів за розумний час, кількість застосувань суттєво зросла[35]. Деякі з застосувань класифікаторів ансамблів наведено нижче.
Відображення рослинного покриву[en] є одним із головних застосувань спостереження за Землею[en] з використанням дистанційного зондування та геопросторових даних для розпізнавання об'єктів, розташованих на поверхні цільових ділянок. Як правило, класи цільового матеріалу включають дороги, будівлі, річки, озера та рослинність[36]. Запропоновано деякі різні підходи ансамблевого навчання, що базуються на штучних нейронних мережах[37], ядерному методі головних компонент[en] (англ. kernel principal component analysis, KPCA)[38], деревах рішень із підсилюванням[39], випадкових лісах[36] і автоматичному створення кількох систем класифікаторів[40], для ефективного розпізнавання об'єктів рослинного покриву.
Виявлення змін[en] — це задача аналізу зображень[en], яка полягає в ідентифікації місць, де рослинний покрив із змінився. Застосовується в таких галузях, как зростання міст, динаміка змін у лісах і рослинності[en], землекористування та виявлення стихійних лих[en][41]. Ранні застосування ансамблів класифікаторів до визначення змін розробляли за допомогою голосування більшістю голосів[en], баєсового середнього та оцінення апостеріорного максимуму[42].
Розподілена атака типу «відмова в обслуговуванні» є однією з найзагрозливіших кібератак, яка може трапитися з інтернет-провайдером[35]. Комбінуючи виходи окремих класифікаторів ансамбль класифікаторів знижує загальну помилку детектування та відокремлення таких атак від законних флешмобів[en][43].
Класифікація кодів шкідливих програм, таких як комп'ютерні віруси, мережеві хробаки, трояни, віруси-вимагачі та програми-шпигуни, за допомогою технік машинного навчання, навіяна задачею класифікування документів[44]. Системи ансамблевого навчання показали в цій галузі надійну ефективність[45][46].
Система виявлення вторгнень відстежує комп'ютерну мережу чи комп'ютери для ідентифікації кодів вторгнення, подібно до процесу виявлення аномалій. Ансамблеве навчання успішно допомагає таким системам скорочувати загальну кількість помилок[47][48].
Розпізнавання облич, яке нещодавно стало популярною областю досліджень у розпізнаванні образів, справляється з ідентифікацією або верифікацією особи за його/її цифровим зображенням[49].
Ієрархічні ансамблі, засновані на класифікаторі Габора Фішера та техніках попередньої обробки даних під час аналізу незалежних компонентів[en], належать до ранніх прикладів використання ансамблів у цій галузі[50][51][52].
Тоді як розпізнавання мови переважно ґрунтується на глибокому навчанні, оскільки більшість індустріальних гравців у цій галузі, такі як Google, Microsoft і IBM, використовують його як основу технології розпізнавання мовлення, засноване на розмові розпізнавання емоцій може мати задовільні показники з ансамблевим навчанням[53][54].
Метод також успішно використовувався для розпізнаванні емоцій на обличчі[55][56][57].
Виявлення шахрайства включає ідентифікацію банківського шахрайства[en] , такого як відмивання грошей, шахрайство з платіжними картками, та телекомунікаційного шахрайства. Виявлення шахрайства має широкі можливості для дослідження та застосування машинного навчання. Оскільки ансамблеве навчання покращує стійкість нормальної поведінки моделі, його запропоновано як ефективну техніку визначення таких випадків шахрайства та підозрілої активності в банківських операціях у системах кредитних карток[58][59].
У процесі прийняття фінансових рішень ажливоют є очність передбачення комерційного краху, тому для передбачення фінансових криз та фінансових крахів[en] запропоновано різні ансамблі класифікаторів[60]. Також у задачі маніпуляюванняна основі торгів, де трейдери намагаються маніпулювати цінами акцій шляхом купівлі або продажу, ансамблюькласифікаторів пмаєпроаналізувати зміни в даних на ринку цінних паперів та визначити симптоми підозрілих маніпуляцій зі цінами акцій [60].
Систему класифікаторів успішно застосовано в нейронауках, протеоміці та медичній діагностиці, зокрема, для розпізнавання нейрокогнітивних розладів[en] (тобто, хвороби Альцгеймера або міотонічної дистрофії[en]) заснованого на даних магнітно-резонансної томографії[61][62][63], або класифікація цитології шийки матки на основі мікроскопії[64][65].
- ↑ Opitz, Maclin, 1999, с. 169—198.
- ↑ Polikar, 2006, с. 21—45.
- ↑ а б Rokach, 2010, с. 1—39.
- ↑ Kuncheva, Whitaker, 2003, с. 181—207.
- ↑ Sollich, Krogh, 1996, с. 190—196, 1996.
- ↑ Brown, Wyatt, Harris, Yao, 2005, с. 5—20.
- ↑ Adeva, Cerviño, Calvo, 2005.
- ↑ Ho, 1995, с. 278—282.
- ↑ Gashler, Giraud-Carrier, Martinez, 2008, с. 900—905.
- ↑ Bonab, Can, 2016, с. 2053.
- ↑ Bonab, Can, 2017.
- ↑ Mitchell, 1997, с. 175.
- ↑ Breiman, 1996, с. 123—140.
- ↑ Hoeting, Madigan, Raftery, Volinsky, 1999, с. 382–401.
- ↑ Haussler, Kearns, Schapire, 1994, с. 83–113.
- ↑ Domingos, 2000, с. 223–-230.
- ↑ Minka, 2002.
- ↑ Castillo, Schmidt-Hieber, van der Vaart, 2015, с. 1986–2018.
- ↑ Hernández-Lobato, Hernández-Lobato, Dupont, 2013, с. 1891–1945.
- ↑ Monteith, Carroll, Seppi, Martinez, 2011, с. 2657—2663.
- ↑ Dzeroski, Zenko, 2004, с. 255—273.
- ↑ Bensusan, Giraud-Carrier, 2000, с. 325—330.
- ↑ Wolpert, 1992, с. 241—259.
- ↑ Breiman, 1996.
- ↑ Ozay, Vural, 2013.
- ↑ Smyth, Wolpert, 1999, с. 59—83.
- ↑ Wolpert, Macready, 1999, с. 41—55.
- ↑ Clarke, 2003, с. 683—712.
- ↑ Sill, Takacs, Mackey, Lin, 2009.
- ↑ Amini, Parmeter, 2011, с. 253–287.
- ↑ BMS: Bayesian Model Averaging Library. The Comprehensive R Archive Network. Архів оригіналу за 28 листопада 2020. Процитовано 9 вересня 2016.
- ↑ BAS: Bayesian Model Averaging using Bayesian Adaptive Sampling. The Comprehensive R Archive Network. Архів оригіналу за 7 жовтня 2020. Процитовано 9 вересня 2016.
- ↑ BMA: Bayesian Model Averaging. The Comprehensive R Archive Network. Архів оригіналу за 7 травня 2021. Процитовано 9 вересня 2016.
- ↑ Classification Ensembles. MATLAB & Simulink. Архів оригіналу за 1 грудня 2020. Процитовано 8 червня 2017.
- ↑ а б Woźniak, Graña, Corchado, 2014, с. 3–17.
- ↑ а б Rodriguez-Galiano, Ghimire, Rogan и др., 2012, с. 93–104.
- ↑ Giacinto, Roli, 2001, с. 699–707.
- ↑ Xia, Yokoya, Iwasaki, 2017, с. 6185—6189.
- ↑ Mochizuki, Murakami, 2012, с. 126—133.
- ↑ Giacinto, Roli, Fumera, 2000, с. 160—163.
- ↑ Du, Liu, Xia, Zhao, 2013, с. 19–27.
- ↑ Bruzzone, Cossu, Vernazza, 2002, с. 289–297.
- ↑ Raj Kumar, Selvakumar, 2011, с. 1328–1341.
- ↑ Shabtai, Moskovitch, Elovici, Glezer, 2009, с. 16–29.
- ↑ Zhang, Yin, Hao, Zhang, Wang, 2007, с. 468—477.
- ↑ Menahem, Shabtai, Rokach, Elovici, 2009, с. 1483–1494.
- ↑ Locasto, Wang, Keromytis, Salvatore, 2005, с. 82—101.
- ↑ Giacinto, Perdisci, Del Rio, Roli, 2008, с. 69–82.
- ↑ Mu, Lu, Watta, Hassoun, 2009.
- ↑ Yu, Shan, Chen, Gao, 2006, с. 91—96.
- ↑ Yu, Shan, Chen, Gao, 2006, с. 528—531.
- ↑ Liu, Lin, Chen, 2008, с. 144—148.
- ↑ Rieger, Muraleedharan, Ramachandran, 2014, с. 589—593.
- ↑ Krajewski, Batliner, Kessel, 2010, с. 3716—3719.
- ↑ Rani, Muneeswaran, 2016, с. 10017–10040.
- ↑ Rani, Muneeswaran, 2016, с. 1655020.
- ↑ Rani, Muneeswaran, 2018.
- ↑ Louzada, Ara, 2012, с. 11583–11592.
- ↑ Sundarkumar, Ravi, 2015, с. 368–377.
- ↑ а б Kim, Sohn, 2012, с. 8986–8992.
- ↑ Savio, García-Sebastián, Chyzyk и др., 2011, с. 600–610.
- ↑ Ayerdi, Savio, Graña, 2013, с. 122—130.
- ↑ Gu, Ding, Zhang, 2015, с. 110–118.
- ↑ Dan Xue, Xiaomin Zhou, Chen Li, Yudong Yao, Md Mamunur Rahaman. An Application of Transfer Learning and Ensemble Learning Techniques for Cervical Histopathology Image Classification // IEEE Access. — 2020. — Т. 8. — С. 104603–104618. — ISSN 2169-3536. — DOI: . Архівовано з джерела 31 серпня 2021.
- ↑ Ankur Manna, Rohit Kundu, Dmitrii Kaplun, Aleksandr Sinitca, Ram Sarkar. A fuzzy rank-based ensemble of CNN models for classification of cervical cytology // Scientific Reports. — 2021. — Vol. 11, iss. 1 (1 December). — P. 14538. — ISSN 2045-2322. — DOI: . Архівовано з джерела 31 серпня 2021.
- Opitz D., Maclin R. Popular ensemble methods: An empirical study // Journal of Artificial Intelligence Research. — 1999. — Т. 11. — С. 169—198. — DOI: .
- Polikar R. Ensemble based systems in decision making // IEEE Circuits and Systems Magazine. — 2006. — Т. 6, вип. 3. — С. 21—45. — DOI: .
- Rokach L. Ensemble-based classifiers // Artificial Intelligence Review. — 2010. — Т. 33, вип. 1—2. — DOI: .
- Kuncheva L., Whitaker C. Measures of diversity in classifier ensembles and Their Relationship with the Ensemble Accuracy // Machine Learning. — 2003. — Т. 51, вип. 2.
- Sollich P., Krogh A. Learning with ensembles: How overfitting can be useful // Advances in Neural Information Processing Systems. — 1996. — Т. 8.
- Brown G., Wyatt J., Harris R., Yao X. Diversity creation methods: a survey and categorization // Information Fusion. — 2005. — Т. 6, вип. 1.
- J. J. García Adeva, Ulises Cerviño, R. Calvo. Accuracy and Diversity in Ensembles of Text Categorisers // CLEI Journal. — 2005. — Т. 8, вип. 2 (December). Архівовано з джерела 7 липня 2011.
- Ho T. Random Decision Forests // Proceedings of the Third International Conference on Document Analysis and Recognition. — 1995.
- Gashler M., Giraud-Carrier C., Martinez T. Decision Tree Ensemble: Small Heterogeneous Is Better Than Large Homogeneous // The Seventh International Conference on Machine Learning and Applications. — 2008. — DOI:
- Hamed R. Bonab, Fazli Can. A Theoretical Framework on the Ideal Number of Classifiers for Online Ensembles in Data Streams // 25th Conference on Information and Knowledge Management. — USA : ACM, 2016. — DOI:
- Hamed R. Bonab, Fazli Can. Less Is More: A Comprehensive Framework for the Number of Components of Ensemble Classifiers // IEEE Transactions on Neural Networks and Learning Systems 2017. — USA : IEEE, 2017.
- Tom M. Mitchell. Machine Learning. — McGraw-Hill Science/Engeneering/Math, 1997. — ISBN 0070428077.
- Breiman, L. Bagging Predictors // Machine Learning. — 1996. — Т. 24, вип. 2.
- Hoeting J. A., Madigan D., Raftery A. E., Volinsky C. T. Bayesian Model Averaging: A Tutorial // Statistical Science. — 1999. — Т. 14, вип. 4. — DOI: .
- David Haussler, Michael Kearns, Robert E. Schapire. Bounds on the sample complexity of Bayesian learning using information theory and the VC dimension // Machine Learning. — 1994. — Т. 14.
- Pedro Domingos. Bayesian averaging of classifiers and the overfitting problem // Proceedings of the 17th International Conference on Machine Learning (ICML). — 2000. — С. 223——230.
- Thomas Minka. Bayesian model averaging is not model combination. — 2002.
- Castillo I., Schmidt-Hieber J., van der Vaart A. Bayesian linear regression with sparse priors // Annals of Statistics. — 2015. — Т. 43, вип. 5. — arXiv:1403.0735. — DOI: .
- Hernández-Lobato D., Hernández-Lobato J. M., Dupont P. Generalized Spike-and-Slab Priors for Bayesian Group Feature Selection Using Expectation Propagation // Journal of Machine Learning Research. — 2013. — Т. 14.
- Kristine Monteith, James Carroll, Kevin Seppi, Tony Martinez. Turning Bayesian Model Averaging into Bayesian Model Combination // Proceedings of the International Joint Conference on Neural Networks IJCNN'11. — 2011. — С. 2657—2663.
- Saso Dzeroski, Bernard Zenko. Is Combining Classifiers Better than Selecting the Best One // Machine Learning. — 2004.
- Hilan Bensusan, Christophe G. Giraud-Carrier. Discovering Task Neighbourhoods Through Landmark Learning Performances // PKDD '00: Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery. — Springer-Verlag, 2000.
- Smyth P., Wolpert D. H. Linearly Combining Density Estimators via Stacking // Machine Learning Journal. — 1999. — Т. 36.
- Wolpert D.H., Macready W.G. An Efficient Method to Estimate Bagging’s Generalization Error // Machine Learning Journal. — 1999. — Т. 35.
- Clarke B. Bayes model averaging and stacking when model approximation error cannot be ignored // Journal of Machine Learning Research. — 2003.
- Wolpert D. Stacked Generalization // Neural Networks. — 1992. — Т. 5, вип. 2.
- Breiman L. Stacked Regression // Machine Learning. — 1996. — Т. 24. — DOI: .
- Ozay M., Yarman Vural F. T. A New Fuzzy Stacked Generalization Technique and Analysis of its Performance. — 2013. — arXiv:1204.0171. — Bibcode: .
- Sill J., Takacs G., Mackey L., Lin D. Feature-Weighted Linear Stacking. — 2009. — arXiv:0911.0460. — Bibcode: .
- Shahram M. Amini, Christopher F. Parmeter. Bayesian model averaging in R // Journal of Economic and Social Measurement. — 2011. — Т. 36, вип. 4.
- Michał Woźniak, Manuel Graña, Emilio Corchado. A survey of multiple classifier systems as hybrid systems // Information Fusion. — 2014. — Т. 16 (March). — DOI: .
- Rodriguez-Galiano V.F., Ghimire B., Rogan J., Chica-Olmo, M., Rigol-Sanchez J.P. An assessment of the effectiveness of a random forest classifier for land-cover classification // ISPRS Journal of Photogrammetry and Remote Sensing. — 2012. — Т. 67. — Bibcode: . — DOI: .
- Giorgio Giacinto, Fabio Roli. Design of effective neural network ensembles for image classification purposes // Image and Vision Computing. — 2001. — Т. 19, вип. 9—10 (August). — DOI: .
- Junshi Xia, Naoto Yokoya, Yakira Iwasaki. A novel ensemble classifier of hyperspectral and LiDAR data using morphological features // 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — 2017. — March. — DOI: .
- Mochizuki S., Murakami T. Accuracy comparison of land cover mapping using the object-oriented image classification with machine learning algorithms // 33rd Asian Conference on Remote Sensing 2012, ACRS 2012. — 2012. — Т. 1 (November).
- Giacinto G., Roli F., Fumera G. Design of effective multiple classifier systems by clustering of classifiers // Proceedings 15th International Conference on Pattern Recognition. ICPR-2000. — 2000. — September. — DOI: .
- Peijun Du, Sicong Liu, Junshi Xia, Yindi Zhao. Information fusion techniques for change detection from multi-temporal remote sensing images // Information Fusion. — 2013. — Т. 14, вип. 1 (January). — DOI: .
- Lorenzo Bruzzone, Roberto Cossu, Gianni Vernazza. Combining parametric and non-parametric algorithms for a partially unsupervised classification of multitemporal remote-sensing images // Information Fusion. — 2002. — Т. 3, вип. 4 (December). — DOI: .
- P. Arun Raj Kumar, S. Selvakumar. Distributed denial of service attack detection using an ensemble of neural classifier // Computer Communications. — 2011. — Т. 34, вип. 11 (July). — DOI: .
- Asaf Shabtai, Robert Moskovitch, Yuval Elovici, Chanan Glezer. Detection of malicious code by applying machine learning classifiers on static features: A state-of-the-art survey // Information Security Technical Report. — 2009. — Т. 14, вип. 1 (February). — DOI: .
- Boyun Zhang, Jianping Yin, Jingbo Hao, Dingxing Zhang, Shulin Wang. Malicious Codes Detection Based on Ensemble Learning // Autonomic and Trusted Computing. — 2007. — DOI: .
- Eitan Menahem, Asaf Shabtai, Lior Rokach, Yuval Elovici. Improving malware detection by applying multi-inducer ensemble // Computational Statistics & Data Analysis. — 2009. — Т. 53, вип. 4 (February). — DOI: .
- Michael E. Locasto, Ke Wang, Angeles D. Keromytis, J. Stolfo Salvatore. FLIPS: Hybrid Adaptive Intrusion Prevention // Recent Advances in Intrusion Detection. — 2005. — DOI: .
- Giorgio Giacinto, Roberto Perdisci, Mauro Del Rio, Fabio Roli. Intrusion detection in computer networks by a modular ensemble of one-class classifiers // Information Fusion. — 2008. — Т. 9, вип. 1 (January). — DOI: .
- Xiaoyan Mu, Jiangfeng Lu, Paul Watta, Mohamad H. Hassoun. Weighted voting-based ensemble classifiers with application to human face recognition and voice recognition // 2009 International Joint Conference on Neural Networks. — 2009. — July. — DOI: .
- Su Yu, Shiguang Shan, Xilin Chen, Wen Gao. Hierarchical ensemble of Gabor Fisher classifier for face recognition // Automatic Face and Gesture Recognition, 2006. FGR 2006. 7th International Conference on Automatic Face and Gesture Recognition (FGR06). — 2006. — April. — DOI: .
- Su Yu, Shiguang Shan, Xilin Chen, Wen Gao. Patch-based gabor fisher classifier for face recognition // Proceedings - International Conference on Pattern Recognition. — 2006. — Т. 2 (September). — DOI: .
- Yang Liu, Yongzheng Lin, Yuehui Chen. Ensemble Classification Based on ICA for Face Recognition // Proceedings - 1st International Congress on Image and Signal Processing, IEEE Conference, CISP 2008. — 2008. — July. — DOI: .
- Steven A. Rieger, Rajani Muraleedharan, Ravi P. Ramachandran. Speech based emotion recognition using spectral feature extraction and an ensemble of kNN classifiers // Proceedings of the 9th International Symposium on Chinese Spoken Language Processing, ISCSLP 2014. — 2014. — DOI:
- Jarek Krajewski, Anton Batliner, Silke Kessel. Comparing Multiple Classifiers for Speech-Based Detection of Self-Confidence - A Pilot Study // 20th International Conference on Pattern Recognition. — 2010. — DOI:
- P. Ithaya Rani, K. Muneeswaran. Recognize the facial emotion in video sequences using eye and mouth temporal Gabor features // Multimedia Tools and Applications. — 2016. — Т. 76, вип. 7 (May). — DOI: .
- P. Ithaya Rani, K. Muneeswaran. Facial Emotion Recognition Based on Eye and Mouth Regions // International Journal of Pattern Recognition and Artificial Intelligence. — 2016. — Т. 30, вип. 07 (August). — DOI: .
- P. Ithaya Rani, K. Muneeswaran. Emotion recognition based on facial components // Sādhanā. — 2018. — Т. 43, вип. 3 (March). — DOI: .
- Francisco Louzada, Anderson Ara. Bagging k-dependence probabilistic networks: An alternative powerful fraud detection tool // Expert Systems with Applications. — 2012. — Т. 39, вип. 14 (October). — DOI: .
- G. Ganesh Sundarkumar, Vadlamani Ravi. A novel hybrid undersampling method for mining unbalanced datasets in banking and insurance // Engineering Applications of Artificial Intelligence. — 2015. — Т. 37 (January). — DOI: .
- Yoonseong Kim, So Young Sohn. Stock fraud detection using peer group analysis // Expert Systems with Applications. — 2012. — Т. 39, вип. 10 (August). — DOI: .
- {{Стаття|author=Yoonseong Kim, So Young Sohn|ref=Kim, Sohn|title=Stock fraud detection using peer group analysis|видання=Expert Systems with Applications|місяць=August|рік=2012|том=39|issue=10|doi=10.1016/j.eswa.2012.02.025рік
- Savio A., García-Sebastián M.T., Chyzyk D., Hernandez C., Graña M., Sistiaga A., López de Munain A., Villanúa J. Neurocognitive disorder detection based on feature vectors extracted from VBM analysis of structural MRI // Computers in Biology and Medicine. — 2011. — Т. 41, вип. 8 (August). — DOI: .
- Ayerdi B., Savio A., Graña M. Meta-ensembles of classifiers for Alzheimer's disease detection using independent ROI features // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). — 2013. — Вип. Part 2 (June). — DOI: .
- Quan Gu, Yong-Sheng Ding, Tong-Liang Zhang. An ensemble classifier based prediction of G-protein-coupled receptor classes in low homology // Neurocomputing. — 2015. — Т. 154 (April). — DOI: .
- Zhou Zhihua. Ensemble Methods: Foundations and Algorithms. — Chapman and Hall/CRC, 2012. — ISBN 978-1-439-83003-1.
- Robert Schapire, Yoav Freund. Boosting: Foundations and Algorithms. — MIT, 2012. — ISBN 978-0-262-01718-3.