Безмодельне навчання
Зовнішній вигляд
Частина з циклу |
Машинне навчання та добування даних |
---|
У навчанні з підкріпленням безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, який не використовує розподіл ймовірностей переходу і функцію винагороди,[1] що пов'язані з Марковським процесом вирішування (МПВ), відображаючим необхідну для розв'язання проблему. Розподіл ймовірностей переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або МПВ), звідси й назва «безмодельний». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм спроб і помилок.[1] Прикладом безмодельного алгоритму може слугувати Q-навчання.
Алгоритм | Опис | Модель | Стратегія | Множина дій | Простір станів | Оператор |
---|---|---|---|---|---|---|
DQN | Deep Q Network | Безмодельний | Поза стратегією | Дискретна | Безперервний | Q-значення |
DDPG | Deep Deterministic Policy Gradient | Безмодельний | Поза стратегією | Безперервна | Безперервний | Q-значення |
A3C | Asynchronous Advantage Actor-Critic Algorithm | Безмодельний | За стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
TRPO | Trust Region Policy Optimization | Безмодельний | За стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
PPO[en] | Proximal Policy Optimization | Безмодельний | За стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
TD3 | Twin Delayed Deep Deterministic Policy Gradient | Безмодельний | Поза стратегією | Безперервна | Безперервний | Q-значення |
SAC | Soft Actor-Critic | Безмодельний | Поза стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
- ↑ а б Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). Reinforcement Learning: An Introduction (PDF) (вид. Second). A Bradford Book. с. 552. ISBN 0262039249. Архів оригіналу (PDF) за 19 лютого 2019. Процитовано 18 лютого 2019.