Користувач:Nolikoff/Безмодельне навчання з підкріпленням
Зовнішній вигляд
У навчанні з підкріпленням (RL) безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, що не використовує розподіл ймовірності переходу і функцію винагороди, пов’язані з Марковським процесом вирішування (MDP),[1] котрий в свою чергу відображає проблему, що потрібно розв'язати. Розподіл ймовірності переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або MDP), звідси й назва «безмодельна». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм проб і помилок.[1] Прикладом безмодельного алгоритму може слугувати Q-навчання.
Алгоритм | Опис | Модель | Політика | Множина дій | Простір станів | Оператор |
---|---|---|---|---|---|---|
DQN | Глибинна Q мережа | Безмодельний | Поза політикою | Дискретна | Безперервний | Q-значення |
DDPG | Глибинний детермінований градієнт політики | Безмодельний | Поза політикою | Безперервна | Безперервний | Q-значення |
A3C | Алгоритм асинхронної переваги критики діяча | Безмодельний | На-політику | Безперервна | Безперервний | Перевага |
ТРПО | Оптимізація політики довірчої області | Безмодельний | На-політику | Безперервна | Безперервний | Перевага |
РРО | Проксимальна оптимізація політики | Безмодельний | На-політику | Безперервна | Безперервний | Перевага |
TD3 | Подвійно відкладений глибинно детермінований градієнт політики | Безмодельний | Поза політикою | Безперервна | Безперервний | Q-значення |
SAC | М'який алгоритм критики діяча | Безмодельний | Поза політикою | Безперервна | Безперервний | Перевага |
- ↑ а б Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). Reinforcement Learning: An Introduction (PDF) (вид. Second). A Bradford Book. с. 552. ISBN 0262039249. Процитовано 18 February 2019.
[[Категорія:Навчання з підкріпленням]]