Перейти до вмісту

Користувач:Nolikoff/Безмодельне навчання з підкріпленням

Матеріал з Вікіпедії — вільної енциклопедії.

У навчанні з підкріпленням (RL) безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, що не використовує розподіл ймовірності переходу і функцію винагороди, пов’язані з Марковським процесом вирішування (MDP),[1] котрий в свою чергу відображає проблему, що потрібно розв'язати. Розподіл ймовірності переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або MDP), звідси й назва «безмодельна». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм проб і помилок.[1] Прикладом безмодельного алгоритму може слугувати Q-навчання.

Ключові алгоритми безмодельного навчання з підкріпленням

[ред. | ред. код]
Алгоритм Опис Модель Політика Множина дій Простір станів Оператор
DQN Глибинна Q мережа Безмодельний Поза політикою Дискретна Безперервний Q-значення
DDPG Глибинний детермінований градієнт політики Безмодельний Поза політикою Безперервна Безперервний Q-значення
A3C Алгоритм асинхронної переваги критики діяча Безмодельний На-політику Безперервна Безперервний Перевага
ТРПО Оптимізація політики довірчої області Безмодельний На-політику Безперервна Безперервний Перевага
РРО Проксимальна оптимізація політики Безмодельний На-політику Безперервна Безперервний Перевага
TD3 Подвійно відкладений глибинно детермінований градієнт політики Безмодельний Поза політикою Безперервна Безперервний Q-значення
SAC М'який алгоритм критики діяча Безмодельний Поза політикою Безперервна Безперервний Перевага

Примітки

[ред. | ред. код]
  1. а б Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). Reinforcement Learning: An Introduction (PDF) (вид. Second). A Bradford Book. с. 552. ISBN 0262039249. Процитовано 18 February 2019.

[[Категорія:Навчання з підкріпленням]]