引言
Warning
本笔记摘录自西湖大学赵世钰老师的强化学习理论课程
本笔记内容均为纯理论,不包含实践编程部分。如果需要同时学习编程,请配合“DRL实践笔记”食用
学习本部分内容需要具有一定的深度学习基础!!!
学习强化学习原理的建议
- 希望各位能够放平心态,放弃速成的想法:速成是不可能的事情。事实上在生活中,你面临的很多焦虑都来自于没有给自己的目标分配合适的时间。比如我读一篇论文,我应该花一周左右的时间,然而我因为种种事情,只给它分配了一天的时间,并要求自己必须在一天内学会,等到一天快结束的时候你会发现你根本无法完成。
- 强化学习理论有两个特点:一是数学性很强,二是系统性很强。其中,数学性很强是指你需要去理解算法背后的原理与本质;而系统性很强是指强化学习理论知识体系是一环扣一环的,需要一步一步踏踏实实地、系统地去学习。
- 学到一半如果有搞不懂的地方,各位一定要停下来去理解清楚,千万不要带着问题继续往前走
一张图梳理RL脉络
强化学习主要分为两个板块:一是基础工具,二是算法和方法
基础工具包括基础概念、贝尔曼公式、贝尔曼最优公式等
算法和方法包括值迭代和策略迭代、蒙特卡洛算法、时序差分算法、基于值函数的近似方法、policy gradient方法、actor-critic方法等
强化学习的最终目标
强化学习的最终目标是:求解最优策略