JoyRL Book

继《蘑菇书EasyRL》之后，我们对于想要更多地深入了解强化学习实践的读者准备了一套全新的教程，帮助读者快速入门强化学习的代码实践，并辅以一套开源代码框架JoyRL，便于读者适应业界应用研究风格的代码。

与《蘑菇书》的区别：

《蘑菇书》知识体系更加详细丰富，适合零基础的读者，而本教程侧重对强化学习核心理论的凝练和串联，注重简明内容，适合有一定基础的读者。
《蘑菇书》偏向理论讲解，适合做研究工作的读者，而本教程侧重服务于代码时间，会包含一些实际应用中的技巧和经验，适合做工程应用的读者。
《蘑菇书》代码主要是一些经典算法在一些简单环境下的实现，注重对理论的阐释，而本教程则会包含更多的算法和环境，例如SoftQ、RainbowDQN等，代码内容更偏向业界风格。除此之外，本教程还开发一套开源框架joyrl，便于读者应用到更复杂以及自定义的环境中，适合做交叉应用的读者。

关于`JoyRL`

JoyRL旨在建立一套帮助初学者或交叉学科研究者快速入门强化学习的代码生态。它以PiP包的形式开发开源框架，英文注释，会比离线版更加集成，更加高效，并且会去掉一些实际并不常用的基础算法，例如Q-learning等等，适合需要大规模环境应用的读者进阶使用。

此外，本书中的演示代码会在以Jupyter Notebook的形式呈现，具体在notebooks文件夹中。

在线阅读(内容实时更新)

地址：https://datawhalechina.github.io/joyrl-book/

内容导航

章节	关键内容
第一章绪论
第二章马尔可夫决策过程	马尔可夫决策过程、状态转移矩阵
第三章动态规划	贝尔曼方程、策略迭代、价值迭代
第四章免模型预测	蒙特卡洛、时序差分
第五章免模型控制	Q-learning 算法、Sarsa 算法
第六章深度学习基础	神经网络、梯度下降
第七章 DQN算法	DQN 算法、目标网络、经验回放
第八章 DQN算法进阶	Double DQN、Dueling DQN、PER DQN
第九章策略梯度	随机性策略、REINFORCE
第十章 Actor-Critic算法	A2C、A3C
第十一章 DDPG算法	DDPG、TD3
第十二章 PPO算法	重要性采样、PPO
第十三章 SAC算法	最大熵强化学习、Soft Q、SAC
JoyRL 中文文档
练习题解答

主要贡献者

John Jim

教程设计与算法实战
北京大学硕士

Qi Wang

教程设计
上海交通大学博士生
中国科学院大学硕士

Yiyuan Yang

教程设计
牛津大学博士生
清华大学硕士

特别感谢

协助编辑与校对。@AzulaFire

关注我们

扫描下方二维码关注公众号：Datawhale，回复关键词“强化学习”，即可加入“EasyRL & JoyRL 读者交流群”

Name		Name	Last commit message	Last commit date
Latest commit History 165 Commits
docs		docs
notebooks		notebooks
pseudocodes		pseudocodes
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

JoyRL Book

关于`JoyRL`

在线阅读(内容实时更新)

内容导航

主要贡献者

特别感谢

关注我们

About

Releases

Packages

Contributors 6

Languages

datawhalechina/joyrl-book

Folders and files

Latest commit

History

Repository files navigation

JoyRL Book

关于JoyRL

在线阅读(内容实时更新)

内容导航

主要贡献者

特别感谢

关注我们

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 6

Languages

关于`JoyRL`

Packages