latest
用户文档
项目介绍
安装
核心算法及其实现
运行试验
试验输出
绘制结果
强化学习介绍
第一部分:强化学习中的核心概念
第二部分:强化学习算法概述
第三部分:策略优化介绍
资源
深度强化学习研究者的资料
深度强化学习的核心论文
练习
Spinning Up 算法实现的基准
算法文档
Vanilla Policy Gradient
Trust Region Policy Optimization
Proximal Policy Optimization
Deep Deterministic Policy Gradient
Twin Delayed DDPG
Soft Actor-Critic
工具文档
日志打印
绘图
MPI 工具
运行工具
其他
致谢
作者
关于译者
Spinning Up
Docs
»
深度强化学习教程:Spinning Up项目中文版
Edit on GitHub
深度强化学习教程:Spinning Up项目中文版
¶
顺便给自己的公主号:一时博客 打个广告,欢迎关注,以下为正文。
用户文档
项目介绍
这个项目是什么
为什么创建这个项目
这个项目如何服务我们的使命
代码设计的原则
支持计划
安装
Installing Python
Installing OpenMPI
Installing Spinning Up
Check Your Install
Installing MuJoCo (Optional)
核心算法及其实现
包括哪些算法
为什么介绍这些算法?
代码格式
运行试验
Launching from the Command Line
Launching from Scripts
试验输出
Algorithm Outputs
Save Directory Location
Loading and Running Trained Policies
绘制结果
强化学习介绍
第一部分:强化学习中的核心概念
强化学习能做什么
核心概念和术语
数学模型(可选)
第二部分:强化学习算法概述
强化学习算法的分类
分类中提到的算法链接
第三部分:策略优化介绍
最简单的策略梯度求导
Implementing the Simplest Policy Gradient
Expected Grad-Log-Prob Lemma
Don’t Let the Past Distract You
Implementing Reward-to-Go Policy Gradient
Baselines in Policy Gradients
Other Forms of the Policy Gradient
Recap
资源
深度强化学习研究者的资料
正确的背景
在动手中学习
开展一个研究项目
做严谨的强化学习研究
别想太多
后记:其他资源
参考
深度强化学习的核心论文
1. 免模型强化学习
2. 探索(Exploration)
3. 迁移和多任务强化学习
4. 层次(Hierarchy)
5. 记忆(Memory)
6. 有模型强化学习
7. 元学习(Meta-RL)
8. Scaling RL
9. 现实世界的强化学习
10. 安全
11. 模仿学习和逆强化学习
12. 可复现、分析和评价
13. 额外奖励:强化学习理论的经典论文
练习
Problem Set 1: Basics of Implementation
Problem Set 2: Algorithm Failure Modes
Challenges
Spinning Up 算法实现的基准
Performance in Each Environment
Experiment Details
算法文档
Vanilla Policy Gradient
Background
Documentation
References
Trust Region Policy Optimization
Background
Documentation
References
Proximal Policy Optimization
Background
Documentation
References
Deep Deterministic Policy Gradient
Background
Documentation
References
Twin Delayed DDPG
Background
Documentation
References
Soft Actor-Critic
Background
Documentation
References
工具文档
日志打印
Using a Logger
Logger Classes
Loading Saved Graphs
绘图
MPI 工具
Core MPI Utilities
MPI + Tensorflow Utilities
运行工具
ExperimentGrid
Calling Experiments
其他
致谢
作者
关于译者
索引和目录
¶
索引
模块索引
搜索页面
Read the Docs
v: latest
Versions
latest
stable
Downloads
html
On Read the Docs
Project Home
Builds
Free document hosting provided by
Read the Docs
.