符号一览

大写字母用于随机变量,而小写字母用于随机变量的具体值或标量函数。 小写、粗体的字母用于实数向量(即使是随机变量)。大写的粗体字母用于矩阵。

\(\doteq\)

由定义得到的等于关系

\(\approx\)

约等于

\(\propto\)

正比于

\(\Pr \{X=x\}\)

随机变量 \(X\) 取值为 \(x\) 的概率

\(X \sim p\)

随机变量 \(X\) 满足分布 \(p(x) \doteq \Pr\{X = x\}\)

\(\mathbb{E}[X]\)

随机变量 \(X\) 的期望值, 也就是说 \(\mathbb{E}[X] = \sum_x p(x)x\)

\(\arg \max_a f(a)\)

\(f(a)\) 取最大值时 \(a\) 的取值

\(\ln (x)\)

\(x\) 的自然对数

\(e^x, exp(x)\)

自然对数 \(e \approx 2.71828\)\(x\) 次方;\(e^{\ln x}=x\)

\(\mathbb{R}\)

实数集

\(f: \mathcal{X} \rightarrow \mathcal{y}\)

函数 \(f\) 表示从集合 \(\mathcal X\) 中元素到集合 \(\mathcal{y}\) 中元素的映射

\(\leftarrow\)

赋值

\((a, b]\)

左开右闭的实数区间

\(\varepsilon\)

\(\varepsilon\) -贪婪策略中采取随机动作的概率

\(\alpha, \beta\)

步长参数

\(\gamma\)

折扣率参数

\(\lambda\)

资格迹中的衰减率

\(\mathbb{1}_{predicate}\)

指示函数(当 谓词 \(predicate\) 为真时 \(\mathbb{1}_{predicate} \doteq 1\), 反之为0)

在多摇臂赌博机问题中:

\(k\)

动作(摇臂)的数量

\(t\)

离散的时间步或玩的次数

\(q_*(a)\)

动作 \(a\) 的真实值(预期奖励)

\(Q_t(a)\)

\(q_*(a)\) 在时步 \(t\) 的估计值

\(N_t(a)\)

在时步 \(t\) 前动作 \(a\) 被选中的概率

\(H_t(a)\)

由学习得到的、在时步 \(t\) 时选择动作 \(a\) 的偏好值

\(\pi_t(a)\)

在时步 \(t\) 选择动作 \(a\) 的概率

\(\overline{R}_t\)

在给定策略 \(\pi_t\) 的情况下, 预期奖励在时步 \(t\) 时的估计值

在马尔科夫决策过程中:

\(s, s^{\prime}\)

状态

\(a\)

动作

\(r\)

奖励

\(\mathcal{S}\)

所有非末状态的集合

\(\mathcal{S}^+\)

所有状态的集合, 包括末状态

\(\mathcal{A}(s)\)

在状态 \(s\) 下所有可行的动作的集合

\(\mathcal{R}\)

所有可能奖励的集合, 为 \(\mathbb{R}\) 的有限子集

\(\subset\)

含于, 例如 \(\mathcal{R} \subset \mathbb{R}\)

\(\in\)

属于, 例如 \(s \in \mathcal{S}\), \(r \in \mathcal{R}\)

\(\lvert \mathcal{S} \rvert\)

集合 \(\mathcal{S}\) 中元素的个数

\(t\)

离散的时步

\(T, T(t)\)

回合的最后一个时步, 或包含了时步 \(t\) 的回合的最后一步

\(A_t\)

在时步 \(t\) 中所选择的动作

\(S_t\)

时步 \(t\) 时的状态, 通常由 \(S_{t-1}\)\(A_{t-1}\) 概率性地决定

\(R_t\)

在时步 \(t\) 中的奖励, 通常由 \(S_{t-1}\)\(A_{t-1}\) 概率性地决定

\(\pi\)

策略(决策准则)

\(\pi(s)\)

确定性 策略 \(\pi\) 下, 在状态 \(s\) 中所采取的动作

\(\pi(a | s)\)

概率性 策略 \(\pi\) 下, 在状态 \(s\) 中采取动作 \(a\) 的概率

\(G_t\)

在时步 \(t\) 后的回报

\(h\)

水平,在前瞻多看的时步(horizon, the time step one looks up to in a forward view)

\(G_{t:t+n}, G_{t:h}\)

\(t+1\)\(t+n\) 或到 \(h\) (折扣的且校正的) 的n步回报

\(overline{G}_{t:h}\)

\(t+1\)\(h\) 的平坦回报(未折扣且未校正的)(5.8节)

\(G_{t}^{\lambda}\)

\(\lambda\) -回报(12.1节)

\(G_{t:h}^{\lambda}\)

截断的,校正的:math:lambda -回报(12.3节)

\(G_t^{\lambda s}, G_t^{\lambda a}\)

估计状态或动作,价值校正的:math:lambda -回报(12.8节)

\(p(s^{\prime}, r | s, a)\)

从状态 \(s\) 与动作 \(a\) 起, 以 \(r\) 的奖励转移到状态 \(s^{\prime}\) 的概率

\(p(s^{\prime} | s, a)\)

从状态 \(s\) 起采取动作 \(a\), 转移到状态 \(s^{\prime}\) 的概率

\(r(s, a)\)

动作 \(a\) 后状态 \(s\) 的预期即时奖励

\(r(s, a, s^{\prime})\)

动作 \(a\) 下从状态 \(s\) 到状态 \(s^{\prime}\) 的转移的预期即时奖励

\(v_\pi(s)\)

在策略 \(\pi\) 下状态 \(s\) 的价值(预期回报)

\(v_*(s)\)

在最优策略下状态 \(s\) 的价值

\(q_\pi(s, a)\)

在策略 \(\pi\) 下, 在状态 \(s\) 中采取动作 \(a\) 的价值

\(q_*(s, a)\)

在最优策略下, 在状态 \(s\) 中采取动作 \(a\) 的价值

\(V, V_t\)

状态价值函数 \(v_\pi\)\(v_*\) 的表格估计值

\(Q, Q_t\)

动作价值函数 \(q_\pi\)\(q_*\) 的表格估计值

\(\overline{V}_t(s)\)

预期的近似动作价值, 如 \(\overline{V}_{t}(s) \doteq \sum_{a} \pi(a | s) Q_{t}(s, a)\)

\(U_t\)

在时步 \(t\) 估计的目标

\(\delta_t\)

在时步 \(t\) (随机变量)的时序差分(TD)误差(6.1节)

\(\delta_t^s, \delta_t^a\)

TD误差的状态和行动特定形式(第12.9节)

\(n\)

在n步方法中,\(n\) 是自举的步骤数

\(d\)

维度── \(\mathbf{w}\) 的分量数量

\(d^{\prime}\)

备用维度── \(\mathrm{\theta}\) 的分量数量

\(\mathbf{w}, \mathbf{w}_{t}\)

近似价值函数的权重 \(d\) 维向量

\(w_{i}, w_{t, i}\)

\(i\) 个可学习的权重向量的组成部分

\(\hat{v}(s, \mathbf{w})\)

给定权重向量 mathbf{w} 的状态 \(s\) 的近似价值

\(v_{\mathbf{w}}(s)\)

\(\hat{v}(s, \mathbf{w})\) 的备用表示

\(\hat{q}(s, a, \mathbf{w})\)

状态-动作对 \(s,a\) 的近似价值,给定权重向量 \(\mathbf{w}\)

\(\hat{\nabla} \hat{v}(s, \mathbf{w})\)

关于 \(\mathbf{w}\)\(\hat{v}(s, \mathbf{w})\) 的偏导数的列向量

\(\nabla \hat{q}(s, a, \mathbf{w})\)

关于 \(\mathbf{w}\)\(\hat{q}(s, a, \mathbf{w})\) 的偏导数的列向量

\(\mathbf{x}(s)\)

在状态 \(s\) 可见的特征向量

\(\mathbf{x}(s, a)\)

在状态 \(s\) 采取动作 \(a\) 时可见的特征向量

\(x_{i}(s), x_{i}(s, a)\)

向量 \(\mathbf{x}(s)\)\(\mathbf{x}(s, a)\) 的分量

\(\mathbf{x}_{t}\)

\(\mathbf{x}(S_t)\)\(\mathbf{x}(S_t, A_t)\) 的简写

\(\mathbf{W}^{\top} \mathbf{x}\)

向量的内积,\(\mathbf{w}^{\top} \mathbf{x} \doteq \sum_{i} w_{i} x_{i}\);比如 \(\hat{v}(s, \mathbf{w}) \doteq \mathbf{w}^{\top} \mathbf{x}(s)\)

\(\mathbf{V}, \mathbf{V}_{t}\)

用于学习 \(\mathbf{w}\) 的权重的次要 \(d\) 维向量(第11章)

\(\mathbf{Z}_{t}\)

时步 \(t\) 的资格迹 \(d\) 维向量(第12章)

\(\mathbf{\theta}, \mathbf{\theta}_{t}\)

目标策略的参数向量(第13章)

\(\pi(a | s, \mathbf{\theta})\)

在给定参数向量 \(\mathbf{\theta}\) 的状态 \(s\) 下采取动作 \(a\) 的概率

\(\pi_{\mathbf{\theta}}\)

与参数 \(\mathbf{\theta}\) 对应的策略

\(\nabla \pi(a | s, \mathbf{\theta})\)

关于 \(\mathbf{\theta}\)\(\pi(a|s,\mathbf{\theta})\) 的偏导数的列向量

\(\mathbf{J}(\mathbf{\theta})\)

策略的性能衡量指标

\(\nabla \mathbf{J}(\mathbf{\theta})\)

关于 \(\mathbf{\theta}\)\(\mathbf{J}(\mathbf{\theta})\) 的偏导数的列向量

\(h(s, a, \mathbf{\theta})\)

选择基于 \(\mathbf{\theta}\) 的状态 \(s\) 中的动作 \(a\) 的优先指标

\(b(a|s)\)

用于在了解目标策略 ;math:pi 时选择动作的行为策略

\(b(s)\)

基线函数 \(b : \mathcal{S} \mapsto \mathbb{R}\) 用于策略梯度方法

\(b\)

MDP或搜索树的分支因子

\(\rho_{t : h}\)

时步 \(t\) 到时步 \(h\) 的重要采样比率(第5.5节)

\(\rho_{t}\)

时间 \(t\) 的重要采样比率,\(\rho_{t} \doteq \rho_{t:t}\)

\(r(\pi)\)

策略 \(\pi\) 的平均回报(奖励率)(第10.3节)

\(\overline{R}_{t}\)

在时间 \(t\) 估计 \(r(\pi)\)

\(\mu(s)\)

各状态的在策略分布(第9.2节)

\(\mathbf{\mu}\)

所有 \(s\in\mathcal{S}\)\(\mu(s)\)\(|\mathcal{S}|\) 维向量

\(\|v\|_{\mu}^{2}\)

价值函数 \(v\)\(\mu\) 加权平方范数,即 \(\|v\|_{\mu}^{2} \doteq \sum_{s \in \mathcal{S}} \mu(s) v(s)^{2}\)

\(\eta(s)\)

每回合到状态 \(s\) 的预期访问次数(第199页)

\(\Pi\)

价值函数的投影算子(第268页)

\(B_{\pi}\)

价值函数的Bellman算子(第11.4节)

\(\mathbf{A}\)

\(d \times d\) 矩阵 \(\mathbf{A} \doteq \mathbb{E}\left[\mathbf{x}_{t}\left(\mathbf{x}_{t}-\gamma \mathbf{x}_{t+1}\right)^{\top}\right]\)

\(\mathbf{b}\)

\(d\) 维向量 \(\mathbf{b} \doteq \mathbb{E}\left[R_{t+1} \mathbf{x}_{t}\right]\)

\(\mathbf{w}_{TD}\)

TD不动点 \(\mathbf{w}_{\mathrm{TD}} \doteq \mathbf{A}^{-1} \mathbf{b}`(:math:`d\) 维向量,第9.4节)

\(\mathbf{I}\)

单位矩阵

\(\mathbf{P}\)

\(\pi\) 下的 \(|\mathcal{S}|\times||mathcal{S}|\) 状态转移概率矩阵

\(\mathbf{D}\)

在对角线上具有 \(\mathbf{\mu}\)\(|\mathcal{S}|\times||mathcal{S}|\) 对角矩阵

\(\mathbf{X}\)

\(\mathbf{x}(s)\) 为行的 \(|\mathcal{S}| \times d\) 矩阵

\(\overline{\delta}_{\mathbf{w}}(s)\)

状态 \(s\)\(v_{\mathbf{w}}\) 的Bellman误差(预期TD误差)(第11.4节)

\(\overline{\delta}_{\mathbf{w}},\mathrm{BE}\)

Bellman误差向量,包含分量 \(\overline{\delta}_{\mathbf{w}}(s)\)

\(\overline{\mathrm{VE}}(\mathbf{w})\)

均方值误差 \(\overline{\mathrm{VE}}(\mathbf{w}) \doteq\left\|v_{\mathbf{w}}-v_{\pi}\right\|_{\mu}^{2}\) (第9.2节)

\(\overline{\mathrm{BE}}(\mathbf{w})\)

均方Bellman误差 \(\overline{\mathrm{BE}}(\mathbf{w}) \doteq\|\overline{\delta}_{\mathbf{w}}\|_{\mu}^{2}\)

\(\overline{\mathrm{PBE}}(\mathbf{w})\)

均方投影Bellman误差 \(\overline{\mathrm{PBE}}(\mathbf{w}) \doteq\left\|\Pi \overline{\delta}_{\mathbf{w}}\right\|_{\mu}^{2}\)

\(\overline{\mathrm{TDE}}(\mathbf{w})\)

均方时序差分误差 \(\overline{\operatorname{TDE}}(\mathbf{w}) \doteq \mathbb{E}_{b}\left[\rho_{t} \delta_{t}^{2}\right]\) (第11.5节)

\(\overline{\mathrm{RE}}(\mathbf{w})\)

均方回报误差(第11.6节)