符号一览
大写字母用于随机变量,而小写字母用于随机变量的具体值或标量函数。 小写、粗体的字母用于实数向量(即使是随机变量)。大写的粗体字母用于矩阵。
\(\doteq\) |
由定义得到的等于关系 |
\(\approx\) |
约等于 |
\(\propto\) |
正比于 |
\(\Pr \{X=x\}\) |
随机变量 \(X\) 取值为 \(x\) 的概率 |
\(X \sim p\) |
随机变量 \(X\) 满足分布 \(p(x) \doteq \Pr\{X = x\}\) |
\(\mathbb{E}[X]\) |
随机变量 \(X\) 的期望值, 也就是说 \(\mathbb{E}[X] = \sum_x p(x)x\) |
\(\arg \max_a f(a)\) |
当 \(f(a)\) 取最大值时 \(a\) 的取值 |
\(\ln (x)\) |
\(x\) 的自然对数 |
\(e^x, exp(x)\) |
自然对数 \(e \approx 2.71828\) 的 \(x\) 次方;\(e^{\ln x}=x\) |
\(\mathbb{R}\) |
实数集 |
\(f: \mathcal{X} \rightarrow \mathcal{y}\) |
函数 \(f\) 表示从集合 \(\mathcal X\) 中元素到集合 \(\mathcal{y}\) 中元素的映射 |
\(\leftarrow\) |
赋值 |
\((a, b]\) |
左开右闭的实数区间 |
\(\varepsilon\) |
在 \(\varepsilon\) -贪婪策略中采取随机动作的概率 |
\(\alpha, \beta\) |
步长参数 |
\(\gamma\) |
折扣率参数 |
\(\lambda\) |
资格迹中的衰减率 |
\(\mathbb{1}_{predicate}\) |
指示函数(当 谓词 \(predicate\) 为真时 \(\mathbb{1}_{predicate} \doteq 1\), 反之为0) |
在多摇臂赌博机问题中:
\(k\) |
动作(摇臂)的数量 |
\(t\) |
离散的时间步或玩的次数 |
\(q_*(a)\) |
动作 \(a\) 的真实值(预期奖励) |
\(Q_t(a)\) |
\(q_*(a)\) 在时步 \(t\) 的估计值 |
\(N_t(a)\) |
在时步 \(t\) 前动作 \(a\) 被选中的概率 |
\(H_t(a)\) |
由学习得到的、在时步 \(t\) 时选择动作 \(a\) 的偏好值 |
\(\pi_t(a)\) |
在时步 \(t\) 选择动作 \(a\) 的概率 |
\(\overline{R}_t\) |
在给定策略 \(\pi_t\) 的情况下, 预期奖励在时步 \(t\) 时的估计值 |
在马尔科夫决策过程中:
\(s, s^{\prime}\) |
状态 |
\(a\) |
动作 |
\(r\) |
奖励 |
\(\mathcal{S}\) |
所有非末状态的集合 |
\(\mathcal{S}^+\) |
所有状态的集合, 包括末状态 |
\(\mathcal{A}(s)\) |
在状态 \(s\) 下所有可行的动作的集合 |
\(\mathcal{R}\) |
所有可能奖励的集合, 为 \(\mathbb{R}\) 的有限子集 |
\(\subset\) |
含于, 例如 \(\mathcal{R} \subset \mathbb{R}\) |
\(\in\) |
属于, 例如 \(s \in \mathcal{S}\), \(r \in \mathcal{R}\) |
\(\lvert \mathcal{S} \rvert\) |
集合 \(\mathcal{S}\) 中元素的个数 |
\(t\) |
离散的时步 |
\(T, T(t)\) |
回合的最后一个时步, 或包含了时步 \(t\) 的回合的最后一步 |
\(A_t\) |
在时步 \(t\) 中所选择的动作 |
\(S_t\) |
时步 \(t\) 时的状态, 通常由 \(S_{t-1}\) 和 \(A_{t-1}\) 概率性地决定 |
\(R_t\) |
在时步 \(t\) 中的奖励, 通常由 \(S_{t-1}\) 和 \(A_{t-1}\) 概率性地决定 |
\(\pi\) |
策略(决策准则) |
\(\pi(s)\) |
在 确定性 策略 \(\pi\) 下, 在状态 \(s\) 中所采取的动作 |
\(\pi(a | s)\) |
在 概率性 策略 \(\pi\) 下, 在状态 \(s\) 中采取动作 \(a\) 的概率 |
\(G_t\) |
在时步 \(t\) 后的回报 |
\(h\) |
水平,在前瞻多看的时步(horizon, the time step one looks up to in a forward view) |
\(G_{t:t+n}, G_{t:h}\) |
从 \(t+1\) 到 \(t+n\) 或到 \(h\) (折扣的且校正的) 的n步回报 |
\(overline{G}_{t:h}\) |
从 \(t+1\) 到 \(h\) 的平坦回报(未折扣且未校正的)(5.8节) |
\(G_{t}^{\lambda}\) |
\(\lambda\) -回报(12.1节) |
\(G_{t:h}^{\lambda}\) |
截断的,校正的:math:lambda -回报(12.3节) |
\(G_t^{\lambda s}, G_t^{\lambda a}\) |
估计状态或动作,价值校正的:math:lambda -回报(12.8节) |
\(p(s^{\prime}, r | s, a)\) |
从状态 \(s\) 与动作 \(a\) 起, 以 \(r\) 的奖励转移到状态 \(s^{\prime}\) 的概率 |
\(p(s^{\prime} | s, a)\) |
从状态 \(s\) 起采取动作 \(a\), 转移到状态 \(s^{\prime}\) 的概率 |
\(r(s, a)\) |
动作 \(a\) 后状态 \(s\) 的预期即时奖励 |
\(r(s, a, s^{\prime})\) |
动作 \(a\) 下从状态 \(s\) 到状态 \(s^{\prime}\) 的转移的预期即时奖励 |
\(v_\pi(s)\) |
在策略 \(\pi\) 下状态 \(s\) 的价值(预期回报) |
\(v_*(s)\) |
在最优策略下状态 \(s\) 的价值 |
\(q_\pi(s, a)\) |
在策略 \(\pi\) 下, 在状态 \(s\) 中采取动作 \(a\) 的价值 |
\(q_*(s, a)\) |
在最优策略下, 在状态 \(s\) 中采取动作 \(a\) 的价值 |
\(V, V_t\) |
状态价值函数 \(v_\pi\) 或 \(v_*\) 的表格估计值 |
\(Q, Q_t\) |
动作价值函数 \(q_\pi\) 或 \(q_*\) 的表格估计值 |
\(\overline{V}_t(s)\) |
预期的近似动作价值, 如 \(\overline{V}_{t}(s) \doteq \sum_{a} \pi(a | s) Q_{t}(s, a)\) |
\(U_t\) |
在时步 \(t\) 估计的目标 |
\(\delta_t\) |
在时步 \(t\) (随机变量)的时序差分(TD)误差(6.1节) |
\(\delta_t^s, \delta_t^a\) |
TD误差的状态和行动特定形式(第12.9节) |
\(n\) |
在n步方法中,\(n\) 是自举的步骤数 |
\(d\) |
维度── \(\mathbf{w}\) 的分量数量 |
\(d^{\prime}\) |
备用维度── \(\mathrm{\theta}\) 的分量数量 |
\(\mathbf{w}, \mathbf{w}_{t}\) |
近似价值函数的权重 \(d\) 维向量 |
\(w_{i}, w_{t, i}\) |
第 \(i\) 个可学习的权重向量的组成部分 |
\(\hat{v}(s, \mathbf{w})\) |
给定权重向量 mathbf{w} 的状态 \(s\) 的近似价值 |
\(v_{\mathbf{w}}(s)\) |
\(\hat{v}(s, \mathbf{w})\) 的备用表示 |
\(\hat{q}(s, a, \mathbf{w})\) |
状态-动作对 \(s,a\) 的近似价值,给定权重向量 \(\mathbf{w}\) |
\(\hat{\nabla} \hat{v}(s, \mathbf{w})\) |
关于 \(\mathbf{w}\) 的 \(\hat{v}(s, \mathbf{w})\) 的偏导数的列向量 |
\(\nabla \hat{q}(s, a, \mathbf{w})\) |
关于 \(\mathbf{w}\) 的 \(\hat{q}(s, a, \mathbf{w})\) 的偏导数的列向量 |
\(\mathbf{x}(s)\) |
在状态 \(s\) 可见的特征向量 |
\(\mathbf{x}(s, a)\) |
在状态 \(s\) 采取动作 \(a\) 时可见的特征向量 |
\(x_{i}(s), x_{i}(s, a)\) |
向量 \(\mathbf{x}(s)\) 或 \(\mathbf{x}(s, a)\) 的分量 |
\(\mathbf{x}_{t}\) |
\(\mathbf{x}(S_t)\) 或 \(\mathbf{x}(S_t, A_t)\) 的简写 |
\(\mathbf{W}^{\top} \mathbf{x}\) |
向量的内积,\(\mathbf{w}^{\top} \mathbf{x} \doteq \sum_{i} w_{i} x_{i}\);比如 \(\hat{v}(s, \mathbf{w}) \doteq \mathbf{w}^{\top} \mathbf{x}(s)\) |
\(\mathbf{V}, \mathbf{V}_{t}\) |
用于学习 \(\mathbf{w}\) 的权重的次要 \(d\) 维向量(第11章) |
\(\mathbf{Z}_{t}\) |
时步 \(t\) 的资格迹 \(d\) 维向量(第12章) |
\(\mathbf{\theta}, \mathbf{\theta}_{t}\) |
目标策略的参数向量(第13章) |
\(\pi(a | s, \mathbf{\theta})\) |
在给定参数向量 \(\mathbf{\theta}\) 的状态 \(s\) 下采取动作 \(a\) 的概率 |
\(\pi_{\mathbf{\theta}}\) |
与参数 \(\mathbf{\theta}\) 对应的策略 |
\(\nabla \pi(a | s, \mathbf{\theta})\) |
关于 \(\mathbf{\theta}\) 的 \(\pi(a|s,\mathbf{\theta})\) 的偏导数的列向量 |
\(\mathbf{J}(\mathbf{\theta})\) |
策略的性能衡量指标 |
\(\nabla \mathbf{J}(\mathbf{\theta})\) |
关于 \(\mathbf{\theta}\) 的 \(\mathbf{J}(\mathbf{\theta})\) 的偏导数的列向量 |
\(h(s, a, \mathbf{\theta})\) |
选择基于 \(\mathbf{\theta}\) 的状态 \(s\) 中的动作 \(a\) 的优先指标 |
\(b(a|s)\) |
用于在了解目标策略 ;math:pi 时选择动作的行为策略 |
\(b(s)\) |
基线函数 \(b : \mathcal{S} \mapsto \mathbb{R}\) 用于策略梯度方法 |
\(b\) |
MDP或搜索树的分支因子 |
\(\rho_{t : h}\) |
时步 \(t\) 到时步 \(h\) 的重要采样比率(第5.5节) |
\(\rho_{t}\) |
时间 \(t\) 的重要采样比率,\(\rho_{t} \doteq \rho_{t:t}\) |
\(r(\pi)\) |
策略 \(\pi\) 的平均回报(奖励率)(第10.3节) |
\(\overline{R}_{t}\) |
在时间 \(t\) 估计 \(r(\pi)\) |
\(\mu(s)\) |
各状态的在策略分布(第9.2节) |
\(\mathbf{\mu}\) |
所有 \(s\in\mathcal{S}\) 的 \(\mu(s)\) 的 \(|\mathcal{S}|\) 维向量 |
\(\|v\|_{\mu}^{2}\) |
价值函数 \(v\) 的 \(\mu\) 加权平方范数,即 \(\|v\|_{\mu}^{2} \doteq \sum_{s \in \mathcal{S}} \mu(s) v(s)^{2}\) |
\(\eta(s)\) |
每回合到状态 \(s\) 的预期访问次数(第199页) |
\(\Pi\) |
价值函数的投影算子(第268页) |
\(B_{\pi}\) |
价值函数的Bellman算子(第11.4节) |
\(\mathbf{A}\) |
\(d \times d\) 矩阵 \(\mathbf{A} \doteq \mathbb{E}\left[\mathbf{x}_{t}\left(\mathbf{x}_{t}-\gamma \mathbf{x}_{t+1}\right)^{\top}\right]\) |
\(\mathbf{b}\) |
\(d\) 维向量 \(\mathbf{b} \doteq \mathbb{E}\left[R_{t+1} \mathbf{x}_{t}\right]\) |
\(\mathbf{w}_{TD}\) |
TD不动点 \(\mathbf{w}_{\mathrm{TD}} \doteq \mathbf{A}^{-1} \mathbf{b}`(:math:`d\) 维向量,第9.4节) |
\(\mathbf{I}\) |
单位矩阵 |
\(\mathbf{P}\) |
\(\pi\) 下的 \(|\mathcal{S}|\times||mathcal{S}|\) 状态转移概率矩阵 |
\(\mathbf{D}\) |
在对角线上具有 \(\mathbf{\mu}\) 的 \(|\mathcal{S}|\times||mathcal{S}|\) 对角矩阵 |
\(\mathbf{X}\) |
以 \(\mathbf{x}(s)\) 为行的 \(|\mathcal{S}| \times d\) 矩阵 |
\(\overline{\delta}_{\mathbf{w}}(s)\) |
状态 \(s\) 下 \(v_{\mathbf{w}}\) 的Bellman误差(预期TD误差)(第11.4节) |
\(\overline{\delta}_{\mathbf{w}},\mathrm{BE}\) |
Bellman误差向量,包含分量 \(\overline{\delta}_{\mathbf{w}}(s)\) |
\(\overline{\mathrm{VE}}(\mathbf{w})\) |
均方值误差 \(\overline{\mathrm{VE}}(\mathbf{w}) \doteq\left\|v_{\mathbf{w}}-v_{\pi}\right\|_{\mu}^{2}\) (第9.2节) |
\(\overline{\mathrm{BE}}(\mathbf{w})\) |
均方Bellman误差 \(\overline{\mathrm{BE}}(\mathbf{w}) \doteq\|\overline{\delta}_{\mathbf{w}}\|_{\mu}^{2}\) |
\(\overline{\mathrm{PBE}}(\mathbf{w})\) |
均方投影Bellman误差 \(\overline{\mathrm{PBE}}(\mathbf{w}) \doteq\left\|\Pi \overline{\delta}_{\mathbf{w}}\right\|_{\mu}^{2}\) |
\(\overline{\mathrm{TDE}}(\mathbf{w})\) |
均方时序差分误差 \(\overline{\operatorname{TDE}}(\mathbf{w}) \doteq \mathbb{E}_{b}\left[\rho_{t} \delta_{t}^{2}\right]\) (第11.5节) |
\(\overline{\mathrm{RE}}(\mathbf{w})\) |
均方回报误差(第11.6节) |