符号一览

大写字母用于随机变量，而小写字母用于随机变量的具体值或标量函数。小写、粗体的字母用于实数向量(即使是随机变量)。大写的粗体字母用于矩阵。

\(\doteq\)	由定义得到的等于关系
\(\approx\)	约等于
\(\propto\)	正比于
\(\Pr \{X=x\}\)	随机变量 \(X\) 取值为 \(x\) 的概率
\(X \sim p\)	随机变量 \(X\) 满足分布 \(p(x) \doteq \Pr\{X = x\}\)
\(\mathbb{E}[X]\)	随机变量 \(X\) 的期望值, 也就是说 \(\mathbb{E}[X] = \sum_x p(x)x\)
\(\arg \max_a f(a)\)	当 \(f(a)\) 取最大值时 \(a\) 的取值
\(\ln (x)\)	\(x\) 的自然对数
\(e^x, exp(x)\)	自然对数 \(e \approx 2.71828\) 的 \(x\) 次方；\(e^{\ln x}=x\)
\(\mathbb{R}\)	实数集
\(f: \mathcal{X} \rightarrow \mathcal{y}\)	函数 \(f\) 表示从集合 \(\mathcal X\) 中元素到集合 \(\mathcal{y}\) 中元素的映射
\(\leftarrow\)	赋值
\((a, b]\)	左开右闭的实数区间

\(\varepsilon\)	在 \(\varepsilon\) -贪婪策略中采取随机动作的概率
\(\alpha, \beta\)	步长参数
\(\gamma\)	折扣率参数
\(\lambda\)	资格迹中的衰减率
\(\mathbb{1}_{predicate}\)	指示函数(当谓词 \(predicate\) 为真时 \(\mathbb{1}_{predicate} \doteq 1\), 反之为0)

在多摇臂赌博机问题中:

\(k\)	动作(摇臂)的数量
\(t\)	离散的时间步或玩的次数
\(q_*(a)\)	动作 \(a\) 的真实值(预期奖励)
\(Q_t(a)\)	\(q_*(a)\) 在时步 \(t\) 的估计值
\(N_t(a)\)	在时步 \(t\) 前动作 \(a\) 被选中的概率
\(H_t(a)\)	由学习得到的、在时步 \(t\) 时选择动作 \(a\) 的偏好值
\(\pi_t(a)\)	在时步 \(t\) 选择动作 \(a\) 的概率
\(\overline{R}_t\)	在给定策略 \(\pi_t\) 的情况下, 预期奖励在时步 \(t\) 时的估计值

在马尔科夫决策过程中:

\(s, s^{\prime}\)	状态
\(a\)	动作
\(r\)	奖励
\(\mathcal{S}\)	所有非末状态的集合
\(\mathcal{S}^+\)	所有状态的集合, 包括末状态
\(\mathcal{A}(s)\)	在状态 \(s\) 下所有可行的动作的集合
\(\mathcal{R}\)	所有可能奖励的集合, 为 \(\mathbb{R}\) 的有限子集
\(\subset\)	含于, 例如 \(\mathcal{R} \subset \mathbb{R}\)
\(\in\)	属于, 例如 \(s \in \mathcal{S}\), \(r \in \mathcal{R}\)
\(\lvert \mathcal{S} \rvert\)	集合 \(\mathcal{S}\) 中元素的个数

\(t\)	离散的时步
\(T, T(t)\)	回合的最后一个时步, 或包含了时步 \(t\) 的回合的最后一步
\(A_t\)	在时步 \(t\) 中所选择的动作
\(S_t\)	时步 \(t\) 时的状态, 通常由 \(S_{t-1}\) 和 \(A_{t-1}\) 概率性地决定
\(R_t\)	在时步 \(t\) 中的奖励, 通常由 \(S_{t-1}\) 和 \(A_{t-1}\) 概率性地决定
\(\pi\)	策略(决策准则)
\(\pi(s)\)	在确定性策略 \(\pi\) 下, 在状态 \(s\) 中所采取的动作
\(\pi(a \| s)\)	在概率性策略 \(\pi\) 下, 在状态 \(s\) 中采取动作 \(a\) 的概率

\(G_t\)	在时步 \(t\) 后的回报
\(h\)	水平，在前瞻多看的时步（horizon, the time step one looks up to in a forward view）
\(G_{t:t+n}, G_{t:h}\)	从 \(t+1\) 到 \(t+n\) 或到 \(h\) （折扣的且校正的）的n步回报
\(overline{G}_{t:h}\)	从 \(t+1\) 到 \(h\) 的平坦回报（未折扣且未校正的）（5.8节）
\(G_{t}^{\lambda}\)	\(\lambda\) -回报（12.1节）
\(G_{t:h}^{\lambda}\)	截断的，校正的:math:lambda -回报（12.3节）
\(G_t^{\lambda s}, G_t^{\lambda a}\)	估计状态或动作，价值校正的:math:lambda -回报（12.8节）

\(p(s^{\prime}, r \| s, a)\)	从状态 \(s\) 与动作 \(a\) 起, 以 \(r\) 的奖励转移到状态 \(s^{\prime}\) 的概率
\(p(s^{\prime} \| s, a)\)	从状态 \(s\) 起采取动作 \(a\), 转移到状态 \(s^{\prime}\) 的概率
\(r(s, a)\)	动作 \(a\) 后状态 \(s\) 的预期即时奖励
\(r(s, a, s^{\prime})\)	动作 \(a\) 下从状态 \(s\) 到状态 \(s^{\prime}\) 的转移的预期即时奖励

\(v_\pi(s)\)	在策略 \(\pi\) 下状态 \(s\) 的价值(预期回报)
\(v_*(s)\)	在最优策略下状态 \(s\) 的价值
\(q_\pi(s, a)\)	在策略 \(\pi\) 下, 在状态 \(s\) 中采取动作 \(a\) 的价值
\(q_*(s, a)\)	在最优策略下, 在状态 \(s\) 中采取动作 \(a\) 的价值

\(V, V_t\)	状态价值函数 \(v_\pi\) 或 \(v_*\) 的表格估计值
\(Q, Q_t\)	动作价值函数 \(q_\pi\) 或 \(q_*\) 的表格估计值
\(\overline{V}_t(s)\)	预期的近似动作价值, 如 \(\overline{V}_{t}(s) \doteq \sum_{a} \pi(a \| s) Q_{t}(s, a)\)
\(U_t\)	在时步 \(t\) 估计的目标
\(\delta_t\)	在时步 \(t\) （随机变量）的时序差分（TD）误差（6.1节）
\(\delta_t^s, \delta_t^a\)	TD误差的状态和行动特定形式（第12.9节）
\(n\)	在n步方法中，\(n\) 是自举的步骤数

\(d\)	维度── \(\mathbf{w}\) 的分量数量
\(d^{\prime}\)	备用维度── \(\mathrm{\theta}\) 的分量数量
\(\mathbf{w}, \mathbf{w}_{t}\)	近似价值函数的权重 \(d\) 维向量
\(w_{i}, w_{t, i}\)	第 \(i\) 个可学习的权重向量的组成部分
\(\hat{v}(s, \mathbf{w})\)	给定权重向量 mathbf{w} 的状态 \(s\) 的近似价值
\(v_{\mathbf{w}}(s)\)	\(\hat{v}(s, \mathbf{w})\) 的备用表示
\(\hat{q}(s, a, \mathbf{w})\)	状态-动作对 \(s,a\) 的近似价值，给定权重向量 \(\mathbf{w}\)
\(\hat{\nabla} \hat{v}(s, \mathbf{w})\)	关于 \(\mathbf{w}\) 的 \(\hat{v}(s, \mathbf{w})\) 的偏导数的列向量
\(\nabla \hat{q}(s, a, \mathbf{w})\)	关于 \(\mathbf{w}\) 的 \(\hat{q}(s, a, \mathbf{w})\) 的偏导数的列向量

\(\mathbf{x}(s)\)	在状态 \(s\) 可见的特征向量
\(\mathbf{x}(s, a)\)	在状态 \(s\) 采取动作 \(a\) 时可见的特征向量
\(x_{i}(s), x_{i}(s, a)\)	向量 \(\mathbf{x}(s)\) 或 \(\mathbf{x}(s, a)\) 的分量
\(\mathbf{x}_{t}\)	\(\mathbf{x}(S_t)\) 或 \(\mathbf{x}(S_t, A_t)\) 的简写
\(\mathbf{W}^{\top} \mathbf{x}\)	向量的内积，\(\mathbf{w}^{\top} \mathbf{x} \doteq \sum_{i} w_{i} x_{i}\)；比如 \(\hat{v}(s, \mathbf{w}) \doteq \mathbf{w}^{\top} \mathbf{x}(s)\)
\(\mathbf{V}, \mathbf{V}_{t}\)	用于学习 \(\mathbf{w}\) 的权重的次要 \(d\) 维向量（第11章）
\(\mathbf{Z}_{t}\)	时步 \(t\) 的资格迹 \(d\) 维向量（第12章）

\(\mathbf{\theta}, \mathbf{\theta}_{t}\)	目标策略的参数向量（第13章）
\(\pi(a \| s, \mathbf{\theta})\)	在给定参数向量 \(\mathbf{\theta}\) 的状态 \(s\) 下采取动作 \(a\) 的概率
\(\pi_{\mathbf{\theta}}\)	与参数 \(\mathbf{\theta}\) 对应的策略
\(\nabla \pi(a \| s, \mathbf{\theta})\)	关于 \(\mathbf{\theta}\) 的 \(\pi(a\|s,\mathbf{\theta})\) 的偏导数的列向量
\(\mathbf{J}(\mathbf{\theta})\)	策略的性能衡量指标
\(\nabla \mathbf{J}(\mathbf{\theta})\)	关于 \(\mathbf{\theta}\) 的 \(\mathbf{J}(\mathbf{\theta})\) 的偏导数的列向量
\(h(s, a, \mathbf{\theta})\)	选择基于 \(\mathbf{\theta}\) 的状态 \(s\) 中的动作 \(a\) 的优先指标

\(b(a\|s)\)	用于在了解目标策略 ;math:pi 时选择动作的行为策略
\(b(s)\)	基线函数 \(b : \mathcal{S} \mapsto \mathbb{R}\) 用于策略梯度方法
\(b\)	MDP或搜索树的分支因子
\(\rho_{t : h}\)	时步 \(t\) 到时步 \(h\) 的重要采样比率（第5.5节）
\(\rho_{t}\)	时间 \(t\) 的重要采样比率，\(\rho_{t} \doteq \rho_{t:t}\)
\(r(\pi)\)	策略 \(\pi\) 的平均回报（奖励率）（第10.3节）
\(\overline{R}_{t}\)	在时间 \(t\) 估计 \(r(\pi)\)

\(\mu(s)\)	各状态的在策略分布（第9.2节）
\(\mathbf{\mu}\)	所有 \(s\in\mathcal{S}\) 的 \(\mu(s)\) 的 \(\|\mathcal{S}\|\) 维向量
\(\\|v\\|_{\mu}^{2}\)	价值函数 \(v\) 的 \(\mu\) 加权平方范数，即 \(\\|v\\|_{\mu}^{2} \doteq \sum_{s \in \mathcal{S}} \mu(s) v(s)^{2}\)
\(\eta(s)\)	每回合到状态 \(s\) 的预期访问次数（第199页）
\(\Pi\)	价值函数的投影算子（第268页）
\(B_{\pi}\)	价值函数的Bellman算子（第11.4节）

\(\mathbf{A}\)	\(d \times d\) 矩阵 \(\mathbf{A} \doteq \mathbb{E}\left[\mathbf{x}_{t}\left(\mathbf{x}_{t}-\gamma \mathbf{x}_{t+1}\right)^{\top}\right]\)
\(\mathbf{b}\)	\(d\) 维向量 \(\mathbf{b} \doteq \mathbb{E}\left[R_{t+1} \mathbf{x}_{t}\right]\)
\(\mathbf{w}_{TD}\)	TD不动点 \(\mathbf{w}_{\mathrm{TD}} \doteq \mathbf{A}^{-1} \mathbf{b}`（:math:`d\) 维向量，第9.4节）
\(\mathbf{I}\)	单位矩阵
\(\mathbf{P}\)	\(\pi\) 下的 \(\|\mathcal{S}\|\times\|\|mathcal{S}\|\) 状态转移概率矩阵
\(\mathbf{D}\)	在对角线上具有 \(\mathbf{\mu}\) 的 \(\|\mathcal{S}\|\times\|\|mathcal{S}\|\) 对角矩阵
\(\mathbf{X}\)	以 \(\mathbf{x}(s)\) 为行的 \(\|\mathcal{S}\| \times d\) 矩阵

\(\overline{\delta}_{\mathbf{w}}(s)\)	状态 \(s\) 下 \(v_{\mathbf{w}}\) 的Bellman误差（预期TD误差）（第11.4节）
\(\overline{\delta}_{\mathbf{w}},\mathrm{BE}\)	Bellman误差向量，包含分量 \(\overline{\delta}_{\mathbf{w}}(s)\)
\(\overline{\mathrm{VE}}(\mathbf{w})\)	均方值误差 \(\overline{\mathrm{VE}}(\mathbf{w}) \doteq\left\\|v_{\mathbf{w}}-v_{\pi}\right\\|_{\mu}^{2}\) （第9.2节）
\(\overline{\mathrm{BE}}(\mathbf{w})\)	均方Bellman误差 \(\overline{\mathrm{BE}}(\mathbf{w}) \doteq\\|\overline{\delta}_{\mathbf{w}}\\|_{\mu}^{2}\)
\(\overline{\mathrm{PBE}}(\mathbf{w})\)	均方投影Bellman误差 \(\overline{\mathrm{PBE}}(\mathbf{w}) \doteq\left\\|\Pi \overline{\delta}_{\mathbf{w}}\right\\|_{\mu}^{2}\)
\(\overline{\mathrm{TDE}}(\mathbf{w})\)	均方时序差分误差 \(\overline{\operatorname{TDE}}(\mathbf{w}) \doteq \mathbb{E}_{b}\left[\rho_{t} \delta_{t}^{2}\right]\) （第11.5节）
\(\overline{\mathrm{RE}}(\mathbf{w})\)	均方回报误差（第11.6节）