Featured image of post 人工智能数学符号

人工智能数学符号

统一人工智能数学符号的一般性建议

近年来,人工智能领域发展迅速。不同研究人员和研究小组之间的交流变得越来越重要。然而一个问题在于,出处不同的论文中符号使用并不统一。由此,本文对人工智能领域常用的一些数学符号提出了一般性的建议。

数据集

数据集 $S=\{ \mathbf{z}_i \}^n_{i=1}=\{(\mathbf{x}_i, \mathbf{y}_i) \}^n_{i=1}$ 从分布 $\mathcal{D}$ 中采样,定义在域 $\mathcal{Z} = \mathcal{X} \times \mathcal{Y}$ 上。

  • $\mathcal{X}$ 是实例域(一个集合)
  • $\mathcal{Y}$ 是标签域(一个集合)
  • $\mathcal{Z}=\mathcal{X}\times\mathcal{Y}$ 是样本域(一个集合)

通常,$\mathcal{X}$ 是 $\mathbb{R}^d$ 的子集,$\mathcal{Y}$ 是 $\mathbb{R}^{d_\text{o}}$ 的子集,其中 $d$ 是输入维度,$d_\text{o}$ 是输出维度。
$n=$#$S$ 表示样本数量。在没有特别说明的情况下,$S$ 和 $n$ 表示训练集。

函数

假设空间用 $\mathcal{H}$ 表示,函数用 $f_{\mathbf{\theta}}(\mathbf{x})\in\mathcal{H}$ 或 $f(\mathbf{x};\mathbf{\theta})$ 表示,其中 $f_{\mathbf{\theta}}:\mathcal{X}\to\mathcal{Y}$。

$\mathbf{\theta}$ 表示函数 $f_{\mathbf{\theta}}$ 的参数集。

如果存在目标函数,则用 $f^*$ 或 $f^*:\mathcal{X}\to\mathcal{Y}$ 表示,同时满足 $\mathbf{y}_i=f^*(\mathbf{x}_i)$ , $i=1,\dots,n$。

损失函数

损失函数用 $\ell:\mathcal{H}\times\mathcal{Z}\to\mathbb{R}_{+}:=[0,+\infty)$ 表示,用来衡量预测值和实际值之间的差异,例如 $L^2$ 损失:

$$ \ell(f_{\mathbf{\theta}},\mathbf{z})= \frac{1}{2}(f_{\mathbf{\theta}}(\mathbf{x})-\mathbf{y})^2 $$

其中 $\mathbf{z}=(\mathbf{x},\mathbf{y})$。为了方便,$\ell(f_{\mathbf{\theta}},\mathbf{z})$ 也可以写作:

$$ \ell(f_{\mathbf{\theta}}(\mathbf{x}), \mathbf{y}) $$

对于样本集 $S=\{(\mathbf{x}_i,\mathbf{y}_i)\}^n_{i=1}$,训练损失用 $L_S(\mathbf{\theta})$ 或 $L_n(\mathbf{\theta})$ 或 $R_S(\mathbf{\theta})$ 或 $R_n(\mathbf{\theta})$ 表示:

$$ L_S(\mathbf{\theta})=\frac{1}{n}\sum^n_{i=1}\ell(f_{\mathbf{\theta}}(\mathbf{x}_i),\mathbf{y}_i) $$

期望损失用 $L_{\mathcal{D}}$ 或 $R_{\mathcal{D}}$ 表示:

$$ L_{\mathcal{D}}(\mathbf{\theta})=\mathbb{E}_{\mathcal{D}}\ell(f_{\mathbf{\theta}}(\mathbf{x}),\mathbf{y}) $$

其中 $\mathbf{z}=(\mathbf{x},\mathbf{y})$ 服从分布 $\mathcal{D}$。

激活函数

激活函数用 $\sigma(x)$ 表示。

示例,常用的激活函数有:

  1. $\sigma(x)=\text{ReLU}(x)=\text{max}(0,x)$
  2. $\sigma(x)=\text{sigmoid}(x)=\dfrac{1}{1+e^{-x}}$
  3. $\sigma(x)=\tanh(x)$
  4. $\sigma(x)=\cos x, \sin x$

双层神经网络

隐藏层的神经元数量用 $m$ 表示,双层神经网络为:

$$ f_{\mathbf{\theta}}(\mathbf{x})=\sum^m_{j=1}a_j\sigma(\mathbf{w}_j\cdot\mathbf{x}+b_j) $$

其中 $\sigma$ 是激活函数,$\mathbf{w}_j$ 是输入权重,$a_j$ 是输出权重,$b_j$ 是偏置项。
表示参数集用

$$ \mathbf{\theta}=(a_1,\ldots,a_m,\mathbf{w}_1,\ldots,\mathbf{w}_m,b_1,\cdots,b_m) $$

通用深度神经网络

计算层数时不包括输入层。一个 $L$-层神经网络表示为:

$$ f_{\mathbf{\theta}}(\mathbf{x})=\mathbf{W}^{[L-1]}\sigma\circ(\mathbf{W}^{[L-2]}\sigma\circ(\cdots(\mathbf{W}^{[1]}\sigma\circ(\mathbf{W}^{[0]}\mathbf{x}+\mathbf{b}^{[0]})+\mathbf{b}^{[1]})\cdots)+\mathbf{b}^{[L-2]})+\mathbf{b}^{[L-1]} $$

其中 $\mathbf{W}^{[l]}\in\mathbb{R}^{m_{l+1}\times m_l}$,$\mathbf{b}^{[l]}=\mathbb{R}^{m_{l+1}}$,$m_0=d_\text{in}=d$,$m_{L}=d_\text{o}$,$\sigma$ 是标量函数,"$\circ$" 表示逐元素操作。表示参数集用

$$ \mathbf{\theta}=(\mathbf{W}^{[0]},\mathbf{W}^{[1]},\dots,\mathbf{W}^{[L-1]},\mathbf{b}^{[0]},\mathbf{b}^{[1]},\dots,\mathbf{b}^{[L-1]}) $$

$\mathbf{W}^{[l]}$ 的某个元素用 $\mathbf{W}^{[l]}_{ij}$ 表示。这个定义也可以递归完成:

$$ f^{[0]}_{\mathbf{\theta}}(\mathbf{x})=\mathbf{x} $$$$ f^{[l]}_{\mathbf{\theta}}(\mathbf{x})=\sigma\circ(\mathbf{W}^{[l-1]}f^{[l-1]}_{\mathbf{\theta}}(\mathbf{x})+\mathbf{b}^{[l-1]}) \quad 1\le l\le L-1 $$$$ f_{\mathbf{\theta}}(\mathbf{x})=f^{[L]}_{\mathbf{\theta}}(\mathbf{x})=\mathbf{W}^{[L-1]}f^{[L-1]}_{\mathbf{\theta}}(\mathbf{x})+\mathbf{b}^{[L-1]} $$

复杂度

假定类 $\mathcal{H}$ 的 VC 维度用 VCdim($\mathcal{H}$) 表示。

假定空间 $\mathcal{H}$ 在样本集 $S$ 上的 Rademacher 复杂度用 $R(\mathcal{H}\circ S)$ 或 $\text{Rad}_S(\mathcal{H})$ 表示。

复杂度 $\text{Rad}_S(\mathcal{H})$ 是随机的,因为 $S$ 是随机的。对所有大小为 $n$ 的样本的经验 Rademacher 复杂度,其期望为

$$ \text{Rad}_n(\mathcal{H}) = \mathbb{E}_S\text{Rad}_S(\mathcal{H}) $$

训练

梯度下降通常用 $\text{GD}$ 表示,随机梯度下降通常用 $\text{SGD}$ 表示。

一批数据用 $B$ 表示,批量大小用 $|B|$ 表示。学习率用 $\eta$ 表示。

傅里叶频率

离散频率用 $\mathbf{k}$ 表示,连续频率用 $\mathbf{\xi}$ 表示。

卷积

卷积运算用 $*$ 表示。

符号表

符号 含义 Latex 简记
$\mathbf{x}$ 输入 \bm{x} \vx
$\mathbf{y}$ 输出,标签 \bm{y} \vy
$d$ 输入维度 d
$d_{\text{o}}$ 输出维度 d_{\rm o}
$n$ 样本量 n
$\mathcal{X}$ 实例域(一个集合) \mathcal{X} \fX
$\mathcal{Y}$ 标签域(一个集合) \mathcal{Y} \fY
$\mathcal{Z}$ $=\mathcal{X}\times\mathcal{Y}$ 样本域 \mathcal{Z} \fZ
$\mathcal{H}$ 假设空间(一个集合) \mathcal{H} \fH
$\mathbf{\theta}$ 参数集 \bm{\theta} \vtheta
$f_{\mathbf{\theta}}: \mathcal{X}\to\mathcal{Y}$ 假设函数 \f_{\bm{\theta}} f_{\vtheta}
$f$ or $f^*: \mathcal{X}\to\mathcal{Y}$ 目标函数 f, f^*
$\ell:\mathcal{H}\times \mathcal{Z}\to \mathbb{R}^+$ 损失函数 \ell
$\mathcal{D}$ $\mathcal{Z}$ 的分布 \mathcal{D} \fD
$$S=\{\mathbf{z}_i\}_{i=1}^n$$ $$=\{(\mathbf{x}_i,\mathbf{y}_i)\}_{i=1}^n$$ 样本集
$L_S(\mathbf{\theta})$, $L_{n}(\mathbf{\theta})$, $R_n(\mathbf{\theta})$, $R_S(\mathbf{\theta})$ 经验误差或训练损失
$L_D(\mathbf{\theta})$ 泛化误差或期望损失
$\sigma:\mathbb{R}\to\mathbb{R}$ 激活函数 \sigma
$\mathbf{w}_j$ 输入权重 \bm{w}_j \vw_j
$a_j$ 输出权重 a_j
$b_j$ 偏置项 b_j
$f_{\mathbf{\theta}}(\mathbf{x})$ or $f(\mathbf{x};\mathbf{\theta})$ 神经网络 f_{\bm{\theta}} f_{\vtheta}
$\sum_{j=1}^{m} a_j \sigma (\mathbf{w}_j\cdot \mathbf{x} + b_j)$ 双层神经网络
$\text{VCdim}(\mathcal{H}$) $\mathcal{H}$ 的 VC 维度
$\text{Rad}(\mathcal{H}\circ S)$, $\text{Rad}_{S}(\mathcal{H})$ $\mathcal{H}$ 在 $S$ 上的 Rademacher 复杂度
${\rm Rad}_{n} (\mathcal{H})$ $n$ 个样本的 Rademacher 复杂度
$\text{GD}$ 梯度下降
$\text{SGD}$ 随机梯度下降
$B$ 一批数据(一个集合) B
$\vert B\vert$ 批量大小 b
$\eta$ 学习率 \eta
$\mathbf{k}$ 离散频率 \bm{k} \vk
$\mathbf{\xi}$ 连续频率 \bm{\xi} \vxi
$*$ 卷积运算 *

L 层神经网络

符号 含义 Latex 简记
$d$ 输入维度 d
$d_{\text{o}}$ 输出维度 d_{\rm o}
$m_l$ 第 $l$ 层神经元数量, $m_0=d$, $m_{L} = d_{\text{o}}$ m_l
$\mathbf{W}^{[l]}$ 第 $l$ 层权重 \bm{W}^{[l]} \mW^{[l]}
$\mathbf{b}^{[l]}$ 第 $l$ 层偏置项 \bm{b}^{[l]} \vb^{[l]}
$\circ$ 逐项计算 \circ
$\sigma:\mathbb{R}\to\mathbb{R}^+$ 激活函数 \sigma
$\mathbf{\theta}$ $=(\mathbf{W}^{[0]},\ldots,\mathbf{W}^{[L-1]},\mathbf{b}^{[0]},\ldots,\mathbf{b}^{[L-1]})$, 参数 \bm{\theta} \vtheta
$f_{\mathbf{\theta}}^{[0]}(\mathbf{x})$ $=\mathbf{x}$
$f_{\mathbf{\theta}}^{[l]}(\mathbf{x})$ $=\sigma\circ(\mathbf{W}^{[l-1]} f_{\mathbf{\theta}}^{[l-1]}(\mathbf{x}) + \mathbf{b}^{[l-1]})$, 第 $l$ 层输出
$f_{\mathbf{\theta}}(\mathbf{x})$ $=f_{\mathbf{\theta}}^{[L]}(\mathbf{x})=\mathbf{W}^{[L-1]} f_{\mathbf{\theta}}^{[L-1]}(\mathbf{x}) + \mathbf{b}^{[L-1]}$, $L$ 层神经网络
Licensed under CC BY-NC-SA 4.0
最后更新于 2025-04-01 13:48
使用 Hugo 构建
主题 StackJimmy 设计