PRML 学习笔记(三)- 线性回归模型 (Linear Models for Regression)

Posted by Lucius on May 3, 2021

三、线性回归模型 (Linear Models for Regression)

3.1 线性基函数模型 (Linear Basis Function Models)

$$ y(\mathbf{x}, \mathbf{w})=w_{0}+\sum_{j=1}^{M-1} w_{j} \phi_{j}(\mathbf{x}) $$

其中 $\phi_j(x)$ 是基函数 (basis functions), $w_0$ 为偏差参数 (bias parameter),令 $\phi_0(x)=1$ 后,得到如下式子:

$$ y(\mathbf{x}, \mathbf{w})=\sum_{j=0}^{M-1} w_{j} \phi_{j}(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}) $$

基函数有多种形式,例如:

  • polynomials: $\phi_j(x)=x^j$

  • Gaussians: $\phi_{j}(x)=\exp {-\frac{(x-\mu_{j})^{2}}{2 s^{2}}}$

  • sigmoidal: $\phi_{j}(x)=\sigma\left(\frac{x-\mu_{j}}{s}\right),\sigma(a)=\frac{1}{1+\exp (-a)}$

3.1.1 极大似然估计与最小二乘 (Maximum likelihood and least squares)

前提条件:

  • 假设目标变量 (target variable) $t$ 等于判别式 $y(\mathbf{x}, \mathbf{w})$ 加上高斯噪声
$$ t=y(\mathbf{x}, \mathbf{w})+\epsilon $$
  • 其中高斯噪声服从 $\mathcal{N}(0,\beta^{-1})$ ,则目标变量 $t$ 服从下述分布:
$$ p(t \mid \mathbf{x}, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(\mathbf{x}, \mathbf{w}), \beta^{-1}\right) $$

将数据量从单组扩展到多组,即 $\mathbf{X}=\left{\mathbf{x}{1}, \ldots, \mathbf{x}{N}\right},\mathbf{t}={t_1,…,t_N}$ ,似然概率表示为:

$$ p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta)=\prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right), \beta^{-1}\right) $$

使用极大似然估计,可得如下推导式,其中 $E_{D}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N}{t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}_{n})}^{2}$ 为线性回归的最小二乘形式:

$$ \begin{aligned} &\ln p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta)=\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)-\frac{\beta}{2} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2}\\ &\nabla \ln p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta)=\sum_{n=1}^{N}\left\{t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)^{\mathrm{T}}=0 \\ \end{aligned} $$

求解后,可得如下结果:

$$ \begin{aligned} &\mathbf{w}_{\mathrm{ML}}=\left(\boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\right)^{-1} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t} \\ & \boldsymbol{\Phi}=\left(\begin{array}{cccc} \phi_{0}\left(\mathbf{x}_{1}\right) & \phi_{1}\left(\mathbf{x}_{1}\right) & \cdots & \phi_{M-1}\left(\mathbf{x}_{1}\right) \\ \phi_{0}\left(\mathbf{x}_{2}\right) & \phi_{1}\left(\mathbf{x}_{2}\right) & \cdots & \phi_{M-1}\left(\mathbf{x}_{2}\right) \\ \vdots & \vdots & \ddots & \vdots \\ \phi_{0}\left(\mathbf{x}_{N}\right) & \phi_{1}\left(\mathbf{x}_{N}\right) & \cdots & \phi_{M-1}\left(\mathbf{x}_{N}\right) \end{array}\right) \end{aligned} $$

其中 $\mathbf{\Phi}^{\dagger} \equiv\left(\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}}$ 被称为伪逆 (Moore-Penrose pseudo-inverse of the matrix $\mathbf{\Phi}$ ),另外可以发现 $\mathbf{w}_{\mathrm{ML}}$ 的取值与 $\beta$ 无关。

也可以对 $\beta$ 求导,求出其极大似然估计值:

$$ \frac{1}{\beta_{\mathrm{ML}}}=\frac{1}{N} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{w}_{\mathrm{ML}}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2} $$

最后,我们来研究下 $w_0$ 的求解,改写似然函数,加入 $w_0$:

$$ \ln p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta)=\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)-\frac{\beta}{2} \sum_{n=1}^{N}\left\{t_{n}-w_{0}-\sum_{j=1}^{M-1} w_{j} \phi_{j}\left(\mathbf{x}_{n}\right)\right\}^{2} $$

对 $w_0$ 求导后可得其似然估计值:

$$ \begin{aligned} w_{0_{\mathrm{ML}}}&=\bar{t}-\sum_{j=1}^{M-1} w_{j} \overline{\phi_{j}} \\ \bar{t}&=\frac{1}{N} \sum_{n=1}^{N} t_{n}\\ \quad \overline{\phi_{j}}&=\frac{1}{N} \sum_{n=1}^{N} \phi_{j}\left(\mathbf{x}_{n}\right) \end{aligned} $$
3.1.2 最小二乘的几何视角 (Geometry of least squares)

将 $\mathbf{t}=\left(t_{1}, \ldots, t_{N}\right)^{\mathrm{T}}$ 看作是一个 N 维空间的向量,则 $\mathbf{\Phi}$ 的每一列都可以看成是一个 N 维空间的向量。

进一步地, $\mathbf{\Phi}$ 中的 M 个 N 维空间的向量,在 N 维空间中张成 (span) 了一个超平面,而 $\mathbf{y}=\mathbf{\Phi}\mathbf{w}_{\mathrm{ML}}$ 恰好是 $\mathbf{t}$ 在该超平面上的投影,如下图所示:

接下来证明上述结论,首先如下两点已知:( $\boldsymbol{\varphi}_{j}$ 是 $\mathbf{\Phi}$ 的第 $j$ 列)

$$ \begin{aligned} & \mathbf{y}=\boldsymbol{\Phi} \mathbf{w}_{\mathrm{ML}}=\mathbf{\Phi}\left(\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \\ & \mathbf{\Phi}\left(\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}} \boldsymbol{\varphi}_{j}=\left[\mathbf{\Phi}\left(\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right]_{j}=\boldsymbol{\varphi}_{j} \end{aligned} $$

接下来证明 $\mathbf{y}-\mathbf{t}$ 与 $\boldsymbol{\varphi}_{j}$ 正交:

$$ (\mathbf{y}-\mathbf{t})^{\mathrm{T}} \boldsymbol{\varphi}_{j}=\left(\boldsymbol{\Phi} \mathbf{w}_{\mathrm{ML}}-\mathbf{t}\right)^{\mathrm{T}} \boldsymbol{\varphi}_{j}=\mathbf{t}^{\mathrm{T}}\left(\mathbf{\Phi}\left(\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}}-\mathbf{I}\right)^{\mathrm{T}} \boldsymbol{\varphi}_{j}=0 $$

因此 $\mathbf{y}-\mathbf{t}$ 垂直于由 $\boldsymbol{\varphi}_{j}$ 张成 (span) 的超平面,证明完毕。

3.1.3 序列化学习 (Sequential learning)

利用随机梯度下降来更新 $\mathbf{w}$ ,令 $E_n=\frac{1}{2} \left (t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right )^{2}$ (先前极大似然估计中在求解 $\mathbf{w}$ 时与 $\mathbf{x}_n$ 相关的部分),则随机梯度下降的过程如下:

$$ \begin{aligned} & \mathbf{w}^{(\tau+1)}=\mathbf{w}^{(\tau)}-\eta \nabla E_{n}\\ & \mathbf{w}^{(\tau+1)}=\mathbf{w}^{(\tau)}+\eta\left(t_{n}-\mathbf{w}^{(\tau) \mathrm{T}} \boldsymbol{\phi}(\mathbf{x_n})\right) \boldsymbol{\phi}(\mathbf{x_n}) \end{aligned} $$
3.1.4 正则化最小二乘 (Regularized least squares)

之前从极大似然估计中,我们推导出线性回归的最小二乘形式为:

$$ E_{D}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2} $$

如今,对其加上约束项 $E_{W}(\mathbf{w})=\frac{1}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}$ ,得到:

$$ \frac{1}{2} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2}+\frac{\lambda}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} $$

此种正则项比较常见,在机器学习中被称作权重衰减 (weight decay),在统计中被称作参数收缩 (parameter shrinkage),因此此正则项会使得优化的过程中,权重值朝 0 不断衰减。

求解上述正则化后的式子,得到:

$$ \mathbf{w}=\left(\lambda \mathbf{I}+\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} $$

接下来引入不同形式的正则项,讨论更泛化的形式:

$$ \frac{1}{2} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2}+\frac{\lambda}{2} \sum_{j=1}^{M}\left|w_{j}\right|^{q} $$

上述式子的优化可以进行如下转换 (可根据 KKT 条件进行证明):

$$ \begin{aligned} \min & \ \ \frac{1}{2} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2} \\ s.t.& \ \ \sum_{j=1}^{M}\left|w_{j}\right|^{q} \leqslant \eta \\ \end{aligned} $$

接下来以 $q=1$ 和 $q=2$ 为例,形象化地理解两种正则项的区别。观察下图,蓝线为目标函数的等高线,黄色区域为条件所限制的区域,等高线与合法区域的交点则为最优点。因此,当 $q=1$ 时,最优点较之 $q=2$ 更为稀疏,即很多维为 0。

3.1.5 多输出 (Multiple outputs)

接下来考虑 multi-label 的回归问题,即每一组数据有 $K$ 个输出。

将 $\mathbf{W}$ 扩展为 $M \times K$ 的矩阵,则模型输出形式如下:

$$ \mathbf{y}(\mathbf{x}, \mathbf{w})=\mathbf{W}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}) $$

接下来采用与之前极大似然估计相同的方式进行最优值求解:(矩阵求导参考)

进一步考虑每一个 label 的输出,得到:

$$ \mathbf{w}_{k}=\left(\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}_{k}=\mathbf{\Phi}^{\dagger} \mathbf{t}_{k} $$

上述式子表明求解不同 label 对应的 $\mathbf{w}_k$ 时,只需要 $\mathbf{\Phi}^{\dagger}$ 与当前 label 的信息 $\mathbf{t}_{k}$ ,即不同 label 的求解过程可以解偶 (decouple)。

另外可以发现 $\mathbf{W}_{\mathrm{ML}}$ 与一开始假设的高斯噪声的协方差无关。这一点并不难理解,因为在先前 2.3.4 高斯极大似然估计中,已经均值的估计值与协方差无关,而 $\mathbf{W}_{\mathrm{ML}}$ 又仅与均值有关。

3.2 偏差-方差分解 (The Bias-Variance Decomposition)

在回归问题中,定义平方损失的期望如下:

$$ \mathbb{E}[y(\mathbf{x})]=\iint\{y(\mathbf{x})-t\}^{2} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t $$

对其使用欧拉-拉格朗日公式(详情见 1.5.5 节),得到 $y(\mathbf{x})$ 的最优解 $h(\mathbf{x})$ :

$$ h(\mathbf{x})=\mathbb{E}[t \mid \mathbf{x}]=\int t p(t \mid \mathbf{x}) \mathrm{d} t $$

因此平方损失的期望可以修改为(详情见 1.5.5 节):

$$ \mathbb{E}[L]=\int\{y(\mathbf{x})-h(\mathbf{x})\}^{2} p(\mathbf{x}) \mathrm{d} \mathbf{x}+\iint\{h(\mathbf{x})-t\}^{2} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t $$

在实际使用中,我们通过数据集 $\mathcal{D}$ 来确定 $y(\mathbf{x})$ ,因此 ${y(\mathbf{x})-h(\mathbf{x})}^{2}$ 修改为:

$$ \{y(\mathbf{x} ; \mathcal{D})-h(\mathbf{x})\}^{2} $$

将其进一步拆分,得:

$$ \begin{array}{l} &\quad \left\{y(\mathbf{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\mathbf{x} ; \mathcal{D})]+\mathbb{E}_{\mathcal{D}}[y(\mathbf{x} ; \mathcal{D})]-h(\mathbf{x})\right\}^{2} \\ &=\left\{y(\mathbf{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\mathbf{x} ; \mathcal{D})]\right\}^{2}+\left\{\mathbb{E}_{\mathcal{D}}[y(\mathbf{x} ; \mathcal{D})]-h(\mathbf{x})\right\}^{2}+ \\ &\quad 2\left\{y(\mathbf{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\mathbf{x} ; \mathcal{D})]\right\}\left\{\mathbb{E}_{\mathcal{D}}[y(\mathbf{x} ; \mathcal{D})]-h(\mathbf{x})\right\} \end{array} $$

因此可以得到:

$$ \begin{array}{l} \mathbb{E}_{\mathcal{D}}\left[\{y(\mathbf{x} ; \mathcal{D})-h(\mathbf{x})\}^{2}\right] \\ \quad=\underbrace{\left\{\mathbb{E}_{\mathcal{D}}[y(\mathbf{x} ; \mathcal{D})]-h(\mathbf{x})\right\}^{2}}_{\text {(bias) }^{2}}+\underbrace{\mathbb{E}_{\mathcal{D}}\left[\left\{y(\mathbf{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\mathbf{x} ; \mathcal{D})]\right\}^{2}\right]}_{\text {variance }} \end{array} $$

将 $\mathbb{E}_{\mathcal{D}}\left[{y(\mathbf{x} ; \mathcal{D})-h(\mathbf{x})}^{2}\right]$ 带回至 $\mathbb{E}[L]$ 中,得:

$$ \begin{aligned} & \text { expected loss }=(\text { bias })^{2}+\text { variance }+\text { noise } \\ & (\text { bias })^{2}=\int\left\{\mathbb{E}_{\mathcal{D}}[y(\mathbf{x} ; \mathcal{D})]-h(\mathbf{x})\right\}^{2} p(\mathbf{x}) \mathrm{d} \mathbf{x} \\ & \text { variance }=\int \mathbb{E}_{\mathcal{D}}\left[\left\{y(\mathbf{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\mathbf{x} ; \mathcal{D})]\right\}^{2}\right] p(\mathbf{x}) \mathrm{d} \mathbf{x} \\ & \text { noise }=\iint\{h(\mathbf{x})-t\}^{2} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t \end{aligned} $$

接下来进行实验,同一组数据集用集成的方法取出 100 份,每一份都对应一个分类器 $y(\mathbf{x} ; \mathcal{D})$ ,最后将所有分类器取平均来拟合函数。另外,用 $\lambda$ 来度量 bias 和 variance 的权重,其中 $\lambda$ 越大,variance 权重越大。

在上图中,第一行 variance 权重最大,因此左边图中每条曲线预测数值波动较小,但由于 bias 权重小,因此右边图中,均值结果(红色)较真实分布(绿色)差距大。第三行 variance 权重最小,与第一行形成对比。

另外, $\lambda$ 的取值对拟合效果的影响也可以见下图:

当 $\lambda$ 很大时,variance 很小;当 $\lambda$ 很小时,bias 很小。另外,bias 和 variance 组合最小值所选取的 $\lambda$ 与 test error 最小时所对应的位置很接近。

最后,bias-variance 分解基于多个集成数据集的平均,但实际应用中考虑一个完整的数据集效果通常更好,因此具有一定的局限性。

3.3 贝叶斯线性回归 (Bayesian Linear Regression)

贝叶斯线性回归能够避免极大似然估计所带来的过拟合,也可以使用训练数据自动确定模型复杂度。

3.3.1 参数分布 (Parameter distribution)

使用共轭先验的方式确定参数 $\mathbf{w}$ 的后验概率:(假设 $\beta$ 已知)

$$ \begin{aligned} & [似然]: \quad p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta)=\prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right), \beta^{-1}\right)\\ & [先验]: \quad p(\mathbf{w})=\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{0}, \mathbf{S}_{0}\right)\\ & [后验]: \quad p(\mathbf{w} \mid \mathbf{t})=\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \mathbf{S}_{N}\right) \\ & \quad \quad \quad \quad \begin{aligned} \mathbf{m}_{N} &=\mathbf{S}_{N}\left(\mathbf{S}_{0}^{-1} \mathbf{m}_{0}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}\right) \\ \mathbf{S}_{N}^{-1} &=\mathbf{S}_{0}^{-1}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{\Phi} \end{aligned} \end{aligned} $$

该后验概率估计也可以比较容易地转换为在线学习,每当获取一个新数据,则将当前后验作为先验,并重新求后验:

$$ \begin{aligned} & [似然]: \quad p\left(t_{N+1} \mid \mathbf{x}_{N+1}, \mathbf{w}\right)=\left(\frac{\beta}{2 \pi}\right)^{1 / 2} \exp \left(-\frac{\beta}{2}\left(t_{N+1}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{N+1}\right)^{2}\right)\\ & [先验]: \quad p(\mathbf{w})=\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \mathbf{S}_{N}\right)\\ & [后验]: \quad p\left(\mathbf{w} \mid t_{N+1}, \mathbf{x}_{N+1}, \mathbf{m}_{N}, \mathbf{S}_{N}\right)=\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N+1}, \mathbf{S}_{N+1}\right) \\ & \quad \quad \quad \quad \mathbf{m}_{N+1}=\mathbf{S}_{N+1}\left(\mathbf{S}_{N}^{-1} \mathbf{m}_{N}+\beta \boldsymbol{\phi}_{N+1} t_{N+1}\right) \\ & \quad \quad \quad \quad \mathbf{S}_{N+1}^{-1}=\mathbf{S}_{N}^{-1}+\beta \boldsymbol{\phi}_{N+1} \boldsymbol{\phi}_{N+1}^{\mathrm{T}} \end{aligned} $$

接下来用图像进行直观展示,先令先验概率 $p(\mathbf{w} \mid \alpha)=\mathcal{N}\left(\mathbf{w} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right)$ ,则后验的 log 形式如下:

$$ \ln p(\mathbf{w} \mid \mathbf{t})=-\frac{\beta}{2} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2}-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}+\mathrm{const} $$

与带正则项的最小二乘形式一致。

考虑线性模型 $y(x, \mathbf{w})=w_{0}+w_{1} x$ ,其数据由 $f(x, \mathbf{a})=a_{0}+a_{1} x$ 加上高斯噪声(标准差为 0.2)得到,其中 x 从均匀分布中采样得到。假设已知高斯噪声,即 $\beta=(1 / 0.2)^{2}=25$ ,得到下图:

其中每一行代表新拿到了一个数据点(蓝色圆圈),第三列红色的线来自第二列后验分布的随机采样。每一列的似然均只包括一个数据点(因此分布呈条状),每一列的后验分布则来自上一列的后验分布 * 当前列的似然。

观察上图,不难发现,随着数据点的增加,后验分布越来越紧密,接近于真实值,且对数据点的拟合越发精确。

3.3.2 预测分布 (Predictive distribution)

预测值的概率分布如下:

$$ p(t \mid \mathbf{t}, \alpha, \beta)=\int p(t \mid \mathbf{w}, \beta) p(\mathbf{w} \mid \mathbf{t}, \alpha, \beta) \mathrm{d} \mathbf{w} $$

已知 $p(\mathbf{w})$ 、 $p(t|\mathbf{w})$ 求 $p(t)$ ,与先前在「2.3.2 边缘高斯分布」中讨论的一致, $p(t \mid \mathbf{t}, \alpha, \beta)$ 求解如下:

$$ \begin{aligned} p(t \mid \mathbf{x}, \mathbf{t}, \alpha, \beta) &=\int \mathrm{N}\left(t \mid \boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{w}, \beta^{-1}\right) \mathrm{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \mathbf{S}_{N}\right) \mathrm{d} \mathbf{w} \\ &=\mathrm{N}\left(t \mid \mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \sigma_{N}^{2}(\mathbf{x})\right) \\ \sigma_{N}^{2}(\mathbf{x})=\frac{1}{\beta}+&\phi (\mathbf{x})^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}(\mathbf{x}) \end{aligned} $$

另外,随着数据集不断变大,后验分布的不确定性( $\sigma^2(x)$ )就会不断降低,即 $\sigma_{N+1}^{2}(\mathbf{x}) \leqslant \sigma_{N}^{2}(\mathbf{x})$ ,证明如下:

具体实验结果如下:

其中绿线为真实分布,红线为每一个 x 对应分布的均值,红色区域表示标准差范围。可以发现,随着已知数据点的增多,不确定性(红色区域)越发减少;并且在数据点附近位置,不确定性小于无数据点位置。

另外根据 $\mathbf{w}$ 的分布,随机取样 $\mathbf{w}$ ,得到下图:

观察上图,也可发现随着数据点的增多,拟合曲线的不确定性在下降。

由于高斯是局部基函数(围绕均值分布,离均值越远值越小,相比之下多项式是全局基函数),因此模型认为基函数附近区域的预测非常准,这通常不是我们要的结果。之后会介绍高斯过程(Gaussian process)来解决这一问题。

最后,如果 $\mathbf{w}$ 和 $\beta$ 均未知,则共轭先验 $p(\mathbf{w},\beta)$ 将服从 Gaussian-gamma 分布,其预测分布则为 t-分布。

3.3.3 等效核 (Equivalent kernel)

令先验概率 $p(\mathbf{w} \mid \alpha)=\mathrm{N}\left(\mathbf{w} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right)$ ,则 $p(\mathbf{w} \mid \mathbf{t})=\mathrm{N}(\mathbf{w} \mid \mathbf{m}_{N}, \mathbf{S}_{N})$ 中的 $\mathbf{m}_{N}=\beta \mathbf{S}_{N} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}$ , $\mathbf{S}_{N}^{-1}=\alpha \mathbf{I}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}$ 。对于 $y(\mathbf{x}, \mathbf{w})$ ,取 $\mathbf{w}=\mathbf{m}_{N}$ ,得到:

$$ y\left(\mathbf{x}, \mathbf{m}_{N}\right)=\mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})=\beta \boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t}=\sum_{n=1}^{N} \beta \boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right) t_{n} $$

使用等效核形式表示,即:

$$ \begin{aligned} y\left(\mathbf{x}, \mathbf{m}_{N}\right)&=\sum_{n=1}^{N} k\left(\mathbf{x}, \mathbf{x}_{n}\right) t_{n} \\ k\left(\mathbf{x}, \mathbf{x}^{\prime}\right)&=\beta \boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}\left(\mathbf{x}^{\prime}\right) \end{aligned} $$

其中 $k\left(\mathbf{x}, \mathbf{x}^{\prime}\right)$ 称为平滑矩阵 (smoother matrix) 或等效核 (equivalent kernel)。

选用不同的基函数,查看等效核的性质:

可以发现无论选取什么基函数,当 $\mathbf{x}$ 固定时, $k\left(\mathbf{x}, \mathbf{x}^{\prime}\right)$ 的函数图像呈现单峰状。

另外,分析 $y(\mathbf{x}), y\left(\mathbf{x}^{\prime}\right)$ 相关性,即求取 $\operatorname{cov}\left[y(\mathbf{x}), y\left(\mathbf{x}^{\prime}\right)\right]$ :

$$ \begin{aligned} \operatorname{cov}\left[y(\mathbf{x}), y\left(\mathbf{x}^{\prime}\right)\right] &=\operatorname{cov}\left[\boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{w}, \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}^{\prime}\right)\right] \\ &=\boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}\left(\mathbf{x}^{\prime}\right)=\beta^{-1} k\left(\mathbf{x}, \mathbf{x}^{\prime}\right) \end{aligned} $$

根据协方差,我们可以发现 $\mathbf{x}$ 的预测值与其附近点的预测值相关度较高。

另外,根据 $y\left(\mathbf{x}, \mathbf{m}_{N}\right)=\sum_{n=1}^{N} k\left(\mathbf{x}, \mathbf{x}_{n}\right) t_{n}$ ,我们也可以使用高斯过程 (Gaussian processes) 方法,通过直接定义等效核(其分布具有局部性,localized kernel)的方式对数据进行预测,其中 $k\left(\mathbf{x}, \mathbf{x}_{n}\right)$ 可视为每个数据点的权重,满足:

$$ \sum_{n=1}^{N} k\left(\mathbf{x}, \mathbf{x}_{n}\right)=1 $$

最后,等效核也可以定义为如下形式:

$$ \begin{aligned} k(\mathbf{x}, \mathbf{z})&=\psi(\mathbf{x})^{\mathrm{T}} \boldsymbol{\psi}(\mathbf{z}) \\ \boldsymbol{\psi}(\mathbf{x})&=\beta^{1 / 2} \mathbf{S}_{N}^{1 / 2} \phi(\mathbf{x}) \end{aligned} $$

3.4 贝叶斯模型比较 (Bayesian Model Comparison)

使用贝叶斯方法进行比较,首先需要假设所有模型的先验分布相同,即 $p\left(\mathcal{M}_{i}\right)$ 一致,对应的后验分布如下:

$$ p\left(\mathcal{M}_{i} \mid \mathcal{D}\right) \propto p\left(\mathcal{M}_{i}\right) p\left(\mathcal{D} \mid \mathcal{M}_{i}\right) $$

其中主要关注 $p\left(\mathcal{D} \mid \mathcal{M}_{i}\right)$ ,即模型证据 (model evidence),也被称为边缘似然 (marginal likelihood)。在此基础上,引入贝叶斯因子 (Bayes factor),即:

$$ \frac{p\left(\mathcal{D} \mid \mathcal{M}_{i}\right)}{p\left(\mathcal{D} \mid \mathcal{M}_{j}\right)} $$

得知模型后验分布后,即可得到预测分布 (predictive distribution):

$$ p(t \mid \mathbf{x}, \mathcal{D})=\sum_{i=1}^{L} p\left(t \mid \mathbf{x}, \mathcal{M}_{i}, \mathcal{D}\right) p\left(\mathcal{M}_{i} \mid \mathcal{D}\right) $$

该分布也可视为混合分布 (mixture distribution)。当然也可以选择 $\underset{\mathcal{M}_i}{\arg} \max p\left(\mathcal{M}_{i} \mid \mathcal{D}\right)$ 作为预测模型,此过程为模型选择 (model selection)。

接下来我们关注模型证据的求解:

$$ p\left(\mathcal{D} \mid \mathcal{M}_{i}\right)=\int p\left(\mathcal{D} \mid \mathbf{w}, \mathcal{M}_{i}\right) p\left(\mathbf{w} \mid \mathcal{M}_{i}\right) \mathrm{d} \mathbf{w} $$

值得注意的是,模型证据也可作为参数 $\mathbf{w}$ 后验分布的归一化系数:

$$ p\left(\mathbf{w} \mid \mathcal{D}, \mathcal{M}_{i}\right)=\frac{p\left(\mathcal{D} \mid \mathbf{w}, \mathcal{M}_{i}\right) p\left(\mathbf{w} \mid \mathcal{M}_{i}\right)}{p\left(\mathcal{D} \mid \mathcal{M}_{i}\right)} $$

回到模型证据的求解,假设 $p(\mathcal{D} \mid \mathbf{w}, \mathcal{M}_{i})$ 的分布集中于 $w_{\mathrm{MAP}}$ 附近,其宽度为 $\Delta w_{\text {posterior }}$ ;另外 $w$ 的先验分布非常平坦,其宽度为 $\Delta w_{\text {prior }}$ 。因此模型证据可以做如下近似:

$$ p(\mathcal{D}\mid \mathcal{M}_{i})=\int p(\mathcal{D} \mid w,\mathcal{M}_{i}) p(w\mid \mathcal{M}_{i}) \mathrm{d} w \simeq p\left(\mathcal{D} \mid w_{\mathrm{MAP}},\mathcal{M}_{i}\right) \frac{\Delta w_{\text {posterior }}}{\Delta w_{\text {prior }}} $$

对其取 log,得到:

$$ \ln p(\mathcal{D} \mid \mathcal{M}_i) \simeq \ln p\left(\mathcal{D} \mid w_{\mathrm{MAP}},\mathcal{M}_i\right)+\ln \left(\frac{\Delta w_{\text {posterior }}}{\Delta w_{\text {prior }}}\right) $$

将 $w$ 从一维扩展到 $H$ 维,假设每一维的 $\displaystyle\frac{\Delta w_{\text {posterior }}}{\Delta w_{\text {prior }}}$ 一样大,则得到:

$$ \ln p(\mathcal{D} \mid \mathcal{M}_i) \simeq \ln p\left(\mathcal{D} \mid \mathbf{w}_{\mathrm{MAP}},\mathcal{M}_i\right)+H\ln \left(\frac{\Delta w_{\text {posterior }}}{\Delta w_{\text {prior }}}\right) $$

其中第一项表示模型参数对给定数据的拟合能力,第二项则为模型复杂度的惩罚项(负数)。因为 $\Delta w_{\text {posterior }}<\Delta w_{\text {prior }}$ ,即 $H$ 越大或者模型拟合能力越强 ( $\Delta w_{\text {posterior }}$ 越小),则惩罚项绝对值越大。

以下图为例, $\mathcal{M}_1$ 到 $\mathcal{M}_3$ ,模型复杂度不断上升,即 $\mathcal{M}_1$ 的拟合能力更弱,因此生成的数据集范围更小, $\mathcal{M}_3$ 则与其相反。假设数据集为 $\mathcal{D}_0$ ,则使用贝叶斯方法最终将选取 $\mathcal{M}_2$ 作为最终模型,在拟合能力与模型复杂度之间做了权衡。

根据 1.6.1 中信息论内容可知,假设 $\mathcal{M}_1$ 为真实模型, $\mathcal{M}_2$ 为错误模型,则用 KL 散度来衡量模型差距,即期望贝叶斯参数 (the expected Bayes factor):

$$ \int p\left(\mathcal{D} \mid \mathcal{M}_{1}\right) \ln \frac{p\left(\mathcal{D} \mid \mathcal{M}_{1}\right)}{p\left(\mathcal{D} \mid \mathcal{M}_{2}\right)} \mathrm{d} \mathcal{D} $$

当且仅当 $\mathcal{M}_1=\mathcal{M}_2$ 时,该值为 0。

另外如下图所示,将 model evidence 与 Training、Testing loss 进行对比:

可以发现,单纯用 Training、Testing loss 来判断,则 M 在 [3, 8] 区间内表现一致,无法确定。然而如果使用 model evidence 进行模型选择,则可以确定 M = 3 时最优。

至此,我们可以发现贝叶斯方法可以避免过拟合问题,并且允许模型仅依靠训练集进行比较。另外,该方法也有不少限制,例如预先假定模型形式、对先验 $p(\mathbf{w})$ 比较敏感等,因此在实际应用中通常仍采用训练-验证-测试集的划分。

3.5 证据近似 (The Evidence Approximation)

在进行贝叶斯估计时,线性模型涉及到 $\alpha,\beta$ 两个超参数,具体如下:

$$ \begin{aligned} & p(\mathbf{w} \mid \alpha)=\mathrm{N}\left(\mathbf{w} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right) \\ & p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta)=\prod_{n=1}^{N} \mathrm{~N}\left(t_{n} \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right), \beta^{-1}\right) \end{aligned} $$

因此将 $\alpha,\beta$ 当作参数,对其进行边缘积分,则得到:

$$ p(t \mid \mathbf{t})=\iiint p(t \mid \mathbf{w}, \beta) p(\mathbf{w} \mid \mathbf{t}, \alpha, \beta) p(\alpha, \beta \mid \mathbf{t}) \mathrm{d} \mathbf{w} \mathrm{d} \alpha \mathrm{d} \beta $$

其中满足:

$$ \begin{aligned} & p(t \mid \mathbf{x}, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(\mathbf{x}, \mathbf{w}), \beta^{-1}\right) \\ & p(\mathbf{w} \mid \mathbf{t})=\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \mathbf{S}_{N}\right) \\ & \mathbf{m}_{N}=\beta \mathbf{S}_{N} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t} \\ & \mathbf{S}_{N}^{-1}=\alpha \mathbf{I}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \end{aligned} $$

假设 $p(\alpha, \beta \mid \mathbf{t})$ 集中分布于 (sharply peaked around) $\hat{\alpha},\hat{\beta}$ ,则 $p(t \mid \mathbf{t})$ 可以表示为:

$$ p(t \mid \mathbf{t}) \simeq p(t \mid \mathbf{t}, \widehat{\alpha}, \widehat{\beta})=\int p(t \mid \mathbf{w}, \widehat{\beta}) p(\mathbf{w} \mid \mathbf{t}, \widehat{\alpha}, \widehat{\beta}) \mathrm{d} \mathbf{w} $$

又因为 $p(\alpha, \beta)$ 分布平坦,且

$$ p(\alpha, \beta \mid \mathbf{t}) \propto p(\mathbf{t} \mid \alpha, \beta) p(\alpha, \beta) $$

即可以通过最大化 $p(\mathbf{t} \mid \alpha, \beta)$ 来确定 $\hat{\alpha},\hat{\beta}$ 。

这也就意味着,我们可以仅通过数据集来确定 $\hat{\alpha},\hat{\beta}$ 取值,不再需要交叉验证。

3.5.1 证据函数的评估 (Evaluation of the evidence function)

我们通过对 $\mathbf{w}$ 进行积分,得到 $p(\mathbf{t} \mid \alpha, \beta)$ 的表达式:

$$ p(\mathbf{t} \mid \alpha, \beta)=\int p(\mathbf{t} \mid \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha) \mathrm{d} \mathbf{w} $$

将 $p(\mathbf{t} \mid \mathbf{w}, \beta),p(\mathbf{w} \mid \alpha)$ 对应的表达式带入,得到:

$$ p(\mathbf{t} \mid \alpha, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} $$

其中

$$ \begin{aligned} E(\mathbf{w}) &=\beta E_{D}(\mathbf{w})+\alpha E_{W}(\mathbf{w}) \\ &=\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \end{aligned} $$

为了求解 $p(\mathbf{t} \mid \alpha, \beta)$ ,需要对 $E(\mathbf{w})$ 进行如下转换:

$$ \begin{aligned} & E(\mathbf{w})=E\left(\mathbf{m}_{N}\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right) \\ & \mathbf{m}_{N}=\beta \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \\ & \mathbf{A}=\alpha \mathbf{I}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}=\nabla \nabla E(\mathbf{w})=\mathbf{S}_{N}^{-1} \\ \end{aligned} $$

转换后,我们可以较容易地对 $E(\mathbf{w})$ 求积分,即:

$$ \begin{aligned} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} &=\exp \left\{-E\left(\mathbf{m}_{N}\right)\right\} \int \exp \left\{-\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right\} \mathrm{d} \mathbf{w} \\ &=\exp \left\{-E\left(\mathbf{m}_{N}\right)\right\}(2 \pi)^{M / 2}|\mathbf{A}|^{-1 / 2} \end{aligned} $$

因此我们可以得到 $p(\mathbf{t} \mid \alpha, \beta)$ 表达式:

$$ \ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) $$

另外,由于 $p(\mathbf{t} \mid \alpha, \beta)$ 为两个高斯分布乘积的边缘分布,因此也可以运用 2.3.3 中的结论对其直接求解:

3.5.2 最大化证据函数 (Evaluation of the evidence function)

最大化 $\ln p(\mathbf{t} \mid \alpha, \beta)$ 来确定 $\alpha,\beta$ 的取值,由于其表达式中有行列式,因此引入实对称矩阵 $\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}$ 的特征值:

$$ \left(\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\right) \mathbf{u}_{i}=\lambda_{i} \mathbf{u}_{i} $$

注意实对称矩阵可以正交对角化,因此上述特征向量正交。由此 $\ln |\mathbf{A}|$ 对 $\alpha$ 求导得:

$$ \frac{d}{d \alpha} \ln |\mathbf{A}|=\frac{d}{d \alpha} \ln \prod_{i}\left(\lambda_{i}+\alpha\right)=\frac{d}{d \alpha} \sum_{i} \ln \left(\lambda_{i}+\alpha\right)=\sum_{i} \frac{1}{\lambda_{i}+\alpha} $$

进而令 $\ln p(\mathbf{t} \mid \alpha, \beta)$ 对 $\alpha$ 的导数为 0,得:

$$ 0=\frac{M}{2 \alpha}-\frac{1}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}-\frac{1}{2} \sum_{i} \frac{1}{\lambda_{i}+\alpha} $$

因此可以得到:

$$ \alpha \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}=M-\alpha \sum_{i} \frac{1}{\lambda_{i}+\alpha}=\sum_{i}^{M} \frac{\lambda_{i}+\alpha}{\lambda_{i}+\alpha}-\alpha \sum_{i}^M \frac{1}{\lambda_{i}+\alpha}=\gamma $$

化简后得到:

$$ \begin{aligned} \text{[式 1]}\quad& \gamma=\sum_{i} \frac{\lambda_{i}}{\alpha+\lambda_{i}} \\ \text{[式 2]}\quad& \alpha=\frac{\gamma}{\mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}} \end{aligned} $$

由于 $\alpha$ 难以直接求出,因此采用迭代的方式,给定 $\alpha$ 初始值,先用 [式 1] 确定 $\gamma$ ,其中 $\lambda_i$ 与 $\alpha$ 无关,再根据 [式 2] 更新 $\alpha$ ,直至收敛。

采用相同的方式对 $\beta$ 进行求导,得到:

$$ \begin{aligned} & \frac{d}{d \beta} \ln |\mathbf{A}|=\frac{d}{d \beta} \sum_{i} \ln \left(\lambda_{i}+\alpha\right)=\frac{1}{\beta} \sum_{i} \frac{\lambda_{i}}{\lambda_{i}+\alpha}=\frac{\gamma}{\beta}\\ & \frac{d}{d \beta} \ln p(\mathbf{t} \mid \alpha, \beta)=0=\frac{N}{2 \beta}-\frac{1}{2} \|\mathbf{t}-\mathbf{\Phi} \mathbf{m}_{N}\|^{2}-\frac{\gamma}{2 \beta} \end{aligned} $$

化简后得到:

$$ \text{[式 3]}\quad \frac{1}{\beta}=\frac{1}{N-\gamma} \|\mathbf{t}-\mathbf{\Phi} \mathbf{m}_{N}\|^{2} $$

与 $\alpha$ 类似,采用迭代的方式求解 $\beta$ 。给定 $\beta$ 初始值,先确定 $\lambda_i$ ,再根据 [式 1] 确定 $\gamma$ ,最后用 [式 3] 更新 $\beta$ ,直至收敛。

若 $\alpha$ 与 $\beta$ 均未知,则给定 $\alpha,\beta$ 初始值,先确定 $\lambda_i$ ,再根据 [式 1] 确定 $\gamma$ ,最后用 [式 2] 和 [式 3] 更新 $\alpha,\beta$ ,直至收敛。

3.5.3 有效参数个数 (Effective number of parameters)

首先我们从 $\mathbf{w}_{\mathrm{ML}}$ 和 $\mathbf{w}_{\mathrm{MAP}}$ 的角度来理解 $\gamma$ :

其中使得 $(\mathbf{w}_{\mathrm{MAP}})_i$ 接近 $(\mathbf{w}_{\mathrm{ML}})_i$ 的 $\lambda_i$ 称为易确定 (well determined) 的参数,因此 $\gamma=\sum_{i} \frac{\lambda_{i}}{\alpha+\lambda_{i}}$ 衡量了有效参数(易确定的参数)的个数。

上述结论也可在下图中得到直观展示:

其中红、绿分别代表似然函数、先验分布的等高线,其中 $\lambda$ 衡量了似然函数的曲率,曲率越小则似然函数轮廓伸长率越大,因此 $\lambda_1<\lambda_2$ 。由于 $\lambda_1<\lambda_2$ , $\mathbf{w}_{\mathrm{MAP}}$ 在 $\mathbf{u}_{1}$ 方向上更接近先验,在 $\mathbf{u}_{2}$ 方向上则更接近 $\mathbf{w}_{\mathrm{ML}}$ 。

3.6 固定基函数的局限 (Limitations of Fixed Basis Functions)

本章所探讨的线性模型有以下两大缺点:

  • 在得到训练数据前就需要确定 $\phi_j(\mathbf{x})$ 的形式

  • 由于 $\phi_j(\mathbf{x})$ 可能包含多个维度,因此最终的维度将达到以 $D$ 为底的指数级别,维度诅咒

为了缓解上述两大局限,我们可以在以下两个方面对数据进行处理:

  • 数据向量 ${\mathbf{x}_n}$ 通常接近于某非线性流型,其固有维度要小于输入空间

  • 目标变量通常仅与某几个维度方向强相关