一、介绍 (Introduction)
本章目的:介绍一些重要概念
模式识别的核心:
-
使用计算机算法,自动化地发现数据中的规律 (the automatic discovery of regularities in data)
-
利用这些规律去完成某些任务,例如数据分类
不同领域间关系:
泛化 (generalization):
-
【定义】将「不曾在训练集中出现过的数据」识别准确的能力
-
【意义】模式识别的核心目标
预处理 (pre-processing):
-
有时也称作特征提取 (feature extraction)
-
意义
-
缩小数据变化范围,便于后续识别 (reduce the variability)
-
提取有效信息,降低数据维度 (dimensionality reduction),加快运算 (speed up computation)
应用分类:
-
有监督学习 (supervised learning):训练集有目标向量 (target vectors)
-
分类 (classification):期望输出为离散变量
-
回归 (regression):期望输出为连续变量
-
无监督学习 (unsupervised learning):训练集无目标向量
-
聚类 (clustering):发现数据集中的相似数据组
-
密度估计 (density estimation):确定数据分布
-
可视化 (visualization):将数据从高维向低维投影
-
强化学习 (reinforcement learning):在给定的状态下,找到恰当的行动 (action) 使得奖励 (reward) 最大化
-
不提供最佳输出的示例,但需要通过反复试验来发现
-
大多数情况下,当前行动会影响当前、乃至未来每一步的奖励
-
一般都在探索 (exploration) 与利用 (exploitation) 间权衡,探索指尝试新行动;利用指使用已知行动获得最多奖励
三大重要工具:
-
概率论 (probability theory)
-
决策论 (decision theory)
-
信息论 (information theory)
1.1 例子:多项式拟合
1.1.1 拟合过程
数据: $\mathbf{x}=(x_1,…,x_N)^T,\mathbf{t}=(t_1,…,t_N)^T$
拟合函数:
损失函数 (error function):
衡量模型误差 - RMS (root-mean-square) error:
- $\mathbf{w}^*$ 为模型必式解 (closed form)
拟合结果:
发现:
- M = 9 时,模型拟合了噪声,发生过拟合 (over-fitting)
1.1.2 增大数据量
实验结果:
- 均使用 M = 9 的拟合函数
发现:
-
扩大数据集可缓解过拟合,换句话说,更大的数据集可以支持更复杂的模型
-
【启发】数据集规模应大于模型变量个数的某一倍数(例如 5、10)
疑问点:
- 模型复杂度的选择,应根据问题本身的复杂程度,而不是数据集大小
1.1.3 正则化 (Regularization)
新的损失函数:
-
下述式子又称为岭回归 (ridge regression)
-
【别名】统计中的收缩 (shrinkage),神经网络中的权重衰减 (weight decay)
注意:
- 通常正则项中不包含 $w_0$ ,或者 $w_0$ 与其它参数的系数不同 (because its inclusion causes the results to depend on the choice of origin for the target variable)
实验结果:
- 仍采用 M = 9 的拟合函数
发现:
- 正则化可以有效地抑制过拟合现象
1.2 概率论 (Probability Theory)
概率论意义:
-
不确定性 (uncertainty) 是模式识别领域的关键概念,其根源在于「测量误差」与「有限的数据集大小」
-
概率论为不确定性的量化 (quantification) 和处理 (manipulation) 提供了一致的框架,为模式识别的核心基础之一
概率论两条基本规则:
-
$p(X,Y)$ :联合概率 (joint probability - “the probability of X and Y”)
-
$p(Y|X)$ :条件概率 (conditional probability - “the probability of Y given X”)
-
$p(X)$ :边缘概率 (marginal probability - “the probability of X”)
贝叶斯定理:
-
求的是 $p(Y|X)$ ,因此在观察到 $X$ 前, $p(Y)$ 就已确定,即为先验概率 (prior probability)
-
在观察到 $X$ 后, $p(Y|X)$ 即可求出,即为后验概率 (posterior probability)
-
$p(X)$ 为 $p(Y|X)$ 提供了证据因子 (evidence)
-
$p(X|Y)$ 为似然 (likelihood)
1.2.1 概率密度 (Probability densities)
定义:
-
连续变量 $x$ 落在区间 $[x,x+\delta x](\delta x\rightarrow 0)$ 的概率为 $p(x)\delta x$ ,则 $p(x)$ 为 $x$ 这一点的概率密度
-
若 $x$ 为离散变量,则 $p(x)$ 为概率质量函数 (probability mass function)
两大条件:
性质:
-
若 $x=g(y)$ ,则 $p_y(y)=p_x(g(y))*|g’(y)|$ ,即最大化概率密度时依赖于选取的变量
-
【推导】 $x$ 落在 $[x,x+\delta x](x\rightarrow 0)$ 的概率等价于 $y$ 落在 $[y,y+\delta y](y\rightarrow 0)$ 的概率,即 $p_x(x)\delta x=p_y(y)\delta y(x,y\rightarrow 0)$ ,则
1.2.2 期望与协方差 (Expectations and covariances)
期望 (expectation):
-
【定义】在概率分布 $p(x)$ 下, $f(x)$ 的均值称作 $f(x)$ 的期望,表示为 $\mathbb{E}[f]$
-
【离散】 $\mathbb{E}[f]=\sum_xp(x)f(x)$
-
【连续】 $\mathbb{E}[f]=\int p(x)f(x)\text{d}x$
-
【统计近似】 $\mathbb{E}[f]\simeq \frac{1}{N}\sum_{n=1}^Nf(x_n)$
-
【多变量】 $\mathbb{E}_x[f(x,y)]$ 表示在 $x$ 分布下, $f(x,y)$ 的均值,最终应表示为 $y$ 的函数
-
【条件期望 (conditional expectation)】 $\mathbb{E}_x[f|y]=\sum_x p(x|y)f(x)$
方差 (variance):
-
【定义】衡量 $f(x)$ 在其均值 $\mathbb{E}[f(x)]$ 周围变化性 (variability) 的大小, $var[f]=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]=\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2$
-
【简便表示】 $var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2$
协方差 (covariance):
- 【定义】 $\text{cov}[x,y]$ 衡量 $x$ 和 $y$ 共同变化的程度
协方差矩阵:
-
当 $\mathbf{x}$ 和 $\mathbf{y}$ 为向量时, $\text{cov}[\mathbf{x},\mathbf{y}]$ 为协方差矩阵
-
$\text{cov}[\mathbf{x}]\equiv\text{cov}[\mathbf{x},\mathbf{x}]$
1.2.3 贝叶斯概率 (Bayesian probabilities)
对比:
-
【频率学派 (classical or frequentist)】将概率看作是随机重复事件的发生频率
-
【贝叶斯学派 (Bayesian)】将概率看作是不确定性的度量 (a quantification of uncertainty)
举例:
-
给定数据集 $\text{D}$ 求模型参数 $\mathbf{w}$
-
【频率学派】使用极大似然估计 (maximum likelihood),求使 $p(D|\mathbf{w})$ 概率最大时的 $\mathbf{w}$
-
【贝叶斯学派】用 $p(\mathbf{w}|D)$ 来度量不确定性
1.2.4 高斯分布 (The Gaussian distribution)
概念:
-
$\mu$ :mean
-
$\sigma^2$ :variance
-
$\sigma$ :standard deviation
-
$\beta=1/\sigma^2$ :precision
-
mode: $p(x)$ 最大时的 $x$ ,在高斯分布中为 $\mu$
-
独立同分布 (i.i.d):independent and identically distributed
性质:
-
$\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) \mathrm{d} x=1$
-
$\mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x \mathrm{~d} x=\mu$
-
$\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2}$
-
$\operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}=\sigma^{2}$
证明:
多元高斯分布:
极大似然估计的偏差 (bias):
-
【方法】用 MLE 来估计高斯分布的参数,即 $\max\ \ln p\left(\mathbf{x} \mid \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi)$
-
【结果】
- 【结论】 $\mathbb{E}[\sigma^2_{\text{ML}}]=(\displaystyle\frac{N-1}{N})\sigma^2$ ,小于无偏估计值,其中的差距称为 bias
1.2.5 曲线拟合回顾
极大似然估计(maximum likelihood - MLE):
- 【假设】 $p(t \mid x, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(x, \mathbf{w}), \beta^{-1}\right)$
- 【求解】 $\max\ p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)$
- 【结论】等价于最小二乘法
极大后验概率(maximum posterior - MAP):
- 【假设先验概率】
- 【求解 - 最大后验概率】
- 【结论】等价于加上正则项的最小二乘
1.3 模型选择 (Model Selection)
交叉验证 (cross-validation):
-
【过程】分成 S 份,每一次留一份作为测试集
-
【缺点】对参数很多、运行一次较耗时的模型很不友好
1.4 维度诅咒 (The Curse of Dimensionality)
区域划分:
- 随着维度的增加,划分的格子数指数增长
多项式拟合:
- 随着维度增加,模型参数幂次增长
解决思路:
-
【思路 1】实际数据通常会被限制在有效维数较低的区域中,尤其是引起目标变量重大变化的维度可能会被限制
-
【思路 2】实际数据通常有一些平滑性质,即输入的微扰引起目标变量的微扰,因此可以使用类似局部插值的方式进行预测
1.5 决策论 (Decision Theory)
主题:根据目标向量可能的取值,作出决策。
1.5.1 最小化分类错误率 (Minimizing the misclassification rate)
概念:
-
决策区域 $\mathcal{R}_{k}$ (decision regions):位于 $\mathcal{R}_{k}$ 中的点均被赋为 $\mathcal{C}_{k}$ 类别;决策区域可以由不相交的区域组成
-
决策边界 (decision boundaries / surfaces):决策区域间的边界
决策方法:
-
最小化分类错误率,即将 $x$ 分配给令 $p(C_k,x)\propto p(C_k|x)$ 最大的 $C_k$
-
【图解】
-
$\hat{x}$ 为决策边界,红、绿、紫为分类错误的区域
-
无论 $\hat{x}$ 如何变化,绿 + 紫的面积不变,但红的面积会变
-
当 $\hat{x}$ 位于 $x_0$ 时,错误区域面积最小
-
1.5.2 最小化期望损失 (Minimizing the expected loss)
引入损失函数 (loss function) $L_{k,j}$ ,表示真实类别为 $k$ ,被错误分到 $j$ 的损失,因此最小化期望损失可以如下表示:
1.5.3 拒绝选项 (The reject option)
当 $\underset{k}{\max}(p(C_k|x))\leq \theta$ 时,拒绝为 $x$ 赋类别,如下图所示:
1.5.4 推理与决策 (Inference and decision)
将分类问题划分为两个阶段,分别是:
-
推理阶段 (inference stage) - 建立模型学习 $p(C_k|x)$
-
决策阶段 (decision stage) - 使用后验概率进行最优的类别赋值
由此决策问题大致可以分为如下三种解决方法:
-
生成模型 (generative models)
-
求出先验与似然,即 $p(C_k)$ 与 $p(x|C_k)$ ,再求出 $p(x)$
-
最后根据贝叶斯定理,求出后验 $p(C_k|x)$
-
缺点:确定 $p(x|C_k)$ 需要大数据集的支持
-
优点:由于 $p(x)$ 的求出,可以检测离群点 (outlier / novelty detection)
-
判别模型 (discriminative models)
-
直接求出 $p(C_k|x)$
-
特点:较于生成模型,要求降低,且有时候 $p(x|C_k)$ 对后验概率影响不大
-
判别函数 (discriminant function)
-
寻找函数 $f(x)$ ,直接将输入数据映射到具体类别上,两阶段被合并为一阶段
判别函数的方式无法求出后验概率 $p(C_k|x)$ ,但后验概率的求解本身具有很多优势:
-
【Minimizing risk】若模型采用最小化期望损失,若 $L_{k,j}$ 时不时地会发生修正,则率先求出后验概率可以更为方便地调整模型
-
【Reject option】有了后验概率才能确定拒绝条件
-
【Compensating for class priors】有时候原始数据分布很不均匀,例如二分类问题,为 0 的数据占 $0.1\%$ ,此时我们需要平衡数据集,提高为 0 数据的占比。由于我们更改了数据的分布,因此可以利用后验概率进行修正,即:
最后再进行放缩,使得后验概率之和为 1。
- 【Combining models】使用后验概率进行模型合并,而不是将模型的输入数据直接拼接:
1.5.5 回归损失函数 (Loss functions for regression)
使用 $y(\mathbf{x})$ 进行回归预测,采用平方损失,其损失均值为:
使用欧拉-拉格朗日公式,求得 $y(\mathbf{x})$ 最优值:
因此在平方损失的回归任务中, $y(\mathbf{x})$ 最优值为 $\mathbb{E}_{t}[t \mid \mathbf{x}]$ ,如下图所示:
对于 multi-label 问题, $y(\mathbf{x})$ 最优值依然为 $\mathbb{E}_{t}[\mathbf{t} \mid \mathbf{x}]$ :
另外,在求出 $y(\mathbf{x})$ 最优值后,我们可以对 ${y(\mathbf{x})-t}^2$ 进行如下分解:
带回 $\mathbb{E}[y(\mathbf{x})]$ 中,得到:
其中第二项是在 $\mathbf{x}$ 上 $t$ 概率分布方差的均值,与 $y(\mathbf{x})$ 无关,可以视为目标数据的内在变异性(噪声),损失函数的最小值。
最后考虑一下广义的损失函数:
其中 $q$ 分别为 $2,1,0$ 时的最优解 $y(\mathbf{x})$ 如下:
1.6 信息论 (Information Theory)
1.6.1 熵 (Entropy)
当事件 $x$ 发生时,如何去衡量我们所接收到的信息 $h(x)$ ?
从概率的角度去思考, $p(x)$ 若很大,例如等于 1,则基本没有带来新信息;若 $p(x)$ 很小,则意味着小概率事件发生了,我们可以有更多的思考,因此 $h(x)$ 中应包含 $p(x)$ 。
另外,如果 $y$ 与 $x$ 独立,则 $h(x,y)=h(x)+h(y)$ ,而 $p(x,y)=p(x)p(y)$ ,因此考虑引入对数。
基于上述考虑,我们可以如下表示 $h(x)$ :
注意 $h(x)$ 的单位为 bits。
进一步地,令 $x$ 为随机变量,则我们可以给出基于其离散概率分布的平均信息:
定义 $H[x]$ 为随机变量 $x$ 的熵 (entropy)。
在离散概率分布的情况下,我们可以使用拉格朗日对偶求解得到,当 $x$ 符合均匀分布时, $H[x]$ 最大。
而当 $x$ 为连续随机变量时, $H[x]=-\int p(x)\ln p(x)\text{d}x$ ,在满足如下三个限制条件后,可以使用拉格朗日对偶求出当 $x$ 符合高斯分布时, $H[x]$ 最大:
注意 $x$ 离散时, $H[x]\geq 0$ ;但 $x$ 连续时, $H[x]$ 可能 $< 0$ 。
1.6.2 条件熵 (Conditional entropy)
1.6.3 交叉熵 (Relative entropy)
$x$ 真实分布为 $p(x)$ ,我们估计的分布为 $q(x)$ ,则错误估计所带来的信息差 (relative entropy or Kullback-Leibler divergence or KL divergence) 为:
满足以下条件:
-
$\mathrm{KL}(p | q) \not \equiv \mathrm{KL}(q | p)$
-
$\mathrm{KL}(p | q)\geq 0$ ,在 $p(x)=q(x)$ 时取等
因此 $KL$ 散度是一种衡量两个分布匹配程度的方法,其值越小,两个分布之间的匹配就越好。
1.6.4 互信息 (Mutual information)
互信息为原分布 ( $p(x,y)$ ) 与估计分布 ( $p(x)p(y)$ ) 间的信息差:
性质: $\mathrm{I}[\mathbf{x}, \mathbf{y}]\geq 0$ ,当 $x$ 和 $y$ 独立时,取到等号
互信息还可以用条件熵来定义:
可以这样理解:互信息表示由新观测值 $y$ 导致的关于 $x$ 的不确定性的减小量。