PRML 学习笔记(一)- 介绍 (Introduction)

Posted by Lucius on May 1, 2021

一、介绍 (Introduction)

本章目的:介绍一些重要概念

模式识别的核心:

  • 使用计算机算法,自动化地发现数据中的规律 (the automatic discovery of regularities in data)

  • 利用这些规律去完成某些任务,例如数据分类

不同领域间关系:

泛化 (generalization):

  • 【定义】将「不曾在训练集中出现过的数据」识别准确的能力

  • 【意义】模式识别的核心目标

预处理 (pre-processing):

  • 有时也称作特征提取 (feature extraction)

  • 意义

  • 缩小数据变化范围,便于后续识别 (reduce the variability)

  • 提取有效信息,降低数据维度 (dimensionality reduction),加快运算 (speed up computation)

应用分类:

  • 有监督学习 (supervised learning):训练集有目标向量 (target vectors)

  • 分类 (classification):期望输出为离散变量

  • 回归 (regression):期望输出为连续变量

  • 无监督学习 (unsupervised learning):训练集无目标向量

  • 聚类 (clustering):发现数据集中的相似数据组

  • 密度估计 (density estimation):确定数据分布

  • 可视化 (visualization):将数据从高维向低维投影

  • 强化学习 (reinforcement learning):在给定的状态下,找到恰当的行动 (action) 使得奖励 (reward) 最大化

  • 不提供最佳输出的示例,但需要通过反复试验来发现

  • 大多数情况下,当前行动会影响当前、乃至未来每一步的奖励

  • 一般都在探索 (exploration) 与利用 (exploitation) 间权衡,探索指尝试新行动;利用指使用已知行动获得最多奖励

三大重要工具:

  • 概率论 (probability theory)

  • 决策论 (decision theory)

  • 信息论 (information theory)

1.1 例子:多项式拟合

1.1.1 拟合过程

数据: $\mathbf{x}=(x_1,…,x_N)^T,\mathbf{t}=(t_1,…,t_N)^T$

拟合函数:

$$ y(x,\mathbf{w})=w_0+w_1x+w_2x^2+...+w_Mx^M=\sum\limits_{j=0}^Mw_jx^j $$

损失函数 (error function):

$$ E(\mathbf{w})=\frac{1}{2}\sum\limits_{n=1}^N\{y(w_n,\mathbf{w})-t_n\}^2 $$

衡量模型误差 - RMS (root-mean-square) error:

  • $\mathbf{w}^*$ 为模型必式解 (closed form)
$$ E_{\text{RMS}}=\sqrt{2E(\mathbf{w}^{*})/N} $$

拟合结果:

发现:

  • M = 9 时,模型拟合了噪声,发生过拟合 (over-fitting)
1.1.2 增大数据量

实验结果:

  • 均使用 M = 9 的拟合函数

发现:

  • 扩大数据集可缓解过拟合,换句话说,更大的数据集可以支持更复杂的模型

  • 【启发】数据集规模应大于模型变量个数的某一倍数(例如 5、10)

疑问点:

  • 模型复杂度的选择,应根据问题本身的复杂程度,而不是数据集大小
1.1.3 正则化 (Regularization)

新的损失函数:

  • 下述式子又称为岭回归 (ridge regression)

  • 【别名】统计中的收缩 (shrinkage),神经网络中的权重衰减 (weight decay)

$$ \widetilde{E}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^N\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\mathbf{w}\|^{2} $$

注意:

  • 通常正则项中不包含 $w_0$ ,或者 $w_0$ 与其它参数的系数不同 (because its inclusion causes the results to depend on the choice of origin for the target variable)

实验结果:

  • 仍采用 M = 9 的拟合函数

发现:

  • 正则化可以有效地抑制过拟合现象

1.2 概率论 (Probability Theory)

概率论意义:

  • 不确定性 (uncertainty) 是模式识别领域的关键概念,其根源在于「测量误差」与「有限的数据集大小」

  • 概率论为不确定性的量化 (quantification) 和处理 (manipulation) 提供了一致的框架,为模式识别的核心基础之一

概率论两条基本规则:

  • $p(X,Y)$ :联合概率 (joint probability - “the probability of X and Y”)

  • $p(Y|X)$ :条件概率 (conditional probability - “the probability of Y given X”)

  • $p(X)$ :边缘概率 (marginal probability - “the probability of X”)

$$ \begin{aligned} \textbf{sum rule } & p(X)=\sum_Yp(X,Y) \ / \int p(X,Y) dY\\ \textbf{product rule } & p(X,Y)=p(Y|X)p(X) \end{aligned} $$

贝叶斯定理:

  • 求的是 $p(Y|X)$ ,因此在观察到 $X$ 前, $p(Y)$ 就已确定,即为先验概率 (prior probability)

  • 在观察到 $X$ 后, $p(Y|X)$ 即可求出,即为后验概率 (posterior probability)

  • $p(X)$ 为 $p(Y|X)$ 提供了证据因子 (evidence)

  • $p(X|Y)$ 为似然 (likelihood)

$$ p(Y|X)=\displaystyle\frac{p(X|Y)p(Y)}{p(X)}=\displaystyle\frac{p(X|Y)p(Y)}{\sum_Yp(X|Y)p(Y)} $$
1.2.1 概率密度 (Probability densities)

定义:

  • 连续变量 $x$ 落在区间 $[x,x+\delta x](\delta x\rightarrow 0)$ 的概率为 $p(x)\delta x$ ,则 $p(x)$ 为 $x$ 这一点的概率密度

  • 若 $x$ 为离散变量,则 $p(x)$ 为概率质量函数 (probability mass function)

两大条件:

$$ \begin{aligned} p(x) & \geq 0 \\ \int_{-\infty}^{\infty}p(x)dx&=1 \end{aligned} $$

性质:

  • 若 $x=g(y)$ ,则 $p_y(y)=p_x(g(y))*|g’(y)|$ ,即最大化概率密度时依赖于选取的变量

  • 【推导】 $x$ 落在 $[x,x+\delta x](x\rightarrow 0)$ 的概率等价于 $y$ 落在 $[y,y+\delta y](y\rightarrow 0)$ 的概率,即 $p_x(x)\delta x=p_y(y)\delta y(x,y\rightarrow 0)$ ,则

$$ \begin{aligned} p_y(y)&=p_x(x)|\displaystyle\frac{\text{d}x}{\text{d}y}|\\ &=p_x(g(y))|g'(y)| \end{aligned} $$
1.2.2 期望与协方差 (Expectations and covariances)

期望 (expectation):

  • 【定义】在概率分布 $p(x)$ 下, $f(x)$ 的均值称作 $f(x)$ 的期望,表示为 $\mathbb{E}[f]$

  • 【离散】 $\mathbb{E}[f]=\sum_xp(x)f(x)$

  • 【连续】 $\mathbb{E}[f]=\int p(x)f(x)\text{d}x$

  • 【统计近似】 $\mathbb{E}[f]\simeq \frac{1}{N}\sum_{n=1}^Nf(x_n)$

  • 【多变量】 $\mathbb{E}_x[f(x,y)]$ 表示在 $x$ 分布下, $f(x,y)$ 的均值,最终应表示为 $y$ 的函数

  • 【条件期望 (conditional expectation)】 $\mathbb{E}_x[f|y]=\sum_x p(x|y)f(x)$

方差 (variance):

  • 【定义】衡量 $f(x)$ 在其均值 $\mathbb{E}[f(x)]$ 周围变化性 (variability) 的大小, $var[f]=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]=\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2$

  • 【简便表示】 $var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2$

协方差 (covariance):

  • 【定义】 $\text{cov}[x,y]$ 衡量 $x$ 和 $y$ 共同变化的程度
$$ \begin{aligned} \text{cov}[x,y]&=\mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}]\\ &=\mathbb{E}_{x,y}[x,y]-\mathbb{E}[x]\mathbb{E}[y] \end{aligned} $$

协方差矩阵:

  • 当 $\mathbf{x}$ 和 $\mathbf{y}$ 为向量时, $\text{cov}[\mathbf{x},\mathbf{y}]$ 为协方差矩阵

  • $\text{cov}[\mathbf{x}]\equiv\text{cov}[\mathbf{x},\mathbf{x}]$

$$ \begin{aligned} \text{cov}[\mathbf{x},\mathbf{y}]&=\mathbb{E}_{\mathbf{x}, \mathbf{y}}\left[\{\mathbf{x}-\mathbb{E}[\mathbf{x}]\}\left\{\mathbf{y}^{T}-\mathbb{E}\left[\mathbf{y}^{T}\right]\right\}\right]\\ &=\mathbb{E}_{\mathbf{x}, \mathbf{y}}\left[\mathbf{x} \mathbf{y}^{T}\right]-\mathbb{E}[\mathbf{x}] \mathbb{E}\left[\mathbf{y}^{T}\right] \end{aligned} $$
1.2.3 贝叶斯概率 (Bayesian probabilities)

对比:

  • 【频率学派 (classical or frequentist)】将概率看作是随机重复事件的发生频率

  • 【贝叶斯学派 (Bayesian)】将概率看作是不确定性的度量 (a quantification of uncertainty)

举例:

  • 给定数据集 $\text{D}$ 求模型参数 $\mathbf{w}$

  • 【频率学派】使用极大似然估计 (maximum likelihood),求使 $p(D|\mathbf{w})$ 概率最大时的 $\mathbf{w}$

  • 【贝叶斯学派】用 $p(\mathbf{w}|D)$ 来度量不确定性

1.2.4 高斯分布 (The Gaussian distribution)

概念:

  • $\mu$ :mean

  • $\sigma^2$ :variance

  • $\sigma$ :standard deviation

  • $\beta=1/\sigma^2$ :precision

  • mode: $p(x)$ 最大时的 $x$ ,在高斯分布中为 $\mu$

  • 独立同分布 (i.i.d):independent and identically distributed

$$ \mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} $$

性质:

  • $\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) \mathrm{d} x=1$

  • $\mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x \mathrm{~d} x=\mu$

  • $\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2}$

  • $\operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}=\sigma^{2}$

证明:

多元高斯分布:

$$ \mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\} $$

极大似然估计的偏差 (bias):

  • 【方法】用 MLE 来估计高斯分布的参数,即 $\max\ \ln p\left(\mathbf{x} \mid \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi)$

  • 【结果】

$$ \begin{aligned} \mu_{\text{ML}} &=\displaystyle\frac{1}{N}\sum\limits_{n=1}^N x_n \\ \sigma^2_{\text{ML}} &=\displaystyle\frac{1}{N}\sum\limits_{n=1}^N(x_n-\mu_{\text{ML}})^2 \end{aligned} $$
  • 【结论】 $\mathbb{E}[\sigma^2_{\text{ML}}]=(\displaystyle\frac{N-1}{N})\sigma^2$ ,小于无偏估计值,其中的差距称为 bias
1.2.5 曲线拟合回顾

极大似然估计(maximum likelihood - MLE):

  • 【假设】 $p(t \mid x, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(x, \mathbf{w}), \beta^{-1}\right)$

  • 【求解】 $\max\ p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)$
\begin{aligned} & p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)=\prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid y\left(x_{n}, \mathbf{w}\right), \beta^{-1}\right) \\ & \ln p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)=-\frac{\beta}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi) \\ & \mathbf{w}_{\text{ML}}=\text{arg}\ \underset{\mathbf{w}}{\min} \sum\limits_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2 \\ & \frac{1}{\beta_{\mathrm{ML}}}=\frac{1}{N} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}_{\mathrm{ML}}\right)-t_{n}\right\}^{2} \end{aligned}
  • 【结论】等价于最小二乘法

极大后验概率(maximum posterior - MAP):

  • 【假设先验概率】
$$ p(\mathbf{w} \mid \alpha)=\mathcal{N}\left(\mathbf{w} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right)=\left(\frac{\alpha}{2 \pi}\right)^{(M+1) / 2} \exp \left\{-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}\right\} $$
  • 【求解 - 最大后验概率】
\begin{aligned} & p(\mathbf{w} \mid \mathbf{x}, \mathbf{t}, \alpha, \beta) \propto p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha) \\ & \underset{\mathbf{w}}{\min}\frac{\beta}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \end{aligned}
  • 【结论】等价于加上正则项的最小二乘

1.3 模型选择 (Model Selection)

交叉验证 (cross-validation):

  • 【过程】分成 S 份,每一次留一份作为测试集

  • 【缺点】对参数很多、运行一次较耗时的模型很不友好

1.4 维度诅咒 (The Curse of Dimensionality)

区域划分:

  • 随着维度的增加,划分的格子数指数增长

多项式拟合:

  • 随着维度增加,模型参数幂次增长
$$ y(\mathbf{x}, \mathbf{w})=w_{0}+\sum_{i=1}^{D} w_{i} x_{i}+\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j} x_{i} x_{j}+\sum_{i=1}^{D} \sum_{j=1}^{D} \sum_{k=1}^{D} w_{i j k} x_{i} x_{j} x_{k} $$

解决思路:

  • 【思路 1】实际数据通常会被限制在有效维数较低的区域中,尤其是引起目标变量重大变化的维度可能会被限制

  • 【思路 2】实际数据通常有一些平滑性质,即输入的微扰引起目标变量的微扰,因此可以使用类似局部插值的方式进行预测

1.5 决策论 (Decision Theory)

主题:根据目标向量可能的取值,作出决策。

1.5.1 最小化分类错误率 (Minimizing the misclassification rate)

概念:

  • 决策区域 $\mathcal{R}_{k}$ (decision regions):位于 $\mathcal{R}_{k}$ 中的点均被赋为 $\mathcal{C}_{k}$ 类别;决策区域可以由不相交的区域组成

  • 决策边界 (decision boundaries / surfaces):决策区域间的边界

决策方法:

  • 最小化分类错误率,即将 $x$ 分配给令 $p(C_k,x)\propto p(C_k|x)$ 最大的 $C_k$

  • 【图解】

    • $\hat{x}$ 为决策边界,红、绿、紫为分类错误的区域

    • 无论 $\hat{x}$ 如何变化,绿 + 紫的面积不变,但红的面积会变

    • 当 $\hat{x}$ 位于 $x_0$ 时,错误区域面积最小

1.5.2 最小化期望损失 (Minimizing the expected loss)

引入损失函数 (loss function) $L_{k,j}$ ,表示真实类别为 $k$ ,被错误分到 $j$ 的损失,因此最小化期望损失可以如下表示:

$$ \min_j\ \sum_kL_{k,j}p(C_k|x) $$
1.5.3 拒绝选项 (The reject option)

当 $\underset{k}{\max}(p(C_k|x))\leq \theta$ 时,拒绝为 $x$ 赋类别,如下图所示:

1.5.4 推理与决策 (Inference and decision)

将分类问题划分为两个阶段,分别是:

  • 推理阶段 (inference stage) - 建立模型学习 $p(C_k|x)$

  • 决策阶段 (decision stage) - 使用后验概率进行最优的类别赋值

由此决策问题大致可以分为如下三种解决方法:

  • 生成模型 (generative models)

  • 求出先验与似然,即 $p(C_k)$ 与 $p(x|C_k)$ ,再求出 $p(x)$

  • 最后根据贝叶斯定理,求出后验 $p(C_k|x)$

  • 缺点:确定 $p(x|C_k)$ 需要大数据集的支持

  • 优点:由于 $p(x)$ 的求出,可以检测离群点 (outlier / novelty detection)

  • 判别模型 (discriminative models)

  • 直接求出 $p(C_k|x)$

  • 特点:较于生成模型,要求降低,且有时候 $p(x|C_k)$ 对后验概率影响不大

  • 判别函数 (discriminant function)

  • 寻找函数 $f(x)$ ,直接将输入数据映射到具体类别上,两阶段被合并为一阶段

判别函数的方式无法求出后验概率 $p(C_k|x)$ ,但后验概率的求解本身具有很多优势:

  • 【Minimizing risk】若模型采用最小化期望损失,若 $L_{k,j}$ 时不时地会发生修正,则率先求出后验概率可以更为方便地调整模型

  • 【Reject option】有了后验概率才能确定拒绝条件

  • 【Compensating for class priors】有时候原始数据分布很不均匀,例如二分类问题,为 0 的数据占 $0.1\%$ ,此时我们需要平衡数据集,提高为 0 数据的占比。由于我们更改了数据的分布,因此可以利用后验概率进行修正,即:

$$ p_{\text{补偿后}}(C_k|x)=\displaystyle\frac{p_{\text{调整后}}(C_k|x)p_{\text{调整前}}(C_k)}{p_{\text{调整后}}(C_k)} $$

最后再进行放缩,使得后验概率之和为 1。

  • 【Combining models】使用后验概率进行模型合并,而不是将模型的输入数据直接拼接:

1.5.5 回归损失函数 (Loss functions for regression)

使用 $y(\mathbf{x})$ 进行回归预测,采用平方损失,其损失均值为:

$$ \mathbb{E}[y(\mathbf{x})]=\iint\{y(\mathbf{x})-t\}^{2} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t $$

使用欧拉-拉格朗日公式,求得 $y(\mathbf{x})$ 最优值:

$$ \begin{aligned} & \frac{\delta \mathbb{E}[L]}{\delta y(\mathbf{x})}=2 \int\{y(\mathbf{x})-t\} p(\mathbf{x}, t) \mathrm{d} t=0 \\ & y(\mathbf{x})=\frac{\int t p(\mathbf{x}, t) \mathrm{d} t}{p(\mathbf{x})}=\int t p(t \mid \mathbf{x}) \mathrm{d} t=\mathbb{E}_{t}[t \mid \mathbf{x}] \end{aligned} $$

因此在平方损失的回归任务中, $y(\mathbf{x})$ 最优值为 $\mathbb{E}_{t}[t \mid \mathbf{x}]$ ,如下图所示:

对于 multi-label 问题, $y(\mathbf{x})$ 最优值依然为 $\mathbb{E}_{t}[\mathbf{t} \mid \mathbf{x}]$ :

$$ \begin{aligned} & \mathbb{E}[L]=\iint\|\mathbf{y}(\mathbf{x})-\mathbf{t}\|^{2} p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{x} \mathrm{d} \mathbf{t} \\ & \frac{\delta \mathbb{E}[L]}{\delta \mathbf{y}(\mathbf{x})}=\int 2(\mathbf{y}(\mathbf{x})-\mathbf{t}) p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}=0 \\ & \mathbf{y}(\mathbf{x})=\frac{\int \mathbf{t} p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}}{\int p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}}=\int \mathbf{t} p(\mathbf{t} \mid \mathbf{x}) \mathrm{d} \mathbf{t}\\ & y(\mathbf{x})=\int t p(t \mid \mathbf{x}) \mathrm{d} t \end{aligned} $$

另外,在求出 $y(\mathbf{x})$ 最优值后,我们可以对 ${y(\mathbf{x})-t}^2$ 进行如下分解:

$$ \begin{aligned} \{y(\mathbf{x})-t\}^2 &= \{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]+\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} \\ &= \{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}^{2}+2\{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}\{\mathbb{E}[t \mid \mathbf{x}]-t\}+\{\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} \end{aligned} $$

带回 $\mathbb{E}[y(\mathbf{x})]$ 中,得到:

$$ \mathbb{E}[y(\mathbf{x})]=\int\{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}^{2} p(\mathbf{x}) \mathrm{d} \mathbf{x}+\iint\{\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t $$

其中第二项是在 $\mathbf{x}$ 上 $t$ 概率分布方差的均值,与 $y(\mathbf{x})$ 无关,可以视为目标数据的内在变异性(噪声),损失函数的最小值。

最后考虑一下广义的损失函数:

$$ \mathbb{E}\left[L_{q}\right]=\iint|y(\mathbf{x})-t|^{q} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t $$

其中 $q$ 分别为 $2,1,0$ 时的最优解 $y(\mathbf{x})$ 如下:

1.6 信息论 (Information Theory)

1.6.1 熵 (Entropy)

当事件 $x$ 发生时,如何去衡量我们所接收到的信息 $h(x)$ ?

从概率的角度去思考, $p(x)$ 若很大,例如等于 1,则基本没有带来新信息;若 $p(x)$ 很小,则意味着小概率事件发生了,我们可以有更多的思考,因此 $h(x)$ 中应包含 $p(x)$ 。

另外,如果 $y$ 与 $x$ 独立,则 $h(x,y)=h(x)+h(y)$ ,而 $p(x,y)=p(x)p(y)$ ,因此考虑引入对数。

基于上述考虑,我们可以如下表示 $h(x)$ :

$$ h(x)=-\log_2p(x) $$

注意 $h(x)$ 的单位为 bits。

进一步地,令 $x$ 为随机变量,则我们可以给出基于其离散概率分布的平均信息:

$$ H[x]=-\sum_xp(x)\log_2p(x) $$

定义 $H[x]$ 为随机变量 $x$ 的熵 (entropy)。

在离散概率分布的情况下,我们可以使用拉格朗日对偶求解得到,当 $x$ 符合均匀分布时, $H[x]$ 最大。

而当 $x$ 为连续随机变量时, $H[x]=-\int p(x)\ln p(x)\text{d}x$ ,在满足如下三个限制条件后,可以使用拉格朗日对偶求出当 $x$ 符合高斯分布时, $H[x]$ 最大:

$$ H[x]=\displaystyle\frac{1}{2}\{1+\ln(2\pi\sigma^2)\} $$

注意 $x$ 离散时, $H[x]\geq 0$ ;但 $x$ 连续时, $H[x]$ 可能 $< 0$ 。

1.6.2 条件熵 (Conditional entropy)
$$ H[x,y]=H[y|x]+H[x] $$
1.6.3 交叉熵 (Relative entropy)

$x$ 真实分布为 $p(x)$ ,我们估计的分布为 $q(x)$ ,则错误估计所带来的信息差 (relative entropy or Kullback-Leibler divergence or KL divergence) 为:

$$ \begin{aligned} \mathrm{KL}(p \| q) &=-\int p(\mathbf{x}) \ln q(\mathbf{x}) \mathrm{d} \mathbf{x}-\left(-\int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d} \mathbf{x}\right) \\ &=-\int p(\mathbf{x}) \ln \left\{\frac{q(\mathbf{x})}{p(\mathbf{x})}\right\} \mathrm{d} \mathbf{x} \end{aligned} $$

满足以下条件:

  • $\mathrm{KL}(p | q) \not \equiv \mathrm{KL}(q | p)$

  • $\mathrm{KL}(p | q)\geq 0$ ,在 $p(x)=q(x)$ 时取等

因此 $KL$ 散度是一种衡量两个分布匹配程度的方法,其值越小,两个分布之间的匹配就越好。

1.6.4 互信息 (Mutual information)

互信息为原分布 ( $p(x,y)$ ) 与估计分布 ( $p(x)p(y)$ ) 间的信息差:

$$ \begin{aligned} \mathrm{I}[\mathbf{x}, \mathbf{y}] & \equiv \operatorname{KL}(p(\mathbf{x}, \mathbf{y}) \| p(\mathbf{x}) p(\mathbf{y})) \\ &=-\iint p(\mathbf{x}, \mathbf{y}) \ln \left(\frac{p(\mathbf{x}) p(\mathbf{y})}{p(\mathbf{x}, \mathbf{y})}\right) \mathrm{d} \mathbf{x} \mathrm{d} \mathbf{y} \end{aligned} $$

性质: $\mathrm{I}[\mathbf{x}, \mathbf{y}]\geq 0$ ,当 $x$ 和 $y$ 独立时,取到等号

互信息还可以用条件熵来定义:

$$ \mathrm{I}[\mathbf{x}, \mathbf{y}]=\mathrm{H}[\mathbf{x}]-\mathrm{H}[\mathbf{x} \mid \mathbf{y}]=\mathrm{H}[\mathbf{y}]-\mathrm{H}[\mathbf{y} \mid \mathbf{x}] $$

可以这样理解:互信息表示由新观测值 $y$ 导致的关于 $x$ 的不确定性的减小量。