PRML 学习笔记（一）- 介绍 (Introduction)

一、介绍 (Introduction)

本章目的：介绍一些重要概念

模式识别的核心：

使用计算机算法，自动化地发现数据中的规律 (the automatic discovery of regularities in data)
利用这些规律去完成某些任务，例如数据分类

不同领域间关系：

泛化 (generalization)：

【定义】将「不曾在训练集中出现过的数据」识别准确的能力
【意义】模式识别的核心目标

预处理 (pre-processing)：

有时也称作特征提取 (feature extraction)
意义
缩小数据变化范围，便于后续识别 (reduce the variability)
提取有效信息，降低数据维度 (dimensionality reduction)，加快运算 (speed up computation)

应用分类：

有监督学习 (supervised learning)：训练集有目标向量 (target vectors)
分类 (classification)：期望输出为离散变量
回归 (regression)：期望输出为连续变量
无监督学习 (unsupervised learning)：训练集无目标向量
聚类 (clustering)：发现数据集中的相似数据组
密度估计 (density estimation)：确定数据分布
可视化 (visualization)：将数据从高维向低维投影
强化学习 (reinforcement learning)：在给定的状态下，找到恰当的行动 (action) 使得奖励 (reward) 最大化
不提供最佳输出的示例，但需要通过反复试验来发现
大多数情况下，当前行动会影响当前、乃至未来每一步的奖励
一般都在探索 (exploration) 与利用 (exploitation) 间权衡，探索指尝试新行动；利用指使用已知行动获得最多奖励

三大重要工具：

概率论 (probability theory)
决策论 (decision theory)
信息论 (information theory)

1.1 例子：多项式拟合

1.1.1 拟合过程

数据： $\mathbf{x}=(x_1,…,x_N)^T,\mathbf{t}=(t_1,…,t_N)^T$

拟合函数：

$$ y(x,\mathbf{w})=w_0+w_1x+w_2x^2+...+w_Mx^M=\sum\limits_{j=0}^Mw_jx^j $$

损失函数 (error function)：

$$ E(\mathbf{w})=\frac{1}{2}\sum\limits_{n=1}^N\{y(w_n,\mathbf{w})-t_n\}^2 $$

衡量模型误差 - RMS (root-mean-square) error：

$\mathbf{w}^*$ 为模型必式解 (closed form)

$$ E_{\text{RMS}}=\sqrt{2E(\mathbf{w}^{*})/N} $$

拟合结果：

发现：

M = 9 时，模型拟合了噪声，发生过拟合 (over-fitting)

1.1.2 增大数据量

实验结果：

均使用 M = 9 的拟合函数

发现：

扩大数据集可缓解过拟合，换句话说，更大的数据集可以支持更复杂的模型
【启发】数据集规模应大于模型变量个数的某一倍数（例如 5、10）

疑问点：

模型复杂度的选择，应根据问题本身的复杂程度，而不是数据集大小

1.1.3 正则化 (Regularization)

新的损失函数：

下述式子又称为岭回归 (ridge regression)
【别名】统计中的收缩 (shrinkage)，神经网络中的权重衰减 (weight decay)

$$ \widetilde{E}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^N\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\mathbf{w}\|^{2} $$

注意：

通常正则项中不包含 $w_0$ ，或者 $w_0$ 与其它参数的系数不同 (because its inclusion causes the results to depend on the choice of origin for the target variable)

实验结果：

仍采用 M = 9 的拟合函数

发现：

正则化可以有效地抑制过拟合现象

1.2 概率论 (Probability Theory)

概率论意义：

不确定性 (uncertainty) 是模式识别领域的关键概念，其根源在于「测量误差」与「有限的数据集大小」
概率论为不确定性的量化 (quantification) 和处理 (manipulation) 提供了一致的框架，为模式识别的核心基础之一

概率论两条基本规则：

$p(X,Y)$ ：联合概率 (joint probability - “the probability of X and Y”)
$p(Y|X)$ ：条件概率 (conditional probability - “the probability of Y given X”)
$p(X)$ ：边缘概率 (marginal probability - “the probability of X”)

$$ \begin{aligned} \textbf{sum rule } & p(X)=\sum_Yp(X,Y) \ / \int p(X,Y) dY\\ \textbf{product rule } & p(X,Y)=p(Y|X)p(X) \end{aligned} $$

贝叶斯定理：

求的是 $p(Y|X)$ ，因此在观察到 $X$ 前， $p(Y)$ 就已确定，即为先验概率 (prior probability)
在观察到 $X$ 后， $p(Y|X)$ 即可求出，即为后验概率 (posterior probability)
$p(X)$ 为 $p(Y|X)$ 提供了证据因子 (evidence)
$p(X|Y)$ 为似然 (likelihood)

$$ p(Y|X)=\displaystyle\frac{p(X|Y)p(Y)}{p(X)}=\displaystyle\frac{p(X|Y)p(Y)}{\sum_Yp(X|Y)p(Y)} $$

1.2.1 概率密度 (Probability densities)

定义：

连续变量 $x$ 落在区间 $[x,x+\delta x](\delta x\rightarrow 0)$ 的概率为 $p(x)\delta x$ ，则 $p(x)$ 为 $x$ 这一点的概率密度
若 $x$ 为离散变量，则 $p(x)$ 为概率质量函数 (probability mass function)

两大条件：

$$ \begin{aligned} p(x) & \geq 0 \\ \int_{-\infty}^{\infty}p(x)dx&=1 \end{aligned} $$

性质：

若 $x=g(y)$ ，则 $p_y(y)=p_x(g(y))*|g’(y)|$ ，即最大化概率密度时依赖于选取的变量
【推导】 $x$ 落在 $[x,x+\delta x](x\rightarrow 0)$ 的概率等价于 $y$ 落在 $[y,y+\delta y](y\rightarrow 0)$ 的概率，即 $p_x(x)\delta x=p_y(y)\delta y(x,y\rightarrow 0)$ ，则

$$ \begin{aligned} p_y(y)&=p_x(x)|\displaystyle\frac{\text{d}x}{\text{d}y}|\\ &=p_x(g(y))|g'(y)| \end{aligned} $$

1.2.2 期望与协方差 (Expectations and covariances)

期望 (expectation)：

【定义】在概率分布 $p(x)$ 下， $f(x)$ 的均值称作 $f(x)$ 的期望，表示为 $\mathbb{E}[f]$
【离散】 $\mathbb{E}[f]=\sum_xp(x)f(x)$
【连续】 $\mathbb{E}[f]=\int p(x)f(x)\text{d}x$
【统计近似】 $\mathbb{E}[f]\simeq \frac{1}{N}\sum_{n=1}^Nf(x_n)$
【多变量】 $\mathbb{E}_x[f(x,y)]$ 表示在 $x$ 分布下， $f(x,y)$ 的均值，最终应表示为 $y$ 的函数
【条件期望 (conditional expectation)】 $\mathbb{E}_x[f|y]=\sum_x p(x|y)f(x)$

方差 (variance)：

【定义】衡量 $f(x)$ 在其均值 $\mathbb{E}[f(x)]$ 周围变化性 (variability) 的大小， $var[f]=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]=\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2$
【简便表示】 $var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2$

协方差 (covariance)：

【定义】 $\text{cov}[x,y]$ 衡量 $x$ 和 $y$ 共同变化的程度

$$ \begin{aligned} \text{cov}[x,y]&=\mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}]\\ &=\mathbb{E}_{x,y}[x,y]-\mathbb{E}[x]\mathbb{E}[y] \end{aligned} $$

协方差矩阵：

当 $\mathbf{x}$ 和 $\mathbf{y}$ 为向量时， $\text{cov}[\mathbf{x},\mathbf{y}]$ 为协方差矩阵
$\text{cov}[\mathbf{x}]\equiv\text{cov}[\mathbf{x},\mathbf{x}]$

$$ \begin{aligned} \text{cov}[\mathbf{x},\mathbf{y}]&=\mathbb{E}_{\mathbf{x}, \mathbf{y}}\left[\{\mathbf{x}-\mathbb{E}[\mathbf{x}]\}\left\{\mathbf{y}^{T}-\mathbb{E}\left[\mathbf{y}^{T}\right]\right\}\right]\\ &=\mathbb{E}_{\mathbf{x}, \mathbf{y}}\left[\mathbf{x} \mathbf{y}^{T}\right]-\mathbb{E}[\mathbf{x}] \mathbb{E}\left[\mathbf{y}^{T}\right] \end{aligned} $$

1.2.3 贝叶斯概率 (Bayesian probabilities)

对比：

【频率学派 (classical or frequentist)】将概率看作是随机重复事件的发生频率
【贝叶斯学派 (Bayesian)】将概率看作是不确定性的度量 (a quantification of uncertainty)

举例：

给定数据集 $\text{D}$ 求模型参数 $\mathbf{w}$
【频率学派】使用极大似然估计 (maximum likelihood)，求使 $p(D|\mathbf{w})$ 概率最大时的 $\mathbf{w}$
【贝叶斯学派】用 $p(\mathbf{w}|D)$ 来度量不确定性

1.2.4 高斯分布 (The Gaussian distribution)

概念：

$\mu$ ：mean
$\sigma^2$ ：variance
$\sigma$ ：standard deviation
$\beta=1/\sigma^2$ ：precision
mode： $p(x)$ 最大时的 $x$ ，在高斯分布中为 $\mu$
独立同分布 (i.i.d)：independent and identically distributed

$$ \mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} $$

性质：

$\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) \mathrm{d} x=1$
$\mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x \mathrm{~d} x=\mu$
$\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2}$
$\operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}=\sigma^{2}$

证明：

多元高斯分布：

$$ \mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\} $$

极大似然估计的偏差 (bias)：

【方法】用 MLE 来估计高斯分布的参数，即 $\max\ \ln p\left(\mathbf{x} \mid \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi)$
【结果】

$$ \begin{aligned} \mu_{\text{ML}} &=\displaystyle\frac{1}{N}\sum\limits_{n=1}^N x_n \\ \sigma^2_{\text{ML}} &=\displaystyle\frac{1}{N}\sum\limits_{n=1}^N(x_n-\mu_{\text{ML}})^2 \end{aligned} $$

【结论】 $\mathbb{E}[\sigma^2_{\text{ML}}]=(\displaystyle\frac{N-1}{N})\sigma^2$ ，小于无偏估计值，其中的差距称为 bias

1.2.5 曲线拟合回顾

极大似然估计（maximum likelihood - MLE）：

【假设】 $p(t \mid x, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(x, \mathbf{w}), \beta^{-1}\right)$

【求解】 $\max\ p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)$

\begin{aligned} & p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)=\prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid y\left(x_{n}, \mathbf{w}\right), \beta^{-1}\right) \\ & \ln p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)=-\frac{\beta}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi) \\ & \mathbf{w}_{\text{ML}}=\text{arg}\ \underset{\mathbf{w}}{\min} \sum\limits_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2 \\ & \frac{1}{\beta_{\mathrm{ML}}}=\frac{1}{N} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}_{\mathrm{ML}}\right)-t_{n}\right\}^{2} \end{aligned}

【结论】等价于最小二乘法

极大后验概率（maximum posterior - MAP）：

【假设先验概率】

$$ p(\mathbf{w} \mid \alpha)=\mathcal{N}\left(\mathbf{w} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right)=\left(\frac{\alpha}{2 \pi}\right)^{(M+1) / 2} \exp \left\{-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}\right\} $$

【求解 - 最大后验概率】

\begin{aligned} & p(\mathbf{w} \mid \mathbf{x}, \mathbf{t}, \alpha, \beta) \propto p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha) \\ & \underset{\mathbf{w}}{\min}\frac{\beta}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \end{aligned}

【结论】等价于加上正则项的最小二乘

1.3 模型选择 (Model Selection)

交叉验证 (cross-validation)：

【过程】分成 S 份，每一次留一份作为测试集
【缺点】对参数很多、运行一次较耗时的模型很不友好

1.4 维度诅咒 (The Curse of Dimensionality)

区域划分：

随着维度的增加，划分的格子数指数增长

多项式拟合：

随着维度增加，模型参数幂次增长

$$ y(\mathbf{x}, \mathbf{w})=w_{0}+\sum_{i=1}^{D} w_{i} x_{i}+\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j} x_{i} x_{j}+\sum_{i=1}^{D} \sum_{j=1}^{D} \sum_{k=1}^{D} w_{i j k} x_{i} x_{j} x_{k} $$

解决思路：

【思路 1】实际数据通常会被限制在有效维数较低的区域中，尤其是引起目标变量重大变化的维度可能会被限制
【思路 2】实际数据通常有一些平滑性质，即输入的微扰引起目标变量的微扰，因此可以使用类似局部插值的方式进行预测

1.5 决策论 (Decision Theory)

主题：根据目标向量可能的取值，作出决策。

1.5.1 最小化分类错误率 (Minimizing the misclassification rate)

概念：

决策区域 $\mathcal{R}_{k}$ (decision regions)：位于 $\mathcal{R}_{k}$ 中的点均被赋为 $\mathcal{C}_{k}$ 类别；决策区域可以由不相交的区域组成
决策边界 (decision boundaries / surfaces)：决策区域间的边界

决策方法：

最小化分类错误率，即将 $x$ 分配给令 $p(C_k,x)\propto p(C_k|x)$ 最大的 $C_k$
【图解】
- $\hat{x}$ 为决策边界，红、绿、紫为分类错误的区域
- 无论 $\hat{x}$ 如何变化，绿 + 紫的面积不变，但红的面积会变
- 当 $\hat{x}$ 位于 $x_0$ 时，错误区域面积最小

1.5.2 最小化期望损失 (Minimizing the expected loss)

引入损失函数 (loss function) $L_{k,j}$ ，表示真实类别为 $k$ ，被错误分到 $j$ 的损失，因此最小化期望损失可以如下表示：

$$ \min_j\ \sum_kL_{k,j}p(C_k|x) $$

1.5.3 拒绝选项 (The reject option)

当 $\underset{k}{\max}(p(C_k|x))\leq \theta$ 时，拒绝为 $x$ 赋类别，如下图所示：

1.5.4 推理与决策 (Inference and decision)

将分类问题划分为两个阶段，分别是：

推理阶段 (inference stage) - 建立模型学习 $p(C_k|x)$
决策阶段 (decision stage) - 使用后验概率进行最优的类别赋值

由此决策问题大致可以分为如下三种解决方法：

生成模型 (generative models)
求出先验与似然，即 $p(C_k)$ 与 $p(x|C_k)$ ，再求出 $p(x)$
最后根据贝叶斯定理，求出后验 $p(C_k|x)$
缺点：确定 $p(x|C_k)$ 需要大数据集的支持
优点：由于 $p(x)$ 的求出，可以检测离群点 (outlier / novelty detection)
判别模型 (discriminative models)
直接求出 $p(C_k|x)$
特点：较于生成模型，要求降低，且有时候 $p(x|C_k)$ 对后验概率影响不大

判别函数 (discriminant function)
寻找函数 $f(x)$ ，直接将输入数据映射到具体类别上，两阶段被合并为一阶段

判别函数的方式无法求出后验概率 $p(C_k|x)$ ，但后验概率的求解本身具有很多优势：

【Minimizing risk】若模型采用最小化期望损失，若 $L_{k,j}$ 时不时地会发生修正，则率先求出后验概率可以更为方便地调整模型
【Reject option】有了后验概率才能确定拒绝条件
【Compensating for class priors】有时候原始数据分布很不均匀，例如二分类问题，为 0 的数据占 $0.1\%$ ，此时我们需要平衡数据集，提高为 0 数据的占比。由于我们更改了数据的分布，因此可以利用后验概率进行修正，即：

$$ p_{\text{补偿后}}(C_k|x)=\displaystyle\frac{p_{\text{调整后}}(C_k|x)p_{\text{调整前}}(C_k)}{p_{\text{调整后}}(C_k)} $$

最后再进行放缩，使得后验概率之和为 1。

【Combining models】使用后验概率进行模型合并，而不是将模型的输入数据直接拼接：

1.5.5 回归损失函数 (Loss functions for regression)

使用 $y(\mathbf{x})$ 进行回归预测，采用平方损失，其损失均值为：

$$ \mathbb{E}[y(\mathbf{x})]=\iint\{y(\mathbf{x})-t\}^{2} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t $$

使用欧拉-拉格朗日公式，求得 $y(\mathbf{x})$ 最优值：

$$ \begin{aligned} & \frac{\delta \mathbb{E}[L]}{\delta y(\mathbf{x})}=2 \int\{y(\mathbf{x})-t\} p(\mathbf{x}, t) \mathrm{d} t=0 \\ & y(\mathbf{x})=\frac{\int t p(\mathbf{x}, t) \mathrm{d} t}{p(\mathbf{x})}=\int t p(t \mid \mathbf{x}) \mathrm{d} t=\mathbb{E}_{t}[t \mid \mathbf{x}] \end{aligned} $$

因此在平方损失的回归任务中， $y(\mathbf{x})$ 最优值为 $\mathbb{E}_{t}[t \mid \mathbf{x}]$ ，如下图所示：

对于 multi-label 问题， $y(\mathbf{x})$ 最优值依然为 $\mathbb{E}_{t}[\mathbf{t} \mid \mathbf{x}]$ ：

$$ \begin{aligned} & \mathbb{E}[L]=\iint\|\mathbf{y}(\mathbf{x})-\mathbf{t}\|^{2} p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{x} \mathrm{d} \mathbf{t} \\ & \frac{\delta \mathbb{E}[L]}{\delta \mathbf{y}(\mathbf{x})}=\int 2(\mathbf{y}(\mathbf{x})-\mathbf{t}) p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}=0 \\ & \mathbf{y}(\mathbf{x})=\frac{\int \mathbf{t} p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}}{\int p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}}=\int \mathbf{t} p(\mathbf{t} \mid \mathbf{x}) \mathrm{d} \mathbf{t}\\ & y(\mathbf{x})=\int t p(t \mid \mathbf{x}) \mathrm{d} t \end{aligned} $$

另外，在求出 $y(\mathbf{x})$ 最优值后，我们可以对 ${y(\mathbf{x})-t}^2$ 进行如下分解：

$$ \begin{aligned} \{y(\mathbf{x})-t\}^2 &= \{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]+\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} \\ &= \{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}^{2}+2\{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}\{\mathbb{E}[t \mid \mathbf{x}]-t\}+\{\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} \end{aligned} $$

带回 $\mathbb{E}[y(\mathbf{x})]$ 中，得到：

$$ \mathbb{E}[y(\mathbf{x})]=\int\{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}^{2} p(\mathbf{x}) \mathrm{d} \mathbf{x}+\iint\{\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t $$

其中第二项是在 $\mathbf{x}$ 上 $t$ 概率分布方差的均值，与 $y(\mathbf{x})$ 无关，可以视为目标数据的内在变异性（噪声），损失函数的最小值。

最后考虑一下广义的损失函数：

$$ \mathbb{E}\left[L_{q}\right]=\iint|y(\mathbf{x})-t|^{q} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t $$

其中 $q$ 分别为 $2,1,0$ 时的最优解 $y(\mathbf{x})$ 如下：

1.6 信息论 (Information Theory)

1.6.1 熵 (Entropy)

当事件 $x$ 发生时，如何去衡量我们所接收到的信息 $h(x)$ ？

从概率的角度去思考， $p(x)$ 若很大，例如等于 1，则基本没有带来新信息；若 $p(x)$ 很小，则意味着小概率事件发生了，我们可以有更多的思考，因此 $h(x)$ 中应包含 $p(x)$ 。

另外，如果 $y$ 与 $x$ 独立，则 $h(x,y)=h(x)+h(y)$ ，而 $p(x,y)=p(x)p(y)$ ，因此考虑引入对数。

基于上述考虑，我们可以如下表示 $h(x)$ ：

$$ h(x)=-\log_2p(x) $$

注意 $h(x)$ 的单位为 bits。

进一步地，令 $x$ 为随机变量，则我们可以给出基于其离散概率分布的平均信息：

$$ H[x]=-\sum_xp(x)\log_2p(x) $$

定义 $H[x]$ 为随机变量 $x$ 的熵 (entropy)。

在离散概率分布的情况下，我们可以使用拉格朗日对偶求解得到，当 $x$ 符合均匀分布时， $H[x]$ 最大。

而当 $x$ 为连续随机变量时， $H[x]=-\int p(x)\ln p(x)\text{d}x$ ，在满足如下三个限制条件后，可以使用拉格朗日对偶求出当 $x$ 符合高斯分布时， $H[x]$ 最大：

$$ H[x]=\displaystyle\frac{1}{2}\{1+\ln(2\pi\sigma^2)\} $$

注意 $x$ 离散时， $H[x]\geq 0$ ；但 $x$ 连续时， $H[x]$ 可能 $< 0$ 。

1.6.2 条件熵 (Conditional entropy)

$$ H[x,y]=H[y|x]+H[x] $$

1.6.3 交叉熵 (Relative entropy)

$x$ 真实分布为 $p(x)$ ，我们估计的分布为 $q(x)$ ，则错误估计所带来的信息差 (relative entropy or Kullback-Leibler divergence or KL divergence) 为：

$$ \begin{aligned} \mathrm{KL}(p \| q) &=-\int p(\mathbf{x}) \ln q(\mathbf{x}) \mathrm{d} \mathbf{x}-\left(-\int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d} \mathbf{x}\right) \\ &=-\int p(\mathbf{x}) \ln \left\{\frac{q(\mathbf{x})}{p(\mathbf{x})}\right\} \mathrm{d} \mathbf{x} \end{aligned} $$

满足以下条件：

$\mathrm{KL}(p | q) \not \equiv \mathrm{KL}(q | p)$
$\mathrm{KL}(p | q)\geq 0$ ，在 $p(x)=q(x)$ 时取等

因此 $KL$ 散度是一种衡量两个分布匹配程度的方法，其值越小，两个分布之间的匹配就越好。

1.6.4 互信息 (Mutual information)

互信息为原分布 ( $p(x,y)$ ) 与估计分布 ( $p(x)p(y)$ ) 间的信息差：

$$ \begin{aligned} \mathrm{I}[\mathbf{x}, \mathbf{y}] & \equiv \operatorname{KL}(p(\mathbf{x}, \mathbf{y}) \| p(\mathbf{x}) p(\mathbf{y})) \\ &=-\iint p(\mathbf{x}, \mathbf{y}) \ln \left(\frac{p(\mathbf{x}) p(\mathbf{y})}{p(\mathbf{x}, \mathbf{y})}\right) \mathrm{d} \mathbf{x} \mathrm{d} \mathbf{y} \end{aligned} $$

性质： $\mathrm{I}[\mathbf{x}, \mathbf{y}]\geq 0$ ，当 $x$ 和 $y$ 独立时，取到等号

互信息还可以用条件熵来定义：

$$ \mathrm{I}[\mathbf{x}, \mathbf{y}]=\mathrm{H}[\mathbf{x}]-\mathrm{H}[\mathbf{x} \mid \mathbf{y}]=\mathrm{H}[\mathbf{y}]-\mathrm{H}[\mathbf{y} \mid \mathbf{x}] $$

可以这样理解：互信息表示由新观测值 $y$ 导致的关于 $x$ 的不确定性的减小量。