PRML 学习笔记(附录)- 变分法 (Calculus of Variations)

Posted by Lucius on May 4, 2021

一、泛函

我们最常接触的函数 $y(x)$ ,以数值 $x$ 为输入,以数值 $y(x)$ 为输出。

在此基础上,我们可将这个概念进行扩展,定义泛函(functional) $F[y]$ ,其输入为函数 $y(x)$ ,输出为数值 $F[y]$ 。

举个例子, $y(x)$ 表示二维平面中经过 $(x_1,y_1),(x_2,y_2)$ 两点的任意函数,而 $F[y]$ 表示函数 $y(x)$ 在 $(x_1,y_1),(x_2,y_2)$ 两点间的曲线长度。 $y(x)$ 也可以表示连续变量 $x$ 的分布函数,则 $F[y]$ 表示该分布对应的熵。

二、泰勒展开回顾

$$ \begin{aligned} & y(x+\epsilon)=y(x)+\frac{\mathrm{d} y}{\mathrm{~d} x} \epsilon+O\left(\epsilon^{2}\right) \\ & y\left(x_{1}+\epsilon_{1}, \ldots, x_{D}+\epsilon_{D}\right)=y\left(x_{1}, \ldots, x_{D}\right)+\sum_{i=1}^{D} \frac{\partial y}{\partial x_{i}} \epsilon_{i}+O\left(\epsilon^{2}\right) \end{aligned} $$

三、变分

3.1 函数变分

定义 $\delta$ 为变分算子,则 $y(x)$ 与另一可取函数 $y_0(x)$ 之差 $y(x)-y_0(x)$ 为函数 $y(x)$ 在 $y_0(x)$ 处的变分(函数的变分):

$$ \delta y=y(x)-y_0(x)=\epsilon \eta(x) $$

注意,函数的变分 $\delta y$ 是两个不同函数 $y(x)$ 和 $y_0(x)$ 在自变量 $x$ 固定时的差,即函数发生了改变;而对于函数的增量 $\Delta y$ ,函数未发生改变。

3.2 泛函变分

关注最简泛函:

$$ F[y(x)]=\int G\left(x, y(x), y^{\prime}(x)\right) \mathrm{d} x, $$

其中 $x,y(x),y^{\prime}(x)$ 独立,且 $F$ 二阶连续可微, $G$ 为泛函的核。

根据泰勒展开式,定义最简泛函 $F[y(x)]$ 的增量:

$$ \begin{aligned} \Delta F &=F[y(x)+\delta y]-F[y(x)] \\ &=F[y(x)+\epsilon \eta(x)]-F[y(x)] \\ &=\int [G\left(x, y+\epsilon \eta(x), y^{\prime}+\epsilon \eta^{\prime}(x)\right) - G\left(x, y, y^{\prime}\right)] \mathrm{d} x \\ &=\epsilon\int \{\frac{\partial G}{\partial y}\eta(x)+\frac{\partial G}{\partial y^{\prime}}\eta^{\prime}(x)\}\mathrm{d} x+O\left(\epsilon^{2}\right) \end{aligned} $$

因此如下定义泛函变分 $\delta F$ :

$$ \delta F=\epsilon\int \{\frac{\partial G}{\partial y}\eta(x)+\frac{\partial G}{\partial y^{\prime}}\eta^{\prime}(x)\}\mathrm{d} x $$

四、欧拉-拉格朗日公式 (Euler-Lagrange Equations)

仿照泰勒展开式,定义:

$$ F[y(x)+\epsilon \eta(x)]=F[y(x)]+\epsilon \int \frac{\delta F}{\delta y(x)} \eta(x) \mathrm{d} x+O\left(\epsilon^{2}\right) $$

因此泛函 $F$ 在 $y(x)$ 处取极值需满足:

$$ \int \frac{\delta F}{\delta y(x)} \eta(x) \mathrm{d} x=0 $$

对任意 $\eta(x)$ 成立,即泛函导数 (functional derivative) $\displaystyle\frac{\delta F}{\delta y(x)}=0$ 。

当 $F[y(x)]$ 为固定边界的最简泛函,即

$$ F[y(x)]=\int G\left(x, y(x), y^{\prime}(x)\right) \mathrm{d} x, $$

其中 $y(x)$ 在边界上的值固定,即 $\eta(x)$ 在边界上的值为 0,则根据泰勒展开得到:

$$ F[y(x)+\epsilon \eta(x)]=F[y(x)]+\epsilon \int\left\{\frac{\partial G}{\partial y} \eta(x)+\frac{\partial G}{\partial y^{\prime}} \eta^{\prime}(x)\right\} \mathrm{d} x+O\left(\epsilon^{2}\right) $$

使用全微分公式对 $\frac{\partial G}{\partial y^{\prime}} \eta^{\prime}(x)$ 展开:

$$ \frac{\partial G}{\partial y^{\prime}} \eta^{\prime}(x)=\frac{\partial G}{\partial y^{\prime}} \frac{\mathrm{d} \eta(x)}{\mathrm{d} x}=\frac{\mathrm{d}}{\mathrm{d} x} (\frac{\partial G}{\partial y^{\prime}} \eta(x))-\eta(x)\frac{\mathrm{d}}{\mathrm{d} x}(\frac{\partial G}{\partial y^{\prime}}) $$

由于 $\eta(x)$ 在边界上的值为 0,因此:

$$ \epsilon \int \frac{\mathrm{d}}{\mathrm{d} x} (\frac{\partial G}{\partial y^{\prime}} \eta(x)) \mathrm{d} x=\epsilon \frac{\partial G}{\partial y^{\prime}}(0-0)=0 $$

代回到 $F[y(x)+\epsilon \eta(x)]$ 中,得到:

$$ F[y(x)+\epsilon \eta(x)]=F[y(x)]+\epsilon \int\left\{\frac{\partial G}{\partial y}-\frac{\mathrm{d}}{\mathrm{d} x}\left(\frac{\partial G}{\partial y^{\prime}}\right)\right\} \eta(x) \mathrm{d} x+O\left(\epsilon^{2}\right) $$

因此对于固定边界的最简泛函,泛函 $F$ 在 $y(x)$ 处取极值需满足:

$$ \frac{\delta F}{\delta y(x)}=\frac{\partial G}{\partial y}-\frac{\mathrm{d}}{\mathrm{d} x}\left(\frac{\partial G}{\partial y^{\prime}}\right)=0 $$

即欧拉-拉格朗日公式。