空间概述:拓扑、度量、向量、赋范、内积、希尔伯特、RKHS

Posted by Lucius on November 24, 2021

1. 空间 (Space)

空间 = 集合 + 结构

「集合」为该空间中的元素集合,可以是实数、向量、矩阵、多项式、算子、函数等等;

「结构」为该空间中元素必须遵循的某些通过 公理 定义的规则.

2. 度量空间 (Metric Space)

2.1 从欧式空间到度量空间

度量空间是欧式空间的推广,定义如下:

  • 集合 $X$ 上的 度量 (metric) 是一个函数 $d: X \times X \rightarrow \mathbb{R}$ 满足:
    • $(i)$ $\forall x,y\in X,d(x,y)=d(y,x)$
    • $(ii)$ $\forall x,y\in X,d(x,y)\geq 0$ 且 $d(x,y)=0\Longleftrightarrow x=y$
    • $(iii)$ $\forall x,y,z\in X,d(x,z)\leq d(x,y)+d(y,z)$
  • 称 $(X,d)$ 为一个度量空间,一般简记为 $X$.

2.2 开集与连续

在度量空间中,我们可以直观地定义「开集」和「连续」,首先是「开集」:

  • $A \subset X$,若下式成立,则 $A$ 为 $X$ 中的开集 (open set)

  • $\forall x \in A, \exists r>0, \text { s.t. } B_{r}(x)={y \in M \mid d(y, x)<r} \subset A$

  • 简单来说就是,$A$ 中的每一个点都有一个以该点为中心的邻域包含于 $A$

其次是「连续」:

  • $(X_1,d_1)$ 和 $(X_2,d_2)$ 是两个度量空间,若下式成立,则函数 $f: X_{1} \rightarrow X_{2}$ 称为连续 (continuous) 函数.

  • $\forall x\in X_1,\forall \epsilon>0,\exists \delta>0 \text { s.t. } d_{1}(x, y)<\delta \Longrightarrow d_{2}(f(x), f(y))<\epsilon$.

开闭集的深入探讨可以看:如何理解开集和闭集

2.3 柯西序列 - 完备空间

柯西序列 (Cauchy Sequence) 定义:

  • 序列元素随序数增加而愈发靠近,即在去掉有限个元素后,剩下任意两元素间距离不超过任意给定的正数.

根据上述定义,可以发现柯西列的定义依赖于「距离」,因此只有在度量空间中柯西列才有意义.

引入柯西列的主要目的是定义「空间完备性」:

  • 在完备空间中,所有的柯西数列都有极限,且极限在这个空间中.

「度量空间」并不一定是「完备空间」,例如如下两个例子:

  • 对于度量空间 $(X,d)$,其中 $X$ 为实数,则 $X$ 完备.

  • 若 $X$ 为有理数 $\mathbb{Q}$,则 $X$ 不完备,例如 $(x=1)\in \mathbb{Q}$,$\exp(1)$ 可以泰勒展开为一个有理数序列的极限,且 $\exp(1)\not\in\mathbb{Q}$.

完备的意义」:

  • 如果集合不完备,则所有基于极限的操作就无法定义了,例如在 $\mathbb{Q}$ 上无法建立微积分. 并且在优化问题中,时常出现迭代序列 $(w_n)$,如果集合不完备,则迭代收敛的解也就无从谈起了.

3. 拓扑空间 (Topological Space)

3.1 从开集到拓扑空间

拓扑空间通过开集定义,首先引入开集的定理:

  • 有限 个开集的交是开集,任意 个开集的并是开集.

此处举个例子,来解释前者为「有限」的原因:

  • 设 $G_n=(1-\frac{1}{n},1+\frac{1}{n})$,$\cup_{n=1}^{\infty}G_n={1}$ 非开集.

接下来通过开集来定义拓扑空间:

  • 集合 $X$ 上的 拓扑 (topology) $\mathcal{T}$ 是 $X$ 子集的集合,其中的元素称为 开集 (open set) 并满足:
    • $(i)$ 空集 $\phi$ 和全集 $X$ 属于 $\mathcal{T}$
    • $(ii)$ 有限个开集的交属于 $\mathcal{T}$
    • $(iii)$ 任意个开集的并属于 $\mathcal{T}$
  • 称 $(X,\mathcal{T})$ 是一个拓扑空间,一般简记为 $X$.

根据上述定义,我们得知 $X$ 的一个子集 $U$ 是开集当且仅当 $U\in\mathcal{T}$.

拓扑空间通过开集族 $\mathcal{T}$ 来刻画元素间的「远近亲疏」,以下图为例:

3.2 从连续到同胚

至此,我们将「开集」从「度量空间」中独立了出来,并以此构建了「拓扑空间」。接下来我们将进一步在「拓扑空间」中定义「连续」:

  • 令 $X,Y$ 为两个拓扑空间,若下式成立,则映射 $f: X \rightarrow Y$ 称作连续的 (continuous).

  • $\forall U\subset Y, U$ 为开集 $\Longrightarrow f^{-1}(U)$ 是 $X$ 中的开集.

从「连续」出发,我们可以进一步定义「同胚映射」与 「同胚」:

  • 令 $X,Y$ 为两个拓扑空间,若 $\varphi$ 是一个连续的双射 (bijection) 且其逆 $\varphi^{-1}$ 也是连续的,则称映射 $\varphi: X \rightarrow Y$ 为一个同胚映射 (homeomorphism).

  • 若 $X,Y$ 之间存在同胚映射,则称 $X,Y$ 同胚 (homeomorphic) 或拓扑等价 (topologically equivalent).

例如下述的咖啡杯与甜甜圈即为「拓扑等价」,其间经历的过程为「连续变形」.

3.3 空间紧致

首先定义「开覆盖」:

  • 对于拓扑空间 $(X,\mathcal{T})$,若下式成立,$C$ 为 $X$ 的一个开覆盖.

  • $C={U_\alpha \mid \alpha\in A,U_\alpha\in \mathcal{T}}$ 且 $X \subseteq \bigcup_{\alpha \in A} U_{\alpha}$.

接下来定义「子覆盖」:

  • $C$ 为 $X$ 的一个开覆盖,若 $C$ 的子集 $H$ 仍覆盖 $X$,则 $H$ 为 $C$ 的一个子覆盖.

根据上述两个概念,我们可以进一步定义「紧致」:

  • 一个拓扑空间为 紧致 的,如果所有它的 开覆盖 都有 有限子覆盖.

在欧式空间中,上述「紧致」定义等价于「闭集且有界」。事实上,有限拓扑总是紧致的,而「紧致」的概念是将无限转化为有限的最直接手段.

Compact set:

3.4 序列收敛

首先定义拓扑空间中「点的邻域」:

  • 对于拓扑空间 $(X,\mathcal{T})$,$p\in X$,$V$ 是 $p$ 的邻域,若 $p \in U \subseteq V\subseteq X$ 且 $U \in \mathcal{T}$.

接下来就可以定义「序列收敛」:

  • 设 ${x_n}=x_1,x_2,…,x_n,…$ 是拓扑空间 $X$ 中点的序列,如果点 $x_0\in X$ 的任一邻域 $U$ 都包含 ${x_n}$ 的几乎所有项(即只有有限个 $x_n$ 不在 $U$ 中;或存在正整数 $N$,使得当 $n>N$ 时,$x_n\in U$),则称 ${x_n}$ 收敛到 $x_0$,记作 $x_n\rightarrow x_0$.

以下述例子进行加深理解:

3.5 拓扑空间的分类

3.6 拓扑空间与度量空间

  • 拓扑空间「定性」,度量空间「定量」

  • 度量空间是「刚性」的拓扑空间,其上的度量直接定义了拓扑结构,拓扑空间中的「映射连续」、「空间紧致」、「序列收敛」在该空间中也都存在

  • 拓扑空间是「软化」的度量空间,并非任意拓扑空间都能「升格」成度量空间,只有第二可数的正则拓扑空间才可以

4. 向量 / 线性空间 (Vector / Linear Space)

4.1 群、环、域

注意群、环、域的本质是一个集合,区别在于集合上定义的代数结构。

4.2 公理化定义

定义在域 $\mathbb{F}$ 上的向量空间是一个非空集合 $V$,其上定义了两种二元运算:

  • 向量加法 $+:V+V\rightarrow V$

  • 标量乘法:$\cdot:\mathbb{F}\times V\rightarrow V$

$V$、$\mathbb{F}$ 中元素分别为向量、标量,且上述两种操作满足如下 8 条公理:

注意,$V$ 中元素可以是平面向量、空间向量、矩阵、函数、线性映射、甚至线性空间,但都称为「向量」.

4.3 线性无关

给定向量空间 $V$ 中的一组向量,若没有向量可用「有限个」其他向量的线性表示,则称这组向量线性无关.

另外,向量空间 $V$ 的维度是其中线性无关向量组元素个数的最大值(可以为无穷),这样的线性无关向量组称为 $V$ 的「Hamel 基」.

5. 赋范向量空间 (Normed Vector Space)

5.1 公理化定义

赋范向量空间是具有「长度」概念的向量空间,其上定义了「代数结构」和「范数」,其中后者「范数」$|\cdot|: X \mapsto \mathbb{R}$ 可衡量「长度」,满足:

  • $|x|\geq 0$ 且 $|x|=0$ 当且仅当 $x=0$

  • $\|\alpha x\|=|\alpha|\|x\|$

  • $|x+y|\leq |x|+|y|$

另外,由于 $\left\|x+\epsilon \frac{y}{\|y\|}\right\| \leq\|x\|+|\epsilon|$,因此范数 $\|\cdot\|$ 是连续函数.

5.2 Schauder 基

5.3 线性算子

若两个赋范线性空间的映射 $T$ 满足 $T(\alpha x+\beta y)=\alpha T x+\beta T y$,则称为「线性算子」.

在赋范线性空间中,定义算子范数如下:

$$ \|T\|=\sup _{x \neq 0} \frac{\|T \boldsymbol{x}\|}{\|\boldsymbol{x}\|}=\sup _{\|\boldsymbol{x}\|=1}\|T \boldsymbol{x}\| \Longrightarrow\|T \boldsymbol{x}\| \leq\|T\|\|\boldsymbol{x}\| $$

进一步地,如果 $\exists c>0$ 使得 $|T| \leq c$,则称 $T$ 为「线性有界算子」.

注意,「有限维赋范向量空间」$X$ 上的线性算子都是有界的,而「无限维赋范向量空间」中的线性算子可能无解,举例如下:

另外在「连续性」方面,线性算子 $T$ 连续当且仅当 $T$ 有界;若 $T$ 在一点连续,则在整个定义域上连续,证明如下:

5.4 Dirac 泛函

5.4.1 定义

泛函是从向量空间到数域的映射,即值域落在 $\mathbb{R}$ 上的算子,因此线性泛函可以继承线性算子的性质,例如「单点连续 $\Leftrightarrow$ 连续 $\Leftrightarrow$ 有界」.

接下来定义集合 $\mathbb{R}^X$:

  • 设 $X$ 为任意集合,$\mathbb{R}^X$ 为所有函数 $f:X\mapsto \mathbb{R}$ 构成的集合,对 $\forall x\in X$ 和 $\forall f,g\in \mathbb{R}^X$,定义逐点加法和数乘:$(f+g)(x)=f(x)+g(x),(\alpha f)(x)=\alpha f(x)$.

  • 根据定义,可以发现 $\mathbb{R}^X$ 是一个向量空间.

随后我们可以定义「Dirac 泛函」:

  • 对 $\forall x\in X$,Dirac 泛函 $\delta_x:\mathbb{R}^X\mapsto \mathbb{R}$ 定义为 $\delta_{x}(f)=f(x)$,这是一个线性泛函,满足:$\delta_{x}(a f+b g)=(a f+b g)(x)=a f(x)+b g(x)=a \delta_{x}(f)+b \delta_{x}(g)$.

  • 因此 Dirac 泛函「单点连续 $\Leftrightarrow$ 连续 $\Leftrightarrow$ 有界」.

5.4.2 逐点收敛 (Pointwise Convergence)

如果 $\mathbb{R}^X$ 是一个赋范空间,若对 $\forall x\in X$,Dirac 泛函 $\delta_x$ 有界,则依范数收敛可以保证「逐点收敛」. 此处给出逐点收敛的定义:

  • 序列 $(f_n)$ 逐点收敛至函数 $f$,即 $\forall \epsilon>0,\forall x\in X,\exists N$ 使得 $\forall n\geq N,|f_{n}(x)-f(x)|<\epsilon$ 成立.

有了定义后再重新审视「依范数收敛保证逐点收敛」,即:

  • 设 Cauchy 序列 $(f_n)\rightarrow f$,则对 $\forall x\in X$ 有 $\left|f_{n}(x)-f(x)\right|=\left|\delta_{x}\left(f_{n}\right)-\delta_{x}(f)\right| \leq\left\|\delta_{x}\right\|\left\|f_{n}-f\right\| \rightarrow 0$.

5.4.3 一致 / 均匀收敛 (Uniform Convergence)

既然提到了「逐点收敛」,就顺便将其与「一致收敛」进行一个对比,其定义如下:

  • 序列 $(f_n)$ 一致收敛至函数 $f$,即对 $\forall \epsilon>0,\exists N$ 使得 $\forall n\geq N,\forall x\in X,|f_n(x)-f(x)|<\epsilon$ 成立.

与「逐点收敛」进行比较,不难发现「一致收敛」对于函数趋近的方式限制更大,即「一致收敛」的函数序列必然「逐点收敛」.

事实上,如果一组函数列 $(f_n)$ 在定义域中每点的取值都趋于一个极限值,这时可以用每点的极限来定义 $(f_n)$ 的极限函数 $f$,被趋近的这个极限函数 $f$ 即为 $(f_n)$ 的逐点极限.「逐点收敛」比较容易了解,但未必能很好地保持函数的一些重要性质,比如说连续性等.

与之对比,函数列 $(f_n)$ 一致收敛至函数 $f$,代表 $\forall x\in X$,$(f_n(x))$ 收敛至 $f(x)$ 的收敛速度大致相同,因此才会用「均匀」或「一致」来形容这种模式的收敛。另外,由于它的要求比「逐点收敛」更强,因此能保持一些重要的分析性质,例如连续性、黎曼可积性等。

5.5 线性组合引理

设 $e_{1}, \ldots, e_{n}$ 是任意维赋范空间 $X$ 中的一组线性无关向量,对任意给定的 $a_{1}, \ldots, a_{n}$,必 $\exists c>0$ 使得下式成立:

$$ \left\|a_{1} e_{1}+\ldots+a_{n} e_{n}\right\| \geq c\left(\left|a_{1}\right|+\ldots+\left|a_{n}\right|\right) $$

5.6 巴拿赫空间 (Banach Space)

巴拿赫空间是一个完备赋范向量空间,即具有范数并对此范数完备的向量空间.

其完备性体现在「空间内任意向量的柯西序列总是收敛到一个良定义的位于空间内部的极限」.

6. 内积空间 (Inner Product Space)

6.1 公理化定义

一个内积空间由域 $\mathbb{F}$ 上的向量空间 $V$ 与一个内积构成的,其中内积 $\langle\cdot, \cdot\rangle: V \times V \mapsto \mathbb{R}$ 满足:

  • $\langle x+y, z\rangle=\langle x, z\rangle+\langle y, z\rangle$

  • $\langle\alpha x, y\rangle=\alpha\langle x, y\rangle$

  • $\langle x, y\rangle=\langle y, x\rangle$

  • $\langle x, x\rangle \geq 0,\langle x, x\rangle=0 \Longleftrightarrow x=0$

6.2 内积导出的范数和度量

内积 $\langle\cdot, \cdot\rangle$ 导出的范数和度量如下所示:

$$ \begin{aligned} \|x\|&=\sqrt{\langle x, x\rangle}\\ d(x, y)&=\|x-y\| \end{aligned} $$

其中内积和相应的范数满足 Schwarz 不等式:$|\langle x, y\rangle| \leq\| x\|\| y\|$,具体证明如下:

另外,并非任何范数都可以由内积导出,内积导出的范数额外满足「平行四边形等式」:

$$ \|x+y\|^{2}+\|x-y\|^{2}=2\left(\|x\|^{2}+\|y\|^{2}\right) $$

6.3 希尔伯特空间 (Hilbert Space)

6.3.1 定义

Hilbert Space 即完备的内积空间,即任意定义在该空间中的柯西序列都收敛在该空间之内.

6.3.2 Riesz 表示定理

$H$ 是一个希尔伯特空间,$H^*$ 是其对偶空间,其中元素为 $H$ 上所有有界线性泛函 $f:H \mapsto \mathbb{F}$,且 $\forall f\in H^*$,$f$ 都可以表示为 $f(\cdot)=\langle\cdot, z\rangle,z\in H$,其中 $f$ 和 $z$ 一一对应,且 $\|z\|=\|f\|$.

为了形象化理解这个定理,我们可以将 $f$ 类比为空间 $H$ 上的一个评价指标,其可以对 $H$ 中任意一个元素进行评价,并得到具体得分 $f(x)$. 那么 Riesz 表示定理的含义便是,任意一个 $f$ 都唯一对应 $H$ 中的一个锚点 $z$,$f(x)$ 的具体计算过程就是 $z$ 与 $x$ 做内积的过程.

7. 再生核希尔伯特空间 (Reproducing Kernel Hilbert Space - RKHS)

RKHS 一共有三重视角的定义,分别是「Dirac 泛函有界」、「再生核」、「核函数」,接下来将一一进行讲解.

7.1 第一重视角 - Dirac 泛函有界

$X$ 为任意非空集合,$\mathbb{R}^X$ 为所有函数 $f:X \mapsto \mathbb{R}$ 构成的向量空间,若 $H \subseteq \mathbb{R}^{X}$ 是 Hilbert 空间,且对 $\forall x\in X$,「Dirac 泛函」$\delta_x:\mathbb{R}^X\mapsto \mathbb{R}$ 在 $H$ 上有界,则称 $H$ 是「RKHS」.

$\delta_x$ 在 $H$ 上有界的定义如下:

$$ \exists\lambda_x\geq 0,\forall f\in H,|f(x)|=\left|\delta_{x} f\right| \leq \lambda_{x}\|f\|_{\mathcal{H}} $$

7.2 第二重视角 - 再生核

7.2.1 定义

$X$ 为任意非空集合,$\mathbb{R}^X$ 为所有函数 $f:X \mapsto \mathbb{R}$ 构成的向量空间,若 $H \subseteq \mathbb{R}^{X}$ 是 Hilbert 空间,且含有「再生核」,则称 $H$ 是「RKHS」.

7.2.2 再生核

$X$ 为任意非空集合,$H$ 为 $f:X \mapsto \mathbb{R}$ 构成的 Hilbert 空间,若 $k: X \times X \mapsto \mathbb{R}$ 为「再生核」,则满足:

  • $\forall x \in X, k(\cdot, x) \in H$

  • $\forall x \in X, \forall f \in H,\langle f, k(\cdot, x)\rangle=f(x)$,特别地有 $\langle k(\cdot, x), k(\cdot, y)\rangle=k(x, y)$

注意,$H$ 上的再生核「若存在则必唯一」:

  • 假设 $H$ 上有两个再生核 $k_1$ 和 $k_2$,则 $\left\langle f, k_{1}(\cdot, x)-k_{2}(\cdot, x)\right\rangle=f(x)-f(x)=0$.

  • 令 $f=k_{1}(\cdot, x)-k_{2}(\cdot, x)$,则 $k_1=k_2$.

7.2.3 两重视角的等价性

$H$ 有再生核「当且仅当」 Dirac 泛函 $\delta_x:\mathbb{R}^X\mapsto \mathbb{R}$ 在 $H$ 上有界.

若 $\langle f, k(\cdot, x)\rangle=f(x)$,则

$$ \left|\delta_{x}(f)\right|=|f(x)|=|\langle f, k(\cdot, x)\rangle| \leq\|k(\cdot, x)\|\|f\|=\sqrt{k(x, x)}\|f\|. $$

若 $\delta_x$ 有界,则为有界线性泛函,根据 Riesz 表示定理,$\exists f_{\delta_x}\in H$ 使得 $\delta_{x}(\cdot)=\left\langle\cdot, f_{\delta_{x}}\right\rangle$,定义 $\bar{k}(y, x)=f_{\delta_{x}}(y)$,则

$$ \bar{k}(\cdot, x)=f_{\delta_{x}}(\cdot) \in H,\langle f, \bar{k}(\cdot, x)\rangle=\left\langle f, f_{\delta_{x}}\right\rangle=\delta_{x}(f)=f(x) $$

对比 Hilbert 空间,RKHS 的关键就在于多了再生核,而再生核提供了一组张成 $H$ 的基 ${k(\cdot,x)\mid x\in X}$.

7.3 第三重视角 - 核函数

7.3.1 正定函数

若对称函数 $h: X \times X \mapsto \mathbb{R}$ 对 $\forall (a_1,…,a_n)\in \mathbb{R}^n,\forall (x_1,…,x_n)\in X^n$ 有 $\sum_{i=1}^{n} \sum_{j=1}^{n} a_{i} a_{j} h\left(x_{i}, x_{j}\right) \geq 0$,则称 $h$ 为正定函数.

7.3.2 核的定义 (kernel)

对于非空集合 $X$,若存在一个希尔伯特空间 $H$ 和一个映射 $\phi: X \rightarrow \mathcal{H}$ 使得:

$$ \forall x, x^{\prime} \in X,k\left(x, x^{\prime}\right):=\left\langle\phi(x), \phi\left(x^{\prime}\right)\right\rangle_{\mathcal{H}} $$

成立,则函数 $k: X \times X \rightarrow \mathbb{R}$ 为「核 / 核函数」,$\phi$ 为特征映射,$H$ 为特征空间.

7.3.3 核的正定性

根据定义易知,所有核函数都是正定函数,证明如下:

$$ \begin{aligned} \sum_{i=1}^{n} \sum_{j=1}^{n} a_{i} a_{j} k\left(x_{i}, x_{j}\right)=& \sum_{i=1}^{n} \sum_{j=1}^{n}\left\langle a_{i} \phi\left(x_{i}\right), a_{j} \phi\left(x_{j}\right)\right\rangle_{\mathcal{H}} \\ =&\left\langle\sum_{i=1}^{n} a_{i} \phi\left(x_{i}\right), \sum_{j=1}^{n} a_{j} \phi\left(x_{j}\right)\right\rangle_{\mathcal{H}} \\ =&\left\|\sum_{i=1}^{n} a_{i} \phi\left(x_{i}\right)\right\|_{\mathcal{H}}^{2} \geq 0. \end{aligned} $$
7.3.4 核的构造

「求和」仍为核:

  • $\alpha >0$,$k$ 为集合 $X$ 上的核,则 $\alpha k$ 仍为集合 $X$ 上的核.

  • $k_1$ 和 $k_2$ 为集合 $X$ 上的核,则 $k_1+k_2$ 仍为集合 $X$ 上的核.

「空间映射」仍为核:

  • 对于集合 $X,\widetilde{X}$,定义映射 $A: X \rightarrow \widetilde{X}$,若 $k$ 为集合 $\widetilde{X}$ 上的核,则 $k(A(x),A(x’))$ 为集合 $X$ 上的核.

「乘积」仍为核:

  • 若 $k_1,k_2$ 分别是 $X_1,X_2$ 上的核,则 $k_1\times k_2$ 是 $X_1\times X_2$ 上的核.

  • 若 $X_1=X_2=X$,则 $k:=k_{1} \times k_{2}$ 是 $X$ 上的核.

7.3.5 Moore-Aronszajn 定理

定理:每个核函数都对应着唯一的一个 RKHS 以其为再生核.

注意:RKHS 中 kenrel 唯一,但特征映射不一定唯一,且 RKHS 中的元素可以表示为特征映射的线性组合:

$$ f(\cdot):=\sum_{i=1}^{m} \alpha_{i} k\left(x_{i}, \cdot\right) $$
7.3.6 定义

对于任意非空集合 $X$ 和函数 $k: X \times X \mapsto \mathbb{R}$,如果存在 Hilbert 空间 $H$ 和映射 $\phi: X \mapsto H$ 使得对 $\forall x,y\in X$ 有 $k(x, y)=\langle\phi(x), \phi(y)\rangle$ 成立,则存在以 $k$ 为再生核的唯一的 RKHS.

7.3.7 Mercer 定理

此处不放具体的数学定义,简单理解就是核函数存在一组正交基 ${\psi_i}$ 和对应的一组非负特征值 ${\lambda_i}$,满足:

$$ k(x,y)=\sum_{i=1}^{\infty}\lambda_i\psi_i(x)\psi_i(y). $$

此处需注意,正交基 ${\psi_i}$ 均为 RKHS 中的元素,且 $\forall i\not=j, \langle\psi_i, \psi_j\rangle=0$.

8. 各空间关系

后者继承了前者的性质,并增加了空间中关于「结构」的定义.

参考资料