线性代数

This work is licensed under CC BY-SA 4.0

作者：gtj, 转载请注明出处

本文内容 可能会 被整合入 LALU 中, 但是暂未完成整合, 此处先行发出供大家阅读.

前言

线性代数是大部分初学者感到头疼的一门课, 在阅读了学校教材后我发现它没有叙述很多现象背后更为本质的东西, 丢掉了很多重要的几何直觉从而变为纯粹的演算和证明. 3b1b的系列视频 (https://www.bilibili.com/video/BV1ys411472E) 提供了非常好的几何直觉, 我从这系列视频入门, 度过了相对平缓的学习过程. 受此启发, 我决定写一篇线性代数的笔记, 记录下我对线性代数的认识, 希望能为大家带来更好的学习体验. 这些笔记面向的对象既包括初学的学生, 也包括学完后了解概念而希望重新学习的人, 其中后者阅读可能更为方便, 因为文中的概念可以和课堂互相印证.

在开始写时, 我尝试着为线性代数的初学者们提供一种较为优雅而又不过于抽象的引入方式. 但是后来我发现为了触及本质的内容还是有必要在开始引入线性映射和抽象线性空间这些略微抽象的概念来搭建起线性代数的框架, 从而达到内容的大一统. 文中的内容主要是基于以下逻辑:

考虑某两个线性空间
考查它们之间的映射具有什么性质, 在此基础上可以定义什么不变量

好处是逻辑连贯, 研究的方法固定, 然而这一过程并非起源于具体的问题, 而是从线性映射的大背景导出, 还望作者先入为主地接受“研究线性映射很重要”的这一说法, 再跟随这些笔记梳理各种映射的性质. 每章后面包括若干习题, 笔者暂时没有做答案, 但是这些问题都是笔者认为较为重要的, 常常能够辅助理解.

虽然经过了几次检查, 但由于笔者本人水平限制, 仍然难免有疏漏或错误, 如果您对内容有任何建议, 欢迎发送邮件到 2847562832@qq.com

第0章集合、函数和记号

$0$ 混淆.

集合

$x$ $A$ $x\in A$ $x\notin A$ $x\in A$ $x\in B$ $A\sube B$ $A\sube B$ $B\sube A$ $A,B$ $A=B$ .

$\mathbb{R}$ $\mathbb{C}$ $\mathbb{C}$ $a+b\mathrm{i}$ $A$ $A^n$ $A$ $n$ $A\times B$ $A,B$ $A$ $B$ .

$A=\set{1,2}$ $B=\set{1,2,3}$ $A\times B=\set{(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3) }$ $A^3=\set{(1, 1, 1), (1, 1, 2), (1, 2, 1), (1, 2, 2), (2, 1, 1), (2, 1, 2), (2, 2, 1), (2, 2, 2)}$ .

在具体用词上, 有时我们用“空间”来代替“集合”, 同时用“点”代替“元素”.

函数

$A$ $B$ $f$ $f:A\to B$ $x\in A$ $y\in B$ $y=f(x)$ $x_1\ne x_2$ $f(x_1)\ne f(x_2)$ $f$ $f$ $f(x_1)=f(x_2)$ $x_1=x_2$ $y\in B$ $y=f(x)$ $x\in A$ $f$ $f$ 满）, 既单又满的映射被称为双射.

$A$ $B$ $A$ $X$ $Y=\set{f(x)|x\in X}$ $X$ $f$ $B$ $Y$ $X=\set{x\in A|f(x)\in Y}$ $Y$ $f$ $f$ $f^{-1}$ $B$ $A$ $f(A)$ $f$ 的值域.

有时我们使用“映射”来代替“函数”.

数学对象

$+,\times,\le$ $+,\times$ $\le$ $(\mathbb{R},+,\times,\le)$ $\mathbb{R}$ $\mathbb{R}$ 带有额外结构的认识.

$f(x_1+x_2)=f(x_1)+f(x_2)$ $f:A\to B$ $x_1+x_2$ $f(x_1)+f(x_2)$ $A$ $B$ 中的加法（并不一定完全相同）.

$A,B$ $f$ $A$ $B$ 的一个同构（“一定”的具体含义取决于语境）.

练习

$0.1$ $A=\set{1,2},B=\set{1,2,3}$ $A\times B$ $B\times A$ , 并说明这个乘积不具有交换性.

$0.2$ $A+B=\set{x+y|(x,y)\in A\times B}$ $A=\set{-1,1,2}$ $A+A$ .

$0.3$ $f:\mathbb{R}^2\to \mathbb{C}$ $f(x,y)=x+y\mathrm{i}$ $f$ 为双射.

$0.4$ $f:\mathbb{R_+}\to \mathbb{R}$ $f(x)=x+a\ln x$ $a$ $f$ 何时为 (1) 单射 (2) 满射 (3) 双射.

$0.5$ $\mathbb{C}$ $\mathbb{R}$ 的异同.

$0.6$ $\mathbb{Q}$ $f:\mathbb{Q}\to\mathbb{Q}$ 吗？证明你的结论.

第1章线性空间和线性映射

线性空间

$K$ $K$ $K$ $(V,+,\cdot)$ $K$ $V$ $+: V \times V \to V$ $\cdot: K \times V \to V$ 称作标量乘法.

八条性质分别为：

$\alpha,\beta \in V$ $\alpha + \beta = \beta + \alpha$ $\alpha,\beta,\gamma \in V$ $(\alpha + \beta) + \gamma = \alpha + (\beta + \gamma)$ $0 \in V$ $\alpha \in V$ $0 + \alpha = \alpha$ $\alpha \in V$ $\beta \in V$ $\alpha + \beta = 0$ $-\alpha$ $\alpha \in V$ $1 \cdot \alpha = \alpha$ $k,l \in K$ $\alpha \in V$ $(kl) \cdot \alpha = k \cdot (l \cdot \alpha)$ $k \in K$ $\alpha,\beta \in V$ $k \cdot (\alpha + \beta) = k \cdot \alpha + k \cdot \beta$ $k, l \in K$ $\alpha \in V$ $(k + l) \cdot \alpha = k \cdot \alpha + l \cdot \alpha$ (标量乘法的右分配律)

$K$ $\mathbb{R}$ $\mathbb{C}$ , 我们就得到了实/复线性空间的定义.

练习： 如果你想要抱怨, 请拿起一本线性代数的课本, 用手把它举起来10分钟, 保持手臂垂直于身体. 并且验证举着这本书比读下去更加痛苦的结论.

$\set{0}$ $0$ $\set{0}$ $0$ $K$ 本身, 因为域本身具备满足结合律、交换律以及由分配律连接的加法和乘法运算（换言之, 矢量和标量的概念并非互斥）.

$V_1 \subseteq V$ $V_1$ $V$ $K$ $V_1$ $V$ $K$ $V_1$ $V$ $V_1$ $V$ $V$ $V_1$ $V_1$ $V_2$ $V$ $V_1 \cap V_2$ $V_1 \cup V_2$ $V_1 + V_2$ $\set{\alpha + \beta \mid \alpha \in V_1, \beta \in V_2}$ $V_1$ $V_2$ $V_1$ $V_2$ 并对向量加法和标量乘法封闭的最小空间(也留作练习).

$V_1,V_2$ $K$ $V_1\oplus V_2$ $\set{(\alpha,\beta)\mid\alpha\in V_1,\beta\in V_2}$ $V_1$ $V_2$ $(\alpha_1,\beta_1)+(\alpha_2,\beta_2)=(\alpha_1+\alpha_2,\beta_1+\beta_2)$ $k(\alpha,\beta)=(k\alpha,k\beta)$ $K$ $K^n$ $n$ $n$ 次方的定义）. 它们带有上文所述的矢量加法和标量乘法, 是我们下一章研究的主要对象.

线性映射

$V_1,V_2$ $K$ $K$ $\varphi: V_1\to V_2$ 是满足以下条件的映射：

$\alpha,\beta\in V$ $\varphi(\alpha+\beta)=\varphi(\alpha)+\varphi(\beta)$ $k\in K,\alpha\in V$ $\varphi(k\alpha)=k\varphi(\alpha)$

因此, 我们可以说线性映射保持向量加法和标量乘法.

$\operatorname{Im}\varphi$ $\varphi(V_1)$ $\varphi$ $\operatorname{Ker}\varphi$ $\varphi^{-1}(0)$ $\operatorname{Im}\varphi$ $V_2$ $\operatorname{Ker}\varphi$ $V_1$ 的线性子空间.

$V_1=V_2=V$ $\varphi$ $V$ 上的线性变换.

$\varphi$ $\varphi$ $V_1$ $V_2$ 之间的线性同构.

例子

$\mathbb{R}$ $\mathbb{R}$ 是我们最熟悉的数域, 有利于初学者理解.

$\mathbb{R}$ $\mathbb{C}$ 上原有的加法：

$0'$ $0'+0=0$ $x\ne 0$ $x+0'=x$ $k\in\mathbb{R}$ $k\cdot 0'=0'$ $(\mathbb{R}\cup\set{0'},+,\cdot)$ 不是线性空间, 因为没有满足公理(4)
$k\in\mathbb{R},x\in V=\mathbb{R}$ $k\cdot x$ $0$ $(V,+,\cdot)$ $\mathbb{R}$ -线性空间, 因为没有满足公理(5).
$k\in\mathbb{C},z\in V=\mathbb{C}$ $\operatorname{Re}k$ $k$ $a+b\mathrm{i}$ $a$ $k\cdot z=(\operatorname{Re}k)z$ $(V,+,\cdot)$ $\mathbb{C}$ -线性空间, 因为没有满足公理(6).
$k\in\mathbb{C},z\in V=\mathbb{C}$ $z$ $0$ $k\cdot z=kz$ $z$ $0$ $k\cdot z=\overline{k}z$ $(V,+,\cdot)$ $\mathbb{C}$ -线性空间, 因为没有满足公理(7).
$k\in\mathbb{R},x\in V=\mathbb{R}$ $k\cdot x=x$ $(V,+,\cdot)$ $\mathbb{R}$ -线性空间, 因为没有满足公理(8).

一些空间中的图形, 有的是线性空间, 有的不是, 读者可以自己脑补一下图：

$\mathbb{R}^n$ $\mathbb{R}^2$ $\mathbb{R}^3$ $\mathbb{R}$ -线性空间. (注意, 到此为止其实还没有给出“维度”的正式定义.)
$x_2=x_1$ $\mathbb{R}^2$ $\varphi:\mathbb{R}\to\mathbb{R}^2$ $\varphi(t) = (t,t)$ .
$\set{(x_1,x_2,x_3) \mid x_1+x_2+x_3=0, x_1,x_2,x_3 \in \mathbb{R}}$ $\mathbb{R}^3$ $\varphi:\mathbb{R}^3\to \mathbb{R}$ $\varphi(x_1,x_2,x_3) = x_1+x_2+x_3$ .
$V_1=\set{(x_1,x_2,0) \mid x_1,x_2 \in \mathbb{R}}$ $V_2=\set{(x_1,0,x_3) \mid x_1,x_3 \in \mathbb{R}}$ $\mathbb{R}^3$ $V_1\cap V_2=\set{(x_1,0,0) \mid x_1 \in \mathbb{R}}$ $\mathbb{R}^3$ $V_1\cup V_2=\set{(x_1,x_2,x_3) \mid x_1 \in \mathbb{R}, x_2x_3=0}$ $\mathbb{R}^3$ $(0,1,0)+(0,0,1)=(0,1,1) \notin V_1\cup V_2$ $\mathbb{R}^3$ $(x_1,x_2,x_3)=(x_1,x_2,0)+(0,0,x_3)$ $(x_1,x_2,0) \in V_1$ $(0,0,x_3) \in V_2$ $V_1$ $V_2$ $\mathbb{R}^3$ $V_1$ $V_2$ 中向量的方法吗？).
$\set{(x_1,x_2) \mid x_2=x_1+1, x_1,x_2 \in \mathbb{R}}$ $\mathbb{R}$ -线性空间, 尽管它在几何上表示一条直线.
$\set{(n_1,n_2) \mid n_1,n_2 \in \mathbb{Z}}$ $\mathbb{R}$ -线性空间, 尽管它呈现出周期性的模式, 具有对称性, 并沿着直线排列.

此外是一些略微抽象的例子, 不像前面那样可以用直观感觉想象：

$\mathbb{R}$ $\mathbb{Q}$ -线性空间.
$2$ $\mathbb{R}$ -线性空间.
$[0,1]$ $\mathbb{R}$ $\mathbb{R}$ $C[0,1]$
$f(x)=a\sin(x+\phi)$ $a,\phi\in\mathbb{R}$ $\mathbb{R}$ -线性空间.
$\mathbb{R}$ $V$ $\mathbb{R}$ $\varphi$ $\mathbb{R}$ $(\varphi_1+\varphi_2)(\alpha)=\varphi_1(\alpha)+\varphi_2(\alpha)$ $(k\cdot\varphi)(\alpha)=k\varphi(\alpha)$ .

最后考虑一些线性映射的例子. 在读之前, 请先自行验证线性映射一定将零向量映射到零向量.

$V$ $K$ $\varphi_k(\alpha)=k\cdot\alpha$ $\varphi_1(\alpha)=1\cdot\alpha=\alpha$ $\varphi_1$ $\operatorname{Id}$ $V$ 上的恒同变换
$V$ $K$ $V$ $\varphi_\alpha(k)=k\cdot \alpha$ $V=\mathbb{R}^2$ $\alpha=(1,1)\in V$ $\varphi_\alpha(x)=(x,x)$ .
$K$ $V_1$ $V_2$ $0(\alpha)\equiv 0$ .
$\theta$ $(x_1,x_2)$ 旋转到了哪里.
$\mathbb{R}$ $f(x)=x+1$ , 它将实数轴向正方向移动了一个单位长度, 为什么它不是线性变换？
$f:[0,1]\to \mathbb{R}$ $\varphi(f)=f(0)+f(1)$ $\varphi$ $C[0,1]$ $\mathbb{R}$ . 类似这样的映射通常被我们称作线性泛函, 是泛函分析研究的重要对象（虽然并不是我们现在讨论的线性代数的重点）.

练习

$1.1$ $V$ $V_1$ $V_2$ $V_1+V_2$ $V_1$ $V_2$ $V_1$ $V_2$ $V_3$ $V_1+V_2\sube V_3$ ).

$1.2$ $\alpha,\beta$ $k\alpha+l\beta=0$ $k=l=0$ $\alpha,\beta$ $\mathbb{R}^2$ $\mathbb{R}^2$ $\tilde{+}$ $\alpha,\beta$ $\alpha\tilde{+}\beta=\alpha+\beta$ $\alpha,\beta$ $\alpha\tilde{+}\beta=0$ $\cdot$ $\mathbb{R}^2$ $(\mathbb{R}^2,\tilde{+},\cdot)$ $\mathbb{R}$ 上的线性空间？

$1.3$ 对于那些满足线性空间条件的示例, 请验证公理成立. 对于不满足条件的示例, 请通过给出一个或多个反例来证明它为什么不满足公理. 此外指出并证明它满足了哪些性质.

$1.4$ $\mathbb{R}^2$ $(x_1, x_2)$ $(x_2, 0)$ $\varphi$ , 找出它的核和像.

$1.5$ $\mathbb{R}$ $\mathbb{R}^n$ 的线性映射吗？

$1.6$ $\mathbb{R}^n$ $\mathbb{R}$ 的线性映射吗？

$1.7$ $\varphi: \mathbb{R}^2 \to \mathbb{R}$ ${0}$ , 并从另一个角度解释这个结果.

$1.8$ $\varphi: \mathbb{R} \to \mathbb{R}^2$ $\mathbb{R}^2$ , 并从另一个角度解释这个结果.

$1.9$ $V$ $V_1$ $V_2$ $\alpha_1 \in V_1$ $\alpha_2 \in V_2$ $\alpha_1 \notin V_2$ $\alpha_2 \notin V_1$ $\alpha_1 + \alpha_2$ $V_1 \cup V_2$ .

$1.10$ $V_1=\set{(x_1,x_2,0)\mid x_1,x_2\in\mathbb{R}}$ $V_2=\set{(x_1,0,x_3)\mid x_1,x_3\in\mathbb{R}}$ $V_1+V_2$ $V_1\oplus V_2$ $\mathbb{R}^3$ $V_1\oplus V_2$ $V_1+V_2$ $V$ $V_1,V_2$ 中的向量的不同方法与这个核有什么关系.

$\mathbb{R}^n$ $\mathbb{R}^m$ —— 矩阵怎么来的

矩阵 —— 行的视角

$\mathbb{R}$ $K$ $\mathbb{R}^n$ $\mathbb{R}$ $K$ $\mathbb{R}$ $k\cdot x$ 里面的点, 将被省略.

$m=n=1$ $\varphi:\mathbb{R}\to\mathbb{R}$ $x\in\mathbb{R}$ $\varphi(x)$ $\varphi(x\cdot 1)=x\varphi(1)=kx$ $k=\varphi(1)$ $[k]$ $\varphi(x)=kx$ $[k]$ $\varphi$ $\varphi$ $[k]$ 直接表明了它是干嘛的.

$\mathbb{R}^n$ $\varphi:\mathbb{R}^n\to\mathbb{R}$ $\varphi(x_1,x_2,\cdots,x_n)=k_1 x_1+k_2 x_2+\cdots +k_n x_n$ $\left[\begin{array}ck_1 & k_2 & \cdots & k_n\end{array}\right]$ $n=1$ 时, 这个符号与上一段的相兼容. 再次强调, 到目前为止, 这个符号只是映射的一个别名, 我们并没有赋予它任何额外的含义. 在某种程度上, 如果你学过哪门包含 lambda 表达式的编程语言, 你会发现它差不多就是个 lambda 表达式

$\left[\begin{array}c2 & 3\end{array}\right]$ 可以用 Python 表示为：


xxxxxxxxxx
lambda x, y: 2*x + 3*y

如果你在 Python 中运行以下代码：


xxxxxxxxxx
print(
    (lambda x, y: 2*x + 3*y)(2, 1)
)

# 正式代码别这么写
# 只是为了解释上文含义才会写出这个

结果将与下面的代码相同：


xxxxxxxxxx
def f(x, y):
    return 2*x + 3*y
print(f(2, 1))

$\left[\begin{array}c2&3\end{array}\right](2,1)=2\cdot 2 + 3\cdot 1=7$ . 有些人一看, 哦, 这不向量内积吗, 虽然确实有关系, 但是我不打算在这章讲.

$\varphi:\mathbb{R}^n\to \mathbb{R}^m$ $y=\varphi(x)=(\varphi_1(x),\varphi_2(x),\cdots,\varphi_m(x))$ $\varphi_i~(1\le i\le m)$ $\varphi_i$ $\varphi_i(x_1,x_2,\cdots,x_n) = k_{i1}x_1 + k_{i2}x_2 + \cdots + k_{in}x_n$ $\varphi_i$ 按行排列, 我们得到了一个数表用于表示一般的线性映射：

\begin{matrix} [\begin{matrix} k_{11} & k_{12} & \dots & k_{1 n} \\ k_{21} & k_{22} & \dots & k_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ k_{m 1} & k_{m 2} & \dots & k_{m n} \end{matrix}] \end{matrix}

$k_{ij}$ $\mathbb{R}^n$ $j$ $\mathbb{R}^m$ $i$ 个分量. 例如, 如果我们想计算：

\begin{matrix} [\begin{matrix} 2 & 1 \\ 1 & 2 \\ 0 & 3 \end{matrix}] (1, 2) \end{matrix}

$\mathbb{R}^2$ $\mathbb{R}^3$ $\varphi$ $(1,1)$ $\mathbb{R}^2$ $2\cdot 1+1\cdot 2=4$ $1\cdot 1 + 2\cdot 2=5$ $0\cdot 1 + 3\cdot 2 = 6$ $(4, 5, 6)$ .

$\mathbb{R}^2$ 中的向量从矩阵的上方输近期, 将相应的项相乘, 并将它们求和并从矩阵左侧输出.

\begin{array}{cccc} 1 & 2 \\ ↓ & ↓ \\ 4 & \leftarrow & 2 \cdot 1 & 1 \cdot 2 \\ 5 & \leftarrow & 1 \cdot 1 & 2 \cdot 2 \\ 6 & \leftarrow & 0 \cdot 1 & 3 \cdot 2 \end{array}

矩阵 —— 列的视角

$\mathbb{R}^m$ $m$ $x\in \mathbb{R}^n$ $\mathbb{R}^n$ 分割为其各个分量, 这次就是列的视角了.

$\varphi:\mathbb{R}^n\to\mathbb{R}^m$ $y=\varphi(x)$ $k_{ij}$ $\varphi$ $i$ $j$ 列的分量, 根据上一节的定义：

\begin{aligned} y_{1} & = k_{11} x_{1} + k_{12} x_{2} + \dots + k_{1 n} x_{n} \\ y_{2} & = k_{21} x_{1} + k_{22} x_{2} + \dots + k_{2 n} x_{n} \\ \dots \\ y_{m} & = k_{m 1} x_{1} + k_{m 2} x_{2} + \dots + k_{m n} x_{n} \end{aligned}

$x$ 的分量整理, 我们可以把它重写成：

\begin{aligned} (y_{1}, y_{2}, \dots, y_{m}) = & x_{1} (k_{11}, k_{21}, \dots, k_{m 1}) \\ + & x_{2} (k_{12}, k_{22}, \dots, k_{m 2}) \\ + & \dots \\ + & x_{n} (k_{1 n}, k_{2 n}, \dots, k_{m n}) \end{aligned}

$j$ $x$ $j$ $(1,0,\cdots,0)$ $e_1$ $(0,1,\cdots,0)$ $e_2$ $(0,0,\cdots,1)$ $e_n$ $\mathbb{R}^n$ $x$ $\displaystyle \sum_{j=1}^n x_je_j$ .

$\mathbb{R}^n$ $\mathbb{R}^m$ $\varphi$ $e_j$ $\displaystyle \varphi\left(\sum_{j=1}^n x_je_j\right)=\sum_{j=1}^n x_j\varphi(e_j)$ $\mathbb{R}^m$ $\mathbb{R}^n$ $\mathbb{R}^m$ .

所以我们可以用另外一种方式考虑矩阵作用, 仍然考虑：

\begin{matrix} [\begin{matrix} 2 & 1 \\ 1 & 2 \\ 0 & 3 \end{matrix}] (1, 2) \end{matrix}

这次我们换个方法计算：

\begin{matrix} [\begin{matrix} 2 & 1 \\ 1 & 2 \\ 0 & 3 \end{matrix}] (1, 2) = 1 \cdot (2, 1, 0) + 2 \cdot (1, 2, 3) = (4, 5, 6) \end{matrix}

虽然计算的方法变了, 但是结果没变, 因为两种方法本来就是等价的.

集合在矩阵下的像 —— 一些例子

既然矩阵表示线性映射, 那这个映射的图像长什么样？来看几个例子.

$[k]:\mathbb{R}\to\mathbb{R}$ $y=[k](x)=kx$ 就是个正比例函数

$I_n:\mathbb{R}^n\to\mathbb{R}^n$ $I_n(x)=x$ $\mathbb{R}^n$ $\operatorname{Id}$ $e_j$ $e_j$ $1$ $0$ $n$ 阶单位矩阵, 它一个图形原封不动地映射到自身.

$\left[\begin{array}c k_1 & k_2 \end{array}\right]:\mathbb{R}^2\to\mathbb{R}$ $y=\left[\begin{array}c k_1 & k_2 \end{array}\right](x_1,x_2) = k_1x_1 + k_2x_2$ 在空间中的图像是一个平面.（如果你对平面方程不熟悉, 打开 https://www.geogebra.org/3d, 试着输入z = 3x + 2y来画一个平面）

$\varphi=\left[\begin{array}c k_1 \\ k_2 \end{array}\right]:\mathbb{R}\to\mathbb{R}^2$ $k_1,k_2$ $k_1=1, k_2=2$ $x$ $\varphi(x)$ $k$ $0$ , 这些点会在一条直线上运动, 这条直线就是矩阵的像.

$\varphi=\left[\begin{array}c k_{11} & k_{12} \\ k_{21} & k_{22} \end{array}\right]:\mathbb{R}^2\to\mathbb{R}^2$ $[0,1]\times [0,1]$ $\varphi(x_1,x_2)$ $\varphi(e_1)$ $\varphi(e_2)$ 的线性组合, 如果二者不共线, 结果应该是一个平行四边形.

$\varphi=\left[\begin{array}c 2 & 1 \\ -0.5 & 1.5 \end{array}\right]$ , 可以画出单位正方形在映射下的像如下：

通过观察样例, 你大概可以想象它如何作用于平面.

映射的复合和矩阵乘法

$\psi:V_1 \to V_2$ $\varphi: V_2\to V_3$ $\varphi\circ\psi$ $x\in V_1$ $(\varphi\circ\psi)(x)\in V_3$ $(\varphi\circ\psi)(x)=\varphi(\psi(x))$ , 它们连接的方式像下图这样, 下图一般被称作叫交换图：

$\varphi$ $\psi$ 都线性的时候它们的复合也是线性的, 我们可以这样证明（纯粹的用定义和倒腾记号）：

\begin{matrix} (φ \circ ψ) (k \cdot α) = φ (ψ (k \cdot α)) = φ (k \cdot ψ (α)) = k \cdot φ (ψ (α)) = k \cdot (φ \circ ψ) (x) \\ (φ \circ ψ) (α + β) = φ (ψ (α + β)) = φ (ψ (α) + ψ (β)) = \\ φ (ψ (α)) + φ (ψ (β)) = (φ \circ ψ) (α) + (φ \circ ψ) (β) \end{matrix}

$V_1$ $\mathbb{R}^n$ $V_2$ $\mathbb{R}^p$ $V_3$ $\mathbb{R}^m$ $p\times n$ $V_1\to V_2$ $\psi$ $m\times p$ $V_2\to V_3$ $\varphi$ $\varphi\circ \psi$ $\mathbb{R}^n\to \mathbb{R}^m$ $m\times n$ 的矩阵. 注意到先作用的矩阵写在后面, 这可能和日常书写方向有一定差别. 所以映射的复合实际上给出了矩阵乘法. 由于两个映射复合的要求, 左边这个矩阵的列数和右边这个矩阵的行数必须匹配.

$\varphi$ $m\times p$ $\rho$ $p\times q$ $\psi$ $q\times n$ $(\varphi\circ\rho)\circ\psi=\varphi\circ(\rho\circ\psi)$ $\varphi(\rho(\psi(x)))$ , 从下图明显可以看出上式成立：

到目前为止, 我们还只知道映射复合的性质, 不知道映射复合或称之为矩阵乘法的公式, 所以接下来我们要探索这个问题. 我个人比较喜欢从列的角度看矩阵, 所以下面的内容是从列的角度来的, 如果你习惯行, 你大可以从行的角度导出相同的结果.

$\mathbb{R}^n\xrightarrow{\psi}\mathbb{R}^p\xrightarrow{\varphi}\mathbb{R}^m$ $\varphi\circ\psi$ $e_j$ $\varphi\circ \psi$ $\psi(e_j)$ $\varphi$ $\varphi$ $i$ $t$ $a_{it}$ $\psi$ $t$ $j$ $b_{tj}$ $e_j$ $\psi$ $\psi(e_j)=(b_{1j},b_{2j},\cdots, b_{pj})$ $\psi$ $j$ 列对应的向量. 于是根据矩阵作为线性映射的定义, 我们有：

\begin{aligned} φ (ψ (e_{j})) = & [\begin{array}{c} a_{11} & a_{12} & \dots & a_{1 p} \\ a_{21} & a_{22} & \dots & a_{2 p} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ a_{m 1} & a_{m 2} & \dots & a_{m p} \end{array}] (b_{1 j}, b_{2 j}, \dots, b_{p j}) \\ = & (a_{11} b_{1 j} + a_{12} b_{2 j} + \dots + a_{1 p} b_{p j}, \\ a_{21} b_{1 j} + a_{22} b_{2 j} + \dots + a_{2 p} b_{p j}, \\ \dots, \\ a_{m 1} b_{1 j} + a_{m 2} b_{2 j} + \dots + a_{m p} b_{p j}) \end{aligned}

$i$ $j$ 列应该是

a_{i 1} b_{1 j} + a_{i 2} b_{2 j} + \dots + a_{i p} b_{p j} = \sum_{t = 1}^{p} a_{i t} b_{t j}

$i,j$ 列出来, 得到乘积矩阵长这样

\begin{matrix} φ \circ ψ = [\begin{matrix} \underset{t = 1}{\sum^{p}} a_{1 t} b_{t 1} & \underset{t = 1}{\sum^{p}} a_{1 t} b_{t 2} & \dots & \underset{t = 1}{\sum^{p}} a_{1 t} b_{t n} \\ \underset{t = 1}{\sum^{p}} a_{2 t} b_{t 1} & \underset{t = 1}{\sum^{p}} a_{2 t} b_{t 2} & \dots & \underset{t = 1}{\sum^{p}} a_{2 t} b_{t n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ \underset{t = 1}{\sum^{p}} a_{m t} b_{t 1} & \underset{t = 1}{\sum^{p}} a_{m t} b_{t 2} & \dots & \underset{t = 1}{\sum^{p}} a_{m t} b_{t n} \end{matrix}] \end{matrix}

回忆这个图：

$\mathbb{R}^n$ $j$ $\mathbb{R}^m$ $i$ $i$ $j$ $\mathbb{R}^p$ $20\%$ 的可能转向, 如果他某一步在向前走, 那么他两步后向前走的概率为多少?

$80\%\times 80\%=64\%$ $20\%\times 20\%=4\%$ $64\%+4\%=68\%$ $\varphi,\rho,\psi$ $a_{it_1},b_{t_1t_2},c_{t_2j}$ , 且关系如下：

$i$ $j$ 列的元素应该为

\sum_{t_{1} = 1}^{p} \sum_{t_{2} = 1}^{q} a_{i t_{1}} b_{t_{1} t_{2}} c_{t_{2} j}

这同样可以通过“对所有可能的路径求和”来解释

如果从计算的角度上看, 我们也可以用蛮力证明矩阵乘法的结合律.（但是我认为not elegant）我们假设读者读到这里已经清楚矩阵乘法是如何从映射复合中导出的, 既然结合律成立, 接下来我们将会略去矩阵乘法间的复合符号, 因为结合顺序不改变结果.

又是符号混用 —— 感觉还行

$\mathbb{R}$ $\mathbb{R}^n$ $n\times 1$ 矩阵做对比, 我们发现它们干的事情是相同的:

$n\times 1$ $t\in\mathbb{R}$ $x\in\mathbb{R}^n$ $\mathbb{R}$ $\mathbb{R}^n$ 的线性映射, 而且二者结果完全相同.

\begin{matrix} [\begin{matrix} k_{1} \\ k_{2} \\ ⋮ \\ k_{n} \end{matrix}] (t) = (k_{1} t, k_{2} t, \dots, k_{n} t) \\ t \cdot (k_{1}, k_{2}, \dots, k_{n}) = (t k_{1}, t k_{2}, \dots, t k_{n}) \end{matrix}

$\mathbb{R}$ $\mathbb{R}$ $\mathbb{R}^n$ $n\times 1$ 矩阵作用完全相同.

$m\times n$ 的矩阵对它们有什么影响, 首先, 根据上一节矩阵乘法的公式：

\begin{matrix} [\begin{matrix} k_{11} & k_{12} & \dots & k_{1 n} \\ k_{21} & k_{22} & \dots & k_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ k_{m 1} & k_{m 2} & \dots & k_{m n} \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}] = [\begin{matrix} k_{11} x_{1} + k_{12} x_{2} + \dots + k_{1 n} x_{n} \\ k_{21} x_{1} + k_{22} x_{2} + \dots + k_{2 n} x_{n} \\ ⋮ \\ k_{m 1} x_{1} + k_{m 2} x_{2} + \dots + k_{m n} x_{n} \end{matrix}] \end{matrix}

同时根据矩阵的定义：

\begin{matrix} [\begin{matrix} k_{11} & k_{12} & \dots & k_{1 n} \\ k_{21} & k_{22} & \dots & k_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ k_{m 1} & k_{m 2} & \dots & k_{m n} \end{matrix}] (x_{1}, x_{2}, \dots, x_{n}) \\ \begin{aligned} = & (k_{11} x_{1} + k_{12} x_{2} + \dots + k_{1 n} x_{n}, \\ k_{21} x_{1} + k_{22} x_{2} + \dots + k_{2 n} x_{n}, \\ \dots, \\ k_{m 1} x_{1} + k_{m 2} x_{2} + \dots + k_{m n} x_{n}) \end{aligned} \end{matrix}

$\mathbb{R}^n$ $m\times 1$ $x\in\mathbb{R}^n$ $\varphi:\mathbb{R}\to\mathbb{R}^n$ $tx=\varphi(t)$ $\mathbb{R}^n$ $\mathbb{R}^n$ $\mathbb{R}^n\to\mathbb{R}^m$ 的映射也是矩阵. 有一句话说到：“人是一切社会关系的总和“, 这也差不多, 一定程度上我们不关心一个数学对象原本是什么, 我们更关心一个它如何和其它对象产生关系.

$\mathbb{R}$ $\mathbb{R}^n$ $\mathbb{R}^n$ $\mathbb{R}$ $v$ $\langle v, -\rangle$ $\mathbb{R}^n$ $\mathbb{R}$ $x$ $\langle v,x\rangle$ 但是问题在于这个同构依赖于内积, 而一个向量空间并不总是定义了内积, 所以二者还是有本质区别的）

$\mathbb{R}^{m\times n}$ $m\times n$ $\mathbb{R}^{n\times 1}$ $\mathbb{R}^n$ $\mathbb{R}^{1\times n}$ 之间则没有.

线性方程 —— 高斯消元

一个线性方程(组)是一组如下形式的等式：

\begin{aligned} k_{11} x_{1} + k_{12} x_{2} + \dots + k_{1 n} x_{n} & = y_{1} \\ k_{21} x_{1} + k_{22} x_{2} + \dots + k_{2 n} x_{n} & = y_{2} \\ \dots \\ k_{m 1} x_{1} + k_{m 2} x_{2} + \dots + k_{m n} x_{n} & = y_{m} \end{aligned}

最经典且直接的解法是高斯消元, 一层层地消元直到化简到最简单的方程.

$k_{11}\ne 0$ $y_i~ (i\ge 2)$ $\dfrac{k_{i1}}{k_{11}}y_1$ $k_{i1}$ 所在的项, 在这次操作后, 方程会变成：

\begin{array}{l} k_{11} x_{1} & + k_{12} x_{2} & + \dots & + k_{1 n} x_{n} & = y_{1} \\ + (k_{22} - \frac{k_{21}}{k_{11}} k_{12}) x_{2} & + \dots & + (k_{2 n} - \frac{k_{21}}{k_{11}} k_{1 n}) x_{n} & = y_{2} \\ \dots \\ + (k_{m 2} - \frac{k_{m 1}}{k_{11}} k_{12}) k_{m 2} x_{2} & + \dots & + (k_{m n} - \frac{k_{m 1}}{k_{11}} k_{1 n}) x_{n} & = y_{m} \end{array}

$y_2\sim y_m$ $x_2\sim x_n$ $x_1$ $n$ $n-1$ $x_1$ 解出即可.

$k_{11}=0$ $0$ $0$ 开头的行交换即可继续消元.

$0$ $x_1$ $n-1$ 个未知数.

通过这一套操作下来, 我们可以一步步把问题化简到剩余一个等式, 例如如果我们想解：

\begin{array}{r} x_{1} & + 2 x_{2} & + 3 x_{3} & = & 1 \\ 4 x_{1} & + 5 x_{2} & + 6 x_{3} & = & 2 \\ 7 x_{1} & + 8 x_{2} & + 9 x_{3} & = & 3 \end{array}

$4$ $7$ 倍的第一列：

\begin{array}{r} x_{1} & + 2 x_{2} & + 3 x_{3} & = & 1 \\ - 3 x_{2} & - 6 x_{3} & = & - 2 \\ - 6 x_{2} & - 12 x_{3} & = & - 4 \end{array}

接下来拿第三列减去两倍的第二列：

\begin{array}{r} x_{1} & + 2 x_{2} & + 3 x_{3} & = & 1 \\ - 3 x_{2} & - 6 x_{3} & = & - 2 \\ 0 & = & 0 \end{array}

$x_3$ $x_3=t$ , 则

$-2=-3x_2-6t\Rightarrow x_2=-2t+\frac23$

$1=x_1+2(-2t+\frac23)+3t\Rightarrow x_1=t-\frac13$

所以原方程的解为

\begin{matrix} [\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \end{matrix}] = [\begin{matrix} t - \frac{1}{3} \\ - 2 t + \frac{2}{3} \\ t \end{matrix}] \end{matrix}

$0=1$ 的式子, 这就导出了矛盾, 这时方程无解.

把线性方程用矩阵语言重写一遍吧

显然我们可以用矩阵语言重写线性方程：

\begin{matrix} [\begin{matrix} k_{11} & k_{12} & \dots & k_{1 n} \\ k_{21} & k_{22} & \dots & k_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ k_{m 1} & k_{m 2} & \dots & k_{m n} \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}] = [\begin{matrix} y_{1} \\ y_{2} \\ ⋮ \\ y_{m} \end{matrix}] \end{matrix}

$R_{i_2}-kR_{i_1}$ $R_2$ $k$ $R_1$ $R_{i_1i_2}$ $y$ 会和系数一起变化, 上面我们做过的操作可以写成（其实还可以回代把上面的一些消掉）：

\begin{matrix} [\begin{array}{cccc} 1 & 2 & 3 & 1 \\ 4 & 5 & 6 & 2 \\ 7 & 8 & 9 & 3 \end{array}] \to_{R_{3} - 7 R_{1}}^{R_{2} - 4 R_{1}} [\begin{array}{cccc} 1 & 2 & 3 & 1 \\ - 3 & - 6 & - 2 \\ - 6 & - 12 & - 4 \end{array}] \overset{R_{3} - R_{2}}{\to} [\begin{array}{cccc} 1 & 2 & 3 & 1 \\ - 3 & - 6 & - 2 \\ 0 & 0 \end{array}] \end{matrix}

$0$ $3\times 4$ $\mathbb{R}^4$ $\mathbb{R}^3$ $y$ 必须和左边的系数同时改变, 但是其实有另一个方法可以用线性映射解释这件事.

$R_2-4R_1$ $R_3-7R_1$ $y$ $y'$ , 其中

\begin{matrix} y^{'} = [\begin{matrix} y_{1} \\ y_{2} - 4 y_{1} \\ y_{3} - 7 y_{1} \end{matrix}] = [\begin{matrix} 1 \\ - 4 & 1 \\ - 7 & 1 \end{matrix}] y \end{matrix}

$\rho:y\mapsto y'$ $\rho$ $y'$ $y$ $\varphi(x)=y$ $x$ $\varphi'(x)=y'$ $y$ $\varphi'$ $\varphi$ $\varphi$ $\varphi'$ $y$ $y'$ .

虽然前文已经用几种方式展示了解线性方程的过程, 但我还是想画个图来展现这个过程. 如果有如下的线性方程

\begin{matrix} [\begin{matrix} 2 & 1 \\ - 0.5 & 1.5 \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \end{matrix}] = [\begin{matrix} 1 \\ 1 \end{matrix}] \end{matrix}

$\varphi$ $y$ $R_1-\frac47R_2$ 被称作回代, 它把每行第一个非零元素上方的项消除）：

\begin{matrix} [\begin{array}{ccc} 2 & 1 & 1 \\ - 0.5 & 1.5 & 1 \end{array}] \overset{R_{2} + \frac{1}{4} R_{1}}{\to} [\begin{array}{ccc} 2 & 1 & 1 \\ 1.75 & 1 \end{array}] \overset{R_{1} - \frac{4}{7} R_{2}}{\to} [\begin{array}{ccc} 2 & 2 / 7 \\ 1.75 & 1.25 \end{array}] \to_{R_{2} \times \frac{4}{7}}^{R_{1} \times \frac{1}{2}} [\begin{array}{ccc} 1 & 1 / 7 \\ 1 & 5 / 7 \end{array}] \end{matrix}

$\varphi$ 是这样变化的

$0$ $y$ $0$ $x$ $x$ 分量可以从中一一解出, 所以非主元列对应的变量又称为自由变量.

\begin{matrix} [\begin{array}{cccc} 1 & 2 & 3 & 1 \\ - 3 & - 6 & - 2 \\ 0 & 0 \end{array}] \end{matrix}

$y=\varphi(x)$ $x$ $y\in\operatorname{Im}\varphi$ $y\notin\operatorname{Im}\varphi$ $y$ $y$ $y=\varphi(x_1)=\varphi(x_2)$ $\varphi(x_1)-\varphi(x_2)=\varphi(x_1-x_2)=0$ $x_1-x_2\in\operatorname{Ker}\varphi$ , 所以方程的解集具有结构

\begin{matrix} {x ∣ y = f (x)} = {\begin{cases} \emptyset, & y \notin Im φ \\ x^{*} + Ker φ, & y \in Im φ \end{cases} \end{matrix}

$x^*$ $x^*+\operatorname{Ker}\varphi$ $\set{x^*+v|v\in\operatorname{Ker}\varphi}$ 的简写

$0$ $\operatorname{Ker}\varphi$ $\varphi(x)=0$ $y$ $\varphi$ $\varphi$ $r$ $n-r$ $n=r$ $\operatorname{Ker}\varphi=0$ $x^*$ $n>r$ $1$ $0$ $\operatorname{Ker}\varphi$ $u_1\sim u_{n-r}$ $t_1u_1+\cdots +t_{n-r}u_{n-r}$ $\varphi(x)=0$ $j$ $t_j$ $t_1u_1+\cdots +t_{n-r}u_{n-r}$ $\operatorname{Ker}\varphi$ $t_1u_1 + \cdots + t_{n-r}u_{n-r}$ $\varphi(x)=y$ $x=x^*+t_1u_1 + \cdots + t_{n-r}u_{n-r}$ , 这被称为线性方程的通解.

\begin{matrix} φ = [\begin{matrix} k_{11} & k_{12} & k_{13} & \dots & k_{1 n} \\ k_{21} & k_{22} & k_{23} & \dots & k_{2 n} \\ k_{31} & k_{32} & k_{33} & \dots & k_{3 n} \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ k_{m 1} & k_{m 2} & k_{m 3} & \dots & k_{m n} \end{matrix}] \overset{ρ}{\overset{⏞}{\to \dots \to}} φ^{'} = [\begin{matrix} * & \dots & * & \dots & * & \dots \\ * & \dots & * & \dots \\ ⋱ & ⋮ & ⋱ \\ * & \dots \\ 0 \end{matrix}] \end{matrix}

$*$ $0$ $0$ $*$ $0$ 的数 )

$r\le m$ $m<n$ $n-r>0$ $0$ $\varphi(x)=0$ $\mathbb{R}^n$ $\mathbb{R}^m$ $m\ge n$ . 直观的感觉是从高维空间到低维空间总是要丢失信息（虽然我们并没有定义维数）

$r\le n$ $n<m$ $m-r>0$ $r$ $0$ $y'$ $r$ $\varphi'$ $y=\rho^{-1}(y')$ $y$ $\varphi$ $n<m$ $\operatorname{Im}\varphi$ $\mathbb{R}^m$ $\varphi$ $\mathbb{R}^n$ $\mathbb{R}^m$ $n\ge m$ . 这个结果也可以直观地看成低维空间不能完全表达高维空间.

逆矩阵

$f$ $A,B$ $x\in A$ $y\in B$ $f(x)=y$ $f^{-1}(y)=x$ $f^{-1}\circ f=\operatorname{Id}$ $f^{-1}\circ f=\operatorname{Id}$ $A$ $B$ 上的恒同映射.

$\varphi:\mathbb{R}^n\to\mathbb{R}^m$ $r=n$ $r=m$ $r=m=n$ $\varphi$ $r=n$ $r=m$ 排除了不在像空间中的向量以让它满. 每行都是主元行, 每列都是主元列, 正向消元后得到的行阶梯形式具有形状：

\begin{matrix} [\begin{matrix} * & * & \dots & * \\ * & \dots & * \\ ⋱ & ⋮ \\ * \end{matrix}] \end{matrix}

$1$ $n$ $y$ $\varphi$ $\varphi(x)=y$ $I_n(x)=y'''$ $x=y'''=\varphi^{-1}(y)$ 可以直接从最终结果得出, 全过程是这样的：

\begin{matrix} [\begin{array}{ccccc} * & * & \dots & * & y_{1} \\ * & * & \dots & * & y_{2} \\ ⋮ & ⋮ & ⋱ & ⋮ & ⋮ \\ * & * & \dots & * & y_{n} \end{array}] \overset{ρ_{1}}{\to} [\begin{array}{ccccc} * & * & \dots & * & y_{1}^{'} \\ * & \dots & * & y_{2}^{'} \\ ⋱ & ⋮ & ⋮ \\ * & y_{n}^{'} \end{array}] \overset{ρ_{2}}{\to} [\begin{array}{ccccc} * & y_{1}^{″} \\ * & y_{2}^{″} \\ ⋱ & ⋮ \\ * & y_{n}^{″} \end{array}] \\ \overset{ρ_{3}}{\to} [\begin{array}{ccccc} 1 & y_{1}^{‴} \\ 1 & y_{2}^{‴} \\ ⋱ & ⋮ \\ 1 & y_{n}^{‴} \end{array}] \Rightarrow [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}] = [\begin{matrix} y_{1}^{‴} \\ y_{2}^{‴} \\ ⋮ \\ y_{n}^{‴} \end{matrix}] \end{matrix}

从映射的角度看来, 可以画如下的图：

$\rho_1$ $y$ $y'$ $\varphi$ $\varphi'$ $\varphi'$ $(i,i)$ $0$ $\rho_2$ $y'$ $y''$ $\varphi'$ $\varphi''$ $\varphi''$ $\varphi^{-1}$ $\varphi^{-1}=(\varphi'')^{-1}\varphi_2\rho_1$ $\mathbb{R}\to\mathbb{R}^n$ $y$ $x$ $\mathbb{R}$ $\mathbb{R}^p$ $x=(\varphi'')^{-1}\rho_2\rho_1 y$ $x$ . 在操作中, 只需要改变拼到右边的矩阵形状就可以, 例如, 对于

\begin{matrix} φ = [\begin{matrix} 1 & 1 & 1 & 1 \\ 1 & 2 & 2 & 2 \\ 1 & 2 & 3 & 3 \\ 1 & 2 & 3 & 4 \end{matrix}], y = [\begin{matrix} 1 & 1 & 4 & 5 \\ 1 & 4 & 1 & 9 \\ 1 & 9 & 8 & 1 \\ 0 & 8 & 9 & 3 \end{matrix}] \end{matrix}

$\varphi(x)=y$

\begin{matrix} [\begin{array}{cccccccc} 1 & 1 & 1 & 1 & 1 & 1 & 4 & 5 \\ 1 & 2 & 2 & 2 & 1 & 4 & 1 & 9 \\ 1 & 2 & 3 & 3 & 1 & 9 & 8 & 1 \\ 1 & 2 & 3 & 4 & 0 & 8 & 9 & 3 \end{array}] \to_{R_{4} - R_{1}}^{\begin{matrix} R_{2} - R_{1} \\ R_{3} - R_{1} \end{matrix}} [\begin{array}{ccccrrrr} 1 & 1 & 1 & 1 & 1 & 1 & 4 & 5 \\ 1 & 1 & 1 & 0 & 3 & - 3 & 4 \\ 1 & 2 & 2 & 0 & 8 & 4 & - 4 \\ 1 & 2 & 3 & - 1 & 7 & 5 & - 2 \end{array}] \to_{R_{4} - R_{2}}^{R_{3} - R_{2}} \\ [\begin{array}{ccccrrrr} 1 & 1 & 1 & 1 & 1 & 1 & 4 & 5 \\ 1 & 1 & 1 & 0 & 3 & - 3 & 4 \\ 1 & 1 & 0 & 5 & 7 & - 8 \\ 1 & 2 & - 1 & 4 & 8 & - 6 \end{array}] \overset{R_{4} - R_{3}}{\to} [\begin{array}{ccccrrrr} 1 & 1 & 1 & 1 & 1 & 1 & 4 & 5 \\ 1 & 1 & 1 & 0 & 3 & - 3 & 4 \\ 1 & 1 & 0 & 5 & 7 & - 8 \\ 1 & - 1 & - 1 & 1 & 2 \end{array}] \overset{R_{1} - R_{2}}{\to} \\ [\begin{array}{ccccrrrr} 1 & 1 & - 2 & 7 & 1 \\ 1 & 1 & 1 & 0 & 3 & - 3 & 4 \\ 1 & 1 & 0 & 5 & 7 & - 8 \\ 1 & - 1 & - 1 & 1 & 2 \end{array}] \overset{R_{2} - R_{3}}{\to} [\begin{array}{ccccrrrr} 1 & 1 & - 2 & 7 & 1 \\ 1 & 0 & - 2 & - 10 & 12 \\ 1 & 1 & 0 & 5 & 7 & - 8 \\ 1 & - 1 & - 1 & 1 & 2 \end{array}] \overset{R_{3} - R_{4}}{\to} \\ [\begin{array}{ccccrrrr} 1 & 1 & - 2 & 7 & 1 \\ 1 & 0 & - 2 & - 10 & 12 \\ 1 & 1 & 6 & 6 & - 10 \\ 1 & - 1 & - 1 & 1 & 2 \end{array}] \Rightarrow x = [\begin{array}{r} 1 & - 2 & 7 & 1 \\ 0 & - 2 & - 10 & 12 \\ 1 & 6 & 6 & - 10 \\ - 1 & - 1 & 1 & 2 \end{array}] \end{matrix}

$1$ $\varphi''$ $I_n$ , 最后的缩放可以省去）

$y=I_n$ $\varphi^{-1}=\varphi^{-1}I_n$

LU分解

$\varphi''=\rho_2\rho_1\varphi$ $\varphi$ $\varphi''$ $0$ $0$ $\varphi:\mathbb{R}^n\to\mathbb{R}^m$ , 它可以被消元到行阶梯形式：

\begin{matrix} φ^{'} = [\begin{matrix} * & \dots & * & \dots & * & \dots \\ * & \dots & * & \dots \\ ⋱ & ⋮ & ⋱ \\ * & \dots \\ 0 \end{matrix}] \end{matrix}

$r$ $r$ $\rho_1$ $\rho_1=\rho_{1r}\cdots\rho_{12}\rho_{11}$ $\rho_{1i}$ $i$ $i=1$ $i'>1$ $i'$ $c_{i'1}$ $y$ $1$ $y$ $i'$ $(i',1)$ $\rho_1$ $-c_{i'1}$ $1$ $0$ $1\le i\le r$ $i$ 个对角元素下方的元素会和单位矩阵有差别, 则

\begin{matrix} ρ_{11} = [\begin{matrix} 1 \\ - c_{21} & 1 \\ ⋮ & ⋱ \\ - c_{m 1} & 1 \end{matrix}] \end{matrix}

$\rho_1$ $\rho_{12}\rho_{11}$ $\rho_{13}\rho_{12}\rho_{11}$ $\rho_1=\rho_{1r}\cdots \rho_{12}\rho_{11}$ , 但是, 问题来了

\begin{matrix} ρ_{12} ρ_{11} = [\begin{matrix} 1 \\ - c_{21} & 1 \\ - c_{31} + c_{32} c_{21} & - c_{32} & 1 \\ ⋮ & ⋱ \\ - c_{m 1} + c_{m 2} c_{21} & - c_{m 2} \end{matrix}] \end{matrix}

$m$ $1$ 项会变成

- c_{m 1} + \sum_{1 < t < m} c_{m t} c_{t 2} - \sum_{1 < t_{1} < t_{2} < m} c_{m t_{1}} c_{t_{1} t_{2}} c_{t_{2} m} + \sum_{1 < t_{1} < t_{2} < t_{3} < m} c_{m t_{1}} c_{t_{1} t_{2}} c_{t_{2} t_{3}} c_{t_{3} m} - \dots

再这么算下去对研究问题也不会有什么用（这甚至会让我们感觉为什么为什么想不开要合并它们, 分开来写多好）

$\rho_1^{-1}$ $\rho_1$ $\rho_1^{-1}$ , 首先注意到

\begin{aligned} ρ_{11}^{- 1} ρ_{12}^{- 1} \dots ρ_{1 (r - 1)}^{- 1} ρ_{1 r}^{- 1} ρ_{1 r} ρ_{1 (r - 1)} \dots ρ_{12}^{- 1} ρ_{11}^{- 1} \\ = & ρ_{11}^{- 1} ρ_{12}^{- 1} \dots ρ_{1 (r - 1)}^{- 1} I_{m} ρ_{1 (r - 1)} \dots ρ_{12}^{- 1} ρ_{11}^{- 1} \\ = & ρ_{11}^{- 1} ρ_{12}^{- 1} \dots ρ_{1 (r - 1)}^{- 1} ρ_{1 (r - 1)} \dots ρ_{12}^{- 1} ρ_{11}^{- 1} \\ = & ρ_{11}^{- 1} ρ_{12}^{- 1} \dots \dots ρ_{12}^{- 1} ρ_{11}^{- 1} \\ = & \dots \\ = & ρ_{11}^{- 1} ρ_{12}^{- 1} ρ_{12} ρ_{11} \\ = & ρ_{11}^{- 1} ρ_{11} \\ = & I_{m} \end{aligned}

$\rho_1$ $\rho_{11}^{-1}\rho_{12}^{-1}\cdots\rho_{1r}^{-1}$ $\varphi=\rho_1^{-1}\varphi'$

$\psi_1$ $\psi_2$ $(\psi_1\psi_2)^{-1}=\psi_2^{-1}\psi_1^{-1}$ $\psi_1^{-1}\psi_2^{-1}$ 在大部分情况下是错的, 通过跟着下图的箭头走, 你会发现这个结果是合理的.

$\rho_{1i}^{-1}$ $i=1$ , 我们有（读者应该自己验证）：

\begin{matrix} ρ_{11} = [\begin{matrix} 1 \\ - c_{21} & 1 \\ ⋮ & ⋱ \\ - c_{m 1} & 1 \end{matrix}], ρ_{11}^{- 1} = [\begin{matrix} 1 \\ c_{21} & 1 \\ ⋮ & ⋱ \\ c_{m 1} & 1 \end{matrix}] \end{matrix}

$\rho_{1i}^{-1}$ $\rho_{1i}$ $i$ $j$ 列的元素下方的元素有差异.

$\rho_{11}^{-1}\rho_{12}^{-1}\cdots \rho_{1r}^{-1}$ 乘起来, 我们得到了一个非常简单的结果（读者也应该自己验证）：

\begin{matrix} ρ_{1}^{- 1} = ρ_{11}^{- 1} ρ_{12}^{- 1} \dots ρ_{1 r}^{- 1} = [\begin{matrix} 1 \\ c_{21} & 1 \\ ⋮ & ⋮ & ⋱ \\ c_{m 1} & c_{m 2} & \dots & 1 \end{matrix}] \end{matrix}

$c_{i'i}$ $0$ $1$ $\varphi'$ $L=\rho_1^{-1}$ $U=\varphi'$ $\varphi=LU$ $\varphi$ $LU$ $\varphi_1^{-1},\varphi_1^{-1}\varphi_2^{-2},\cdots$ 也写在矩阵左边, 每次把操作分离出来的变换矩阵乘到左边, 这样我们的操作变成了等式.

\begin{matrix} [\begin{matrix} 1 & 1 & 1 & 1 \\ 1 & 2 & 2 & 2 \\ 1 & 2 & 3 & 3 \\ 1 & 2 & 3 & 4 \end{matrix}] =_{R_{4} - 1 R_{1}}^{\begin{matrix} R_{2} - 1 R_{1} \\ R_{3} - 1 R_{1} \end{matrix}} [\begin{matrix} 1 \\ 1 & 1 \\ 1 & 1 \\ 1 & 1 \end{matrix}] [\begin{matrix} 1 & 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 2 & 2 \\ 1 & 2 & 3 \end{matrix}] =_{R_{4} - 1 R_{2}}^{R_{3} - 1 R_{2}} \\ [\begin{matrix} 1 \\ 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{matrix}] [\begin{matrix} 1 & 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 \\ 1 & 2 \end{matrix}] \overset{R_{4} - 1 R_{3}}{=} [\begin{matrix} 1 \\ 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 & 1 \end{matrix}] [\begin{matrix} 1 & 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 \\ 1 \end{matrix}] \end{matrix}

$4$ $3$ $\rho_{14}=I_4$ , 这一步被省略了.

这时有人又要问了, 那万一真要交换行呢？LU分解还能行吗？

$\sigma_{23}$ $\mathbb{R}^3$ 上, 交换第二和第三个分量, 所以

\begin{matrix} σ_{23} [\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \end{matrix}] = [\begin{matrix} x_{1} \\ x_{3} \\ x_{2} \end{matrix}] = [\begin{matrix} 1 \\ 1 \\ 1 \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \end{matrix}] \end{matrix}

显然它不是下三角矩阵, 所以当我们要用行交换时将会发生：

\begin{matrix} [\begin{matrix} 1 & 1 & 1 \\ 1 & 1 & 2 \\ 1 & 2 & 2 \end{matrix}] =_{R_{3} - R_{1}}^{R_{2} - R_{1}} ρ_{11}^{- 1} [\begin{matrix} 1 & 1 & 1 \\ 1 \\ 1 & 1 \end{matrix}] \overset{R_{23}}{=} ρ_{11}^{- 1} σ_{23} [\begin{matrix} 1 & 1 & 1 \\ 1 & 1 \\ 1 \end{matrix}] \end{matrix}

右边确实是上三角的, 但是左边出问题

\begin{matrix} ρ_{11}^{- 1} = [\begin{matrix} 1 \\ 1 & 1 \\ 1 & 1 \end{matrix}], σ_{23} = [\begin{matrix} 1 \\ 1 \\ 1 \end{matrix}], ρ_{11}^{- 1} σ_{23} = [\begin{matrix} 1 \\ 1 & 1 \\ 1 & 1 \end{matrix}] \end{matrix}

$\rho_{11}^{-1}\sigma_{23}$ 不是下三角的, 这表明LU分解失效了

$\mathbb{R}^m$ $1$ $0$ $\mathbb{R}$ $\rho_{11}$ $L$ $2,3$ $\rho_{11}^{-1}\sigma_{23}=\sigma_{23}\sigma_{23}\rho_{11}^{-1}\sigma_{23}$ $\sigma_{23}\sigma_{23}=I_m$ $\sigma_{23}\rho_{11}^{-1}\sigma_{23}$ $\sigma_{23}$ 跑到了左边, 仍然用一个例子来演示：

\begin{matrix} [\begin{matrix} 1 \\ 1 & 1 & 1 \\ 2 & 1 & 1 & 1 \\ 2 & 3 & 3 \end{matrix}] =_{R_{3} - 2 R_{1}}^{R_{2} - R_{1}} [\begin{matrix} 1 \\ 1 & 1 \\ 2 & 1 \\ 1 \end{matrix}] [\begin{matrix} 1 \\ 1 \\ 1 & 1 & 1 \\ 2 & 3 & 3 \end{matrix}] \overset{R_{23}}{=} [\begin{matrix} 1 \\ 1 & 1 \\ 2 & 1 \\ 1 \end{matrix}] [\begin{matrix} 1 \\ 1 & 1 & 1 \\ 1 \\ 2 & 3 & 3 \end{matrix}] = \\ [\begin{matrix} 1 \\ 1 \\ 1 \\ 1 \end{matrix}] [\begin{matrix} 1 \\ 2 & 1 \\ 1 & 1 \\ 1 \end{matrix}] [\begin{matrix} 1 \\ 1 & 1 & 1 \\ 1 \\ 2 & 3 & 3 \end{matrix}] \overset{R_{4} - 2 R_{2}}{=} [\begin{matrix} 1 \\ 1 \\ 1 \\ 1 \end{matrix}] [\begin{matrix} 1 \\ 2 & 1 \\ 1 & 1 \\ 2 & 1 \end{matrix}] [\begin{matrix} 1 \\ 1 & 1 & 1 \\ 1 \\ 1 & 1 \end{matrix}] \\ \overset{R_{34}}{=} [\begin{matrix} 1 \\ 1 \\ 1 \\ 1 \end{matrix}] [\begin{matrix} 1 \\ 2 & 1 \\ 1 & 1 \\ 2 & 1 \end{matrix}] [\begin{matrix} 1 \\ 1 & 1 & 1 \\ 1 & 1 \\ 1 \end{matrix}] = [\begin{matrix} 1 \\ 1 \\ 1 \\ 1 \end{matrix}] [\begin{matrix} 1 \\ 2 & 1 \\ 2 & 1 \\ 1 & 1 \end{matrix}] [\begin{matrix} 1 \\ 1 & 1 & 1 \\ 1 & 1 \\ 1 \end{matrix}] \end{matrix}

$\rho_{11}$ )

$\sigma_{23}$ )

第三步中, 对下三角矩阵的行交换让它恢复了形状

$\rho_{12}$ )

$\sigma_{34}$ )

第六步中, 通过对下三角矩阵的另一个行交换, 我们得到了PLU分解结果

令

\begin{matrix} ρ_{11}^{- 1} = [\begin{matrix} 1 \\ 1 & 1 \\ 2 & 1 \\ 1 \end{matrix}], ρ_{12}^{- 1} = [\begin{matrix} 1 \\ 1 \\ 1 \\ 2 & 1 \end{matrix}] \end{matrix}

则这个过程可以写成

\begin{matrix} φ = ρ_{11}^{- 1} φ_{1} = (ρ_{11}^{- 1} σ_{23}) φ_{2} = σ_{23} (σ_{23} ρ_{11}^{- 1} σ_{23}) φ_{2} = σ_{23} (σ_{23} ρ_{11}^{- 1} σ_{23} ρ_{12}^{- 1}) φ_{3} \\ = σ_{23} (σ_{23} ρ_{11}^{- 1} σ_{23} ρ_{12}^{- 1} σ_{34}) φ_{4} = (σ_{23} σ_{34}) (σ_{24} σ_{23} ρ_{11}^{- 1} σ_{23} ρ_{12}^{- 1} σ_{34}) φ^{'} \end{matrix}

又或者有的人希望看图：

$\rho_{11}$ $\sigma_{23}\rho_{11}\sigma_{23}$ $\rho_{12}\sigma_{23}\rho_{11}\rho_{23}$ $\sigma_{34}\rho_{12}\sigma_{23}\rho_{11}\rho_{23}\sigma_{34}$ $\sigma_{ii'}$ $\varphi$ $\varphi'$ $P=\sigma_{23}\sigma_{34}$ $L=\sigma_{24}\sigma_{23}\rho_{11}^{-1}\sigma_{23}\rho_{12}^{-1}\sigma_{34}$ $U=\varphi'$ , 所以LU分解本身有一定缺陷但是PLU分解就没这个问题. 实际上, 所有的数值计算程序都会有更多关于行调整的规则以保证算法的稳定性, 如果你感兴趣可以自己在网上搜. 别的地方和这里记号可能不同, 但是干的事情是一样的.

练习

$2.1$ $\varphi:\mathbb{R}^2\to\mathbb{R}$ $\varphi(1,-1)=0$ $\varphi(1,1)=2$ $\varphi$ 并用矩阵表示

$2.2$ $\varphi:\mathbb{R}^3\to\mathbb{R}^2$ $(x_1,x_2,x_3)$ $(x_1,x_2)$ , 用矩阵表示它.

$2.3$ $\mathbb{R}^2$ $\langle x, y\rangle=x_1y_1+x_2y_2$ $\langle x, -\rangle$ $\mathbb{R}^2$ $\mathbb{R}$ $y$ $\langle x,y\rangle$ . 用矩阵表示这个映射.

$2.4$ $\mathbb{R}^2$ $\varphi$ $45\degree$ $\varphi(x)$ $x=(3,1)$ . 通过两种方式计算(行和列的视角)并比较结果.

$2.5$ $\mathbb{R}^2$ $\varphi=\left[\begin{array}c k_{11} & k_{12} \\ k_{21} & k_{22} \end{array}\right]$ $\varphi(e_1)$ $\varphi(e_2)$ 何时共线？当二者不共线时, 单位正方形的像是一个平行四边形, 并叙述面积表达式和共线条件有何关系.

$2.6$ $\varphi:\mathbb{R}^n\to\mathbb{R}^m$ $\varphi^2=\varphi\varphi$ $\varphi=\left[\begin{array}c 1 & 0 \\ 1 & 1 \end{array}\right]$ $\varphi^2$ $\varphi^3$ $\varphi^n$ 的结果, 请使用归纳法证明这一结果.

$2.7$ $\varphi=\left[\begin{array}c 0 & 1 \\ 1 & 1 \end{array}\right]$ $\varphi^2,\varphi^3,\varphi^4,\varphi^5$ , 它们表现出什么规律？

$2.8$ $f$ $g$ $f\circ g=g\circ f$ $f(x)=x^2,g(x)=\mathrm{e}^x$ $(f\circ g)(x)=\mathrm{e}^{2x}$ $(g\circ f)(x)=\mathrm{e}^{x^2}$ $f\circ g\ne g\circ f$ $\varphi\psi=\psi\varphi$ $\varphi:\mathbb{R}^n\to\mathbb{R}^m$ $\psi:\mathbb{R}^m\to\mathbb{R}^n$ $\varphi\psi$ $\psi\varphi$ $\varphi\psi$ $\psi\varphi$ 之间的比较有意义（这要求两个矩阵大小相同）

$2.9$ $\displaystyle p(x)=a_0+\sum_{i=1}^{n}a_i x^i$ $V$ $\varphi$ $\displaystyle p(\varphi)=a_0 \operatorname{Id}+\sum_{i=1}^{n}a_i \varphi^i$ $1$ $\operatorname{Id}$ $1$ $p(\varphi)$ $\varphi$ $\varphi\circ p(\varphi)=p(\varphi)\circ \varphi$ )

$2.10$ $u=\left[\begin{array}c 1 \\ 2 \\ 3 \end{array}\right]$ $v=\left[\begin{array}c 4 & 5 & 6 \end{array}\right]$ $uv$ $(uv)^2$ $(uv)^n$ .

$2.11$ $x_{01}$ $x_{02}$ $x_{03}$ $x_n=(x_{n1}, x_{n2}, x_{n3})$ $n$ $x_n$ $x_{n+1}$ $\varphi$ $\varphi^n$ 的含义

$2.12$ 通过两种方式解下面的线性方程：使用和不使用矩阵, 并且比较结果.

\begin{aligned} 2 x - y & = 1 \\ 2 y - z & = 2 \\ 2 z - x & = 3 \end{aligned}

$2.13$ $\varphi=\left[\begin{array}c 1 & 2 \\ 3 & 4 \end{array}\right]$ $\varphi^{-1}$ $\varphi(x)=\left[\begin{array}c 5 \\ 6 \end{array}\right]$ .

$2.14$ $\varphi=\left[\begin{array}r 1 & 1 & 1 \\ 1 & -1 & 0 \\ 1 & 1 & 0 \\ 1 & -1 & 0 \end{array}\right]$ $y$ $\varphi(x)=y$ 无解.

$2.15$ $a$ $\varphi(x)=0$ $r$ 分别为多少？

\begin{matrix} φ = [\begin{matrix} 1 & 1 & 1 \\ 1 & - 1 & 2 \\ 1 & 1 & a \end{matrix}] \end{matrix}

$2.16$ $\varphi, \psi:\mathbb{R}^n\to\mathbb{R}^n$ $\varphi\psi$ 也是下三角矩阵.

$2.17$ $\sigma_{ii'}:\mathbb{R}^m\to\mathbb{R}^m$ $\mathbb{R}^m$ $i,i'$ $\sigma_{ii'}^2=I_{m}$

$2.18$ $\psi_1$ $\psi_2$ $\psi_1\psi_2$ $e_j$ 的结果）

$2.19$ $\rho_{11}=\left[\begin{array}c 1 \\ -c_{21} & 1 \\ \vdots && \ddots \\ -c_{m1} &&& 1 \end{array}\right]$ $\rho_{11}^{-1}=2I_m-\rho_1$ .

$2.20$ 证明公式：

\begin{matrix} [\begin{matrix} 1 \\ c_{21} & 1 \\ ⋮ & ⋱ \\ c_{(m - 1) 1} & 1 \\ c_{m 1} & 1 \end{matrix}] [\begin{matrix} 1 \\ 1 \\ ⋮ & ⋱ \\ c_{(m - 1) 2} & 1 \\ c_{m 2} & 1 \end{matrix}] \dots [\begin{matrix} 1 \\ 1 \\ ⋱ \\ 1 \\ c_{m (m - 1)} & 1 \end{matrix}] = \\ [\begin{matrix} 1 \\ c_{21} & 1 \\ ⋮ & ⋮ & ⋱ \\ c_{(m - 1) 1} & c_{(m - 1) 2} & \dots & 1 \\ c_{m 1} & c_{m 2} & \dots & c_{m (m - 1)} & 1 \end{matrix}] \end{matrix}

$2.21$ $\sigma_{ii'}$ $L$ $\sigma_{ii'}L\sigma_{ii'}$ $\mathbb{R}^4$ $\sigma_{23}$ $L=\left[\begin{array}c 1 \\ 2 & 1 \\ 3 & 4 & 1 \\ 5 & 6 & 7 & 1\end{array}\right]$ $\sigma_{23}L\sigma_{23}$ 的结果, 说明为什么它不再是下三角矩阵并解释为什么在引入PLU分解时这样的情况没有发生

$2.22$ 对如下矩阵做PLU分解并求出它的核.

\begin{matrix} [\begin{matrix} 1 & 2 & 3 & 4 \\ 2 & 4 & 7 & 9 \\ 1 & 1 & 1 & 1 \end{matrix}] \end{matrix}

$\mathbb{R}^n$ $V$ —— 基和表示理论

维数这东西真的那么显然吗？

$\mathbb{R}^n$ 上工作, 如无特别解释, 以下的映射和空间都是线性的.

$0$ $1$ $2$ $3$ $\mathbb{R}^n$ $n$ , 但是对一个一般的空间, 怎么定义维数呢？先看几个例子：

$\set{(t,t)|t\in\mathbb{R}}$ $\mathbb{R}^2$ $1$ , 因为它只是平面上的一条线.

$a\sin x+b\cos x$ $\mathbb{R}^n$ 的子空间. 但我们仍然认为它是二维的（如果你没有这个直觉就暂时这么接受下来吧）, 这是因为有两个参数决定这个函数.

$\mathbb{N}_+\to\mathbb{R}$ $a_1,a_2,\cdots,a_n$ $\mathbb{R}^n$ $\mathbb{R}^n$ $n$ $0$ 的有限数列）.

$a_{n+1}=a_{n}+a_{n+1}$ $a:\mathbb{N}_+\to\mathbb{R}$ $a_{n+2}$ $a_n$ $a_{n+1}$ $2$ .

$n$ $\mathbb{R}^n$ $\mathbb{R}^n$ $V$ $\mathbb{R}^n$ $\mathbb{R}^n$ $\mathbb{R}^n$ $\mathbb{R}^n$ 一样处理它.

准备工作和基础性质

$j$ $n$ $i$ , 对于我来讲, 这写起来简单多了, 但是我希望不会给读者造成太多困惑.

上一章的想法很好, 但是为了确保维数是"良定义"的, 我们需要解决一些问题.

$V$ $\mathbb{R}^m$ $\mathbb{R}^n$ $m$ $n$ , 从而失败去让它良好定义呢.

$V$ $\mathbb{R}^n$ $v\in V$ $x\in\mathbb{R}^n$ $y\in\mathbb{R}^m$ $x\in\mathbb{R}^n$ $y\in\mathbb{R}^n$ $\mathbb{R}^m$ $\mathbb{R}^n$ $m\ne n$ 并不可能（此结果在上一章中已经证明）所以维度至少不至于是糟糕定义的（指一个空间不会有两个维度）.

$V$ $\mathbb{R}^n$ $V$ $\mathbb{R}^n$ 同构呢？

$a:\mathbb{N}_+\to\mathbb{R}$ $\mathbb{R}^n$ $n$ 有限）, 这时我们称它是无穷维的.

$\mathbb{R}^n$ $n$ $\dim_{\mathbb{R}} V=n$ $\mathbb{R}$ $\dim V=n$ $\dim 0=0$ $0$ $\dim V=\infty$ $\mathbb{R}^n$ $\mathbb{R}^m$ $m\ge n$ $\mathbb{R}^n$ $\mathbb{R}^m$ $m\le n$ $\dim V_1=n$ $\dim V_2=m$ $m<n$ $V_1$ $V_2$ $m > n$ $V_1$ $V_2$ $\mathbb{R}^n$ $\mathbb{R}^m$ 的同构自然导出的.

$\dim V_1=\infty$ $\dim V_2=m\in \mathbb{N}$ $V_1\to V_2$ $\dim V_1=n\in\mathbb{N}$ $\dim V_2=\infty$ $V_1\to V_2$ 不满

这个结论将在下一节证明

向量组, 基底和坐标

$\alpha_1$ $\mathbb{R}^n\to V_1$ $\alpha_2$ $\mathbb{R}^m\to V_2$ $\varphi: V_1\to V_2$ $\mathbb{R}^n\to \mathbb{R}^m$ $m\times n$ $A=\alpha_2^{-1}\varphi\alpha_1$ $\varphi$ $\alpha_1,\alpha_2$ 下的表示（基的定义在后面）

$\alpha:\mathbb{R}^n\to V$ $e_i$ $\alpha(e_i)=\alpha_i$ $\displaystyle \alpha(x)=\alpha\left(\sum_{i=1}^n x_i e_i \right)=\sum_{i=1}^n x_i\alpha(e_i)=\sum_{i=1}^n x_i\alpha_i$ , 从列的角度来看, 这个映射可以被写成：

α = [\begin{matrix} α_{1} & α_{2} & \dots & α_{n} \end{matrix}]

注意到在此我们拓展了矩阵的记号. 狭义地讲, 矩阵每行每列都是数, 但是这里每一列都是一个向量, 而不一定是由数字组成的"列向量".

$\set{a\sin x+b\cos x\mid a,b\in\mathbb{R}}$ 中, 我们可以合理地写出：

\begin{matrix} [\begin{matrix} \sin x & \cos x \end{matrix}] [\begin{matrix} a \\ b \end{matrix}] = a \sin x + b \cos x \end{matrix}

$\sin x$ $\cos x$ 是空间中的向量, 上述的运算仍然遵守矩阵乘法的法则.

$1\sim n$ 编号的向量列表. 有些教材认为向量组是无序的, 但是为了方便, 我们不妨让它是有序的, 这对有限维空间够用了, 于是这个向量组就可以正式地写为：

α = [\begin{matrix} α_{1} & α_{2} & \dots & α_{n} \end{matrix}]

$V$ $\mathbb{R}^m$ $a_i$ $V$ $\mathbb{R}^n$ $V$ $x\in\mathbb{R}^n$ $\displaystyle \sum_{i=1}^n x_i\alpha_i$ $\alpha$ $\alpha$ $\alpha$ $\alpha$ 作为映射的像.

首先看到核.

$0$ $\alpha$ $x$ $\displaystyle \sum_{i=1}^n x_i\alpha_i=0$ $0$ $0$ $\alpha$ $x_1\ne 0$ $\displaystyle x_1\alpha_1 + \sum_{i=2}^n x_i\alpha_i=0$ $\displaystyle \alpha_1 = -\frac1{x_1} \sum_{i=2}^n x_i\alpha_i=\sum_{i=2}^n \left(-\frac{x_i}{x_1}\right)\alpha_i$ , 即某个向量可以表示为其它向量的线性组合
$\alpha'$ $\alpha$ $\alpha'$ $\operatorname{Im}\alpha'=\operatorname{Im}\alpha$ $\operatorname{Ker}\alpha'=0$ $\dim V=m$ $\alpha$ $V$ $\alpha$ $n$ $n\le m$ $\alpha$ $\mathbb{R}^n\to V$ $m$ $m$ 个线性无关的向量
$m\times n$ $A$ $r$ $n-r$ $\mathbb{R}^{n-r}$ $\dim\operatorname{Ker}A=n-r$

下面讨论像.

$\alpha:\mathbb{R}^n\to V$ $v\in\operatorname{\Im}\alpha$ $\alpha(x)$ $x\in\mathbb{R}^n$ $\alpha$ $\mathbb{R}^n$ $V$ $\alpha^{-1}(v)=x$ $\operatorname{Im}\alpha$ $\mathbb{R}^n$ $\dim \operatorname{Im}\alpha=n$ .
$\alpha:\mathbb{R}^n\to V$ $\alpha':\mathbb{R}^r\to V$ $\alpha'$ $r$ $\alpha'$ $\alpha$ $V$ $\dim V=r\le n$ $\alpha:\mathbb{R}^n\to V$ $\dim\alpha=n$ $\alpha$ $V$ $v\in V$ $x=\alpha^{-1}(v)\in\mathbb{R}^n$ $v$ $x$ $\alpha$ $x$ $v$ $\alpha$ 下的坐标.
$\alpha:\mathbb{R}^n\to V$ $v\in V$ $\alpha$ $\mathbb{R}^n$ $V$ 的单射, 这表明无限维的向量空间确实比有限维的向量空间更"大"（听起来像是正确的废话）
$m\times n$ $r$ $\rho_1$ $\operatorname{Im}\varphi$ $r$ $\set{(x_1,x_2,\cdots, x_r, 0,\cdots,0)\in\mathbb{R}^m\mid x_i\in\mathbb{R}}$ $r$ $\operatorname{Im}\varphi$ $r$ 维的.

线性代数基本定理

$\mathbb{R}^n$ 上容易研究的问题. 所以, 线性代数中最重要、最基础也是最精华的定理终于要来了：

$线性代数基本定理:$ $V_1$ $V_2$ $\varphi:V_1\to V_2$ $V_1$ $\varphi$ $\operatorname{rank}\varphi=\dim\operatorname{Im}\varphi$ $\dim \operatorname{Ker}\varphi=\dim V_1 - \operatorname{rank}\varphi$ .

$\operatorname{Im}\varphi$ $\mathbb{R}^r$ $r$ $\varphi$ $\varphi$ $V_1$ $\operatorname{Im}\varphi$ $r$ $n$ $V_1$ $\dim\operatorname{Ker}A=n-r$ , 证毕.

练习

$3.1$ $m\ne n$ $\mathbb{R}^m$ $\mathbb{R}^n$ 不同构（这个结果上一章证过, 这里作为复习）

$3.2$ $C[0,1]$ $C[0,1]$ $[0,1]$ 上的所有连续实函数组成的集合）

$3.3$ $\mathbb{C}$ $V=\mathbb{R}^2$ $\mathbb{R}$ $\operatorname{C}$ $\dim_{\mathbb{Q}}V$ $\mathbb{Q}$ 是有理数域）

$3.4$ $V$ $0$ $0$ $0:V\to 0$ $0:0\to V$ $V\to 0$ $V$ 是什么？

$3.5$ $0$ 的向量组按照定义是线性相关的.

$3.6$ $n+1$ $\alpha_1,\alpha_2,\cdots,\alpha_{n+1}$ $n$ $4$ 个向量：

\begin{matrix} α_{1} = [\begin{matrix} 3 \\ - 1 \\ - 1 \\ - 1 \end{matrix}], α_{2} = [\begin{matrix} - 1 \\ 3 \\ - 1 \\ - 1 \end{matrix}], α_{3} = [\begin{matrix} - 1 \\ - 1 \\ 3 \\ - 1 \end{matrix}] α_{4} = [\begin{matrix} - 1 \\ - 1 \\ - 1 \\ 3 \end{matrix}] \end{matrix}

$3$ $4$ 个向量线性相关, 把每个向量用其它向量的线性组合表示.

$3.7$ $n$ $\alpha$ $r$ $\alpha'$ $r_1$ $r_2$ $r_1=r_2$ $r=r_1=r_2$ $\alpha$ $r+1$ $\beta_1,\beta_2,\cdots,\beta_r,\beta_{r+1}$ 线性相关.

$3.8$ $\varphi=\left[\begin{array}c 1 & 2 & 3 \\ 4 & 5 &6 \end{array}\right]$ $\operatorname{Ker}\varphi$ 找到一个基.

$3.9$ $\alpha=\left[\begin{array}c 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1 \\ 1 \\ & 1 \\ && 1 \\ &&& 1 \end{array}\right]$ $\alpha$ 是单射.

$3.10$ $\alpha=\left[\begin{array}c 1 & 1 & 1 \\ & 1 & 1 \\ && 1 \end{array}\right]$ $\alpha$ $\mathbb{R}^3$ $\left[\begin{array}c x_1 \\ x_2 \\ x_3 \end{array}\right]$ $\alpha$ 下的坐标

$3.11$ $\alpha=\left[\begin{array}c 1 & 0 \\ 0 & 1 \\ -1 & 0 \\ 0 & 1 \end{array}\right]$ $\alpha$ $\alpha$ $\alpha$ $\alpha$ $(\mathbb{R}^n, \cdot)$ $H$ —— 内积和正交化

$(\mathbb{R}^n, \cdot)$ $H$ —— 内积和正交化

$\mathbb{R}$ $K$ $\alpha$ $\beta$ 可能被用来指代向量或者基底, 这取决于上下文.

什么是内积？

$H$ $\langle-,-\rangle: H\times H\to \mathbb{R}$ $\alpha\cdot\beta = |\alpha||\beta|\cos\angle(\alpha,\beta)$ $\angle(\alpha,\beta)$ $0$ $|-|:H\to \mathbb{R}_{\ge 0}$ $\angle: H\times H\to [0, \pi]$ $\alpha\cdot (\beta_1+\beta_2)=\alpha\cdot \beta_1+\alpha\cdot\beta_2$ . 这就是为什么我们需要重新定义一个内积以让我们处理问题更加方便.

重新定义一个概念并不是一件容易的事情, 我们需要确保它和之前的概念兼容. 之前的路线问题出在：一个一般的空间上并不天然拥有有一个度量模长和角度的函数, 而我们最终的解决方案是先定义内积, 然后反过来定义模和角度.

$\langle -,- \rangle: H\times H\to \mathbb{R}$ $\alpha,\beta\in H$ $k_1,k_2\in\mathbb{R}$ 满足：

$\langle\alpha,\beta\rangle = \langle\beta, \alpha\rangle$ （对称性）
$\langle k_1\alpha_1+k_2\alpha_2,\beta\rangle=k_1\langle\alpha_1,\beta\rangle + k_2\langle\alpha_2,\beta\rangle$ （对第一个参数线性）
$\langle\alpha, k_1\beta_1+k_2\beta_2\rangle=\langle k_1\beta_1+k_2\beta_2,\alpha\rangle=k_1\langle\beta_1, \alpha\rangle+k_2\langle\beta_2,\alpha\rangle=k_1\langle\alpha, \beta_1\rangle+k_2\langle\alpha,\beta_2\rangle$ , 所以事实上它也对第二个变量线性, 这个性质被称为双线性
$\alpha\ne 0, \langle \alpha,\alpha\rangle>0$ （正定性）
$\langle0,0\rangle=0\langle 0,0\rangle$ $\langle 0, 0\rangle=0$

$\langle \alpha,\alpha\rangle=|\alpha||\alpha|\cos\angle(\alpha,\alpha)=|\alpha|^2\cos 0=|\alpha|^2$ $|\alpha|=\sqrt{\langle\alpha,\alpha\rangle}$ $\angle(\alpha,\beta)=\arccos\dfrac{\langle\alpha,\beta\rangle}{|\alpha||\beta|}$ $\langle \alpha,\beta\rangle=0$ $\alpha$ $\beta$ $\alpha\perp \beta$ . 这个定义和某些读者的直觉可能不太相符, 但是众所周知度量角的大小是为了描述一个物体相对另一个物体的定向, 这与内积的目的基本相同. 此外, 在计算中, 计算内积通常比计算角度更加容易. 几何的基本对象是长度和角度, 而二者都可以由内积导出, 所以一个向量空间的"几何"完全由其上定义的内积决定. 这里最重要的一点是：内积取代了长度和角度这些, 成为了最基本的概念.

$\mathbb{R}^n$ 中的标准内积

$x, y\in H= \mathbb{R}^n$ $\displaystyle x\cdot y=\sum_{i=1}^n x_i y_i$ $\mathbb{R}^n$ $\mathbb{R}^n$ $\mathbb{R}^n$ $e_1, e_2, \cdots, e_n$ , 但是大部分的线性空间并没有.

$A$ $A^{\mathrm{T}}$ , 例如：

\begin{matrix} {[\begin{matrix} 1 & 4 \\ 2 & 5 \\ 3 & 6 \end{matrix}]}^{T} = [\begin{matrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{matrix}] \end{matrix}

$\mathbb{R}^n$ $x\cdot y=x^{\mathrm{T}}y$ , 也就是说：

\begin{matrix} x \cdot y = [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}] \cdot [\begin{matrix} y_{1} \\ y_{2} \\ ⋮ \\ y_{n} \end{matrix}] = [\begin{matrix} x_{1} & x_{2} & \dots & x_{n} \end{matrix}] [\begin{matrix} y_{1} \\ y_{2} \\ ⋮ \\ y_{n} \end{matrix}] = \sum_{i = 1}^{n} x_{i} y_{i} \end{matrix}

$(AB)^{\mathrm{T}}=B^{\mathrm{T}}A^{\mathrm{T}}$ $a_{ik}, b_{kj}, c_{ij}$ $A$ $(i, k)$ $B$ $(k, j)$ $AB$ $(i, j)$ $c'_{ji}=c_{ij}=\sum_k a_{ik}b_{kj}=\sum_k b'_{jk}a'_{ki}$ $(AB)^{\mathrm{T}}$ $c'_{ji}=c_{ij}=\sum_k a_{ik}b_{kj}=\sum_k b'_{jk}a'_{ki}$ $c_{ji}'=\sum_k b_{jk}'a_{ki}'$ $(AB)^{\mathrm{T}}=B^{\mathrm{T}}A^{\mathrm{T}}$

非标准内积和正定矩阵

$\langle x,y\rangle=2x^{\mathrm{T}}y$ , 我们就得到了一个"非标准"的内积. 现在摆在我们面前的有三个问题：

我们真的需要这些"非标准"的内积吗？
我们可以找到所有的内积吗？
这些内积有什么共同点？

以下是我对这些问题的答案

有如下几个原因：
$H=\mathbb{R}^2$ $\langle x, y\rangle=2x_1y_1+x_2y_2$ $2$ $1$
$H=\set{x\in\mathbb{R}^3|x_1+x_2=x_3}$ $\alpha: \mathbb{R}^2\to H, (x_1,x_2)\mapsto (x_1,x_2,x_1+x_2)$ $H$ $\alpha_1=\alpha(e_1)=(1,0,1)$ $\alpha_2=\alpha(e_2)=(0,1,1)$ $(x_1,x_2,x_1+x_2)$ $\alpha$ $(x_1,x_2)$ $(x_1,x_2)$ $(y_1, y_2)$ $(x_1,x_2,x_1+x_2)\cdot (y_1,y_2,y_1+y_2)=2x_1y_1+2x_2y_2+x_1y_2+x_2y_1$ $2$ $1$ $\sqrt 2$ $x_1y_2$ $x_2y_1$ $\pi/3$ ）
$H\times H$ $\mathbb{R}^n$ $\mathbb{R}^n$ $e_1, e_2, \cdots, e_n$ 作为基底, 所以
$\begin{aligned} ⟨ x, y ⟩ = & ⟨ \sum_{i = 1}^{n} x_{i} e_{i}, \sum_{j = 1}^{n} y_{j} e_{j} ⟩ \\ = & \sum_{i = 1}^{n} x_{i} ⟨ e_{i}, \sum_{j = 1}^{n} y_{j} e_{j} ⟩ \\ = & \sum_{i = 1}^{n} x_{i} \sum_{j = 1}^{n} y_{j} ⟨ e_{i}, e_{j} ⟩ \\ = & \sum_{i = 1}^{n} \sum_{j = 1}^{n} ⟨ e_{i}, e_{j} ⟩ x_{i} y_{j} \end{aligned}$
$g_{ij}=\langle e_i, e_j\rangle$ , 则一个内积可以写成
$⟨ x, y ⟩ = \sum_{1 \leq i, j \leq n} g_{i j} x_{i} y_{j}$
在展开式子的过程中, 第二条性质（双线性）自动满足了, 所以我们需要验证其它的两条性质. 第一条性质是对称性, 这要求
$⟨ x, y ⟩ = \sum_{1 \leq i, j \leq n} g_{i j} x_{i} y_{j} = ⟨ y, x ⟩ = \sum_{1 \leq i, j \leq n} g_{i j} y_{i} x_{j} = \sum_{1 \leq i, j \leq n} g_{j i} x_{i} y_{j}$
$1\le i, j\le n$ $g_{ij}=g_{ji}$ 成立
$x\ne 0$ ：
$⟨ x, x ⟩ = \sum_{1 \leq i, j \leq n} g_{i j} x_{i} x_{j} > 0$
而内积也可以用矩阵语言来表示
$\begin{matrix} ⟨ x, y ⟩ = x^{T} G y, 其中 G = [\begin{matrix} g_{11} & g_{12} & \dots & g_{1 n} \\ g_{21} & g_{22} & \dots & g_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ g_{n 1} & g_{n 2} & \dots & g_{n n} \end{matrix}] \end{matrix}$
$G$ 可以被视作接受两个向量输入并且给出一个数字作为输出（如下的公式块只是为了便于理解, 并非正式数学语言）
$\begin{matrix} x^{T} G y \to [\begin{matrix} y_{1} & y_{2} & \dots & y_{n} \\ ↓ & ↓ & \dots & ↓ \\ x_{1} & \to & g_{11} & g_{12} & \dots & g_{1 n} \\ x_{2} & \to & g_{21} & g_{22} & \dots & g_{2 n} \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ x_{n} & \to & g_{n 1} & g_{n 2} & \dots & g_{n n} \end{matrix}] \to \sum_{全部} [\begin{matrix} g_{11} x_{1} y_{1} & g_{12} x_{1} y_{2} & \dots & g_{1 n} x_{1} y_{n} \\ g_{21} x_{2} y_{1} & g_{22} x_{2} y_{2} & \dots & g_{2 n} x_{2} y_{n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ g_{n 1} x_{n} y_{1} & g_{n 2} x_{n} y_{2} & \dots & g_{n n} x_{n} y_{n} \end{matrix}] \end{matrix}$
$G^{\mathrm{T}}=G$ $g_{ij}=g_{ji}$ $x\ne 0$ $x^{\mathrm{T}}Gx>0$ $f(x)=x^{\mathrm{T}}Gx$ $x$ $0$ $\mathbb{R}^n$ $G$ $G=I_n$ $n\times n$ $x^{\mathrm{T}}Gx=x^{\mathrm{T}}I_n x=x^{\mathrm{T}}x=x_1^2+x_2^2+\cdots +x_n^2\ge 0$ $0$ $0$ 值, 这恰好就是标准内积. 对于一般的空间, 只需把这里的基底换成对应的基底即可.
$\mathbb{R}^n$ $\alpha\cdot\beta\le |\alpha||\beta|$ , 此外还有余弦定理, 三角不等式, 又或许你学过一个向量在另一个向量的投影. 下文将会证明这些结果可以直接拓展到任意的内积空间.
(1) 柯西不等式
$|\langle \alpha,\beta\rangle|\le |\alpha||\beta|$ $\arccos$ 呢？接下来我将会使用一点点技巧来证明它确实是对的.
考虑如下函数
$f (t) = ⟨ α + t β, α + t β ⟩ = ⟨ α, α ⟩ + 2 t ⟨ α, β ⟩ + t^{2} ⟨ β, β ⟩$
$\langle \beta,\beta\rangle\ne 0$ $f(t)\ge 0$ $\alpha+t\beta=0$ $\Delta=b^2-4ac=4\langle\alpha,\beta\rangle^2-4\langle\alpha,\alpha\rangle\langle\beta,\beta\rangle\le 0$ $\alpha+t\beta=0$ $t$ $\langle\alpha,\beta\rangle^2\le \langle\alpha,\alpha\rangle\langle\beta,\beta\rangle=|\alpha|^2|\beta|^2\Rightarrow |\langle\alpha,\beta\rangle|\le|\alpha||\beta|$ $\alpha$ $\beta$ 共线
(2) 余弦定理
$| α - β | = \sqrt{⟨ α - β, α - β ⟩} = \sqrt{⟨ α, α ⟩ + ⟨ β, β ⟩ - 2 ⟨ α, β ⟩} = \sqrt{| α |^{2} + | β |^{2} - 2 | α | | β | \cos θ}$
$OAB$ $\alpha=\vec{OA},\beta=\vec{OB}$ , 则
$|\vec{AB}|=|\alpha-\beta|=\sqrt{|\vec{OA}|^2+|\vec{OB}|^2-2|\vec{OA}||\vec{OB}|\cos\theta}$
$\alpha\perp\beta$ $\langle\alpha,\beta\rangle$ $0$ , 得到了勾股定理
(3) 三角不等式
$|\alpha+\beta|=\sqrt{|\alpha|^2+|\beta|^2+2|\alpha||\beta|\cos\theta}\le\sqrt{|\alpha|^2+|\beta|^2+2|\alpha||\beta|}=\sqrt{(|\alpha|+|\beta|)^2}=|\alpha|+|\beta|$
(4) 一个向量在其它向量上的投影
$\alpha,\beta\in H$ $\beta$ $\alpha$ $\dfrac{\langle\alpha,\beta\rangle}{\langle\alpha,\alpha\rangle}\alpha$ . 这是因为
$\frac{⟨ α, β ⟩}{⟨ α, α ⟩} α = \frac{| α | | β | \cos ∠ (α, β)}{| α |^{2}} | α | \frac{α}{| α |} = (| β | \cos ∠ (α, β)) \frac{α}{| α |}$
$|\beta|\cos\angle(\alpha,\beta)$ $\dfrac{\alpha}{|\alpha|}$ $\beta$ $\alpha$ $\operatorname{proj}_{\alpha}(\beta)$ .

等距同态和施密特正交化

$(\mathbb{R}^n, \cdot)$ $H$ $H$ $4$ 元组

(H, 向量加法, 标量乘法, 内积)

$(\mathbb{R}^n, \cdot)$ 是一个特例, 以其上的点积作为内积：

(R^{n}, 向量加法, 标量乘法, 点积)

如果一个映射保持了"结构", 除了要是线性的, 他还应该保持内积. 这样的一个映射被称作等距同态, 这是由"等距"和"同态"构成的复合词, 反映了它不仅是线性映射(同态), 还保持度量.

$\mathbb{R}^n$ $H$ $\alpha$ $H$ $\mathbb{R}^n$ $g_{ij}=\langle e_i, e_j\rangle$ $\langle \alpha(e_i),\alpha(e_j)\rangle$ $\mathbb{R}^n$ $\mathbb{R}^n$ $i=j$ $g_{ij}=1$ $i\ne j$ $g_{ij}=0$ $\langle \alpha_i, \alpha_i\rangle =1$ $|\alpha_i|=1$ $i\ne j$ $\langle\alpha_i, \alpha_j\rangle=0$ $\alpha_i\perp\alpha_j$ $\left[\begin{array}c\alpha_1 & \alpha_2 & \cdots & \alpha_n\end{array}\right]$ $\mathbb{R}^n$ 上的内积是标准内积.

回想我们先前如何获得有限维向量空间的一个基底：先找到一组足以"表达"整个空间的向量, 然后逐渐去除线性相关的直到获得一组线性无关的向量. 为了从一个基底得到一个正交基, 我们要做的大体上差不多. 不过这次我们要去除的不是多余的向量, 而是向量中不垂直的多余的"部分". 如下的过程称作施密特正交化：

$H$ $\alpha=\left[\begin{array}c\alpha_1 & \alpha_2 & \cdots & \alpha_n \end{array}\right]$ 开始

$\beta_1=\alpha_1$
$\beta_2=\alpha_2-\operatorname{proj}_{\beta_1}(\alpha_2)$ $\beta_2\perp \beta_1$
$\beta_3=\alpha_3-\operatorname{proj}_{\beta_1}(\alpha_3)-\operatorname{proj}_{\beta_2}(\alpha_3)$ $\beta_3\perp \beta_1$ $\beta_3\perp\beta_2$ .
......
$\beta_n=\alpha_n-\operatorname{proj}_{\beta_1}(\alpha_n)-\operatorname{proj}_{\beta_2}(\alpha_n)-\cdots -\operatorname{proj}_{\beta_{n-1}}(\alpha_n)$ $\beta_n\perp\beta_i$ $i<n$ 成立
$1$ , 即归一化
$ε_{i} = \frac{β_{i}}{| β_{i} |}$
$\langle \varepsilon_i, \varepsilon_j\rangle=\left\{\begin{array}c 1, & i=j\\ 0, & i\ne j \end{array}\right.$ $H$ 的一个归一正交基

$\alpha_i$ $\mathbb{R}^n$ 的向量）


xxxxxxxxxx
# numpy 提供了方便的数组运算
import numpy as np
# ndarray 在 numpy 中是 n 维数组类型
def Gram_Schmidt(a: list[np.ndarray]) -> list[np.ndarray]:
    # 获得向量数量
    n: int = len(a)
    # 从 alpha_1 开始
    b: list[np.ndarray] = [a[0]]
    for j: int in range(1, n):
        v: np.ndarray = a[j]
        for i: int in range(i):
            bi_dot_aj: float = b[i].dot(a[j])
            bi_dot_bi: float = b[i].dot(b[i])
            v -= bi_dot_aj / bi_dot_bi * b[i]
        # 设置 b[j] 为 v
        b.append(v)
    # np.linalg.norm 计算 |beta_i|
    return [bi / np.linalg.norm(bi) for bi in b]

你是否认为这个操作看起来很熟悉？在第2章中高斯消元引出了矩阵的LU(或者PLU)分解. 因为我们在高斯消元中做行操作, 我们从左侧分离出了一个下三角矩阵, 它编码了我们操作矩阵的过程. 而在正交化过程中, 我们在对向量操作, 这些向量作为矩阵的列, 应该从右侧分离出一个记录了我们如何操作向量组的矩阵.

$\gamma_1$ $\gamma_2$ 表示除以模长的过程:

\begin{matrix} [\begin{matrix} β_{1} & α_{2} & \dots & α_{n} \end{matrix}] \overset{γ_{12}}{\to} [\begin{matrix} β_{1} & β_{2} & \dots & α_{n} \end{matrix}] \to \dots \\ \overset{γ_{1 n}}{\to} [\begin{matrix} β_{1} & β_{2} & \dots & β_{n} \end{matrix}] \overset{γ_{2}}{\to} [\begin{matrix} ε_{1} & ε_{2} & \dots & ε_{n} \end{matrix}] \end{matrix}

$j\ge 2$ $\gamma_{1j}$ $\alpha_j$ $1\le i<j$ $\beta_j$ $c_{ij}=\dfrac{\langle \beta_i, \alpha_j\rangle}{\langle \beta_i, \beta_i\rangle}$ , 则这些列操作可以为

α \overset{γ_{12} : C_{2} - c_{12} C_{1}}{\to} \overset{γ_{13} : C_{3} - c_{13} C_{1} - c_{23} C_{2}}{\to} \dots

$\gamma_{1j}$ :

$i<j$ $\color{blue}1$ 个非零的数字 )

\begin{matrix} β_{i} = [\begin{matrix} β_{1} & \dots & β_{i} & \cdot \cdot \cdot & α_{n} \end{matrix}] [\begin{matrix} 0 \\ ⋮ \\ 1 \\ ⋮ \cdot \cdot \cdot \\ 0 \end{matrix}] \end{matrix}

$i>j$ $\color{red}1$ 个非零的数字 )

\begin{matrix} α_{i} = [\begin{matrix} β_{1} & \cdot \cdot \cdot & α_{i} & \dots & α_{n} \end{matrix}] [\begin{matrix} 0 \\ ⋮ \cdot \cdot \cdot \\ 1 \\ ⋮ \\ 0 \end{matrix}] \end{matrix}

$j$ $\color{red}1$ $\color{blue}-c_{1j}, -c_{2j}, \cdots, -c_{(j-1)j}$ $\color{pink}0$ )

\begin{matrix} β_{j} = [\begin{matrix} β_{1} & \dots & α_{j} & \dots & α_{n} \end{matrix}] [\begin{matrix} - c_{1 j} \\ ⋮ \\ 1 \\ ⋮ \\ 0 \end{matrix}] \end{matrix}

$\gamma_{1j}$ 的表达式

\begin{matrix} [\begin{matrix} β_{1} & \dots & β_{j} & \dots & α_{n} \end{matrix}] = [\begin{matrix} β_{1} & \dots & α_{j} & \dots & α_{n} \end{matrix}] [\begin{matrix} 1 & - c_{1 j} \\ ⋱ & ⋮ \\ 1 \\ ⋱ \\ 1 \end{matrix}] \end{matrix}

$\gamma_1$ 实际上就是把这些列操作合并到一起

β = α γ_{12} γ_{13} \dots γ_{1 n} \Rightarrow γ_{1} = γ_{12} γ_{13} \dots γ_{1 n}

$\gamma$ 的逆, 它会更直接告诉我们关于正交化的信息：

容易验证（读者应当自己验证）

\begin{matrix} γ_{1 j}^{- 1} = [\begin{matrix} 1 & c_{1 j} \\ ⋱ & ⋮ \\ 1 \\ ⋱ \\ 1 \end{matrix}] \end{matrix}

$1$ $j$ $i$ $\color{blue}c_{ij}$ $0$ . 把它们乘到一起得到了

\begin{matrix} γ_{1}^{- 1} = γ_{1 n}^{- 1} γ_{1 (n - 1)}^{- 1} \dots γ_{12}^{- 1} = [\begin{matrix} 1 & c_{12} & \dots & c_{1 n} \\ 1 & \dots & c_{2 n} \\ ⋱ & ⋮ \\ 1 \end{matrix}] \end{matrix}

$\gamma_2$ $\beta$ 中的每个向量除以它的模长让它们归一化, 所以

\begin{matrix} γ_{2} = [\begin{matrix} | β_{1} |^{- 1} \\ | β_{2} |^{- 1} \\ ⋱ \\ | β_{n} |^{- 1} \end{matrix}] \Rightarrow γ_{2}^{- 1} = [\begin{matrix} | β_{1} | \\ | β_{2} | \\ ⋱ \\ | β_{n} | \end{matrix}] \end{matrix}

$\gamma^{-1}$ 的表达式

\begin{aligned} ε & = β γ_{2} = α γ_{1} γ_{2} = α γ \Rightarrow γ = γ_{1} γ_{2} \Rightarrow \\ γ^{- 1} & = γ_{2}^{- 1} γ_{1}^{- 1} \\ = [\begin{array}{c} | β_{1} | \\ | β_{2} | \\ ⋱ \\ | β_{n} | \end{array}] [\begin{array}{c} 1 & c_{12} & \dots & c_{1 n} \\ 1 & \dots & c_{2 n} \\ ⋱ & ⋮ \\ 1 \end{array}] \\ = [\begin{array}{c} | β_{1} | & | β_{1} | c_{12} & \dots & | β_{1} | c_{1 n} \\ | β_{2} | & \dots & | β_{2} | c_{2 n} \\ ⋱ & ⋮ \\ | β_{n} | \end{array}] \end{aligned}

$\alpha=\varepsilon \gamma^{-1}$ $H=\mathbb{R}^n$ $M=QR$ $Q$ $1$ $Q^{\mathrm{T}}Q=I_n$ $R$ 是一个上三角矩阵, 其中的系数表示出我们是如何操作向量组让它正交的.

$\alpha=\left[\begin{array}c 1 & 1 & 0 \\ 0 & 1 & 1 \\ 1 & 0 & 1 \end{array}\right]$ $\mathbb{R}^3$ 的一个基, 但并非归一正交, 让我们用施密特正交化方法把它正交化:

$\beta_1=\alpha_1=\left[\begin{array}c 1 \\ 0 \\ 1 \end{array}\right]$
$\dfrac{\langle \beta_1, \alpha_2\rangle}{\langle \beta_1, \beta_1\rangle}=\dfrac12$ $\beta_2=\alpha_2-\dfrac12\beta_1=\left[\begin{array}c 1/2 \\ 1 \\ -1/2 \end{array}\right]$ ,
$\dfrac{\langle \beta_1, \alpha_3\rangle}{\langle \beta_1, \beta_1\rangle}=\dfrac12$ $\dfrac{\langle \beta_2, \alpha_3\rangle}{\langle \beta_2, \beta_2\rangle}=\dfrac13$ $\beta_3=\alpha_3-\dfrac12\beta_1-\dfrac13\beta_2=\left[\begin{array}c -2/3 \\ 2/3 \\ 2/3 \end{array}\right]$
$\varepsilon_1= |\beta_1|^{-1}\beta_1 = \frac1{\sqrt2}\beta_1 =\frac1{\sqrt2}\left[\begin{array}c 1 \\ 0 \\ 1 \end{array}\right]$
$\varepsilon_2=|\beta_2|^{-1}\beta_2=\frac{\sqrt2}{\sqrt3}\beta_2=\dfrac1{\sqrt6}\left[\begin{array}c 1 \\ 2 \\ -1\end{array}\right]$
$\varepsilon_3=|\beta_3|^{-1}\beta_3=\frac{\sqrt3}{2}\beta_3=\dfrac1{\sqrt3}\left[\begin{array}c -1 \\ 1 \\ 1 \end{array}\right]$

$\left[\begin{array}c \varepsilon_1 & \varepsilon_2 & \varepsilon_3 \end{array}\right]$ $R$ 为

\begin{matrix} R = [\begin{matrix} \sqrt{2} \\ \sqrt{3} / \sqrt{2} \\ 2 / \sqrt{3} \end{matrix}] [\begin{array}{r} 1 & - 1 / 2 & - 1 / 2 \\ 1 & - 1 / 3 \\ 1 \end{array}] \end{matrix}

一般空间上内积的例子

$[a, b]$ 上的连续函数构成向量空间, 微积分告诉我们这样的函数总是可积的, 可以定义两个函数的内积为
$⟨ f, g ⟩ = \int_{a}^{b} f (x) g (x) d x$
$x$ $\mu(x)$ $[a, b]$ 上的加权内积
$⟨ f, g ⟩ = \int_{a}^{b} f (x) g (x) μ (x) d x$
这样定义的内积对泛函分析和信号处理等很有用
$\langle X, Y\rangle=\operatorname{E}(XY)$ . 即使你不知道这是什么意思, 它为什么成立也没关系, 你只需要知道线性代数对概率论也很重要
为了比较两幅图片或者两个离散信号的相似度, 可以把它们视作向量. 内积可以反映它们有多相似.

关于李群的简介 *

初学者如果不熟悉群可以跳过这一节
$(G, \cdot)$
运算满足结合律
存在单位元
所有元素都存在逆

$Q\in \mathbb{R}^{n\times n}$ $1$ $Q^{\mathrm{T}}Q=I_n$ $Q^{-1}=Q^{\mathrm{T}}$ . 在变换后两个向量的内积是

(Q u) \cdot (Q v) = (Q u)^{T} (Q v) = u^{T} Q^{T} Q v = u^{T} I_{n} v = u^{T} v = u \cdot v

$e_i$ $1$ $e_i$ $e_j$ $0$ $1$ $P,Q$ $(PQu)\cdot (PQv)=(Qu)\cdot (Qv)=u\cdot v$ $PQ$ $n\times n$ $\mathbb{R}^n$ $O_n$ $O_n(\mathbb{R})$ . 因为元素可以连续取值, 所以这又被称作一个连续群, 或称之为李群 (得名于数学家Marius Sophus Lie, 他是连续群研究中的重要人物).

练习

$4.1$ $4$ $\alpha_1=\left[\begin{array}c 2 \\ 1 \\ 2 \\ 1 \end{array}\right]$ $\alpha_2=\left[\begin{array}c 2 \\ 1 \\ -2 \\ -1 \end{array}\right]$ $\alpha_3=\left[\begin{array}c 1 \\ 2 \\ -1 \\ -2 \end{array}\right]$ $\alpha_4=\left[\begin{array}c 1 \\ 2 \\ 1 \\ 2 \end{array}\right]$ . 计算两两之间的点积, 哪些向量对是互相垂直的？

$4.2$ $\alpha_1=\left[\begin{array}c 1 \\ -1 \\ 0 \end{array}\right]$ $\alpha_2=\left[\begin{array}c 0 \\ 1 \\ -1 \end{array}\right]$ $\operatorname{Ker}\left[\begin{array}c 1 & 1 & 1\end{array}\right]$ $v_1$ $x_1=\left[\begin{array}c 2 \\ 1 \end{array}\right]$ $v_2$ $x_2=\left[\begin{array}c 1 \\ 2 \end{array}\right]$ $v_1$ $v_2$ 的模和夹角.

$4.3$ $\alpha$ $G=\left[\begin{array}c 3 & 1 \\ 1 & 3 \end{array}\right]$ $\alpha_1$ $\alpha_2$ $0\alpha_1\alpha_2$ 的面积（面积可以用长度和角度计算, 所以面积也由内积决定）

$4.4$ $\alpha-\operatorname{proj}_{\beta}(\alpha)$ $\beta$ $\displaystyle \langle f, g\rangle=\int_0^1 f(x)g(x)\dd x$ $f(x)=1$ $g(x)=x$ $g-\operatorname{proj}_{f}g$

$4.5$ $3$ $a+bx+cx^2$ 形式的多项式)定义如下内积：

⟨ f, g ⟩ = \int_{0}^{+ \infty} f (x) g (x) e^{- x} d x

$\alpha_1=1,\alpha_2=x,\alpha_3=x^2$ 是一个基, 计算这个基下的度量矩阵并且用施密特正交化方法为这个空间找到一个归一正交基.

$4.6$ $\alpha=\varepsilon R$ $\alpha$ $\varepsilon$ $R$ $x$ , 它在归一正交基下的坐标是什么？

$V$ $V$ —— 特征值和行列式

笔者评：许多教科书引入行列式的方式莫名其妙

线性变换会在哪里出现

$V$ $\varphi: V\to V$

$a:\mathbb{R}\to\mathbb{R}$ $a_{n+m}=k_0 a_n+k_1a_{n+1}+\cdots+k_{m-1}a_{n+m-1}$ $t$ $a_{n+t}$ $a_n$ $t$ 两个数列的和数列 $t$ $t$ $R_t$ $R_{t_1+t_2}=R_{t_1}\circ R_{t_2}$ . 此外, 行变换和列变换作用在矩阵空间上, 我们可以使用它们消元或者完成正交化.

到处都有线性变换, 它们通常会乘在一起或者和自身相乘（这意味着取一个线性变换的幂）

没有哪个基更加特殊 —— 为什么我们需要不变量

$\mathbb{R}^n$ 中的坐标. 这让我们感到更加亲切, 也更容易处理. 我们已经讨论过如何在两个基底之间转换, 也学会了如何在给定的内积下从任何一个基底得到一个正交基. 然而, 这一切都建立在一个前提下：你不会为了如何选择基底而感到困难. 然而, 如果空间中并没有什么条件可以告诉你你该怎么选取基底导致你产生选择困难, 你解决问题就会困难起来. 这并不完全是一个笑话, 数学家们总是想要做出"好"的选择并且最终加入了选择公理告诉我们存在这样一个选择函数, 它总是可以从一个非空集合中选择一个元素. (这并非本文的话题, 如果你感兴趣你可以自行搜索以了解更多)

通常有很多种方式为一个向量空间选择基底并且研究映射的性质. 但是随着基向量的变化, 许多性质, 例如某个向量的坐标也会随之变化. 而那些不随基底变化的性质就被称作不变量. 找到和基底选取无关的性质通常很重要, 因为这样的性质反映了映射的本质属性. 换句话说, 当 Alice 和 Bob 从不同角度看一个空间时, 他们能得到什么共同结论?

在继续讨论这个话题之前, 我们需要回忆一些我们学过的关于(有限维)线性空间或者其上的线性映射的不变量：

线性相关性：一个向量组是否线性相关与基底选取无关
维数：一个空间的维数不会随着基底的选取而变化, 所以基底可能不同, 但是基向量的数量一定相同, 这就是空间的维数
$\mathbb{R}^n$ 到其它空间的映射, 这个映射作为一个向量组, 即使向量组本身可能线性相关, 但是它的秩告诉我们一个向量组中有多少个"有用"的向量
$\varphi$ $\dim\operatorname{Ker}\varphi$ $0$ $\mathbb{R}^n$ $0$ $\alpha$ $\alpha_2-2\alpha_1=0$ $\alpha_3-2\alpha_2=0$ $\alpha_3-4\alpha_1$ $\dim\operatorname{Ker}\varphi=n-r$ $\mathbb{R}^n\to\mathbb{R}^m$ 的情况, 秩和零化度分别对应阶梯头和自由变量的数量.

$\varphi: V_1\to V_2$ $\dim V_1=n$ $\dim V_2=m$ $r$ $m$ $n$ $\dim\operatorname{Ker}\varphi=n-r$ $V_1$ $V_2$ $\varphi: V\to V$ 并且谈论这是如何带来新性质的.

体积的变化 —— 一步步构建起行列式

第一步 —— 找到线性映射的额外不变量

先自己思考一下

$\mathbb{R}^n$ $\mathbb{R}^1=\mathbb{R}$ $k$ $\varphi(x)=[k](x)$ $\mathbb{R}^2$ . 下图和第二章初见矩阵的图是相同的图. 看看图并想想, 即使我们随便选择一个基, 我们可以知道什么关于它的性质.

几何量

$v$ $\varphi(v)$ $v$ $\varphi(v)=\lambda v$ $\lambda$ 被称作特征值, 对应的向量被称作特征向量. 我们会在之后详细讨论这些内容.

关于空间中的面积

$2$ 维空间中, 我们总是可以讨论"面积"的变化. 你可能在想, 我们都没有度量, 哪来的面积呢？好消息是, 可以证明面积变化的比例与度量的选取无关, 这可以通过用正方形近似并且证明所有的正方形缩放方式相同来证明. 如果你对此感到困惑, 请移步 3blue1brown 的视频再继续阅读本文, 视频链接：

https://www.bilibili.com/video/BV1ys411472E?p=7

第二步 —— 定义二维空间的有向面积

预备知识

$\text{p}$ $\mathrm{b}$ $\mathrm{p}$ $\mathrm{b}$ $\mathrm{p}$ $\mathrm{b}$ $4$ $4$ $3$ 维空间. 但在我们的空间中, 这是不可能的.

$n$ $\mathrm{p}$ $\mathrm{b}$ $\mathrm{d}$ $180\degree$ $\mathrm{p}$ $(-1)^k$ $k$ $1$ $k$ $-1$ .

$y=x$ $\mathrm{p}$ $90\degree$ $\mathrm{b}$ $\mathrm{p}$ $(+1)$ $(-1)$ .

我们经常使用的坐标系是右手坐标系, 因此通常认为左手坐标系为负定向.

为什么要有向面积

$\mathbb{R}^2$ , 之后我们将讨论的会是一个一般的二维线性空间

$\mathbb{R}^2$ 中有一个平行四边形, 其顶点为

A (0, 0), B (a, c), C (a + b, c + d), D (b, d)

$\alpha_1=(a,c)$ $\alpha_2=(b,d)$ $\alpha_2$ $\alpha_1$ $S=ad-bc$ $S=bc-ad$ $S=|ad-bc|$ $\alpha_1$ $\alpha_2$ 共线的情况, 这让它不可能成为平行四边形.

$0$ $\mathrm{p}$ $\mathrm{b}'$ $ad-bc$ $|ad-bc|$ $\alpha_1$ $\alpha_2$ , 因为这会改变定向. 虽然有向面积有一些缺陷, 但瑕不掩瑜, 它仍然是一个好东西. 我们将会像之前定义其它概念一样, 用几条规则来定义有向面积, 解释这些规则的合理性并且得到相关性质.

有向面积遵循的规则和基础性质

这几段定义了有向面积并且给出了一些解释

$\alpha$ $\alpha_1$ $\alpha_2$ 由平行四边形定则确定的四边形. 有向面积应该满足如下的性质：

$\alpha$ 作为输入, 其输出满足：

$k$ $k$ 倍, 即
$f (k α_{1}, α_{2}) = f (α_{1}, k α_{2}) = k f (α_{1}, α_{2})$
$k$ 为负数时, 平行四边形的定向会发生改变, 所以有向面积会变号, 考虑定向有助于去掉绝对值, 用一种更加线性的方法来考虑问题
如果一个平行四边形可以通过适当的切割和平移得到其它的四边形, 那么这两个四边形的面积应该是相同的, 然而我们不认为交换两个向量得到的平行四边形是相同的四边形.

$S$ $\left[\begin{array}c \alpha_1 & \alpha_2 \end{array}\right]$ 的有向面积：

这一段讨论了有向面积在列加减中不变

$k$ $\alpha_1$ $\alpha_1'=\alpha_1+k\alpha_2$ $\left[\begin{array}c \alpha_1' & \alpha_2 \end{array}\right]$ $f(\alpha_1,\alpha_2)=f(\alpha_1+k\alpha_2, \alpha_2)$ $\alpha_1$ $\alpha_2$ 上时结果也成立.

$0$ . 特别地, 这对一个向量和它自身成立.

$\alpha_1$ $\alpha_2$ $\alpha_2=k\alpha_1$ , 则

f (α_{1}, α_{2}) = f (α_{1}, k α_{1}) = f (α_{1}, k α_{1} - k α_{1}) = f (α_{1}, 0) = 0 f (α_{1}, α_{1}) = 0

$0$ $0$ , 把线性空间压缩到了一条线.

以下段落通过选取适当基底证明了有向面积的多线性，即对每个变量线性

$f(\alpha_1, \alpha_2+\beta)=f(\alpha_1, \alpha_2)+f(\alpha_1, \beta)$ $\beta$ $\alpha_2$ $\alpha_1$ $0$ $\alpha_1$ $\alpha_2$ $\alpha_1$ $\alpha$ $\alpha$ $\beta$ $\beta=x_1\alpha_1+x_2\alpha_2$ . 则左侧的结果为

f (α_{1}, α_{2} + β) = f (α_{1}, x_{1} α_{1} + (x_{2} + 1) α_{2}) = f (α_{1}, (x_{2} + 1) α_{2}) = (x_{2} + 1) f (α_{1}, α_{2})

右侧的结果是

f (α_{1}, α_{2}) + f (α_{1}, x_{1} α_{1} + x_{2} α_{2}) = f (α_{1}, α_{2}) + f (α_{1}, x_{2} α_{2}) = (x_{2} + 1) f (α_{1}, α_{2})

这一段讨论为什么有向面积在一定程度上比原始的面积有更好的性质

$x_1, x_2$ $x_2+1$ $\alpha_2$ $\alpha_1$ $\alpha_2$ $\alpha_1$ $x_2>0$ 的时候才能有效论证结果成立）

有向面积的新符号

$u\wedge v$ $f(u,v)$ $\mathbb{R}^n\to \mathbb{R}^m$ 时做的更换记号工作一样, 主要目的是为了简化书写. 请不要默认它像普通乘法一样满足交换律, 否则当你看到反交换的时候会感到非常困惑.

$u\wedge v$ $f(u, v)$ $f$ $\wedge$ $(k_1u_1+k_2u_2)\wedge v=k_1u_1\wedge v+k_2u_2\wedge v$ $u\wedge (k_1v_1+k_2v_2)=k_1u\wedge v_1+k_2u\wedge v_2$ (双线性). 此外我们发现把一个向量的倍数加到其它向量上并不改变结果, 这与双线性可以共同推出

\begin{aligned} 0 & = (u + v) \land (u + v) \\ = u \land (u + v) + v \land (u + v) \\ = u \land v + v \land u \\ \Rightarrow v \land u = - u \land v \end{aligned}

$f$ $u$ $v$ 是任意的, 这表明交换两个变量位置会导致计算的结果符号改变. 这被称作反交换性, 也是上文一直强调交换两个向量不同于原本向量的原因.

这一段为有向面积找了一个单位并证明有向面积构成一维线性空间

$f$ $\mathrm{m}^2$ $\alpha$ $0$ $\alpha_1\wedge \alpha_2$ $\beta_1=a\alpha_1+c\alpha_2$ $\beta_2=b\alpha_1+d\alpha_2$ $\beta_1$ $\beta_2$ 定义的平行四边形面积为

\begin{aligned} β_{1} \land β_{2} \\ = & (a α_{1} + c α_{2}) \land (b α_{1} + d α_{2}) \\ = & a α_{1} \land (b α_{1} + d α_{2}) + c α_{2} \land (b α_{1} + d α_{2}) \\ = & a α_{1} \land b α_{1} + a α_{1} \land d α_{2} + c α_{2} \land b α_{1} + c α_{2} \land d α_{2} \\ = & a b (α_{1} \land α_{1}) + a d (α_{1} \land α_{2}) + b c (α_{2} \land α_{1}) + c d (α_{2} + α_{2}) \\ = & a d (α_{1} \land α_{2}) + b c (- α_{1} \land α_{2}) \\ = & (a d - b c) (α_{1} \land α_{2}) \end{aligned}

$\alpha_1\wedge \alpha_2$ $\varphi(\mathrm{面积})=k(\mathrm{面积})$ $\varphi$ $\alpha$ $S$ $\varphi(S)$ $k=\varphi(S)/S$ $\varphi$ $k$ .

注：一般来讲向量相除不是好的运算, 但是在一维空间中是可以的.

第三步 —— 定义二维的行列式

行列式遵循的基本规则

注：Gabriel Cramer 在18世纪引入了行列式, 用于解线性方程, 英文中"determinant"和"determine"是同源词, 它决定了矩阵的一些重要性质. 然而中文的"行列式"可谓是一个奇怪的翻译, 但是既然大家都这么叫, 暂时把它接受下来就好了.

$\varphi:V\to V$ $V$ $\det\varphi=\varphi(S)/S$ $\varphi$ $\alpha$ 并且继续用它计算（因为基底不影响结果的选取）

$\alpha$ $\varphi$ $A$ $\varphi(\alpha)=\alpha A$ $A$ $\alpha$ $\det_{\alpha}(A)=\det(\varphi)=\det(\alpha A\alpha^{-1})$ $\det A$ ). 更明确地说, 它是这样定义的

\det_{α} [\begin{matrix} x & y \end{matrix}] = \frac{α (x) \land α (y)}{α_{1} \land α_{2}}

$ad-bc$

我们已经在一些规则的基础上证明了两条重要的性质, 现在我们希望得到行列式的性质, 此外还要加上另外一条.

多线性
对于第一个变量,
$(k_1u_1+k_2u_2)\wedge v=k_1u_1\wedge v + k_2u_2\wedge v$
$u$ $v$ $\alpha$ 下的坐标来表示, 我们有
$\begin{aligned} α (k_{1} x_{1} + k_{2} x_{2}) \land α (y) \\ = & (k_{1} α (x_{1}) + k_{1} α (x_{2})) \land α (y) \\ = & k_{1} α (x_{1}) \land α (y) + k_{2} α (x_{2}) \land α (y) \end{aligned}$
$\det_{\alpha}A=\det \varphi$ 为面积的比例, 这意味着
$\det_{α} [\begin{matrix} x & y \end{matrix}] = \frac{α (x) \land α (y)}{α_{1} \land α_{2}}$
$\alpha(x)\wedge\alpha(y)=(\det_{\alpha}\left[\begin{array}c x & y \end{array}\right])(\alpha_1\wedge\alpha_2)$
有向面积对第一个变量线性可以写作
$\begin{matrix} (\det_{α} [\begin{matrix} k_{1} x_{1} + k_{2} x_{2} & y \end{matrix}]) (α_{1} \land α_{2}) = \\ (k_{1} \det_{α} [\begin{matrix} x_{1} & y \end{matrix}]) (α_{1} \land α_{2}) + (k_{2} \det_{α} [\begin{matrix} x_{2} & y \end{matrix}]) (α_{1} \land α_{2}) \end{matrix}$
$\alpha_1\wedge \alpha_2$ $0$ ）
$\det_{α} [\begin{matrix} k_{1} x_{1} + k_{2} x_{2} & y \end{matrix}] = k_{1} \det_{α} [\begin{matrix} x_{1} & y \end{matrix}] + k_{2} \det_{α} [\begin{matrix} x_{2} & y \end{matrix}]$
同理可证
$\det_{α} [\begin{matrix} x & k_{1} y_{1} + k_{2} y_{2} \end{matrix}] = k_{1} \det_{α} [\begin{matrix} x & y_{1} \end{matrix}] + k_{2} \det_{α} [\begin{matrix} x & y_{2} \end{matrix}]$
所以行列式对每个变量线性, 但是注意：
$\det_{α} [\begin{matrix} x_{1} + x_{2} & y_{1} + y_{2} \end{matrix}] \neq \det_{α} [\begin{matrix} x_{1} & y_{1} \end{matrix}] + \det_{α} [\begin{matrix} x_{2} & y_{2} \end{matrix}]$
对每个变量线性意味着你需要一个个地使用线性
$\begin{matrix} \det_{α} [\begin{matrix} x_{1} + x_{2} & y_{1} + y_{2} \end{matrix}] = \det_{α} [\begin{matrix} x_{1} & y_{1} + y_{2} \end{matrix}] + \det_{α} [\begin{matrix} x_{2} & y_{1} + y_{2} \end{matrix}] \\ = \det_{α} [\begin{matrix} x_{1} & y_{1} \end{matrix}] + \det_{α} [\begin{matrix} x_{1} & y_{2} \end{matrix}] + \det_{α} [\begin{matrix} x_{2} & y_{1} \end{matrix}] + \det_{α} [\begin{matrix} x_{2} & y_{2} \end{matrix}] \end{matrix}$
如果你希望展开它, 你需要做的就像多项式乘法一样.
反交换性.
$v\wedge u=-u\wedge v$ $u=\alpha(x), v=\alpha(y)$ , 根据
$α (x) \land α (y) = (\det_{α} [\begin{matrix} x & y \end{matrix}]) (α_{1} \land α_{2})$
可以得到
$\begin{aligned} v \land u \\ = & (\det_{α} [\begin{array}{c} y & x \end{array}]) (α_{1} \land α_{2}) \\ = & - u \land v \\ = & - (\det_{α} [\begin{array}{c} x & y \end{array}]) (α_{1} \land α_{2}) \end{aligned}$
$\det_{\alpha}\left[\begin{array}c y & x \end{array}\right]=-\det_{\alpha}\left[\begin{array}c x & y \end{array}\right]$
交换向量会改变定向, 在矩阵中就是说交换矩阵的两列改变行列式的符号.
$x=y$ $\det_{\alpha}\left[\begin{array}c x & x \end{array}\right]=-\det_{\alpha}\left[\begin{array}c x & x \end{array}\right]$ $0$ $\alpha A$ 中出现重复的向量, 从而线性相关）
$1$
$\alpha$ 的面积等于它自己, 也就是说
$1 = \frac{α_{1} \land α_{2}}{α_{1} \land α_{2}}$
$I_2$ $\alpha$ $\alpha I_2=\alpha$ , 所以
$\det_{α} I_{2} = 1$

$ad-bc$ 的结果.

\begin{aligned} \det_{α} [\begin{array}{c} a & b \\ c & d \end{array}] \\ = & \det_{α} [\begin{array}{c} a & b \\ 0 & d \end{array}] + \det_{α} [\begin{array}{c} 0 & b \\ c & d \end{array}] \\ = & \det_{α} [\begin{array}{c} a & b \\ 0 & 0 \end{array}] + \det_{α} [\begin{array}{c} a & 0 \\ 0 & d \end{array}] + \det_{α} [\begin{array}{c} 0 & b \\ c & 0 \end{array}] + \det_{α} [\begin{array}{c} 0 & 0 \\ c & d \end{array}] \\ = & a b \underset{有重复的列}{\underset{⏟}{\det_{α} [\begin{array}{c} 1 & 1 \\ 0 & 0 \end{array}]}} + a d \underset{单位阵}{\underset{⏟}{\det_{α} [\begin{array}{c} 1 & 0 \\ 0 & 1 \end{array}]}} \\ + b c \underset{\begin{array}{c} 列交换后 \\ 的单位阵 \end{array}}{\underset{⏟}{\det_{α} [\begin{array}{c} 0 & 1 \\ 1 & 0 \end{array}]}} + c d \underset{有重复的列}{\underset{⏟}{\det_{α} [\begin{array}{c} 0 & 0 \\ 1 & 1 \end{array}]}} \\ = & a d - b c \end{aligned}

$1$ $\det$ $\alpha$ $\det \left[\begin{array}c a & b \\ c & d \end{array}\right]=ad-bc$

$\det\varphi$ $\det A$ $A$ $\alpha$ $\varphi$ $\beta$ $\psi$ , 这些映射可能不同, 但是它们的行列式一定相同.

$n$ 维

把有向面积的定义推进

$n$ 维空间中的行列式. 但在此之前, 我们需要找到有向面积的替代品.

$\alpha_2$ $\alpha_2$ $\alpha_1$ $\alpha_1$ $3$ $2$ $3$ $n$ $n$ $n$ $2$ $3$ -向量（有向体积）作为例子类比.

$3$ $u\wedge v\wedge w$ $f(u, v, w)$

$3$ $3$ -向量应当遵循的规则应当包括：

对每个变量线性, 即
$(k_1u_1+k_2u_2)\wedge v\wedge w=k_1 u_1\wedge v\wedge w+k_2 u_2\wedge v\wedge w$
$v$ $w$ 也有相同的公式
$u_1+u_2$ $v\wedge w$ $u_1$ $u_2$ $v\wedge w$ 的有向距离的和）
反交换性, 如果交换两个向量的位置, 结果改变符号.
${\color{red}u}\wedge {\color{lightgreen}v}\wedge {\color{blue}w}=-{\color{red}u}\wedge {\color{blue}w}\wedge {\color{lightgreen}v}=-{\color{lightgreen}v}\wedge {\color{red}u}\wedge {\color{blue}w}=- {\color{blue}w}\wedge {\color{lightgreen}v}\wedge{\color{red}u}$

$3$ $\alpha$ $\alpha_1\wedge \alpha_2\wedge\alpha_3$ $3$ -向量组成的空间是一个一维空间.

$n$ 维行列式

$2\times 2$ $1$

$n$ $\varphi$ $n\times n$ $n$ $n\times n$ 矩阵的行列式：

$\det:\mathbb{R}^{n\times n}\to \mathbb{R}$ , 满足：

$1\le i\le n$ ,
$\det [\begin{matrix} \dots & k_{1} v_{i} + k_{2} v_{i}^{'} & \dots \end{matrix}] = k_{1} \det [\begin{matrix} \dots & v_{i} & \dots \end{matrix}] + k_{2} \det [\begin{matrix} \dots & v_{i}^{'} & \dots \end{matrix}]$
$i\ne j$ ,
$\det [\begin{matrix} \dots & v_{i} & \dots & v_{j} & \dots \end{matrix}] = - \det [\begin{matrix} \dots & v_{j} & \dots & v_{i} & \dots \end{matrix}]$
$\det I_n=1$

$C_i-kC_j$ $A$ $B$ $\det A=\det B$ $0$

\begin{aligned} \det [\begin{array}{c} \dots & v_{i} - k v_{j} & \dots & v_{j} & \dots \end{array}] \\ = & \det [\begin{array}{c} \dots & v_{i} & \dots & v_{j} & \dots \end{array}] - k [\begin{array}{c} \dots & v_{j} & \dots & v_{j} & \dots \end{array}] \\ = & \det [\begin{array}{c} \dots & v_{i} & \dots & v_{j} & \dots \end{array}] - k \cdot 0 \\ = & \det [\begin{array}{c} \dots & v_{i} & \dots & v_{j} & \dots \end{array}] \end{aligned}

$0$ $0$ , 以两个三阶矩阵为例：

\begin{matrix} \det [\begin{matrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{matrix}] =_{C_{3} - 3 C_{1}}^{C_{2} - 2 C_{1}} \det [\begin{matrix} 1 & 0 & 0 \\ 4 & - 3 & - 6 \\ 7 & - 6 & - 12 \end{matrix}] \overset{C_{3} - 2 C_{2}}{=} \det [\begin{matrix} 1 & 0 & 0 \\ 4 & - 3 & 0 \\ 7 & - 6 & 0 \end{matrix}] = 0 \end{matrix}

\begin{aligned} \det [\begin{array}{c} 2 & 1 & 1 \\ 1 & 2 & 1 \\ 1 & 1 & 2 \end{array}] =_{C_{3} - C_{1} / 2}^{C_{2} - C_{1} / 2} \det [\begin{array}{c} 2 & 0 & 0 \\ 1 & 1.5 & 0.5 \\ 1 & 0.5 & 1.5 \end{array}] \overset{C_{3} - C_{2} / 3}{=} \\ \det [\begin{array}{c} 2 & 0 & 0 \\ 1 & 1.5 & 0 \\ 1 & 0.5 & 4 / 3 \end{array}] = 2 \cdot 1.5 \cdot (4 / 3) \det [\begin{array}{c} 1 & 0 & 0 \\ 0.5 & 1 & 0 \\ 0.5 & 1 / 3 & 1 \end{array}] =_{C_{2} - C_{3} / 3}^{C_{1} - C_{3} / 2} \\ 4 \det [\begin{array}{c} 1 & 0 & 0 \\ 0.5 & 1 & 0 \\ 0 & 0 & 1 \end{array}] \overset{C_{1} - C_{2} / 2}{=} 4 \det [\begin{array}{c} 1 \\ 1 \\ 1 \end{array}] = 4 \end{aligned}

$0$ $0$ $0$ $0$ $1$ $1$ 的情况下消掉对角线下方的所有元素. 所以行列式会等于这些阶梯头, 即消元后对角线上元素的乘积.（所以事实上我们并不需要关心把它变成下三角矩阵以后的其它过程, 直接把对角线上的元素相乘就可以）

行列式的重要性质

$\alpha$ $\beta$ $V$ $\varphi:V\to V$ $A$ $B$ $\det A=\det B$ $\alpha$ $\alpha P$ $\beta=\alpha P$ $\varphi$ $\beta^{-1}\varphi \beta=(\alpha P)^{-1}\varphi (\alpha P)=P^{-1}(\alpha^{-1}\varphi\alpha)P=P^{-1}A P$ $A$ $P$ $\det P^{-1}A P=\det A$ .
$\det I_n=1$ $n$ $n$ 维有向体积）推导出的性质.
在列加减下保持不变.
$A$ $0$ $\det A=0$ $\dim \operatorname{Ker}A>0$ $\rank A<n$ .
$\det A\ne 0$ $\dim\operatorname{Ker}A=0$ $y=A(x)$ $y\in\mathbb{R}^n$ $A$ 是双射, 存在逆矩阵.
$\det A=0$ $A$ $\det A=0$ $0$ $0$ $y=A(x)$ $y$ 无解, 而对有些有无穷多解.
$\det(\varphi\circ\varphi)=\det(\varphi)\det(\varphi)$ $\det\psi\ne 0$ $\psi(\alpha)$ 也是一个基底, 所以
$\begin{aligned} \det (φ \circ ψ) \\ = & \frac{(φ \circ ψ) (α_{1}) \land (φ \circ ψ) (α_{2}) \land \dots \land (φ \circ ψ) (α_{n})}{α_{1} \land α_{2} \land \dots \land α_{n}} \\ = & \frac{φ (ψ (α_{1})) \land φ (ψ (α_{2})) \land \dots \land φ (ψ (α_{n}))}{ψ (α_{1}) \land ψ (α_{2}) \land \dots \land ψ (α_{n})} \frac{ψ (α_{1}) \land ψ (α_{2}) \land \dots \land ψ (α_{n})}{α_{1} \land α_{2} \land \dots \land α_{n}} \\ = & \det (φ) \det (ψ) \end{aligned}$
$\det\psi\ne 0$ $\operatorname{Ker}(\psi)\ne 0\Rightarrow\operatorname{Ker}(\varphi\circ\psi)\ne 0$ $\det(\varphi\circ\psi)=0$ $V=\mathbb{R}^n$ $\varphi$ $\psi$ $n\times n$ $\det(AB)=\det(A)\det(B)$ $A,B\in\mathbb{R}^{n\times n}$ 成立
$\pm 1$ $1$ $I_n$ . 例如：
$\begin{aligned} \det [\begin{array}{c} 1 \\ 1 \\ 1 \\ 1 \end{array}] \overset{C_{12}}{=} - \det [\begin{array}{c} 1 \\ 1 \\ 1 \\ 1 \end{array}] \overset{C_{24}}{=} \\ \det [\begin{array}{c} 1 \\ 1 \\ 1 \\ 1 \end{array}] \overset{C_{34}}{=} - \det I_{n} = - 1 \end{aligned}$
$i$ $i$ $1$ $\det I_n=1$ , 最多相差一个符号.
$\det A=\det A^{\mathrm{T}}$
$P^{\mathrm{T}}P=I_n$ $\det A=\det A^{\mathrm{T}}$ 当作一个既定的结果接受下来并且直接向下读. 这个性质告诉我们可以像做列变换一样做行变换. 也就是说你在不使用列变换的前提下得到一个矩阵的行列式. 此外, 教材中通常更喜欢做行变换, 好处是它让记号更统一, 操作更为一致.
证明这一点需要一些技巧. 首先先对下三角和上三角矩阵证明这个事实：
对于一个下三角矩阵, 它的特征值就是对角线上所有元素的乘积. 而对上三角矩阵, 也是这样, 我们总是可以消除对角线上方的所有元素.
$\begin{matrix} \det [\begin{matrix} 1 \\ 1 & 4 \\ 5 & 1 & 4 \end{matrix}] =_{(2) C_{1} - C_{2} / 4 - 5 C_{3} / 4}^{(1) C_{2} - C_{3} / 4} \det [\begin{matrix} 1 \\ 4 \\ 4 \end{matrix}] = 1 \cdot 4 \cdot 4 = 16 \\ \det [\begin{matrix} 1 & 1 & 5 \\ 4 & 1 \\ 4 \end{matrix}] =_{(2) C_{3} - 5 C_{1} - C_{3} / 4}^{(1) C_{2} - C_{1}} \det [\begin{matrix} 1 \\ 4 \\ 4 \end{matrix}] = 1 \cdot 4 \cdot 4 = 16 \end{matrix}$
$0$ $n$ $0$ )
所以对下三角和上三角矩阵, 可以写出
$\det L = \det L^{T}, \det U = \det U^{T}$
$n\times n$ 的矩阵, PLU 分解把它分解为
$A = P L U \Rightarrow \det A = \det P \det L \det U$
由于
$A^{T} = U^{T} L^{T} P^{T} \Rightarrow \det A^{T} = \det U^{T} \det L^{T} \det P^{T}$
$\det L=\det L^{\mathrm{T}}, \det U=\det U^{\mathrm{T}}$ $\det P=\det P^{\mathrm{T}}$ .
$P^{\mathrm{T}}P=I_n$ $\det P^{\mathrm{T}}\det P=\det I_n=1$ $\det P=1$ $\det P^{\mathrm{T}}=1$ $\det P=-1$ $\det P^{\mathrm{T}}=-1$ $\det P=\det P^{\mathrm{T}}$ , 完成了证明.

一会我们还会见到行列式的更多性质.

第五步 —— 行列式的第二定义

请不要被这一节吓到, 它的目的是解释某些教材上吓人的公式. 它基本没有提供关于行列式的直觉, 而是把学生淹没在计算的海洋当中.

有些教科书 $n\times n$ 矩阵的行列式定义为

\begin{matrix} \det [\begin{matrix} a_{11} & a_{12} & \dots & a_{1 n} \\ a_{21} & a_{22} & \dots & a_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ a_{n 1} & a_{n 2} & \dots & a_{n n} \end{matrix}] = \sum_{j_{1} \sim j_{n}} (- 1)^{τ (j_{1}, j_{2}, \dots, j_{n})} a_{1 j_{1}} a_{2 j_{2}} \dots a_{n j_{2}} \end{matrix}

$\tau(j_1, j_2, \cdots, j_n)=\tau(j_1)+\tau(j_2)+\cdots +\tau(j_n)$ $\tau(j_i)$ $i_j$ $i_j$ $\tau$ $j$ $\det A$ . 又或者更确切地说这一大堆东西它真的有意义吗？为了回答这些问题, 让我们回到

\det (φ) = \frac{φ (α_{1}) \land φ (α_{2}) \land \dots \land φ (α_{n})}{α_{1} \land α_{2} \land \dots \land α_{n}}

$A$ $(i,j)$ $a_{ij}$ $\varphi$ $\alpha$ $A$ $\varphi(\alpha)=\alpha A$ , 且

φ (α_{1}) = \sum_{i = 1}^{n} a_{i 1} α_{i}, φ (α_{2}) = \sum_{i = 1}^{n} a_{i 2} α_{i}, \dots, φ (α_{n}) = \sum_{i = 1}^{n} a_{i n} α_{i}

所以

\det (φ) = \frac{(\sum_{i = 1}^{n} a_{i 1} α_{i}) \land (\sum_{i = 1}^{n} a_{i 2} α_{i}) \land \dots \land (\sum_{i = 1}^{n} a_{i n} α_{i})}{α_{1} \land α_{2} \land \dots \land α_{n}}

$1\sim n$ 的范围）从而得到

\det (φ) = \sum_{i_{1} \sim i_{n}} \frac{a_{i_{1} 1} a_{i_{2} 2} \dots a_{i_{n} n} α_{i_{1}} \land α_{i_{2}} \land \dots \land α_{i_{n}}}{α_{1} \land α_{2} \land \dots \land α_{n}}

$i_p=i_q$ $\alpha_{i_p}$ $\alpha_{i_q}$ $\alpha_{i_1}\wedge\alpha_{i_2}\wedge\cdots\wedge\alpha_{i_n}$ $0$ $i_j$ $1$ $n$ $\alpha_{i_1}\wedge \alpha_{i_2}\wedge\cdots\wedge\alpha_{i_n}$ $\alpha_1\wedge\alpha_2\wedge\cdots\wedge\alpha_n$ $\pm \alpha_1\wedge\alpha_2\wedge\cdots\wedge\alpha_n$ $\alpha_{i_1}\wedge \alpha_{i_2}\wedge\cdots\wedge\alpha_{i_n}$ $\varepsilon(i_1, i_2, \cdots, i_n)=\dfrac{\alpha_{i_1}\wedge \alpha_{i_2}\wedge\cdots\wedge\alpha_{i_n}}{\alpha_1\wedge\alpha_2\wedge\cdots\wedge\alpha_n}$ $\varepsilon$ $1$ $-1$ , 我们将会在下文中讨论这个符号. 所以我们可以简化等式, 并且把它写成

\det A = \det (φ) = \sum_{i_{1} \sim i_{n}} ε (i_{1}, i_{2}, \dots, i_{n}) a_{i_{1} 1} a_{i_{2} 2} \dots a_{i_{n} n}

$\det A=\det A^{\mathrm{T}}$ $i$ $j$ 并且把它等价地变成

\det A = \det A^{T} = \sum_{j_{1} \sim j_{n}} ε (j_{1}, j_{2}, \dots, j_{n}) a_{1 j_{1}} a_{2 j_{2}} \dots a_{n j_{n}}

$\varepsilon(j_1, j_2, \cdots, j_n)$ $n=2$ 时,

ε (2, 1) = \frac{α_{2} \land α_{1}}{α_{1} \land α_{2}} = \frac{- α_{1} \land α_{2}}{α_{1} \land α_{2}} = - 1

$\alpha$ 来写：

ε (2, 1) = - ε (1, 2) = - 1

$2\times 2$ 行列式来检验这个结果：

\begin{matrix} \det [\begin{matrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{matrix}] = \underset{i_{1} = 1, i_{2} = 2}{\underset{⏟}{ε (1, 2) a_{11} a_{22}}} + \underset{i_{1} = 2, i_{2} = 1}{\underset{⏟}{ε (2, 1) a_{12} a_{21}}} = a_{11} a_{22} - a_{12} a_{21} \end{matrix}

$a_{11}=a, a_{12}=b, a_{21}=c, a_{22}=d$ $ad-bc$ .

$\varepsilon(1,2)$ $\alpha_1\wedge \alpha_2$ $\alpha$ 中的两个向量, 所以改变定向.

$n=3$ 所有排列的结果：

\begin{aligned} ε (1, 2, 3) & = 1 \\ ε (1, 3, 2) & = - ε (1, 2, 3) = - 1 \\ ε (2, 1, 3) & = - ε (1, 2, 3) = - 1 \\ ε (2, 3, 1) & = - ε (1, 3, 2) = ε (1, 2, 3) = 1 \\ ε (3, 1, 2) & = - ε (1, 3, 2) = ε (1, 2, 3) = 1 \\ ε (3, 2, 1) & = - ε (1, 2, 3) = - 1 \end{aligned}

$1$ $2$ 放在第二位非常方便, 但事实证明如果用这种方法, 在看到一个排列时很难预测会做多少交换（当维数增加时这种现象尤为显著）. 为了理解为什么教材上会出现逆序数, 让我们从冒泡排序开始——这是一种不高效但对理解和解决这个问题很有帮助的排序算法.

$1$ $n$ $1, 2,...,n$ ）. 按照以下步骤进行：

$1$ . 继续处理第二个元素, 将其与第三个元素进行比较...直到我们到达最后两个元素, 然后从第一个元素重新开始. 继续这个过程, 直到序列变成有序状态.

$3,1,4,5,2$ 为例：

$3>1\Rightarrow {\color{blue}1,3},4,5,2$ $\mathrm{count}=1$ .
$3<4\Rightarrow 1,3,4,5,2$ $\mathrm{count}=1$
$4<5\Rightarrow 1,3,4,5,2$ $\mathrm{count}=1$
$5>2\Rightarrow 1,3,4,{\color{blue}2,5}$ $\mathrm{count}=2$
$1<3\Rightarrow 1,3,4,2,5$ $\mathrm{count}=2$
$3<4\Rightarrow 1,3,4,2,5$ $\mathrm{count}=2$
$4>2\Rightarrow 1,3,{\color{blue}2,4},5$ $\mathrm{count}=3$
$1<3\Rightarrow 1,3,2,4,5$ $\mathrm{count}=3$
$3>2\Rightarrow 1,{\color{blue}2,3},4,5$ $\mathrm{count}=4$

$\varepsilon(3,1,4,2,5)=(-1)^4=1$

对应的python代码是:


xxxxxxxxxx
def bubble_sort(arr: list[int]) -> int:
    "返回交换的次数"
    n: int = len(arr)
    count: int = 0
    for i in range(n):
        # 为了优化算法的标志, 无交换时退出
        swapped: bool = False
        for j in range(0, n-i-1):
            if arr[j] > arr[j+1]:
                arr[j], arr[j+1] = arr[j+1], arr[j]
                count += 1
                swapped = True
        if not swapped:
            break
    return count

# 示例
index_list = [3, 1, 4, 2, 5]
exchanges = bubble_sort(index_list)
print(exchanges)

$3,1,4,5,2$ $4$ $2$ ）, 我们称之为逆序对. 请不要急着问为什么我们要这样做. 让我们接着看这个例子：

$3,1,4,5,2$ $4$ $(3,1),(3,2),(4,2),(5,2)$ .

$4$ 次交换：

$1$ $3$ $(3,1)$ $(1,3)$ , 不再是逆序.

$2$ $5$ $(5,2)$ $(2,5)$ , 不再是逆序.

$2$ $(4,2)$ $(3,2)$ .

$4$ 次交换, 每次去除一个逆序对. 这并非巧合. 注意到我们每次只交换相邻的数字. 这只是交换了它们的相对位置, 但它们相对于其他数字的位置并没有改变. 因此, 一次交换对应一个逆序对, 通过计数逆序对, 我们就能知道进行了多少次交换.

$\tau(j_i)$ $j_i$ $j_i$ $\tau_{j_1,j_2,\cdots,j_n}(j_i)$ $j_i$ $j_1\sim j_n$ $\tau(j_i)$ $j_i$ $1\sim n$ $\tau(j_1,j_2,\cdots,j_n)=\tau(j_1)+\tau(j_2)+\cdots+\tau(j_n)$ $\tau(j_1, j_2, \cdots, j_n)$ $\varepsilon(j_1, j_2, \cdots, j_n)$ $\varepsilon=(-1)^{\tau}$ . 最终我们可以清楚地得到结果：

\begin{matrix} \det [\begin{matrix} a_{11} & a_{12} & \dots & a_{1 n} \\ a_{21} & a_{22} & \dots & a_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ a_{n 1} & a_{n 2} & \dots & a_{n n} \end{matrix}] = \sum_{j_{1} \sim j_{n}} (- 1)^{τ (j_{1}, j_{2}, \dots, j_{n})} a_{1 j_{1}} a_{2 j_{2}} \dots a_{n j_{2}} \end{matrix}

$n$ $3\times 3$ $n$ 维有向体积的和, 这种几何直观对我理解并记住它起到了很大帮助.

代数余子式

这一小节只是为了解释我们教材中的代数余子式, 然而它对理解线性映射的本质并无太大影响, 所以如果你在此过程中感到枯燥, 不妨跳过.

$n-1$ $\mathbb{R}^n\to\mathbb{R}$ $2\sim n$ $a_{i1}$ 这些项可以改变, 映射具有形式

\begin{matrix} \det [\begin{matrix} a_{11} & a_{12} & \dots & a_{1 n} \\ a_{21} & a_{22} & \dots & a_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ a_{n 1} & a_{n 2} & \dots & a_{n n} \end{matrix}] = c_{1} a_{11} + c_{2} a_{21} + \dots + c_{n} a_{n 1} \end{matrix}

$c_i$ $A$ 的第一列无关的常数, 但是它们会随着其它列的改变而改变. 当把其它列都定下来之后它们就成为了常数.

$c_i$ 找到显式的表达式

\begin{aligned} \det [\begin{array}{c} a_{11} & a_{12} & \dots & a_{1 n} \\ a_{21} & a_{22} & \dots & a_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ a_{n 1} & a_{n 2} & \dots & a_{n n} \end{array}] = & \det [\begin{array}{c} a_{11} & a_{12} & \dots & a_{1 n} \\ a_{22} & \dots & a_{2 n} \\ ⋮ & ⋱ & ⋮ \\ a_{n 2} & \dots & a_{n n} \end{array}] + \det [\begin{array}{c} a_{12} & \dots & a_{1 n} \\ a_{21} & a_{22} & \dots & a_{2 n} \\ ⋮ & ⋱ & ⋮ \\ a_{n 2} & \dots & a_{n n} \end{array}] \\ + \dots + \det [\begin{array}{c} a_{12} & \dots & a_{1 n} \\ a_{22} & \dots & a_{2 n} \\ ⋮ & ⋱ & ⋮ \\ a_{n 1} & a_{n 2} & \dots & a_{n n} \end{array}] \\ = & a_{11} \det [\begin{array}{c} 1 & a_{12} & \dots & a_{1 n} \\ a_{22} & \dots & a_{2 n} \\ ⋮ & ⋱ & ⋮ \\ a_{n 2} & \dots & a_{n n} \end{array}] + a_{21} \det [\begin{array}{c} a_{12} & \dots & a_{1 n} \\ 1 & a_{22} & \dots & a_{2 n} \\ ⋮ & ⋱ & ⋮ \\ a_{n 2} & \dots & a_{n n} \end{array}] \\ + \dots + \det [\begin{array}{c} a_{12} & \dots & a_{1 n} \\ a_{22} & \dots & a_{2 n} \\ ⋮ & ⋱ & ⋮ \\ 1 & a_{n 2} & \dots & a_{n n} \end{array}] \end{aligned}

所以

\begin{matrix} c_{1} = \det [\begin{matrix} 1 & a_{12} & \dots & a_{1 n} \\ a_{22} & \dots & a_{2 n} \\ ⋮ & ⋱ & ⋮ \\ a_{n 2} & \dots & a_{n n} \end{matrix}] = \det [\begin{matrix} 1 \\ a_{22} & \dots & a_{2 n} \\ ⋮ & ⋱ & ⋮ \\ a_{n 2} & \dots & a_{n n} \end{matrix}] \end{matrix}

显然, 右侧的行列式等于

\begin{matrix} \det [\begin{matrix} a_{22} & a_{23} & \dots & a_{2 n} \\ a_{31} & a_{32} & \dots & a_{3 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ a_{n 2} & a_{n 3} & \dots & a_{n n} \end{matrix}] \end{matrix}

$1$ , 它们是一样的)

$c_2$ , 我们有必要把第二行换到第一行并且得到

\begin{matrix} c_{2} = - \det [\begin{matrix} 1 \\ a_{12} & a_{13} & \dots & a_{1 n} \\ a_{32} & a_{33} & \dots & a_{3 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ a_{n 2} & a_{n 2} & \dots & a_{n n} \end{matrix}] = - \det [\begin{matrix} a_{12} & a_{13} & \dots & a_{1 n} \\ a_{32} & a_{33} & \dots & a_{3 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ a_{n 2} & a_{n 2} & \dots & a_{n n} \end{matrix}] \end{matrix}

$c_3$ $a_3$ 浮到了顶端, 而同时没有改变其它行之间的相对位置. 这里进行了两次交换, 所以前面的符号又变为了正的.

不难发现这样的规律

\begin{matrix} c_{i} = (- 1)^{i - 1} \det [\begin{matrix} ⋮ & ⋮ & ⋮ & ⋮ \\ a_{i - 1, 2} & a_{i - 1, 3} & \dots & a_{i - 1, n} \\ a_{i + 1, 2} & a_{i + 1, 3} & \dots & a_{i + 1, n} \\ ⋮ & ⋮ & ⋮ & ⋮ \end{matrix}] \end{matrix}

$(-1)^{i-1}$ $i-1$ $i$ 行和第一列被删除了.

$j$ 列变化而固定其它的列时, 我们发现对应的因子和第一列的类似

\begin{matrix} c_{i j} = (- 1)^{i + j - 2} \det [\begin{matrix} ⋱ & ⋮ & ⋮ & \cdot \cdot \cdot \\ \dots & a_{i - 1, j - 1} & a_{i - 1, j + 1} & \dots \\ \dots & a_{i + 1, j - 1} & a_{i + 1, j + 1} & \dots \\ \cdot \cdot \cdot & ⋮ & ⋮ & ⋱ \end{matrix}] \end{matrix}

$(-1)^{i+j-2}$ $(-1)^{i+j}$ $(-1)^{i+j-2}$ $(i,j)$ $(-1)^{i+j-2}$ $i$ $j$ $c_{ij}$ $a_{ij}$ $1\le j\le n$ , 有

\det A = \sum_{i = 1}^{n} a_{i j} c_{i j}

$j$ $j$ $c_{ij}$ . 我们称其为行列式的列展开.

$1\le i\le n$ :

\det A = \sum_{j = 1}^{n} a_{i j} c_{i j}

线性方程 —— 行列式的另一个角度

Cramer 法则

$A:\mathbb{R}^n\to\mathbb{R}^m$ $m>n$ $A$ $y$ $y=Ax$ $n>m$ $A$ $y$ $x$ $m=n$ $n$ $n$ 个未知数.

$A:\mathbb{R}^n\to\mathbb{R}^n$ $\det A=0$ $0$ $A$ $\det A\ne 0$ $\dim\operatorname{Ker}A=0$ $\dim\operatorname{Im}A=n-\dim\operatorname{Ker}A=n$ $\mathbb{R}^n$ . 在本节中, 我们将会为这样的线性方程的解写出显式的表达式.

$\alpha_1\sim\alpha_n$ 为列向量：

y = x_{1} α_{1} + x_{2} α_{2} + \dots + x_{n} α_{n}

$x_1$ , 我们应该消掉所有其它的变量. 神奇的是, 我们可以通过计算行列式完成这一过程.

\det (y, α_{2}, \dots, α_{n}) = \det (x_{1} α_{1} + x_{2} α_{2} + \dots + x_{n} α_{n}, α_{2}, \dots, α_{n})

注意到列相减不改变行列式的值, 所以

\det (y, α_{2}, \dots, α_{n}) = \det (x_{1} α_{1}, α_{2}, \dots, α_{n}) = x_{1} \det (α_{1}, α_{2}, \dots, α_{n})

$y_1$ $x_1$ $x_i$ $y$ $\alpha_i$ ）

x_{1} = \frac{\det (y, α_{2}, \dots, α_{n})}{\det (α_{1}, α_{2}, \dots, α_{n})}

$\det A$ $n=2$ 时 Cramer 法则为什么合理, 对应面积的比等于对应向量长度的比.

线性方程的判别式

本小节讨论的是我个人关于行列式对于线性方程作用的理解.

$\Delta=b^2-4ac$ $p(x)$ $p(x)=0$ $ax^2+bx+c=0$ $\Delta=b^2-4ac=0$ $A$ $\mathbb{R}$ $0$ $Ax=0$ $x=0$ $\det A$ $0$ $Ax=0$ 有无穷多解. 这意味着此时出现了"重根", 所以行列式可以视作是一种类型的判别式, 它表明方程是否有重根.

伴随矩阵

本小节只是为了解释课本中的伴随矩阵概念, 它对理解线性映射的本质并无太大影响. 所以如果你感到无聊, 可以直接跳过它.

$\det A\ne 0$ $y=Ax$ , 有

x_{1} = \frac{\det (y, x_{2}, \dots, x_{n})}{\det A}

我们可以用代数余子式把这个式子展开：

x_{1} = (\det A)^{- 1} \sum_{i = 1}^{n} y_{i} c_{i 1} = (\det A)^{- 1} [\begin{matrix} c_{11} & c_{21} & \dots & c_{n 1} \end{matrix}] y

类似地

x_{j} = (\det A)^{- 1} \sum_{i = 1}^{n} y_{i} c_{i j} = (\det A)^{- 1} [\begin{matrix} c_{1 j} & c_{2 j} & \dots & c_{i j} \end{matrix}] y

$y$ $x$ ：

\begin{matrix} x = [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}] = (\det A)^{- 1} [\begin{matrix} c_{11} & c_{21} & \dots & c_{n 1} \\ c_{12} & c_{22} & \dots & c_{n 2} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ c_{1 n} & c_{2 n} & \dots & c_{n n} \end{matrix}] y \end{matrix}

$A^{-1}$ 用余子式表示的显式表达式.

\begin{matrix} A^{- 1} = (\det A)^{- 1} [\begin{matrix} c_{11} & c_{21} & \dots & c_{n 1} \\ c_{12} & c_{22} & \dots & c_{n 2} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ c_{1 n} & c_{2 n} & \dots & c_{n n} \end{matrix}] \end{matrix}

$(A^{-1})_{ji}=(\det A)^{-1} c_{ij}$ $\operatorname{adj} A$ $A^*$ $\det A\ne 0$ $A^{-1}=(\det A)^{-1}\operatorname{adj}A$ , 这可以推出

A adj A = (adj A) A = (\det A) I_{n}

$\det A\ne 0$ $A\operatorname{adj}A=(\det A)I_n=0$ $\det A=0$ $A$ 成立.

特征值和特征向量

$\mathbb{C}$ $n$ $\mathbb{C}$ $n$ 个根（计重数）

最初的想法

$v$ $\varphi(v)=\lambda v$ $\lambda$ $v$ $(\lambda\operatorname{Id})(v)=\lambda v$ . 所以只需要把两个式子相减, 就存在某些非零向量满足

(λ Id - φ) (v) = 0

$(\lambda, v)$ $\det(\lambda\operatorname{Id}-\varphi)=0$ $\lambda$ $\lambda$ $(\lambda\operatorname{Id}-\varphi)(v)=0$ $v$ .

$\varphi$ $A$ $\lambda \operatorname{Id}-\varphi$ $\lambda I_n-A$ $(\lambda I_n-A)x=0$ , 就可以找到所有特征向量的坐标, 例如, 假设

\begin{matrix} A = [\begin{matrix} 3 & 1 \\ 6 & 4 \end{matrix}] \end{matrix}

$\lambda$ $x$ $Ax=\lambda x$ . 先计算

\begin{matrix} \det (λ I_{2} - A) = \det (λ [\begin{matrix} 1 \\ 1 \end{matrix}] - [\begin{matrix} 3 & 1 \\ 6 & 4 \end{matrix}]) = \det ([\begin{matrix} λ - 3 & 1 \\ 6 & λ - 4 \end{matrix}]) \\ = (λ - 3) (λ - 4) - 1 \cdot 6 = λ^{2} - 7 λ + 12 - 6 = (λ - 1) (λ - 6) \end{matrix}

$p(\lambda)=(\lambda-1)(\lambda-6)$ $p(\lambda)=0$ $\lambda_1=1,\lambda_2=6$ $\lambda_1=1$ $(\lambda_1 I_2-A)x=0\Rightarrow x=t\left[\begin{array}{c}2\\-1\end{array}\right]$ $u_1=\left[\begin{array}{c}2\\-1\end{array}\right]$ $\lambda_2=6$ $(\lambda_2 I_2-A)x=0\Rightarrow x=t\left[\begin{array}{c}1\\3\end{array}\right]$ $u_2=\left[\begin{array}{c}1\\3\end{array}\right]$ $x=t u_1$ $Ax=\lambda_1 x$ $x=tu_2$ $Ax=\lambda_2 x$ . 所以我们找到了所有的特征值和特征向量.

$n$ $\deg p=n$ $n$ $p(\lambda)=(\lambda-\lambda_1)(\lambda-\lambda_2)\cdots(\lambda-\lambda_n)$ $\lambda_i$ 都是一个复数.

没有重根的情况

$i\ne j$ $\lambda_i\ne\lambda_j$ $n$ $(\lambda_iI_n-A)x=0$ $n$ $u_1\sim u_n$ . 矩阵可以写作如下形式：

\begin{matrix} A [\begin{matrix} u_{1} & u_{2} & \dots & u_{n} \end{matrix}] = [\begin{matrix} u_{1} & u_{2} & \dots & u_{n} \end{matrix}] [\begin{matrix} λ_{1} \\ λ_{2} \\ ⋱ \\ λ_{n} \end{matrix}] \end{matrix}

$u_1\sim u_n$ $\left[\begin{array}{c}u_1 & u_2 & \cdots & u_n\end{array}\right]$ $\alpha$ $\beta$ $\beta$ 下的矩阵表示是一个对角矩阵.

\begin{matrix} Λ = [\begin{matrix} λ_{1} \\ λ_{2} \\ ⋱ \\ λ_{n} \end{matrix}] \end{matrix}

$\varphi$ $\beta$ （最多相差一个特征向量乘的系数, 因为特征向量的倍数也是特征向量）

有重根的情况

$V$ $\varphi$ $\lambda$ $V_{\lambda}=\left\{v\in V|\varphi(v)=\lambda v\right\}$ $V_{\lambda}=\operatorname{Ker}(\lambda\operatorname{Id}-\varphi)$ $\lambda$ $0$ 向量.

$\det(\lambda\operatorname{Id}-\varphi)=0$ $v$ $\varphi(v)=\lambda v$ $1$ $A=\left[\begin{array}{c}0 & 1 \\ 0 & 0\end{array}\right]$ $\lambda^2=0\Rightarrow \lambda=0$ $Ax=0$ $x=\left[\begin{array}{c} t \\ 0 \end{array}\right]$ $1$ $\lambda=0$ $2$ . 这意味着没有足够的向量构成一个基, 矩阵因此不可对角化.

$\operatorname{Id}$ $1$ $\lambda=1$ $n$ $p(\lambda)=(\lambda-1)^n$ $V$ $n$ $1$ $0$ 的矩阵（即单位矩阵）

$\lambda$ $\dim V_{\lambda}$ $1\le\text{几何重数}\le\text{代数重数}$ $1$ $1$ $1$ . 只有当所有的几何重数都等于代数重数时这个线性变换才能对角化.

练习

$5.1$ $4$ $\mathbb{R}^{2\times 2}$ 的一个基

\begin{matrix} e_{11} = [\begin{matrix} 1 & 0 \\ 0 & 0 \end{matrix}], e_{12} = [\begin{matrix} 0 & 1 \\ 0 & 0 \end{matrix}], e_{21} = [\begin{matrix} 0 & 0 \\ 1 & 0 \end{matrix}], e_{22} = [\begin{matrix} 0 & 0 \\ 0 & 1 \end{matrix}] \end{matrix}

$T:\mathbb{R}^{2\times 2}\to\mathbb{R}^{2\times 2}$ $e_{11},e_{12},e_{21},e_{22}$ 下的矩阵表示是什么？

$5.2$ $a_{n+2}=a_{n}+a_{n+1}$ $s_1:1,0,1,1,2,3,\cdots$ $s_2:0,1,1,2,3,5,\cdots$ $t$ $R_t$ $R_1, R_2, R_3$ $A_1, A_2, A_3$ $A_1, A_2, A_3$ 之间有何联系.

$5.3$ $\mathbb{R}^2$ $(0, 0), (3, 1), (9, 5), (6, 4)$ 的平行四边形通常的(即不包含定向的)面积.

$5.4$ $(u-v)\wedge (u-v)=0$ $u\wedge v=-v\wedge u$ .

$5.5$ $\left[\begin{array}c\beta_1 & \beta_2 & \beta_3\end{array}\right]=\left[\begin{array}c\alpha_1 & \alpha_2 & \alpha_3\end{array}\right] A$ , 也就是说

\begin{matrix} β_{1} = a_{11} α_{1} + a_{21} α_{2} + a_{31} α_{3} \\ β_{2} = a_{12} α_{1} + a_{22} α_{2} + a_{32} α_{3} \\ β_{3} = a_{13} α_{1} + a_{23} α_{2} + a_{33} α_{3} \end{matrix}

$\beta_1\wedge \beta_2\wedge \beta_3$ $\alpha_1\wedge\alpha_2\wedge\alpha_3$ 表示. 观察其中有多少非零的项, 并把它们的符号和所有三个数字排列的定向比较.

$5.6$ $5.5$ 中得到的结果计算如下行列式：

\begin{matrix} \det [\begin{matrix} 3 & 1 & 1 \\ 1 & 3 & 1 \\ 1 & 1 & 3 \end{matrix}] \end{matrix}

$5.7$ $\det A=\det A^{\mathrm{T}}$ $Q$ $|\det Q|=1$ .

$5.8$ $\varepsilon(3,1,5,2,4)$ 并计算下列矩阵的行列式：

\begin{matrix} \det [\begin{matrix} 3 \\ 1 \\ 5 \\ 2 \\ 4 \end{matrix}] \end{matrix}

$5.9$ $x$ $x$ $\mathbb{R}^3$ $x$ $0$ ？

\begin{matrix} \det [\begin{matrix} x_{1} & 1 & 4 \\ x_{2} & 2 & 5 \\ x_{3} & 3 & 6 \end{matrix}] \end{matrix}

$5.10$ 分别使用 Cramer 法则和消元解下列方程：

\begin{matrix} [\begin{matrix} 3 \\ 1 \\ 4 \end{matrix}] = [\begin{matrix} 1 \\ 1 \\ 1 \end{matrix}] x_{1} + [\begin{matrix} 1 \\ 2 \\ 2 \end{matrix}] x_{2} + [\begin{matrix} 1 \\ 2 \\ 3 \end{matrix}] x_{3} \end{matrix}

$5.11$ $\mathbb{R}^2$ $U$ $A=\left[\begin{array}c 1 & 1 \\ & 2 \end{array}\right]$ $AU=U\Lambda\Rightarrow A=U\Lambda U^{-1}$ $A=U\Lambda U^{-1}$ $A^{127}$ , 你可以从中体会到对角化为什么让计算矩阵的幂更加方便.

$5.12$ $\varphi$ $\det\varphi=\lambda_1\lambda_2\cdots\lambda_n$ . （提示：行列式无关于基底选取）

$5.13$ $0$ 特征值, 为什么这个结果成立.

$5.14$ $\lambda$ $\varphi$ $\lambda^2$ $\varphi^2=\varphi\circ\varphi$ $v$ $\varphi^2$ 的一个特征向量.

$5.15$ $p(\lambda)$ $A$ $A=U\Lambda U^{-1}$ $p(A)=0$ $p(A)$ $p(A)=p_0 I_n+p_1 A + p_2 A^2 + \cdots + p_{n-1} A^{n-1} + p_n A^n$ $p_i$ $\lambda^i$ 项的系数

$5.16$ $A\in\mathbb{R}^{m\times m}, B\in\mathbb{R}^{n\times n}, C\in\mathbb{R}^{m\times n}$ $\det\left[\begin{array}c A & C\\ & B\end{array}\right]=\det A\cdot\det B$ $\det A=0$ $\det A\ne 0$ ）

$5.17$ $A=\left[\begin{array}c 1 & 1 \\ & 1 & 1 \\ & & 1\end{array}\right]$ $A^2, A^3,A^4$ $A^k$ 的结果.

$5.18$ 证明除了恒同映射以外, 没有线性映射可以被相似对角化为单位矩阵.