线性代数 -- 基础知识

矩阵内积(Inner product)与外积(Outer product)与迹(Trace)

矩阵的内积。具体地，对于两个 $m×n$ 矩阵 $A, B$ ，其内积定义为（对应相乘之和，结果为标量）：

\langle A, B\rangle=\sum_{i, j} a_{i j} b_{i j}

从定义可以看出 $\langle A, B\rangle=\langle B, A\rangle$ ，符合交换律。对于方阵 $A \in \mathbb{R}^{m \times m}$ ，定义 $A$ 的迹（对角线元素之和），记为 $\operatorname{Tr}(A)=\sum_{i=1}^m a_{i i}$ 。容易看出 $\operatorname{Tr}(A)=\operatorname{Tr}\left(A^{\mathrm{T}}\right)$ 。

矩阵的外积。给定 $m \times 1$ 列向量 $\mathbf{u}$ 和 $1 \times n$ 行向量 $\mathbf{v}$ ，它们的外积 $\mathbf{u} \otimes \mathbf{v}$ 被定义为 $m \times n$ 矩阵 $\mathbf{A}$ ，结果出自

\mathbf{u} \otimes \mathbf{v}=\mathbf{A}=\mathbf{u} \mathbf{v}

那么对于 $m \times n$ 矩阵 $A, B$ ，以下关系式成立，矩阵的内积等于矩阵外积的迹：

\langle A, B\rangle=\operatorname{Tr}\left(A B^{\mathrm{T}}\right)=\operatorname{Tr}\left(B^{\mathrm{T}} A\right) .

更一般地, 假设 $A_1, A_2, \cdots, A_m$ 的维数是相容的 $\left(A_i\right.$ 的列数等于 $A_{i+1}, i=$ $1,2, \cdots, m-1$ 的行数, 且 $A_m$ 的列数等于 $A_1$ 的行数), 则

\operatorname{Tr}\left(A_1 A_2 \cdots A_m\right)=\operatorname{Tr}\left(A_2 A_3 \cdots A_m A_1\right)=\cdots=\operatorname{Tr}\left(A_m A_1 \cdots A_{m-1}\right) .

正交矩阵（Orthogonal matrix）

对于矩阵 $A \in \mathbb{R}^{m \times n}$ 和同阶单位矩阵 $I$ , 若 $A^{\mathrm{T}} A=A A^{\mathrm{T}}=I$ , 则称 $A$ 为正交矩阵，若其中 $m>n$ ，则称其为列正交矩阵。其行向量与列向量皆为正交的单位向量。

以下是一些重要的性质：

作为一个线性映射 (变换矩阵)，正交矩阵保持距离不变，所以它是一个保距映射，具体例子为旋转矩阵与镜射矩阵。
行列式值为 +1 的正交矩阵，称为特殊正交矩阵，它是一个旋转矩阵。
行列式值为-1的正交矩阵，称为瑕旋转矩阵。瑕旋转是旋转加上镜射。镜射也是一种瑕旋转。
所有 $n \times n$ 的正交矩阵对矩阵乘法形成一个群 $O(n)$ ，称为正交群。亦即，正交矩阵与正交矩阵的乘积也是一个正交矩阵。
所有特殊正交矩阵对矩阵乘法形成一个子群 $S O(n)$ ，称为特殊正交群。亦即，旋转矩阵与旋转矩阵的乘积也是一个旋转矩阵。

正定矩阵(positive-definite matrix)与半正定矩阵(positive semi-definite matrix)

对于对称矩阵 $A \in \mathcal{S}^m$ , 定义如下二次型：

f(x)=x^{\mathrm{T}} A x=\sum_{i, j=1}^m a_{i j} x_i x_j .

如果对于任意的向量 $x \in \mathbb{R}^m$ 都有 $f(x) \geqslant 0$ 成立, 则称 $A$ 为半正定矩阵, 记为 $A \succeq 0$

进一步地, 如果对于任意的非零向量 $x$ , 都有 $f(x)>0$ 成立, 则称 $A$ 为正定矩阵, 记为 $A \succ 0$ .

根据正定矩阵和半正定矩阵的定义，半正定矩阵包括了正定矩阵。

正定矩阵使得向量M是沿着原向量 $x$ 的正方向进行缩放的，即旋转角度小于90度。

推荐两篇文章帮助理解：
1、如何理解正定矩阵和半正定矩阵
2、浅谈「正定矩阵」和「半正定矩阵」

矩阵的秩（Rank）

给定一个 $m × n$ 矩阵 $A$ ，其 $m$ 个行向量的极大线性无关组对应的向量个数称为矩阵的行秩；其 $n$ 个列向量的极大线性无关组对应的向量个数称为矩阵的列秩．矩阵的行秩等于列秩，称为矩阵的秩，且，秩=列秩=行秩是恒成立的。记为：

\operatorname{rank}(A)

以下是一些重要的性质：

$m × n$ 矩阵的秩不大于 $m$ 且不大于 $n$ 的一个非负整数，表示为 $\operatorname{rank}(A) ≤ \operatorname{min}(m, n)$ 。
有尽可能大的秩的矩阵被称为有满秩；类似的，否则矩阵是秩不足（或称为“欠秩”）。
只有零矩阵有秩0

有了秩，讨论线性方程组 $Ax = b$ 解的存在性问题会容易很多。定义增广矩阵 $\widehat{A}=(A, b)$ ，是由系数矩阵的右边添上线性方程组等号右边的常数列得到的矩阵。

如果方程组的解存在, 即 $b$ 可以由 $A$ 的列向量线性表达, 因此 $\operatorname{rank}(A)=\operatorname{rank}(\widehat{A})$ ; 反之也成立. 具体地，有如下定理:

若 $\operatorname{rank}(A)<\operatorname{rank}(A \mid B)$ ，方程组无解。
若 $\operatorname{rank}(A)=\operatorname{rank}(A \mid B)=n$ ，方程组有唯一解。
若 $\operatorname{rank}(A)=\operatorname{rank}(A \mid B)<n$ ，方程组无穷解。
$\operatorname{rank}(A)>\operatorname{rank}(A \mid B)$ 不会发生，因为增广矩阵的秩大于等于系数矩阵的秩。

行空间与列空间

行空间定义（Row Space）

设一 $m$ 行 $n$ 列实元素矩阵为 $A$ （ $m × n$ 矩阵），则其行空间是由矩阵 $A$ 的所有行向量所生成的 $R^n$ 上的子空间，记作 $C(A^T)$ 或 $R(A)$ 。其中，矩阵 $A^T$ （ $n × m$ 矩阵）被称为矩阵A的转置。

行空间 $C(A^T)$ 中的所有向量均为矩阵 $A$ 的行向量的某种线性组合，都为 $R^n$ 上的向量（即 $n$ 维向量）。其维度等于矩阵 $A$ 的行秩，最大为 $\min(m,n)$ 。即：

\operatorname{dim}C(A^T)=\operatorname{dim}R({A})=\operatorname{rank}\left({A}^T\right) \leq \min \left(m, n\right)

行空间 $C(A^T)$ 的一组自然基底是矩阵 $A$ 的行向量的最大线性无关组。

列空间定义 (Column Space)

设一 $m$ 行 $n$ 列实元素矩阵为 ${A}\left(m \times n\right.$ 矩阵)，则其列空间是由矩阵A的所有列向量生成的 ${R}^m$ 上的子空间，记作 $C({A})$ 。矩阵 ${A}$ 的列空间 $C({A})$ 中的所有向量均为矩阵 ${A}$ 中列向量的某种线性组合，都为 ${R}^m$ 上的向量 (即 $m$ 维向量)。
$C({A})$ 的维度等于矩阵 ${A}$ 的列秩，最大为 $\min (m, n)$ 。即：

\operatorname{dim} C(\mathbf{A})=\operatorname{rank}(\mathbf{A}) \leq \min \left(m_{,} n\right)

列空间 $C(\mathbf{A})$ 的一组自然基底是矩阵 $\mathbf{A}$ 的列向量的最大线性无关组。

像空间和零空间

零空间（NULL Space）

矩阵 $A \in \mathbb{R}^{m \times n}$ 的零空间是方程 $Ax = 0$ 的所有解 $x$ 的集合。它也叫做 $A$ 的核，核空间。

\mathcal{N}(A)=\left\{x \mid A x=0, x \in \mathbb{R}^n\right\}

由于零空间是解所构成的空间，因此从 $x$ 的角度来看，零空间是 $\mathbb{R}^{n}$ 的子空间，取决于列向量的个数。

对于任意矩阵A，零向量都是一个特解，因为A乘以零向量总是得到零向量，即 $A·0=0$ 。因此，零空间一定存在，至少包含零向量。

如果 $A \in \mathbb{R}^{m \times n}$ 矩阵，那么 $A$ 的秩为 $r$ ，而 $m$ 是列向量的数量。

如果 $r<n$ ，那么矩阵 $A$ 的列向量中必然存在线性相关的向量，使得它们的线性组合等于零向量。这意味着矩阵 $A$ 的零空间中至少存在一个非零向量，因为这些线性相关的向量可以表示为非零向量的线性组合。
如果 $r=n$ ，那么矩阵 $A$ 的列向量线性无关，零向量是唯一的特解，因此零空间只包含零向量。

像空间（Range Space）

** 像定义：在线性代数中，像通常指一个线性变换将一个向量空间映射到另一个向量空间的结果。例如，如果 $A$ 是一个 $m×n$ 的矩阵，它将一个 $n$ 维向量空间映射到一个 $m$ 维向量空间。 $A$ 的像（也称为值域）是所有 $Ax$ 的向量的集合，其中 $x$ 是 $n$ 维向量空间中的任意向量。

对于矩阵 $A \in \mathbb{R}^{m \times n}$ ，定义像空间：

\mathcal{R}(A)=\left\{y \mid y=A x, x \in \mathbb{R}^n\right\}

从定义容易看出, 像空间 $\mathcal{R}(A)$ 的维数，记为 $\operatorname{dim}(\mathcal{R}(A))$ ，等于矩阵的秩 $\operatorname{rank}(A)$ 。此外, 线性方程组 $A x=b$ 有解，当且仅当 $b \in \mathcal{R}(A)$ ，并且方程的解都可以表示为 $x^*+v$ ，其中 $A x^*=b, v \in \mathcal{N}(A)$ 。

对于像空间与零空间的维数关系，不加证明地给出如下结论:

\operatorname{dim}(\mathcal{R}(A))+\operatorname{dim}(\mathcal{N}(A))=n

进一步地, 给定任意矩阵 $A \in \mathbb{R}^{m \times n}$ , 全空间 $\mathbb{R}^n$ 都可以写成如下正交分解:

\mathbb{R}^n=\mathcal{N}(A) \oplus \mathcal{R}\left(A^{\mathrm{T}}\right), \quad x \perp y \quad \forall x \in \mathcal{N}(A), y \in \mathcal{R}\left(A^{\mathrm{T}}\right) .

这个结论在推导线性空间的一些基本性质时尤其有用.

参考文章：
线性代数(2)：列空间与零空间

行列式(Determinant)

定义方阵的行列式，记为 $\det(A)$

\operatorname{det}(A)=\sum_{\sigma \in S_n}(-1)^{\tau(\sigma)} \prod_{i=1}^n a_{i \sigma(i)},

其中 $S_n$ 是 $1,2, \cdots, n$ 的所有全排列的集合， $\tau(\sigma)$ 为排列 $\sigma$ 的逆序数.

对于两个方阵 $A, B \in \mathbb{R}^{n \times n}$ 和常数 $c \in \mathbb{R}$ ，有以下特征：

$\operatorname{det}(A)=\operatorname{det}\left(A^{\mathrm{T}}\right)$ ;
$\operatorname{det}(A B)=\operatorname{det}(A) \operatorname{det}(B)$ ;
$\operatorname{det}(c A)=c^n \operatorname{det}(A)$ ;

根据行列式是否为 0 , 我们可以将方阵分为两类：奇异与非奇异。对于方阵 $A$ , 若 $\operatorname{det}(A)=0$ , 则称其为奇异的，否则为非奇异的。

对于非奇异矩阵 $A$ ，可以证明 $\operatorname{rank}(A)=n$ . 如果 $A$ 奇异，那么有 $\operatorname{rank}(A) \leqslant n-1$ 。由于非奇异矩阵的满秩性，其对应的线性方程组的解总是存在并且唯一的。

特征值(eigenvalue)与特征向量(eigenvector)

对于矩阵 $A \in \mathbb{R}^{n \times n}$ ，若存在某个非零向量 $v \in \mathbb{R}^n$ 和 $\lambda \in \mathbb{R}$ 使得 $A v=\lambda v$ ，则称 $\lambda$ 为该矩阵的特征值， $v$ 为 $A$ 的 (对应于特征值 $\lambda$ 的) 特征向量，矩阵 $A-\lambda I$ 的零空间称为特征值 $\lambda$ 的特征子空间。

即 $v$ 经过这个线性变换之后，得到的新向量仍然与原来的 $v$ 保持在同一条直线上，但其长度或方向也许会改变， $\lambda$ 即特征向量的长度在该线性变换下缩放的比例。

如果特征值为正，则表示 $v$ 在经过线性变换的作用后方向不变；如果特征值为负，说明方向反转；如果特征值为0，则是表示缩回零点。

A v=\lambda v

IA v=I\lambda v, A v=(\lambda I)v,A v-(\lambda I)v=0

(A-\lambda I)v=0

以上的推导容易看出，根据线性方程组理论，为了使这个方程有非零解，矩阵 $A-\lambda I$ 的行列式必须是零(参考零空间的推导）， $λ$ 是 $A$ 的特征值的充要条件是 $\det(λI − A) = 0$ 。

由行列式的定义可知， $\operatorname{det}(\lambda I-A)$ 是一个关于 $\lambda$ 的 $n$ 次多项式，我们称其为矩阵 $A$ 的特征多项式，一般用 $p_A(\lambda)$ 表示。因为 $p_A(\lambda)$ 是 $n$ 次多项式, 故其有 $n$ 个复根。

特别地，对于一个对角矩阵，我们可知其特征值全体就是其对角线元素构成的集合。对于特征值 $\lambda$ ，如果它是特征多项式的单根，我们称之为单特征值；如果它是特征多项式的重根，我们称之为重特征值， $n$ 阶方阵有 $n$ 个特征值 (计重数)。

参考：特征值和特征向量wiki

逆矩阵(Inverse matrix)

给定一个 $n$ 阶方阵 $A$ ，若存在一 $n$ 阶方阵 $B$ ，使得 $AB = BA = I_n$ ，其 $I_n$ 为 $n$ 阶单位阵，则称 $A$ 是可逆的，且 $B$ 是 $A$ 的逆矩阵，记作 $A^{-1}$

只有方阵（n×n 的矩阵）才可能有逆矩阵。若方阵 $A$ 的逆矩阵存在，则称 $A$ 为非奇异方阵或可逆方阵。

在矩阵里是没有除的概念的，但可以乘以逆矩阵，这和除是相同的。

可逆矩阵在几何上有很重要的意义，它表示一个线性变换可以逆转回去，即存在一个逆变换，将变换后的结果映射回原来的向量。

其具有以下性质：

$\left(A^{-1}\right)^{-1}=A$
$(\lambda A)^{-1}=\frac{1}{\lambda} \times A^{-1}$
$(A B)^{-1}=B^{-1} A^{-1}$
$\left(A^{\mathrm{T}}\right)^{-1}=\left(A^{-1}\right)^{\mathrm{T}}\left(A^{\mathrm{T}}\right.$ 为 $\mathrm{A}$ 的转置 $)$
$\operatorname{det}\left(A^{-1}\right)=\frac{1}{\operatorname{det}(A)}$ (det为行列式)

参考：数学乐-逆矩阵

但不是所有的矩阵都存在逆矩阵，若矩阵可以需要满足充要条件： $\operatorname{det}\left(A\right)$ 不等于 0。可以简单的理解为，如果 $A$ 不是满秩矩阵，则 $AB = I_n$ 不可能成立，因为单位矩阵是满秩矩阵。（行列式不为零的矩阵不一定是满秩矩阵，但当矩阵是方阵时，行列式不为零的矩阵一定是满秩矩阵。）

广义逆阵(Generalized inverse)

一般问题中，矩阵 $A$ 不是方阵，即使是方阵，也不一定可逆．因此，需要定义矩阵的广义逆．对于矩阵 $A ∈ R^{m×n}$ ，其广义逆是指使得

AGA = A

成立的 $G ∈ R^{n×m}$ 即 $A$ 的广义逆阵。一般来说广义逆是不唯一的．可以看到当 $m = n$ 且 $A$ 可逆时，其广义逆唯一，即 $A^{−1}$ 。

建构广义逆阵的目的是针对可逆矩阵以外的矩阵（例如非方阵的矩阵）可以找到一矩阵有一些类似逆矩阵的特性。任意的矩阵都存在广义逆阵，若一矩阵存在逆矩阵，逆矩阵即为其唯一的广义逆阵。

有些时候，广义逆特指摩尔－彭若斯广义逆(Moore – Penrose)，记为 $A^\dagger$ ，其满足：

$A A^{\dagger} A=A$ ;
$A^{\dagger} A A^{\dagger}=A^{\dagger}$ ;
$A A^{\dagger}$ 为对称矩阵;
$A^{\dagger} A$ 为对称矩阵.

可以证明这种广义逆矩阵总是存在且是唯一的。我们给出一种 Moore-Penrose 逆矩阵的构造方法，记 $r=\operatorname{rank}(A)$ ，那么 $A$ 可以做一个满秩分解，即 $A=B C$ ，其中 $B \in \mathbb{R}^{m \times r}，C \in \mathbb{R}^{r \times n}$ ，且 $\operatorname{rank}(A)=\operatorname{rank}(B)=\operatorname{rank}(C)=r$ ，那么 Moore - Penrose 逆矩阵可以表示为

A^{\dagger}=C^{\mathrm{T}}\left(C C^{\mathrm{T}}\right)^{-1}\left(B^{\mathrm{T}} B\right)^{-1} B^{\mathrm{T}} .

进一步地, 给出 Moore - Penrose 逆的一些性质。

$\left(A^{\dagger}\right)^{\dagger}=A$ ;
$\left(A^{\mathrm{T}}\right)^{\dagger}=\left(A^{\dagger}\right)^{\mathrm{T}}$
$A^{\dagger} A A^{\mathrm{T}}=A^{\mathrm{T}}$ .

有了 Moore - Penrose 广义逆矩阵之后, 对于线性方程组 $A x=b$ (假设其解存在, 即 $b \in \mathcal{R}(A))$ , 其任意解可以表示为 $x=A^{\dagger} b+\left(I-A^{\dagger} A\right) w$ , 其中 $w \in \mathbb{R}^n$ 为任意向量.

目录CONTENT