|
7 | 7 |
|
8 | 8 | # CS 229 机器学习课程复习材料
|
9 | 9 |
|
| 10 | +[TOC] |
10 | 11 | ## 一、线性代数复习和参考
|
11 | 12 |
|
12 | 13 | ### 1. 基础概念和符号
|
|
311 | 312 |
|
312 | 313 | 矩阵$A \in \mathbb{R}^{m \times n}$的**列秩**是构成线性无关集合的$A$的最大列子集的大小。 由于术语的多样性,这通常简称为$A$的线性无关列的数量。同样,行秩是构成线性无关集合的$A$的最大行数。 对于任何矩阵$A \in \mathbb{R}^{m \times n}$,事实证明$A$的列秩等于$A$的行秩(尽管我们不会证明这一点),因此两个量统称为$A$的**秩**,用 $\text{rank}(A)$表示。 以下是秩的一些基本属性:
|
313 | 314 |
|
314 |
| -- 对于 $A \in \mathbb{R}^{m \times n}$,$\text{rank}(A) \leq min(m, n)$,如果$ \text(A) = \text{min} (m, n)$,则: $A$ 被称作**满秩**。 |
315 |
| -- 对于 $A \in \mathbb{R}^{m \times n}$, $\text{rank}(A) = \text{rank}(A^T)$ |
316 |
| -- 对于 $A \in \mathbb{R}^{m \times n}$,$B \in \mathbb{R}^{n \times p}$ ,$\text{rank}(A) \leq \text{min} ( \text{rank}(A), \text{rank}(B))$ |
317 |
| -- 对于 $A,B \in \mathbb{R}^{m \times n}$,$\text{rank}(A + B) \leq \text{rank}(A) + \text{rank}(B)$ |
| 315 | +- 对于 $A \in \mathbb{R}^{m \times n}$,$\text{rank}(A) \leq min(m, n)$,如果$ \text(A) = \text{min} (m, n)$,则: $A$ 被称作**满秩**。 |
| 316 | + |
| 317 | +- 对于 $A \in \mathbb{R}^{m \times n}$, $\text{rank}(A) = \text{rank}(A^T)$ |
| 318 | + |
| 319 | +- 对于 $A \in \mathbb{R}^{m \times n}$,$B \in \mathbb{R}^{n \times p}$ ,$\text{rank}(A) \leq \text{min} ( \text{rank}(A), \text{rank}(B))$ |
| 320 | + |
| 321 | +- 对于 $A,B \in \mathbb{R}^{m \times n}$,$\text{rank}(A + B) \leq \text{rank}(A) + \text{rank}(B)$ |
318 | 322 |
|
319 | 323 | ##### 3.7 方阵的逆
|
320 | 324 |
|
|
326 | 330 | 为了使方阵A具有逆$A^{-1}$,则$A$必须是满秩。 我们很快就会发现,除了满秩之外,还有许多其它的充分必要条件。
|
327 | 331 | 以下是逆的属性; 假设$A,B \in \mathbb{R}^{n \times n}$,而且是非奇异的:
|
328 | 332 |
|
329 |
| -- $(A^{-1})^{-1} = A$ |
330 |
| -- $(AB)^{-1} = B^{-1}A^{-1}$ |
331 |
| -- $(A^{-1})^{T} =(A^{T})^{-1} $因此,该矩阵通常表示为$A^{-T}$。 |
332 |
| - 作为如何使用逆的示例,考虑线性方程组,$Ax = b$,其中$A \in \mathbb{R}^{n \times n}$,$x,b\in \mathbb{R}$, 如果$A$是非奇异的(即可逆的),那么$x = A^{-1}b$。 (如果$A \in \mathbb{R}^{m \times n}$不是方阵,这公式还有用吗?) |
| 333 | +- $(A^{-1})^{-1} = A$ |
| 334 | +- $(AB)^{-1} = B^{-1}A^{-1}$ |
| 335 | +- $(A^{-1})^{T} =(A^{T})^{-1} $因此,该矩阵通常表示为$A^{-T}$。 |
| 336 | +作为如何使用逆的示例,考虑线性方程组,$Ax = b$,其中$A \in \mathbb{R}^{n \times n}$,$x,b\in \mathbb{R}$, 如果$A$是非奇异的(即可逆的),那么$x = A^{-1}b$。 (如果$A \in \mathbb{R}^{m \times n}$不是方阵,这公式还有用吗?) |
| 337 | + |
| 338 | +##### 3.8 正交阵 |
| 339 | + |
| 340 | +如果 $x^Ty=0$,则两个向量$x,y\in \mathbb{R}^{n}$ 是**正交**的。如果$\|x\|_2=1$,则向量$x\in \mathbb{R}^{n}$ 被归一化。如果一个方阵$U\in \mathbb{R}^{n \times n}$的所有列彼此正交并被归一化(这些列然后被称为正交),则方阵$U$是正交阵(注意在讨论向量时的意义不一样)。 |
| 341 | + |
| 342 | +它可以从正交性和正态性的定义中得出: |
| 343 | +$$ |
| 344 | +U^ TU = I = U U^T |
| 345 | +$$ |
| 346 | + |
| 347 | +换句话说,正交矩阵的逆是其转置。 注意,如果$U$不是方阵 :即,$U\in \mathbb{R}^{m \times n}$,$n <m$ ,但其列仍然是正交的,则$U^TU = I$,但是$UU^T \neq I$。我们通常只使用术语"正交"来描述先前的情况 ,其中$U$是方阵。 |
| 348 | +正交矩阵的另一个好的特性是在具有正交矩阵的向量上操作不会改变其欧几里德范数,即: |
| 349 | +$$ |
| 350 | +\|U x\|_{2}=\|x\|_{2} |
| 351 | +$$ |
| 352 | +对于任何 $x\in \mathbb{R}$ , $U\in \mathbb{R}^{n}$是正交的。 |
| 353 | + |
| 354 | +##### 3.9 矩阵的值域和零空间 |
| 355 | + |
| 356 | +一组向量$\{x_{1}, \ldots x_{n}\}$是可以表示为$\{x_{1}, \ldots x_{n}\}$的线性组合的所有向量的集合。 即: |
| 357 | +$$ |
| 358 | +\operatorname{span}\left(\left\{x_{1}, \ldots x_{n}\right\}\right)=\left\{v : v=\sum_{i=1}^{n} \alpha_{i} x_{i}, \quad \alpha_{i} \in \mathbb{R}\right\} |
| 359 | +$$ |
| 360 | +可以证明,如果$\{x_{1}, \ldots x_{n}\}$是一组$n$个线性无关的向量,其中每个$x_i \in \mathbb{R}^{n}$,则$\text{span}(\{x_{1}, \ldots x_{n}\})=\mathbb{R}^{n}$。 换句话说,任何向量$v\in \mathbb{R}^{n}$都可以写成$x_1$到$x_n$的线性组合。 |
| 361 | + |
| 362 | +向量$y\in \mathbb{R}^{m}$投影到$\{x_{1}, \ldots x_{n}\}$(这里我们假设$x_i \in \mathbb{R}^{m}$)得到向量$v \in \operatorname{span}(\{x_{1}, \ldots, x_{n}\})$,由欧几里德范数$\|v - y\|_2$可以得知,这样$v$尽可能接近$y$。 |
| 363 | + |
| 364 | +我们将投影表示为$\operatorname{Proj}\left(y ;\left\{x_{1}, \ldots x_{n}\right\}\right)$,并且可以将其正式定义为: |
| 365 | +$$ |
| 366 | +\operatorname{Proj}\left(y ;\left\{x_{1}, \ldots x_{n}\right\}\right)=\operatorname{argmin}_{v \in \operatorname{span}\left(\left\{x_{1}, \ldots, x_{n}\right\}\right)}\|y-v\|_{2} |
| 367 | +$$ |
| 368 | +矩阵$A\in \mathbb{R}^{m \times n}$的值域(有时也称为列空间),表示为$\mathcal{R}(A)$,是$A$列的跨度。换句话说, |
| 369 | +$$ |
| 370 | +\mathcal{R}(A)=\left\{v \in \mathbb{R}^{m} : v=A x, x \in \mathbb{R}^{n}\right\} |
| 371 | +$$ |
| 372 | +做一些技术性的假设(即$A$是满秩且$n <m$),向量$y \in \mathbb{R}^{m}$到$A$的范围的投影由下式给出: |
| 373 | +$$ |
| 374 | +\operatorname{Proj}(y ; A)=\operatorname{argmin}_{v \in \mathcal{R}(A)}\|v-y\|_{2}=A\left(A^{T} A\right)^{-1} A^{T} y |
| 375 | +$$ |
| 376 | +这个最后的方程应该看起来非常熟悉,因为它几乎与我们在课程中(我们将很快再次得出)得到的公式:用于参数的最小二乘估计一样。 看一下投影的定义,显而易见,这实际上是我们在最小二乘问题中最小化的目标(除了范数的平方这里有点不一样,这不会影响找到最优解),所以这些问题自然是非常相关的。 |
| 377 | + |
| 378 | +当$A$只包含一列时,$a \in \mathbb{R}^{m}$,这给出了向量投影到一条线上的特殊情况: |
| 379 | +$$ |
| 380 | +\operatorname{Proj}(y ; a)=\frac{a a^{T}}{a^{T} a} y |
| 381 | +$$ |
| 382 | +一个矩阵$A\in \mathbb{R}^{m \times n}$的零空间 $\mathcal{N}(A)$ 是所有乘以$A$时等于0向量的集合,即: |
| 383 | +$$ |
| 384 | +\mathcal{N}(A)=\left\{x \in \mathbb{R}^{n} : A x=0\right\} |
| 385 | +$$ |
| 386 | +注意,$\mathcal{R}(A)$中的向量的大小为$m$,而 $\mathcal{N}(A)$ 中的向量的大小为$n$,因此$\mathcal{R}(A^T)$和 $\mathcal{N}(A)$ 中的向量的大小均为$\mathbb{R}^{n}$。 事实上,还有很多例子。 证明: |
| 387 | +$$ |
| 388 | +\left\{w : w=u+v, u \in \mathcal{R}\left(A^{T}\right), v \in \mathcal{N}(A)\right\}=\mathbb{R}^{n} \text { and } \mathcal{R}\left(A^{T}\right) \cap \mathcal{N}(A)=\{\mathbf{0}\} |
| 389 | +$$ |
| 390 | +换句话说,$\mathcal{R}(A^T)$和 $\mathcal{N}(A)$ 是不相交的子集,它们一起跨越$\mathbb{R}^{n}$的整个空间。 这种类型的集合称为**正交补**,我们用$\mathcal{R}(A^T)= \mathcal{N}(A)^{\perp}$表示。 |
333 | 391 |
|
334 | 392 | **后面部分还在翻译中,请关注[github](https://github.com/fengdu78/Data-Science-Notes/tree/master/0.math)的更新,近期将更新完。**
|
335 | 393 |
|
0 commit comments