File tree Expand file tree Collapse file tree 1 file changed +2
-4
lines changed Expand file tree Collapse file tree 1 file changed +2
-4
lines changed Original file line number Diff line number Diff line change @@ -6,8 +6,6 @@ AI的开发离不开算法那我们就接下来开始学习算法吧!
6
6
7
7
t-分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE) 是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外,t-SNE 是一种非线性降维算法,非常适用于高维数据降维到2维或者3维,进行可视化。
8
8
9
- t-SNE是流形学习(Manifold Learning)分支下的一种模型。其实不懂流形学习并不影响我们理解t-SNE,这里只是对其做一个简单的介绍,完全可以跳过。
10
-
11
9
流形(Manifold)是局部具有欧式空间性质的空间,包括各种纬度的曲线曲面,例如球体、弯曲的平面等。流形的局部和欧式空间是同构的。但是在全局尺度下不能简单的用欧式几何计算。一个好理解的例子就是地球,我们在几米的尺度下计算三角形的内角和是180度,但是在几百公里的尺度下会大于180度。因为地球上有意义的数据点是分布在球面上的,此时需要引入黎曼几何来描述问题。可见流形空间在真实世界中其实是大量存在的,所以我们对数据进行了一个假设,假设数据都是在高维欧式空间中的低维流形,如果我们能将其降维到低维,就能直观的发现其本质和一些内在规律。t-SNE就是基于这样的一个假设。
12
10
13
11
降维(dimension reduction)的基本作用:
@@ -77,7 +75,7 @@ t-SNE是流形学习(Manifold Learning)分支下的一种模型。其实不
77
75
学生t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。其曲线形态与自由度有关,自由度越小,t分布越平坦;自由度为无穷时,t分布等同于标准正态分布。本文主要目的是理解t-SNE,所以只需要知道t-分布的解析式和曲线形状(见下图)即可,更多的内容请自行Wiki。
78
76
79
77
<p align =" center " >
80
- <img width =" 260 " align =" center " src =" ../../images/448.jpg " />
78
+ <img width =" 300 " align =" center " src =" ../../images/448.jpg " />
81
79
</p >
82
80
83
81
#### SNE
@@ -206,7 +204,7 @@ t分布有一个重要的特点:属于长尾分布。我们看上图,高斯
206
204
t-SNE降维后的效果,总体是完爆其他可视化降维方法的。
207
205
208
206
<p align =" center " >
209
- <img width =" 300 " align =" center " src =" ../../images/466.jpg " />
207
+ <img width =" 500 " align =" center " src =" ../../images/466.jpg " />
210
208
</p >
211
209
212
210
t-SNE得到的是局部最优解。因为KL散度是一个不对称的度量,从代价函数的公式中可以看出,当 pj|i 较大, qj|i 较小时,代价较高;而当 qj|i 较大, pj|i 较小时,代价较低。什么意思呢?就是当高维空间距离远,低维空间距离近的时候,代价函数会很高,模型会尽量避免这种事情发生,所以会加大低维的距离,这没问题。
You can’t perform that action at this time.
0 commit comments