File tree Expand file tree Collapse file tree 1 file changed +8
-4
lines changed Expand file tree Collapse file tree 1 file changed +8
-4
lines changed Original file line number Diff line number Diff line change @@ -201,11 +201,13 @@ t分布有一个重要的特点:属于长尾分布。我们看上图,高斯
201
201
使用了自由度为1的t分布后, qij 变成了:
202
202
203
203
<p align =" center " >
204
- <img width =" 260 " align =" center " src =" ../../images/464.jpg " />
204
+ <img width =" 300 " align =" center " src =" ../../images/464.jpg " />
205
205
</p >
206
+
206
207
可以看出公式里少了指数函数,计算上会方便很多。最终得到t-SNE的更新梯度(推导见原论文Appendix)是:
208
+
207
209
<p align =" center " >
208
- <img width =" 260 " align =" center " src =" ../../images/465.jpg " />
210
+ <img width =" 300 " align =" center " src =" ../../images/465.jpg " />
209
211
</p >
210
212
211
213
然后再利用梯度下降求解 yi 即可。
@@ -215,10 +217,12 @@ t分布有一个重要的特点:属于长尾分布。我们看上图,高斯
215
217
t-SNE降维后的效果,总体是完爆其他可视化降维方法的。
216
218
217
219
<p align =" center " >
218
- <img width =" 260 " align =" center " src =" ../../images/466.jpg " />
220
+ <img width =" 300 " align =" center " src =" ../../images/466.jpg " />
219
221
</p >
220
222
221
- t-SNE得到的是局部最优解。因为KL散度是一个不对称的度量,从代价函数的公式中可以看出,当 pj|i 较大, qj|i 较小时,代价较高;而当 qj|i 较大, pj|i 较小时,代价较低。什么意思呢?就是当高维空间距离远,低维空间距离近的时候,代价函数会很高,模型会尽量避免这种事情发生,所以会加大低维的距离,这没问题。但是当高维近低维远的时候,代价会变低,模型也就不会在乎这个问题,导致低维空间距离较远的点始终拉不近。换句话说,t-SNE的代价函数更关注局部结构,而忽视了全局结构。所以假设数据集是在高维空间中的低维流形这一点是比较重要的,如果数据集的本征维度本身就很高,那么是不可能完整的映射到2-3维空间的。
223
+ t-SNE得到的是局部最优解。因为KL散度是一个不对称的度量,从代价函数的公式中可以看出,当 pj|i 较大, qj|i 较小时,代价较高;而当 qj|i 较大, pj|i 较小时,代价较低。什么意思呢?就是当高维空间距离远,低维空间距离近的时候,代价函数会很高,模型会尽量避免这种事情发生,所以会加大低维的距离,这没问题。
224
+
225
+ 但是当高维近低维远的时候,代价会变低,模型也就不会在乎这个问题,导致低维空间距离较远的点始终拉不近。换句话说,t-SNE的代价函数更关注局部结构,而忽视了全局结构。所以假设数据集是在高维空间中的低维流形这一点是比较重要的,如果数据集的本征维度本身就很高,那么是不可能完整的映射到2-3维空间的。
222
226
223
227
#### t-SNE优点
224
228
You can’t perform that action at this time.
0 commit comments