Skip to content

Commit acebddf

Browse files
authored
Update DRA.0.8.md
1 parent bcdacef commit acebddf

File tree

1 file changed

+8
-4
lines changed

1 file changed

+8
-4
lines changed

assets/src/DRA/DRA.0.8.md

Lines changed: 8 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -201,11 +201,13 @@ t分布有一个重要的特点:属于长尾分布。我们看上图,高斯
201201
使用了自由度为1的t分布后, qij 变成了:
202202

203203
<p align="center">
204-
<img width="260" align="center" src="../../images/464.jpg" />
204+
<img width="300" align="center" src="../../images/464.jpg" />
205205
</p>
206+
206207
可以看出公式里少了指数函数,计算上会方便很多。最终得到t-SNE的更新梯度(推导见原论文Appendix)是:
208+
207209
<p align="center">
208-
<img width="260" align="center" src="../../images/465.jpg" />
210+
<img width="300" align="center" src="../../images/465.jpg" />
209211
</p>
210212

211213
然后再利用梯度下降求解 yi 即可。
@@ -215,10 +217,12 @@ t分布有一个重要的特点:属于长尾分布。我们看上图,高斯
215217
t-SNE降维后的效果,总体是完爆其他可视化降维方法的。
216218

217219
<p align="center">
218-
<img width="260" align="center" src="../../images/466.jpg" />
220+
<img width="300" align="center" src="../../images/466.jpg" />
219221
</p>
220222

221-
t-SNE得到的是局部最优解。因为KL散度是一个不对称的度量,从代价函数的公式中可以看出,当 pj|i 较大, qj|i 较小时,代价较高;而当 qj|i 较大, pj|i 较小时,代价较低。什么意思呢?就是当高维空间距离远,低维空间距离近的时候,代价函数会很高,模型会尽量避免这种事情发生,所以会加大低维的距离,这没问题。但是当高维近低维远的时候,代价会变低,模型也就不会在乎这个问题,导致低维空间距离较远的点始终拉不近。换句话说,t-SNE的代价函数更关注局部结构,而忽视了全局结构。所以假设数据集是在高维空间中的低维流形这一点是比较重要的,如果数据集的本征维度本身就很高,那么是不可能完整的映射到2-3维空间的。
223+
t-SNE得到的是局部最优解。因为KL散度是一个不对称的度量,从代价函数的公式中可以看出,当 pj|i 较大, qj|i 较小时,代价较高;而当 qj|i 较大, pj|i 较小时,代价较低。什么意思呢?就是当高维空间距离远,低维空间距离近的时候,代价函数会很高,模型会尽量避免这种事情发生,所以会加大低维的距离,这没问题。
224+
225+
但是当高维近低维远的时候,代价会变低,模型也就不会在乎这个问题,导致低维空间距离较远的点始终拉不近。换句话说,t-SNE的代价函数更关注局部结构,而忽视了全局结构。所以假设数据集是在高维空间中的低维流形这一点是比较重要的,如果数据集的本征维度本身就很高,那么是不可能完整的映射到2-3维空间的。
222226

223227
#### t-SNE优点
224228

0 commit comments

Comments
 (0)