Merge pull request KeKe-Li#11 from KeKe-Li/feature-keke

KeKe-Li · web-flow · commit e06aa052c2b1 · 2019-10-26T11:11:15.000+08:00
Update DRA.0.8.md
diff --git a/assets/src/DRA/DRA.0.8.md b/assets/src/DRA/DRA.0.8.md
@@ -201,11 +201,13 @@ t分布有一个重要的特点：属于长尾分布。我们看上图，高斯
 使用了自由度为1的t分布后， qij 变成了：
 
 <p align="center">
-<img width="260" align="center" src="../../images/464.jpg" />
+<img width="300" align="center" src="../../images/464.jpg" />
 </p>
+
 可以看出公式里少了指数函数，计算上会方便很多。最终得到t-SNE的更新梯度（推导见原论文Appendix）是:
+
 <p align="center">
-<img width="260" align="center" src="../../images/465.jpg" />
+<img width="300" align="center" src="../../images/465.jpg" />
 </p>
 
 然后再利用梯度下降求解 yi 即可。
@@ -215,10 +217,12 @@ t分布有一个重要的特点：属于长尾分布。我们看上图，高斯
 t-SNE降维后的效果，总体是完爆其他可视化降维方法的。
 
 <p align="center">
-<img width="260" align="center" src="../../images/466.jpg" />
+<img width="300" align="center" src="../../images/466.jpg" />
 </p>
 
-t-SNE得到的是局部最优解。因为KL散度是一个不对称的度量，从代价函数的公式中可以看出，当 pj|i 较大， qj|i 较小时，代价较高；而当 qj|i 较大， pj|i 较小时，代价较低。什么意思呢？就是当高维空间距离远，低维空间距离近的时候，代价函数会很高，模型会尽量避免这种事情发生，所以会加大低维的距离，这没问题。但是当高维近低维远的时候，代价会变低，模型也就不会在乎这个问题，导致低维空间距离较远的点始终拉不近。换句话说，t-SNE的代价函数更关注局部结构，而忽视了全局结构。所以假设数据集是在高维空间中的低维流形这一点是比较重要的，如果数据集的本征维度本身就很高，那么是不可能完整的映射到2-3维空间的。
+t-SNE得到的是局部最优解。因为KL散度是一个不对称的度量，从代价函数的公式中可以看出，当 pj|i 较大， qj|i 较小时，代价较高；而当 qj|i 较大， pj|i 较小时，代价较低。什么意思呢？就是当高维空间距离远，低维空间距离近的时候，代价函数会很高，模型会尽量避免这种事情发生，所以会加大低维的距离，这没问题。
+
+但是当高维近低维远的时候，代价会变低，模型也就不会在乎这个问题，导致低维空间距离较远的点始终拉不近。换句话说，t-SNE的代价函数更关注局部结构，而忽视了全局结构。所以假设数据集是在高维空间中的低维流形这一点是比较重要的，如果数据集的本征维度本身就很高，那么是不可能完整的映射到2-3维空间的。
 
 #### t-SNE优点