添加10道【机器学习】【自然语言处理】面试题

amusi · amusi · commit d02438c61ecd · 2019-11-17T15:08:21.000+08:00
diff --git a/docs/机器学习.md b/docs/机器学习.md
@@ -264,7 +264,7 @@ $$J(\phi(z),y;w)=-yln(\phi(z))-(1-y)ln(1-\phi(z))$$
 - [支持向量机（SVM）入门理解与推导](https://blog.csdn.net/sinat_20177327/article/details/79729551)
 - [数据挖掘领域十大经典算法之—SVM算法（超详细附代码）](https://blog.csdn.net/fuqiuai/article/details/79483057)
 
-### LR 与 SVM的区别
+### LR 与 SVM的区别和联系
 
 **相同点**
 
@@ -927,6 +927,35 @@ CART在生成子树时，是选择一个特征一个取值作为切分点，生
 - [如何轻松愉快地理解条件随机场（CRF）？](https://www.jianshu.com/p/55755fc649b1)
 - [一文理解条件随机场CRF](https://zhuanlan.zhihu.com/p/70067113)
 
+### HMM、MEMM vs CRF 对比？
+
+1）HMM是有向图模型，是生成模型；HMM有两个假设：一阶马尔科夫假设和观测独立性假设；但对于序列标注问题不仅和单个词相关，而且和观察序列的长度，单词的上下文，等等相关。
+
+2）MEMM（最大熵马尔科夫模型）是有向图模型，是判别模型；MEMM打破了HMM的观测独立性假设，MEMM考虑到相邻状态之间依赖关系，且考虑整个观察序列，因此MEMM的表达能力更强；但MEMM会带来标注偏置问题：由于局部归一化问题，MEMM倾向于选择拥有更少转移的状态。这就是标记偏置问题。
+
+![img](https://pic3.zhimg.com/80/v2-7a5e998530e0d9c5f146d27603e6e496_hd.jpg)最大熵模型（MEMM）
+
+![img](https://pic3.zhimg.com/80/v2-610ca7a9b504936bfba136c464ebe81a_hd.jpg)
+
+3）CRF模型解决了标注偏置问题，去除了HMM中两个不合理的假设，当然，模型相应得也变复杂了。
+
+HMM、MEMM和CRF的优缺点比较：
+
+a）与HMM比较。CRF没有HMM那样严格的独立性假设条件，因而可以容纳任意的上下文信息。特征设计灵活（与ME一样）
+
+b）与MEMM比较。由于CRF计算全局最优输出节点的条件概率，它还克服了最大熵马尔可夫模型标记偏置（Label-bias）的缺点。
+
+c）与ME比较。CRF是在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率分布，而不是在给定当前状态条件下，定义下一个状态的状态分布.
+
+> 首先，CRF，HMM(隐马模型)，MEMM(最大熵隐马模型)都常用来做序列标注的建模，像分词、词性标注，以及命名实体标注
+> 隐马模型一个最大的缺点就是由于其输出独立性假设，导致其不能考虑上下文的特征，限制了特征的选择
+> 最大熵隐马模型则解决了隐马的问题，可以任意选择特征，但由于其在每一节点都要进行归一化，所以只能找到局部的最优值，同时也带来了标记偏见的问题，即凡是训练语料中未出现的情况全都忽略掉。
+> 条件随机场则很好的解决了这一问题，他并不在每一个节点进行归一化，而是所有特征进行全局归一化，因此可以求得全局的最优值。
+
+**参考资料**
+
+- [HMM、MEMM vs CRF 对比？](https://zhuanlan.zhihu.com/p/57153934)
+
 ## 主成分分析（PCA）
 
 ### 基本原理
diff --git a/docs/深度学习.md b/docs/深度学习.md
@@ -388,6 +388,10 @@ $$
 
 - [ ] TODO
 
+#### Sigmoid用作激活函数时，分类为什么要用交叉熵损失，而不用均方损失？
+
+- [ ] TODO
+
 ### tanh
 
 - [ ] TODO
diff --git a/docs/自然语言处理.md b/docs/自然语言处理.md
@@ -163,6 +163,10 @@
 
 - [ ] TODO
 
+### elmo、GPT、bert三者之间有什么区别？（elmo vs GPT vs bert）
+
+- [ ] TODO
+
 ## XLNet
 
 ### 基本原理