修改加粗字体问题

Relph1119 · Relph1119 · commit cf82568d2925 · 2020-02-01T17:31:21.000+08:00
diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md
@@ -9,7 +9,8 @@
 1. **极大似然估计**  
 **模型：** $\mathcal{F}=\{f|f_p(x)=p^x(1-p)^{(1-x)}\}$  
 **策略：** 最大化似然函数  
-**算法：** $\displaystyle \mathop{\arg\min}_{p} L(p)= \mathop{\arg\min}_{p} \binom{n}{k}p^k(1-p)^{(n-k)}$
+**算法：** $\displaystyle \mathop{\arg\min}_{p} L(p)= \mathop{\arg\min}_{p} \binom{n}{k}p^k(1-p)^{(n-k)}$  
+
 2. **贝叶斯估计**  
 **模型：** $\mathcal{F}=\{f|f_p(x)=p^x(1-p)^{(1-x)}\}$  
 **策略：** 求参数期望  
diff --git a/docs/chapter5/chapter5.md b/docs/chapter5/chapter5.md
@@ -208,14 +208,14 @@ model_tree.tree
 &emsp;&emsp;证明 CART 剪枝算法中，当$\alpha$确定时，存在唯一的最小子树$T_{\alpha}$使损失函数$C_{\alpha}(T)$最小。
 
 **解答：**  
-**第1步：**内部节点是否剪枝只与以该节点为根节点的子树有关。  
+**第1步：** 内部节点是否剪枝只与以该节点为根节点的子树有关。  
 剪枝过程：  
 计算子树的损失函数：$$C_{\alpha}(T)=C(T)+\alpha$$其中，$\displaystyle C(T) = \sum_{t=1}^{|T|}N_t (1 - \sum_{k=1}^K (\frac{N_{tk}}{N_t})^2)$，$|T|$是叶结点个数，$K$是类别个数。  
 有剪枝前子树$T_0$，剪枝后子树$T_1$，满足$C_{\alpha}(T_1) \leqslant C_{\alpha}(T_0)$则进行剪枝。 
 
 ----
 
-**第2步（反证法）：**假设当$\alpha$确定时，存在两颗子树$T_1,T_2$都使得损失函数$C_{\alpha}$最小。  
+**第2步（反证法）：** 假设当$\alpha$确定时，存在两颗子树$T_1,T_2$都使得损失函数$C_{\alpha}$最小。  
 第1种情况：假设被剪枝的子树在同一边，易知其中一个子树会由另一个子树剪枝而得到，故不可能存在两个最优子树，原结论得证。  
 第2种情况：假设被剪枝的子树不在同一边，易知被剪枝掉的子树都可以使损失函数$C_{\alpha}$最小，故两颗子树都可以继续剪枝，故不可能存在两个最优子树，原结论得证。
 
@@ -225,7 +225,7 @@ model_tree.tree
 
 **解答：**  
 原结论可以表述为：将$\alpha$从小增大，$0=\alpha_0<\alpha_1<\cdots<\alpha_n < +\infty$，在每个区间$[\alpha_i,\alpha_{i+1})$中，子树$T_i$是这个区间里最优的。  
-**第1步：**易证，当$\alpha=0$时，整棵树$T_0$是最优的，当$\alpha \rightarrow +\infty$时，根结点组成的单结点树（即$T_n$）是最优的。
+**第1步：** 易证，当$\alpha=0$时，整棵树$T_0$是最优的，当$\alpha \rightarrow +\infty$时，根结点组成的单结点树（即$T_n$）是最优的。
 
 ----
 
@@ -246,7 +246,7 @@ model_tree.tree
 
 ----
 
-**讨论：**为什么$\alpha$要取最小的$g(t)$呢？  
+**讨论：** 为什么$\alpha$要取最小的$g(t)$呢？  
 <br/><center>
 <img style="border-radius: 0.3125em;box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" src="chapter5/5-1-min-g(t).png"><br><div style="color:orange; border-bottom: 1px solid #d9d9d9;display: inline-block;color: #000;padding: 2px;">图5.1 最小的$g(t)$</div></center>  
 &emsp;&emsp;以图中两个点为例，结点1和结点2，$g(t)_2$大于$g(t)_1$，假设在所有结点中$g(t)_1$最小，$g(t)_2$最大，两种选择方法：当选择最大值$g(t)_2$，即结点2进行剪枝，但此时结点1的剪枝前的误差大于剪枝后的误差，即如果不剪枝，误差变大，依次类推，对其它所有的结点的$g(t)$都是如此，从而造成整体的累计误差更大。反之，如果选择最小值$g(t)_1$，即结点1进行剪枝，则其余结点不剪的误差要小于剪枝后的误差，不剪枝为好，且整体的误差最小。从而以最小$g(t)$剪枝获得的子树是该$\alpha$值下的最优子树。
diff --git a/docs/chapter6/chapter6.md b/docs/chapter6/chapter6.md
@@ -16,7 +16,7 @@ $h(x),u(x)$：$x$的某个函数
 
 ----
 
-**第2步：**证明伯努利分布属于指数分布族  
+**第2步：** 证明伯努利分布属于指数分布族  
 伯努利分布：$\varphi$是$y=1$的概率，即$P(Y=1)=\varphi$  
 $\begin{aligned}
 P(y|\varphi) 
@@ -40,7 +40,7 @@ P(y|\varphi)
 
 ----
 
-**第4步：**推导伯努利分布的GLM  
+**第4步：** 推导伯努利分布的GLM  
 已知伯努利分布属于指数分布族，对给定的$x,\eta$，求解期望：$$\begin{aligned}
 h_{\theta}(x) 
 &= E[y|x;\theta] \\
diff --git a/docs/chapter7/chapter7.md b/docs/chapter7/chapter7.md
@@ -32,7 +32,8 @@ $$\begin{array}{cl}
 alpha_i \\
 \text{s.t.} & \displaystyle \sum_{i=1}^N \alpha_i y+i = 0 \\
 & \alpha \geqslant 0, i=1,2,\cdots,N
-\end{array}$$根据书上**定理7.2**，可得$\displaystyle w^*=\sum_{i=1}^N \alpha_i^* y_j x_i, b^*=y_i-\sum_{i=1}^N \alpha^* y_i (x_i \cdot x_j)$，可以看出$w,b$实质上也是将其表示为$\langle x_i, x_j\rangle$的线性组合形式。
+\end{array}$$
+根据书上**定理7.2**，可得$\displaystyle w^*=\sum_{i=1}^N \alpha_i^* y_j x_i, b^*=y_i-\sum_{i=1}^N \alpha^* y_i (x_i \cdot x_j)$，可以看出$w,b$实质上也是将其表示为$\langle x_i, x_j\rangle$的线性组合形式。
 
 ## 习题7.2
 
@@ -64,9 +65,9 @@ print("support vectors =", clf.support_vectors_)
      [3. 3.]]
     
 
-**最大间隔分离超平面：**$-x^{(1)}+2x^{(2)}-2=0$  
-**分类决策函数：**$f(x)=\text{sign}(-x^{(1)}+2x^{(2)}-2)$  
-**支持向量：**$x_1=(3,2)^T,x_2=(1,2)^T, x_3=(3,3)^T$  
+**最大间隔分离超平面：** $-x^{(1)}+2x^{(2)}-2=0$  
+**分类决策函数：** $f(x)=\text{sign}(-x^{(1)}+2x^{(2)}-2)$  
+**支持向量：** $x_1=(3,2)^T,x_2=(1,2)^T, x_3=(3,3)^T$  
 
 
 ```python
diff --git a/docs/chapter9/chapter9.md b/docs/chapter9/chapter9.md
@@ -56,7 +56,7 @@ f = em.fit(data)
 ## 习题9.2
 证明引理9.2。
 
-> **引理9.2：**若$\tilde{P}_{\theta}(Z)=P(Z | Y, \theta)$，则$$F(\tilde{P}, \theta)=\log P(Y|\theta)$$
+> **引理9.2：** 若$\tilde{P}_{\theta}(Z)=P(Z | Y, \theta)$，则$$F(\tilde{P}, \theta)=\log P(Y|\theta)$$
 
 **证明：**  
 由$F$函数的定义（**定义9.3**）可得：$$F(\tilde{P}, \theta)=E_{\tilde{P}}[\log P(Y,Z|\theta)] + H(\tilde{P})$$其中，$H(\tilde{P})=-E_{\tilde{P}} \log \tilde{P}(Z)$  
@@ -129,8 +129,8 @@ print("weights = ", gmmModel.weights_.reshape(1, -1))
 
 **解答：** 
 > **EM算法的一般化：**  
-**E步骤：**根据参数初始化或上一次迭代的模型参数来计算出隐变量的后验概率，其实就是隐变量的期望。作为隐变量的现估计值：$$w_j^{(i)}=Q_{i}(z^{(i)}=j) := p(z^{(i)}=j | x^{(i)} ; \theta)$$
-**M步骤：**将似然函数最大化以获得新的参数值：$$
+**E步骤：** 根据参数初始化或上一次迭代的模型参数来计算出隐变量的后验概率，其实就是隐变量的期望。作为隐变量的现估计值：$$w_j^{(i)}=Q_{i}(z^{(i)}=j) := p(z^{(i)}=j | x^{(i)} ; \theta)$$
+**M步骤：** 将似然函数最大化以获得新的参数值：$$
 \theta :=\arg \max_{\theta} \sum_i \sum_{z^{(i)}} Q_i (z^{(i)}) \log \frac{p(x^{(i)}, z^{(i)} ; \theta)}{Q_i (z^{(i)})}
 $$