Skip to content

Commit cf82568

Browse files
committed
修改加粗字体问题
1 parent 482f7e4 commit cf82568

File tree

5 files changed

+16
-14
lines changed

5 files changed

+16
-14
lines changed

docs/chapter1/chapter1.md

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -9,7 +9,8 @@
99
1. **极大似然估计**
1010
**模型:** $\mathcal{F}=\{f|f_p(x)=p^x(1-p)^{(1-x)}\}$
1111
**策略:** 最大化似然函数
12-
**算法:** $\displaystyle \mathop{\arg\min}_{p} L(p)= \mathop{\arg\min}_{p} \binom{n}{k}p^k(1-p)^{(n-k)}$
12+
**算法:** $\displaystyle \mathop{\arg\min}_{p} L(p)= \mathop{\arg\min}_{p} \binom{n}{k}p^k(1-p)^{(n-k)}$
13+
1314
2. **贝叶斯估计**
1415
**模型:** $\mathcal{F}=\{f|f_p(x)=p^x(1-p)^{(1-x)}\}$
1516
**策略:** 求参数期望

docs/chapter5/chapter5.md

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -208,14 +208,14 @@ model_tree.tree
208208
  证明 CART 剪枝算法中,当$\alpha$确定时,存在唯一的最小子树$T_{\alpha}$使损失函数$C_{\alpha}(T)$最小。
209209

210210
**解答:**
211-
**第1步:**内部节点是否剪枝只与以该节点为根节点的子树有关。
211+
**第1步:** 内部节点是否剪枝只与以该节点为根节点的子树有关。
212212
剪枝过程:
213213
计算子树的损失函数:$$C_{\alpha}(T)=C(T)+\alpha$$其中,$\displaystyle C(T) = \sum_{t=1}^{|T|}N_t (1 - \sum_{k=1}^K (\frac{N_{tk}}{N_t})^2)$,$|T|$是叶结点个数,$K$是类别个数。
214214
有剪枝前子树$T_0$,剪枝后子树$T_1$,满足$C_{\alpha}(T_1) \leqslant C_{\alpha}(T_0)$则进行剪枝。
215215

216216
----
217217

218-
**第2步(反证法):**假设当$\alpha$确定时,存在两颗子树$T_1,T_2$都使得损失函数$C_{\alpha}$最小。
218+
**第2步(反证法):** 假设当$\alpha$确定时,存在两颗子树$T_1,T_2$都使得损失函数$C_{\alpha}$最小。
219219
第1种情况:假设被剪枝的子树在同一边,易知其中一个子树会由另一个子树剪枝而得到,故不可能存在两个最优子树,原结论得证。
220220
第2种情况:假设被剪枝的子树不在同一边,易知被剪枝掉的子树都可以使损失函数$C_{\alpha}$最小,故两颗子树都可以继续剪枝,故不可能存在两个最优子树,原结论得证。
221221

@@ -225,7 +225,7 @@ model_tree.tree
225225

226226
**解答:**
227227
原结论可以表述为:将$\alpha$从小增大,$0=\alpha_0<\alpha_1<\cdots<\alpha_n < +\infty$,在每个区间$[\alpha_i,\alpha_{i+1})$中,子树$T_i$是这个区间里最优的。
228-
**第1步:**易证,当$\alpha=0$时,整棵树$T_0$是最优的,当$\alpha \rightarrow +\infty$时,根结点组成的单结点树(即$T_n$)是最优的。
228+
**第1步:** 易证,当$\alpha=0$时,整棵树$T_0$是最优的,当$\alpha \rightarrow +\infty$时,根结点组成的单结点树(即$T_n$)是最优的。
229229

230230
----
231231

@@ -246,7 +246,7 @@ model_tree.tree
246246

247247
----
248248

249-
**讨论:**为什么$\alpha$要取最小的$g(t)$呢?
249+
**讨论:** 为什么$\alpha$要取最小的$g(t)$呢?
250250
<br/><center>
251251
<img style="border-radius: 0.3125em;box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" src="chapter5/5-1-min-g(t).png"><br><div style="color:orange; border-bottom: 1px solid #d9d9d9;display: inline-block;color: #000;padding: 2px;">图5.1 最小的$g(t)$</div></center>
252252
&emsp;&emsp;以图中两个点为例,结点1和结点2,$g(t)_2$大于$g(t)_1$,假设在所有结点中$g(t)_1$最小,$g(t)_2$最大,两种选择方法:当选择最大值$g(t)_2$,即结点2进行剪枝,但此时结点1的剪枝前的误差大于剪枝后的误差,即如果不剪枝,误差变大,依次类推,对其它所有的结点的$g(t)$都是如此,从而造成整体的累计误差更大。反之,如果选择最小值$g(t)_1$,即结点1进行剪枝,则其余结点不剪的误差要小于剪枝后的误差,不剪枝为好,且整体的误差最小。从而以最小$g(t)$剪枝获得的子树是该$\alpha$值下的最优子树。

docs/chapter6/chapter6.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -16,7 +16,7 @@ $h(x),u(x)$:$x$的某个函数
1616

1717
----
1818

19-
**第2步:**证明伯努利分布属于指数分布族
19+
**第2步:** 证明伯努利分布属于指数分布族
2020
伯努利分布:$\varphi$是$y=1$的概率,即$P(Y=1)=\varphi$
2121
$\begin{aligned}
2222
P(y|\varphi)
@@ -40,7 +40,7 @@ P(y|\varphi)
4040

4141
----
4242

43-
**第4步:**推导伯努利分布的GLM
43+
**第4步:** 推导伯努利分布的GLM
4444
已知伯努利分布属于指数分布族,对给定的$x,\eta$,求解期望:$$\begin{aligned}
4545
h_{\theta}(x)
4646
&= E[y|x;\theta] \\

docs/chapter7/chapter7.md

Lines changed: 5 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -32,7 +32,8 @@ $$\begin{array}{cl}
3232
alpha_i \\
3333
\text{s.t.} & \displaystyle \sum_{i=1}^N \alpha_i y+i = 0 \\
3434
& \alpha \geqslant 0, i=1,2,\cdots,N
35-
\end{array}$$根据书上**定理7.2**,可得$\displaystyle w^*=\sum_{i=1}^N \alpha_i^* y_j x_i, b^*=y_i-\sum_{i=1}^N \alpha^* y_i (x_i \cdot x_j)$,可以看出$w,b$实质上也是将其表示为$\langle x_i, x_j\rangle$的线性组合形式。
35+
\end{array}$$
36+
根据书上**定理7.2**,可得$\displaystyle w^*=\sum_{i=1}^N \alpha_i^* y_j x_i, b^*=y_i-\sum_{i=1}^N \alpha^* y_i (x_i \cdot x_j)$,可以看出$w,b$实质上也是将其表示为$\langle x_i, x_j\rangle$的线性组合形式。
3637

3738
## 习题7.2
3839

@@ -64,9 +65,9 @@ print("support vectors =", clf.support_vectors_)
6465
[3. 3.]]
6566

6667

67-
**最大间隔分离超平面:**$-x^{(1)}+2x^{(2)}-2=0$
68-
**分类决策函数:**$f(x)=\text{sign}(-x^{(1)}+2x^{(2)}-2)$
69-
**支持向量:**$x_1=(3,2)^T,x_2=(1,2)^T, x_3=(3,3)^T$
68+
**最大间隔分离超平面:** $-x^{(1)}+2x^{(2)}-2=0$
69+
**分类决策函数:** $f(x)=\text{sign}(-x^{(1)}+2x^{(2)}-2)$
70+
**支持向量:** $x_1=(3,2)^T,x_2=(1,2)^T, x_3=(3,3)^T$
7071

7172

7273
```python

docs/chapter9/chapter9.md

Lines changed: 3 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -56,7 +56,7 @@ f = em.fit(data)
5656
## 习题9.2
5757
证明引理9.2。
5858

59-
> **引理9.2:**若$\tilde{P}_{\theta}(Z)=P(Z | Y, \theta)$,则$$F(\tilde{P}, \theta)=\log P(Y|\theta)$$
59+
> **引理9.2:** 若$\tilde{P}_{\theta}(Z)=P(Z | Y, \theta)$,则$$F(\tilde{P}, \theta)=\log P(Y|\theta)$$
6060
6161
**证明:**
6262
由$F$函数的定义(**定义9.3**)可得:$$F(\tilde{P}, \theta)=E_{\tilde{P}}[\log P(Y,Z|\theta)] + H(\tilde{P})$$其中,$H(\tilde{P})=-E_{\tilde{P}} \log \tilde{P}(Z)$
@@ -129,8 +129,8 @@ print("weights = ", gmmModel.weights_.reshape(1, -1))
129129

130130
**解答:**
131131
> **EM算法的一般化:**
132-
**E步骤:**根据参数初始化或上一次迭代的模型参数来计算出隐变量的后验概率,其实就是隐变量的期望。作为隐变量的现估计值:$$w_j^{(i)}=Q_{i}(z^{(i)}=j) := p(z^{(i)}=j | x^{(i)} ; \theta)$$
133-
**M步骤:**将似然函数最大化以获得新的参数值:$$
132+
**E步骤:** 根据参数初始化或上一次迭代的模型参数来计算出隐变量的后验概率,其实就是隐变量的期望。作为隐变量的现估计值:$$w_j^{(i)}=Q_{i}(z^{(i)}=j) := p(z^{(i)}=j | x^{(i)} ; \theta)$$
133+
**M步骤:** 将似然函数最大化以获得新的参数值:$$
134134
\theta :=\arg \max_{\theta} \sum_i \sum_{z^{(i)}} Q_i (z^{(i)}) \log \frac{p(x^{(i)}, z^{(i)} ; \theta)}{Q_i (z^{(i)})}
135135
$$
136136

0 commit comments

Comments
 (0)