File tree Expand file tree Collapse file tree 1 file changed +4
-1
lines changed Expand file tree Collapse file tree 1 file changed +4
-1
lines changed Original file line number Diff line number Diff line change @@ -40,6 +40,7 @@ RNN主要解决序列数据的处理,比如文本、语音、视频等等。
40
40
</p >
41
41
42
42
当k=1时,模型变为:
43
+
43
44
<p align =" center " >
44
45
<img width =" 500 " align =" center " src =" ../../images/294.jpg " />
45
46
</p >
@@ -98,6 +99,7 @@ RNN训练困难的主要原因在于隐藏层参数w的传播:由于误差传
98
99
<p align =" center " >
99
100
<img width =" 380 " align =" center " src =" ../../images/305.jpg " />
100
101
</p >
102
+
101
103
而对梯度消失问题,则有很多不同的方案:
102
104
103
105
* 有效初始化+ReLU激活函数能够得到较好效果
@@ -106,7 +108,7 @@ RNN训练困难的主要原因在于隐藏层参数w的传播:由于误差传
106
108
* 在BPTT算法中加入skip connection,此时误差可以间歇的向前传播。
107
109
* 加入一些Leaky Units,思路类似于skip connection
108
110
109
- LSTM 全称叫 Long Short-Term Memory networks,它和传统 RNN 唯一的不同就在与其中的神经元(感知机)的构造不同。传统的 RNN 每个神经元和一般神经网络的感知机没啥区别,但在 LSTM 中,每个神经元是一个“记忆细胞”(元胞状态,Cell State),将以前的信息连接到当前的任务中来。每个LSTM细胞里面都包含:
111
+ LSTM 全称叫 ` Long Short-Term Memory networks ` ,它和传统 RNN 唯一的不同就在与其中的神经元(感知机)的构造不同。传统的 RNN 每个神经元和一般神经网络的感知机没啥区别,但在 LSTM 中,每个神经元是一个“记忆细胞”(元胞状态,Cell State),将以前的信息连接到当前的任务中来。每个LSTM细胞里面都包含:
110
112
111
113
* 输入门(input gate): 一个Sigmoid层,观察<img width =" 60 " align =" center " src =" ../../images/299.jpg " />和<img width =" 50 " align =" center " src =" ../../images/298.jpg " />,对于元胞状态<img width =" 50 " align =" center " src =" ../../images/306.jpg " />中的每一个元素,输出一个0~ 1之间的数。1表示“完全保留该信息”,0表示“完全丢弃该信息”:
112
114
@@ -146,6 +148,7 @@ LSTM 全称叫 Long Short-Term Memory networks,它和传统 RNN 唯一的不
146
148
如果我们把LSTM的forget gate全部置0(总是忘记之前的信息),input gate全部 置1,output gate全部置1(把cell state中的信息全部输出),这样LSTM就变成一个标准的RNN。
147
149
148
150
目前 LSTM 模型在实践中取得了非常好的效果, 只需要训练一个两三层的LSTM, 它就可以:
151
+
149
152
* 模仿保罗·格雷厄姆进行写作
150
153
* 生成维基百科的 markdown 页面
151
154
* 手写识别
You can’t perform that action at this time.
0 commit comments