@@ -12,7 +12,7 @@ translator: Jonathan Sum(😊🍩📙)
12
12
13
13
## [ 监督方法的成功故事: 前置训练] ( https://www.youtube.com/watch?v=0KeR6i1_56g&t=75s )
14
14
15
- 在上十年,一个用在许多不同的计算机视觉问题上的主要成功秘诀就是对ImageNet分类进行监督学习来学习视觉的「描述 」。而且在没有大量标记了的数据时,使用这些学习到的描述 ,或模型中学习了东西的权重都作为其他计算机视觉任务的初始化部分,这都是成功秘诀之一。
15
+ 在上十年,一个用在许多不同的计算机视觉问题上的主要成功秘诀就是对ImageNet分类进行监督学习来学习视觉的「表示 」。而且在没有大量标记了的数据时,使用这些学习到的表示 ,或模型中学习了东西的权重都作为其他计算机视觉任务的初始化部分,这都是成功秘诀之一。
16
16
17
17
相對地,取得ImageNet这样大小的数据集的注解是超花时间和昂贵。比如: ImageNet 标记一千4百万张图就花了22年人类年。
18
18
@@ -68,12 +68,12 @@ translator: Jonathan Sum(😊🍩📙)
68
68
69
69
- 给予用来输入的句子,那工作就包括预测句子中遗漏的单词,也就是故意地去掉一些字来实现前置任务。
70
70
- 所以,标签们的集合就会变成字典中所有可能有的文字,加上,正确的标签是句子中被删掉的字。
71
- - 所以,可以用正常的梯度方式来训练网路来学习文字式的描述 。
71
+ - 所以,可以用正常的梯度方式来训练网路来学习文字式的表示 。
72
72
73
73
74
74
### 为什么用自我监督学习呢?
75
75
76
- - 自我监督学习只要观察不同数据部份如何相互作用就能学出数据中的描述 。
76
+ - 自我监督学习只要观察不同数据部份如何相互作用就能学出数据中的表示 。
77
77
- 从而就可以不用去标签如天文数字那样多的数据。
78
78
- 加上,可以看出不同东西却只是一个单独数据的不同形式。
79
79
@@ -82,8 +82,8 @@ translator: Jonathan Sum(😊🍩📙)
82
82
83
83
一般来说,用上自我监督的计算机视觉做法就是包括以下两种工作,前置任务和真实工作(后期)。
84
84
85
- - 真实工作 (后期)可以是任何分类工作或检测物体工作,有足够的标签过的数据样本。
86
- - 前置任务包括自我监督学习工作以解决学习视觉看到的描述,这自我监督学习目标是使用学习了的描述或由过程中取得的模型权重,然后用这些描述来用在后期工作 。
85
+ - 真实的(后期)工作 (后期)可以是任何分类工作或检测物体工作,有足够的标签过的数据样本。
86
+ - 前置任务包括自我监督学习工作以解决学习视觉看到的表示,这自我监督学习目标是使用学习了的表示或由过程中取得的模型权重,然后用这些表示来用在后期工作 。
87
87
88
88
89
89
#### 建立前置任务
@@ -105,15 +105,15 @@ translator: Jonathan Sum(😊🍩📙)
105
105
</center >
106
106
107
107
108
- #### 通过相对位置预测任务来学习的视觉性「描述 」
108
+ #### 通过相对位置预测任务来学习的视觉性「表示 」
109
109
110
- 我们可以用近邻法,用网路对图像中一个格生成的基础特征「描述 」中的来评估学习视觉性「描述 」的有效度。
110
+ 我们可以用近邻法,用网路对图像中一个格生成的基础特征「表示 」中的来评估学习视觉性「表示 」的有效度。
111
111
112
112
- 比较下数据集中所有图片的CNN特征,那将会用来检索的样本池。
113
113
- 对图片中一个格计算所有CNN特征
114
114
- 在可用图像的特征向量池中,辨认所需图像的特征向量的近邻,
115
115
116
- 相对位置任务找出与输入图像非常相似的格(图片中一个格型部份),找出同时保持一些因素,比如物体颜色。所以,其相对位置任务是能够学到视觉性描述,那个学习出来的「描述」中的物体的外观和空间也和输入的图像格中的体物和空间也很相似 。
116
+ 相对位置任务找出与输入图像非常相似的格(图片中一个格型部份),找出同时保持一些因素,比如物体颜色。所以,其相对位置任务是能够学到视觉性表示,那个图片格中的一些表示和别的表示视觉上相似的话,那它们就是空间性上相近 。
117
117
118
118
<center >
119
119
<img src =" {{site.baseurl}}/images/week10/10-1/img04.jpg " width =" 100% " /><br >
@@ -125,7 +125,7 @@ translator: Jonathan Sum(😊🍩📙)
125
125
126
126
- 预测旋转了是最受欢迎的前置任务之一,也就有一个简单和直接的架构和只要求简单的样本。
127
127
- 我们旋转图片0或90﹑180﹑270度,然后输入这些图片到网路中来预测图片旋转了多少,然后网路进行4种不同的预测来预测旋转了多少。
128
- - 预测旋转不会生成任何语义分割的感觉,我们会使用这个前置任务如代理一样来学一些特征和描述,然后用这些特征和描述在后期工作 。
128
+ - 预测旋转不会生成任何语义分割的感觉,我们会使用这个前置任务如代理一样来学一些特征和表示,然后用这些特征和表示在后期工作 。
129
129
130
130
<center >
131
131
<img src =" {{site.baseurl}}/images/week10/10-1/img05.png " width =" 80% " /><br >
@@ -135,7 +135,7 @@ translator: Jonathan Sum(😊🍩📙)
135
135
136
136
#### 为什么旋转了的图像能行或有帮助?
137
137
138
- 它一直以来都凭经验地证明出能行的。它背后的能行的解释就是为了预测旋转了多少,模型就要明白界限和图片的描述 ,比如,它将会把天空分离开水或沙,或它将会明白树木会向上生长。
138
+ 它一直以来都凭经验地证明出能行的。它背后的能行的解释就是为了预测旋转了多少,模型就要明白界限和图片的表示 ,比如,它将会把天空分离开水或沙,或它将会明白树木会向上生长。
139
139
140
140
141
141
#### 彩色化
@@ -152,7 +152,7 @@ translator: Jonathan Sum(😊🍩📙)
152
152
153
153
#### 填空任务
154
154
155
- 我们隐藏图片中一些部分,然后用可见的部份来预测隐藏的部分。这能行是因为网路会学到数据含隐的结构,就如描述路上的行走的车 ,建筑物是由窗和门和别的东西组合起来的。
155
+ 我们隐藏图片中一些部分,然后用可见的部份来预测隐藏的部分。这能行是因为网路会学到数据含隐的结构,就如表示路上的行走的车 ,建筑物是由窗和门和别的东西组合起来的。
156
156
157
157
158
158
### 用在视频的前置任务
@@ -178,16 +178,16 @@ translator: Jonathan Sum(😊🍩📙)
178
178
179
179
<center >
180
180
<img src =" {{site.baseurl}}/images/week10/10-1/img09.png " width =" 100% " /><br >
181
- <b >图 9:</b > 近邻式描述
181
+ <b >图 9:</b > 近邻式表示
182
182
</center >
183
183
184
- 再说多次,我们可以用近邻演算法来看出我们的网路是学到了什么。在上方的图9,我们先有一个查询帧来输入到前馈网路中取得特征描述和之后去看描述的空间中的近邻 (各像数附近的像素)。当以,我们以ImageNet和「順序打亂後學習式」﹑随机性来进行比较时,各像数附近的像素中就看到明显的差异。
184
+ 再说多次,我们可以用近邻演算法来看出我们的网路是学到了什么。在上方的图9,我们先有一个查询帧来输入到前馈网路中取得特征表示和之后去看表示的空间中的近邻 (各像数附近的像素)。当以,我们以ImageNet和「順序打亂後學習式」﹑随机性来进行比较时,各像数附近的像素中就看到明显的差异。
185
185
186
186
ImageNet优良于把整个图片中的所有内容合并起来,就如它在第一个输入询问中能想出这个是体育馆环境。相似的,它能以环境中有草来想出这是户外。在第二个输入询问中,我们可以看到随机性。我们可以看到它对背景颜色所有的重视性。
187
187
188
188
观察一下「顺序打乱后学习式」,也不能立即清楚它是否注意在颜色上或内容上。经过进一步检查并观察了各种示例后,就看出它注意在人物的姿势上。比如,无视场景或背景色的话,在第一张图中人物是上下翻转的,而第二张的脚的位置就特别地相似其输入查询的帧。原因是背后所有东西,前置任务是预测那些帧们是不是顺序,而做出这些东西的话,网路要注意什么物体是移动的,在这里的话,比如是人。
189
189
190
- 已证明了数量性的微调「描述 」到人类关键点估測任务,就如给人类一张图,然后去估出那些关键点,如鼻子或左肩﹑右肩﹑左肘﹑右肘等。这些方法就在追踪姿势估测中十分有用。
190
+ 已证明了数量性的微调「表示 」到人类关键点估測任务,就如给人类一张图,然后去估出那些关键点,如鼻子或左肩﹑右肩﹑左肘﹑右肘等。这些方法就在追踪姿势估测中十分有用。
191
191
192
192
<center >
193
193
<img src =" {{site.baseurl}}/images/week10/10-1/img10.png " width =" 80% " /><br >
@@ -227,12 +227,12 @@ ImageNet优良于把整个图片中的所有内容合并起来,就如它在第
227
227
<b >图 13:</b > 相对位置和彩色化的前置任务的同时使用和不同时使用在训练上的比较。 ResNet101 (Misra)
228
228
</center >
229
229
230
- * 一个单一的前置任务或许对学习SS中的「描述 」来说不是正确答案
230
+ * 一个单一的前置任务或许对学习SS中的「表示 」来说不是正确答案
231
231
232
232
* 对于不同的(很困难的)预测任务来说,它们的前置任务可以是差别很大。
233
233
234
234
* 前置任务之一的相对位置是很简单的,因为它只是一个简单的分类。
235
- * 覆盖然后填补就十分之难了--> ** 更好的描述 **
235
+ * 覆盖然后填补就十分之难了--> ** 更好的表示 **
236
236
* ** 对比法** 就比前置任务能生成更多的资料
237
237
238
238
* ** 问题:** 如何才能训练多个前置任务呢?
@@ -268,26 +268,26 @@ ImageNet优良于把整个图片中的所有内容合并起来,就如它在第
268
268
269
269
* 有时,这个方法能执行在后期工作,而且比监督方法好,因为网路能学到一些有关输入本身的几何形状概念。
270
270
271
- * 有时,这个方法能执行在后期工作,而且比监督方法好,因为网路能学到一些有关输入本身的几何形状概念。
271
+ * 小样本学习: 訓用的例子数量有限
272
272
273
- * ** 自我监督描述不是真的那么提高样品效率 **
273
+ * ** 自我监督表示不是真的那么提高样品效率 **
274
274
275
275
276
- ### 评估:比较一下微调和线性分类器
276
+ ### 评估:* 比较一下 * 微调和线性分类器
277
277
278
278
这种评估形式是一种** 转移学习** 。
279
279
280
280
* ** 微调** :当用在后期工作中用上了,我们使用整个网络就如** 初始化** 那样,也就用它来训练一个新的,更新所有权重。
281
281
282
282
* ** 线性分类器** : 在前置任务旁,我们训练一个细的线性分类器去执行后期任务,让整个网路保持完整。
283
283
284
- > 好的「描述 」应该只用了** 小小的训练** 来转移。
284
+ > 好的「表示 」应该只用了** 小小的训练** 来转移。
285
285
286
- * 在** 众多不同的任务** 上评估前置任务是有帮助性的,也就是我们可以这样做,用网路中每一层来生成和提取出各个「描述 」,然后当作** 固定的特征** 来用,然后评估这些描述它们的可用性 。
286
+ * 在** 众多不同的任务** 上评估前置任务是有帮助性的,也就是我们可以这样做,用网路中每一层来生成和提取出各个「表示 」,然后当作** 固定的特征** 来用,然后评估这些表示它们的可用性 。
287
287
* 测量:平均精度均值(Mean Average Precision ,简称mAP)精确度是在所有不同我们考虑到的工作中被平均起来。
288
288
* 有些这些任务的例子中包括:物体识别(使用微调),表面法线估计(Surface Normal Estimation)(请看NYU-v2数据集)
289
289
* 到底每一层学到什么呢?
290
- * 一般来说,每层会变得更深,使用每层的「描述 」的话,平均精度均值会在后期工作中上升。
291
- * However, the ** final layer ** will see a sharp drop in the mAP due to the layer becoming overly ** specialized ** .
292
- * 相反, ** 最后的那一层 ** 就会在平均精度均值mAP中有一个急剧下降,那是因为那一层就会变得 ** 很专修 ** 一些东西 。
293
- * 这可以看出前置任务是 ** 不太和后期任务一致的 ** 。
290
+ * 一般来说,每层会变得更深,使用每层的「表示 」的话,平均精度均值会在后期工作中上升。
291
+ * 相反, ** 最后的那一层 ** 就会在平均精度均值mAP中有一个急剧下降,那是因为那一层就会变得 ** 很专修 ** 一些东西。
292
+ * 这与受监督的网络的意义相反,因为mAP通常总是随层深度的增加而上升 。
293
+ * 这显示出初期任务不是和后期工作 ** 不是一致 **
0 commit comments