動作認識におけるディープラーニングの
最新動向② Sequential DL for HAR	
2016/3/15
株式会社ウェブファーマー
大政 孝充
今回取り上げるのはこれ	
[1]M.Baccouche, F.Mamalet, C.Wolf, C.Garcia, A.Baskurt.
“Sequential deep learning for human action recognition.” In
Human Behavior Understanding, page 29-39. Apringer, 2011.
3D-CNNとRNNを組み合わせることで、認識率を向上させ
た!
まず基本
3D-CNNとは?	
[1]のFigure 1, Figure2より
2DのCNN
3D-CNN
vij
wy
= tanh bij + wijm
pq
v(i−1)m
(x+p)(y+q)
q=0
Qi−1
∑
p=0
Pi−1
∑
m
∑
⎛
⎝
⎜⎜
⎞
⎠
⎟⎟ vij
wyz
= tanh bij + wijm
pq
v(i−1)m
(x+p)(y+q)(z+r)
r=0
Ri−1
∑
q=0
Qi−1
∑
p=0
Pi−1
∑
m
∑
⎛
⎝
⎜⎜
⎞
⎠
⎟⎟
時間軸方向
に展開
詳細はこちら→http://www.slideshare.net/ssuser07aa33
もうひとつ基本
RNNとは?	
入力層	 出力層	中間層	
ある時刻の出力が次の時刻の入力へと回帰する
→つまり情報が次の時刻に記憶される!
これが全体の構造!	
[1]のFigure 3より
これが全体の構造!	
3D-CNNで特徴をもとめ
これが全体の構造!	
それをさらにRNNにかける
3D-CNNの部分はこうだ!	
[1]のFigure 1より
3D-CNNな部分の詳細(1)	
input画像を3Dで畳み込む
連続する9シーンのうち
5シーンで畳み込む
3D-CNNな部分の詳細(2)	
あとは通常の2D-CNNで畳み込み、
プーリング、全結合し、クラスごとに出力
3D-CNNな部分の詳細(3)	
これをどんどん学習させると・・・
3D-CNNな部分の詳細(4)	
C3層に3×8×5=120次元の
特徴ベクトルが形成される
→これをRNNに入力する
RNNな部分の詳細(1)	
一連のシーンのうち
最初の9シーンを切り出し
3D-CNNへ入力
特徴ベクトルをt=1のデー
タとしてRNNへ入力
t=1におけるRNN
からの出力
RNNな部分の詳細(2)	
次の9シーンを切り出し
3D-CNNへ入力
t=2におけるRNN
からの出力
特徴ベクトルをt=2のデー
タとしてRNNへ入力
RNNな部分の詳細(3)	
最後の9シーンを切り出し
3D-CNNへ入力
出力をt=nのデータと
してRNNへ入力
t=nにおけるRNN
からの出力
RNNな部分の詳細(4)	
これをどんどん学習させる
RNNな部分の詳細(5)	
テスト時には、t=nの出力結果を
もって判断する!

動作認識におけるディープラーニングの最新動向2Sequential DL for HAR