深層学習を使った
新薬の探索索から創造へ
Preferred  Networks
岡野原 ⼤大輔
hillbig@preferred.jp
2017/3/3
IPAB2017(並列列⽣生物情報処理理イニシアティブ)
今⽇日のアジェンダ
l 背景
̶— これまでのディーラーニングと創薬
l 創薬向け、ライフサイエンス向けの深層学習の進化
̶— 新NP問題に対する学習⼿手法
̶— ⽣生成モデルによる表現学習
̶— 化合物の特徴学習
l アプリケーション例例
̶— QSAR,  材料料設計,  性質予測
̶— シミュレーション
̶— 化合物の再合成の探索索
会社紹介:Preferred Networks (PFN)
l IoT時代に合わせた分散知能を備えた新しいコンピュータを創造する
l 2014年年3⽉月創業
l 東京オフィス,  シリコンバレーオフィス
l 従業員:約60⼈人 殆どが研究者、エンジニア
l 主な出資者 FANUC,  Toyota,  NTT
3
We are hiring!!
ディープラーニング(深層学習)とは
l 層が深く、幅も広いニューラルネットワーク
を利利⽤用した機械学習⼿手法
l 2012年年の⼤大ブレーク以来、研究コミュニティ
のみならず産業界に多く使われてきた
– 2014〜~2015年年中に出された関連論論⽂文数は1500を超える*
l 画像認識識、⾳音声認識識などで劇的な精度度向上を果たし、そ
の多くが既に実⽤用化されている
l ディープラーニングは⾮非線型かつ階層的な
⽣生成モデルとしても利利⽤用することができる
4
2014年の一般画像認識コンテストで優勝した
22層からなるのGoogLeNetの例 [Google 2014]
*http://memkite.com/deep-‐‑‒learning-‐‑‒bibliography/
深層学習 = 表現学習、⼀一貫学習(end-to-end学習)
l データをどのように表現するか(表現学習)
l 全モジュールを誤差逆伝播法で⼀一貫して学習
̶— モジュール毎の局所最適化の問題がない
̶— 信⽤用割り当て問題(誰に間違った責任があるか)を⾃自然に解く
5/50
特徴設計
ルール
・
プログラム
タスクの学習
ルールベース
浅い機械学習
(決定⽊木、RF、SVM、
ロジスティク回帰など)
深層学習
タスクの学習
表現学習
(特徴設計)
⼈人⼿手 データから⾃自動獲得
⼀一貫学習
深層学習の特徴
マルチモーダル、マルチタスク学習が容易易に
l マルチモーダル*
̶— 異異なる種類の⼊入⼒力力を統合
̶— 統合の仕⽅方はNNが学習する
l マルチタスク
̶— 異異なるタスクを⼀一緒に扱う
̶— 共通する特徴を学習できる
画像 テキスト ゲノム ⼊入⼒力力データ
タスクA B C
*注:データで全モーダルが揃っている必要はない c.f.  DropOut
⽣生物情報にみられる問題
l 新NP問題
̶— 数(Number)に⽐比べてパラメータ(Parameter)が⾮非常に多い
̶— 従来の統計モデルでは不不定問題となる
̶— 例例:遺伝⼦子発現の場合,数千次元.SNPsは数百万次元
l ⼤大量量のラベルなしデータと少量量のラベルありデータ
̶— 対象疾患でとられたデータは少量量(数⼗十〜~数千)
̶— ⼀一⽅方健常者もしくは対象ではない別の疾患向けにとられた
データは⼤大量量に存在する(数万〜~数百万)
7/50
最初の深層学習の適⽤用例例
薬の活性化予測 2012年年
8
• メルク主催の薬の活性化予測
コンテストでディープラーニ
ングを使ったチームが優勝
[Dahl+  14]
• メンバーには⽣生化学、製薬、
医療療関係者はおらず、創薬に
ついては全くの素⼈人
近年年のDNNとそれまでの最⾼高精度度の⼿手法の⽐比較
[Goh+ 17]より引用
全てのタスクでDNN(深層学習)を使った⼿手法が従来の最⾼高精度度を達成した⼿手法を
上回っている。⼀一⽅方、その差は画像認識識や⾳音声認識識の時のように⼤大きくはない
各⼿手法の⽐比較 [Goh+ 17]
LR:  ロジスティック回帰
RF:  ランダムフォレスト
ST-‐‑‒NN:  シングルタスクDNN
MT-‐‑‒DNN:  マルチタスクDNN
活性/毒性の予測タスク(PCBA,    MUV,  Tox21)の結果、マルチタスクDNNが有効
共通して有効な特徴を発⾒見見する、他タスク向けの学習データも利利⽤用して学習
できるメリットが⼤大きい、⼀一⽅方、それ以外のDNNのメリットはまだ少ない
なぜ、これまでDNNが化合物の活性予測で
(期待しているほど)既存⼿手法に対して差が出ないか
l 構造情報、3次元情報をうまくDNNが取り込めていない
̶— 与えていない情報を使った学習できない
→ 構造情報や3次元情報を利利⽤用した⼿手法が登場(後述)
l 学習データが少ない
̶— 画像認識識の場合は〜~百万枚の画像データセットを利利⽤用できてた
̶— ⼀一⽅方化合物では実験をしないと(教師)データが得られないた
め、⼤大量量のデータを取得するにはコストがかかる
→ 教師なしデータを使って半教師あり学習をする(後述)
→ one-­shot学習を適⽤用する
→ コストをかけて教師データを⼤大量量に作る(後述)
ライフサイエンス向けの
深層学習の進化
Diet Network (1/3) [Romero+ 16]
l 新NP問題
̶— サンプル数nに対しパラメータ数pの⽅方が⾮非常に多い n  <<  p
l DNNで学習する際、1層⽬目が問題となる
̶— ⼊入⼒力力がp次元、1層⽬目の次元(ユニット数)がd<<pの時、総結合
層を使うと、1層⽬目のパラメータ数はpdとなり多すぎる
̶— ⼀一⽅方、⼊入⼒力力に制約はなく畳込み層は使えない
⼊入⼒力力 (p次元)
1層⽬目(d次元)
2層⽬目 (d次元) 2層⽬目以降降のパラメータ数はd2なので
問題ない
最初がpdでパラメータ数が多すぎる
Diet Network (2/3)
l 1層⽬目のパラメータWeを出⼒力力するDNNを⽤用意する 図(b)
̶— XTをWe推定の⼊入⼒力力として使う、XTはサンプル数>>パラメータ
̶— Weは各特徴をどのように埋め込むのかを表す
l 補⾜足学習として、元のXを復復元するタスクも⾏行行う(図点
線)
Diet Network (3/3)
l 1000⼈人分のGenomeDNA配列列上のSNPsから
̶— 315345の遺伝⼦子変異異点(SNP,  5%以上の頻度度)を⼊入⼒力力で利利⽤用
̶— 性染⾊色体は除き、周辺の変異異との相関係数が0.5以下のを利利⽤用
SNP2Vecは学習パラメータ
数を1/1000にしながら
同じ精度度を達成する
⽣生成モデルを使った
表現の教師なし学習
l 観測データは⾒見見かけ上、⾮非常に複雑である
̶— ⾼高次元かつ、意味上の連続性はなく、次元間の相関がある
l もし、観測データを単純な表現に変換できれば多くの
問題が簡単に解ける(=表現学習)
̶— 単順な表現=低次元、意味上の連続性がある、各次元が独⽴立立
̶— もつれを解く(disentanglement)
̶— 従来のPCAやICAは線形かつ1層だけ
l 教師なしで、単純な表現への変換が可能か?
l → ⽣生成モデルが画像や⾳音声で成功しはじめている
認識識と⽣生成 (1/2)
l データxが未知の因⼦子zに基づいて⽣生成され観測される
l ⽣生成と認識識は対の問題である
z
x
例例:画像の場合
z:物体の形状,  カメラの位置,  光源の情報
(ドラゴン,  [10,  2,  -‐‑‒4],  white)
x:画像
生成
z
x
認識
(または推論)
推論論:狭義には事後確率率率
P(z|x)を求めること
認識識と⽣生成(2/2)
l 因⼦子は必ずしも1つではなく複数ある場合が⼀一般的
̶— 分析対象以外の因⼦子(図中c)は共変量量ともよばれる
̶— 潜在変数の誤差として撹乱変数とよばれる場合も
l 世の中のデータの⽣生成過程は⾮非常に複雑
̶— ⽣生成過程の多くは⾮非線形
̶— ノイズは様々な場所で加わり、それらは⾮非正規分布
l そして、⽣生成過程は⼀一般に未知
̶— ⽣生成過程のモデルは現実の⽣生成過程の近似である
̶— 例例:CGの⽣生成には数⼗十のステップが必要
18/50
z1
x
c
h
z2
h
多様体仮説:⾼高次元空間に低次元空間が埋め込まれている
l 観測されるデータがとりうる値の組み合わせは⾼高次元空間
に埋め込まれる低次元の多様体として表される
19/50
xが表現されている高次元空間
1点1点がありうる
データの組み合わせ
x上で近くても意味
は全然違う
なぜ低次元かというと、
元々低次元のzが
複雑さをあげずに
xとして⽣生成されるため
c.f.  [Lin+  16]
局所的に低次元の座標系
が埋め込まれる
元の表現から単純な(因⼦子)表現への変換
20/50
⽣生成
認識識
因⼦子上の
単純な表現
l 元の表現の近さと意味上の近さは違う場合が多い
因⼦子上の表現では意味上で遠いものは遠く、近いものは近く
にマッピングする
単純な表現では学習が簡単
21/50
生成
認識
因子上の
単純な表現
l 多くのタスクは因⼦子と関係しており、因⼦子上では単純な分
類⾯面となる → 学習データは少なくて済む
複雑な分類⾯面を学習するため
に教師データはたくさん必要
単純な分類⾯面のため
教師データは少量量で⼗十分
例例:VAEにより⼿手書き⽂文字データを2次元上の因⼦子にマッ
ピングした結果
元々の⼿手書き⽂文字データは⾼高次元(784次元)であり,曲がっているが,
その因⼦子を求めると,以下のような低次元の表現に変換できる
もし,数字の1を分類したいなら
この分類⾯面を求めれば良良い
⽣生成モデル例例(詳しくは[岡野原 16]を参照)
xを⾼高速に
サンプリング
できるか
尤度度P(x)を
計算できるか
データ⽣生成直
前にノイズを
⼊入れないか
安定して
学習できる
か
変分⾃自⼰己符号化器
VAE
○ △
下限のみ
☓ ○
敵対的⽣生成モデル
GAN
○ ☓
尤度度⽐比のみ
Q(x)/P(x)
○ ☓〜~△
⾃自⼰己回帰モデル
Pixel  CNN
WaveNet
☓〜~△ ○ ○ ○
エネルギーモデル ○ ○ ○ ☓〜~△
モーメントマッチ
モデル
○ ☓ ○ ○
GANによるアニメ画像のランダムサンプリング例例
Chainer-GAN
24
GANによる花の⽣生成例例
25
LSGANによる教会の⽣生成例例 [Mao+ 16]
GANによる⾃自然画像の⽣生成
l まだ⾃自然画像の
⽣生成も難しい
l 動物の⽑毛は
再現できているが
全体の⼀一貫性が
無い
化合物構造の連続表現例例 [Gomez-Bombarelli+ 17]
l ランダムサンプリング例例 l z上での補間例例
化合物構造を表すSMILES⽂文字列列から潜在の連続空間zへの
変換をVAEで学習
連続zを2次元上で滑滑らかに移すと
離離散の化合物構造が連続に変わる
化合物の連続表現の最適化
l 潜在空間上で特定の性質を最適化する
̶— 潜在表現zから性質yへの回帰モデルy=f(z)を学習
̶— 回帰モデルの勾配情報を使って、潜在表現→化合物を最適化
化合物向けのDNN層 (1/2) [Altae-Tran+ 16]
l グラフ構造上で畳込み層を計算する
̶— 隣隣接する頂点を近傍だとして畳込み操作を適⽤用する
化合物向けの表現学習
l プーリング
̶— 近傍の最⼤大値を加える
̶— パラメータを増やすことなく
受容野を⼤大きくできる
l 全体平均
̶— グラフ構造に対し固定のベクト
ルを⼀一つ決める
̶— 画像でも分類の最終層で使う
DNNを使ったリアルタイムシミュレーション[Thompson+ 16]
l 計算に時間がかかる圧⼒力力の推定を直接DNNで回帰する
̶— 様々な物体、初期状態で圧⼒力力の推定を学習する
̶— 従来は共役勾配法を使った逐次最適化で時間がかかった
̶— DNNによる回帰は近似であるが定数時間で近似でき、少なくと
も”⾒見見た⽬目”はシミュレーションされた結果が得られる
AlphaChem [Segler+ 17]
l 再合成の探索索(retrosynthesis)
̶— 与えられた化合物を⽣生成できる合成⽅方法を逆向きに探索索する
AlphaChem: Retrosynthesisと強化学習
l 再合成できるパスを探す問題を強化学習で解く
̶— 各⾏行行動は実験の1ステップ
u 可能な⾏行行動を探すこと⾃自体、部分グラフの相同問題でNP完全
u 平均の分岐数は200、深さは10~20。囲碁は(有⼒力力⼿手の)平均
分岐数数⼗十、深さは100で囲碁の⽅方が探索索空間は広い
̶— 報酬は状態が終了了状態で合成に成功したら1、合成に失敗したら
-­1、それ以外は0
l どの⾏行行動をとるかの⽅方策P(a|s)を学習する
̶— aは⾏行行動、sは状態
l この問題は囲碁のAlphaGoと同じである
̶— 状態の将来的な評価、探索索と活⽤用のジレンマ
AlphaChem: 探索索基準
l MCTS  (Monte  Carlo  Tree  Search)を利利⽤用
̶— 探索索基準に従い⼿手を展開し、葉葉からは⽅方策でRollOutし評価する
l ⼿手vの展開基準はUCT
̶— P(a)  ⽅方策により⾏行行動aに割り当てられた確率率率
̶— N(v)  節点vを訪問した回数
̶— Q(v)  節点vに累累積された報酬
̶— c  未知の探索索をどれだけ重視するか(実験では3)
候補手v’の平均報酬 方策による候補手の評価値
探索回数が少ないとボーナス
AlphaChem: 実験結果
l 40の薬物と似た化合物に対し再合成ができるかを調べた
̶— 制限時間は2時間,  CPU上で評価
̶— BFSは9000節点を探索索、MCTSは9000回のロールアウトを上限
̶— BFSは優先度度つき幅優先度度つき探索索、ヒューリスティックスと
⽅方策をコストとしてつかった場合
l MCTSを使った⼿手法が多くの場合再合成できる⽅方法を
みつけられた
microRNAのbinding予測
Deep Target [Lee+ 16]
37/50
RNA,  miRNAの表現を
教師無しで学習
両者の潜在表現を元にRNNで
結合するかを予測
可変⻑⾧長データをうまく表現できる
のが⼤大きい
今後の展望
PFNの取り組みより
今後の競争は様々なところでおきる
0101011100011
学習データ 計算リソース 学習済みモデル
学習アルゴリズム
学習理理論論
実装(DNNフレームワーク)
今後の競争は様々なところでおきる
0101011100011
学習データ 計算リソース 学習済みモデル
学習アルゴリズム
学習理理論論
実装(DNNフレームワーク)
「⼈人⼯工知能(AI)を活⽤用した統合的がん医療療システム開発
プロジェクト開始」2016/11/29
with 国⽴立立がん研究センター, 産総研AIセンター
臨臨床情報、マルチオミックスデータ、医⽤用画像,、疫学デー
タを利利⽤用しPrecision Medicineの実現を⽬目指す
41
乳がん検査の精度度
90%
99%
80%マンモグラフィー
リキッドバイオプシー
(血液中のmicroRNA)
[Shimomura+ Cancer Science 2016]
リキッドバイオプシー
+
Deep Learning
学習データをどのように集めるか
l 重要で⼤大量量のデータをいかに集めるか
l 海外の事例例:Grail
̶— Illumina発のスタートアップ、GoogleX,  Illumina取締役の
Jeff  HuberがCEO、アドバイザに各分野の重要⼈人物
̶— $900millionをシリーズBで調達し、がんの⾎血液検査(Liquid  
Biopsy)による早期発⾒見見を実現するために数⼗十万⼈人の患者のゲ
ノムデータを集める
l 技術を組み合せ⼯工夫して、データの数を増やせるか?
̶— 例例えばiPS細胞+ゲノム編集+Single  Cell+次世代シーケンサ
を使った疾病モデルの網羅羅解析
l 時間解像度度をどのようにあげられるか?
̶— 現状多くのライフサイエンスデータはスナップショット
今後の競争は様々なところでおきる
0101011100011
学習データ 計算リソース 学習済みモデル
学習アルゴリズム
学習理理論論
実装(DNNフレームワーク)
45
今後の機械学習/深層学習が必要とする計算リソース
1E〜100E Flops
⾃自動運転⾞車車1台あたり1⽇日 1TB
10台〜~1000台,  100⽇日分の⾛走⾏行行データの学習
バイオ・ヘルスケア
⾳音声認識識 ロボット/ドローン
10P〜~ Flops
1万⼈人の5000時間分の⾳音声データ
⼈人⼯工的に⽣生成された10万時間の
⾳音声データを基に学習 [Baidu 2015]
100P  〜 1E Flops
⼀一⼈人あたりゲノム解析で約10M個のSNPs
100万⼈人で100PFlops、1億⼈人で1EFlops
10P(画像)  〜~ 10E(映像) Flops
学習データ:1億枚の画像 10000クラス分類
数千ノードで6ヶ⽉月 [Google  2015]
画像/
映像認識識
1E〜~100E Flops
1台あたり年間1TB
100万台〜1億台から得られた
データで学習する場合
⾃自動運転
10PF 100EF100PF 1EF 10EF
P:Peta  
E:Exa
F:Flops
機械学習、深層学習は学習データが大きいほど高精度になる
現在は人が生み出したデータが対象だが、今後は機械が生み出すデータが対象となる
各種推定値は1GBの学習データに対して1日で学習するためには
1TFlops必要だとして計算
学習を1⽇日で終わらせるのに必要な計算リソース
PFNも独⾃自の計算インフラを構築中
l 現状の計算環境
̶— 現在トータル2ペタflops程度度(200GPU)
@さくらインターネット⾼高⽕火⼒力力
̶— 今年年に10ペタflops(1000GPU)相当まで拡⼤大する想定
̶— 参考:京コンピュータ 10ペタ Flops(倍精度度,  2012年年)
Baidu  Minwa 0.6ペタ Flops  (2015年年)
Googleは現在数万GPU(>100PF)を使っていると推定
l 深層学習専⽤用チップを開発中
̶— 2019年年頃にトータルで1エクサ DL  ops
1チップあたり1ペタ DL  ops,  計算クラスタ
トータルで1エクサ DL  opsを⽬目指す
l クラウド環境か?⾃自分で構築するか?
̶— 現状GPU+分散計算はHPCに近くクラウド環境からは遠い
46
今後の競争は様々なところでおきる
0101011100011
学習データ 計算リソース 学習済みモデル
学習アルゴリズム
学習理理論論
実装(DNNフレームワーク)
Chainer as an open-source project
l https://github.com/pfnet/chainer
l 101  contributors
l 2,128  stars  &  564  fork
l 7,335  commits
l Active  development  &  release  
̶— v1.0.0  (June  2015)  to    v1.20.1  (January  2017)
48
Original developer
Seiya Tokui
ChainerMN マルチノード分散学習
Imagenetの学習が20⽇日超から4.4時間に
ChainerMN
developer
Takuya Akiba
分散・⾼高速化しても精度度は変わらない
今後の競争は様々なところでおきる
0101011100011
学習データ 計算リソース 学習済みモデル
学習アルゴリズム
学習理理論論
実装(DNNフレームワーク)
半教師あり学習
VAT:仮想敵対事例例学習[Miyato+ 16]
l 現在の半教師あり学習の最⾼高精度度*
̶— ⼤大量量の教師なしデータと少量量の教師ありで学習
Takeru Miyato
*  CIFAR-‐‑‒10,  SVHNを含んだ実験結果は投稿準備中
教師なし学習 [Hu+ 17]
IMSAT:  
VATにさらに情報量量最⼤大基準を組み合わせて
離離散値への教師なし符号化を⾏行行う
現在の教師なしクラスタリング、Hash学習の
最⾼高精度度
2016夏 PFN  Internでの成果
学習アルゴリズム、学習理理論論
l 多くは論論⽂文としてコミュニティで共有されている
̶— 1⽇日10〜~30本、年年間数千本〜~1万本、主にarXivで⾒見見つかる
̶— インターンが様々な企業を渡り歩いて成果をあげてるのも特徴
l 実⽤用化は様々な分野で同時多発的に起きている
̶— 実⽤用化されている分野は技術、ノウハウの公開は限定的
̶— 公開されている研究技術よりかなり先に進んでいる分野も多い
l 論論⽂文にならないノウハウが急速に蓄積されている
̶— 現状、深層学習では様々なノウハウが差別化になっている
例例:GANの学習は⾮非常に不不安定
̶— ハイパーパラメータ、モデル選択、学習⼿手法、選択など
まとめ
まとめ
l 創薬分野で深層学習が利利⽤用されはじめている
̶— 多くの問題で深層学習はこれまでの機械学習⼿手法より成功している
̶— ⼀一⽅方、これまで深層学習が成功し画像認識識、⾳音声認識識にくらべて⼤大
きな成果はあげていない。データが少なく解像度度が低いことが主因
̶— データの量量・質をあげることが重要
l 深層学習の利利⽤用例例は多岐に広がっている
̶— 分類、回帰のみならず、⽣生成、シミュレーションなどにも利利⽤用
̶— 今後、解釈性、透明性、操作可能性が必要
l データ、⼿手法、計算リソース、実装で競争
̶— 全⽅方⾯面が競争領領域になっており⾮非常にアクティブ
[⽂文献]
l [Dahl+14]  Multi-­task  Neural  Networks  for  QSAR  Predictions,  G.  E.  
Dalh,  N.  Jaitly,  R.  Salakhutdinov
l [Goh+  17]  Deep  Learning  for  Computational  Chemistry,  G.  B.  Goh,  
N.  O.  Hodas,  A.Vishnu,  arXiv:1701.04503
l [Romero+    16]  Diet  Networks:  Thin  Parameters  for  Fat  Genomics,  A.  
Romero,  and  et.  al.  arxiv:1611.09340
l [岡野原 16]  深層⽣生成モデルによる表現学習,  IIBMP  2016
l [Lin+  16]  “Why  does  deep  and  cheap  learning  work  so  well?”,  H.  W.  
Lin, M.  Tegmark
l [Mao+  16]  Least  Squares  Generative  Adversarial  Networks,  X.  Mao.  
And  et.  al.  arxiv:1611.04076
l [Gomez-­Bombarelli+  17]  Automatic  Chemical  Design  using  a  data-­
driven  continous representation  ofmolecules,  R.  Gomez-­Bombarelli,  
and  et,    al.arxiv:1610.02415
l [Tomspson+  16]  Accelerating  Eulerian  Fluid  Simulation  with  
Convolutional  Networks,  J.  Tompson,  and  et.  al.  arxiv:1607.03597  
l [Altae-­Tran+  16]  Low  Data  Drug  Discovery  with  One-­shot  Learning,  
H.  Alatae-­Tran,  and  et.  al.  arxiv:1611.03199
l [Segler+  17]  Towards  “AlphaChem”:  Chemical    Synthesis  Planning  
with  Tree  Search  and  Deep  Neural  Network  Policies,  M.  Segler and  
et.  al.  arxiv:1702.00020
l [Lee+  17]  DeepTarget:  End-­to-­end  Learning  Framework  for  
microRNA  Target  Prediction  using  Deep  Recurrent  Neural  Networks,  
B.  Lee,  and  et.al,  arxiv:1603.09123
l [Miyato+  16]  “Distributional  Smoothing  with  Virtual  Adversarial  
Training”,  T.  Miyato,  and  et.  al.  ICLR  2016
l [Hu+  17]  Learning  Discrete  Representations  via  Information  
Maximization  Self  Augmented  Training,  W.  Hu  and  et  al.  
arxiv:1702.08720

IPAB2017 深層学習を使った新薬の探索から創造へ