Data-Centric AIの紹介

Mobility Technologies Co., Ltd.
Data-Centric AIの紹介
Mobility Technologies
宮澤一之

宮澤一之
株式会社Mobility Technologies
AI技術開発部 AI研究開発第二グループ
グループリーダー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
自己紹介
2
@kzykmyzw

本日の内容
1. Data-Centric AIとは
2. Data-Centric AI Competition
3. ケーススタディ
4. 所感
3

Data-Centric AIとは
4
1

Model-Centric AIとData-Centric AI
5
Model-Centric AI
■ データを集め、データに含まれるノイズに耐えられるような良いモデルを開発する
■ データを固定し、コード/モデルを繰り返し改良していく
Data-Centric AI
■ データの一貫性を最重要とし、ツールを使ってデータの品質を改善する
■ コード/モデルを固定し、データを繰り返し改良していく
現在のパラダイム
新しいパラダイム

Andrew Ng
■ xxxx 年 xx月　すごい経歴（略
■ 2017年12月　Landing AIというスタートアップを立ち上げ
■ 2020年10月　製造業向けの外観検査ツールLandingLensをローンチ
■ 2021年03月　Deeplearning.AIのイベントでData-Centric AIについて講演
■ 2021年06月　Data-Centirc AI Competition開催
■ 2021年12月　NeurIPSでData-Centric AI Workshop開催
Data-Centric AIの提唱者
6
https://en.wikipedia.org/wiki/Andrew_Ng

■ 外観検査プロジェクトにおいて、ベースライン方式をどれだけ改善できるか
Model-CentricとData-Centricを比較
■ Model-Centricではベースライン性能をほとんど改善できなかったのに対し、
Data-Centricでは大きな改善が得られた
Model-Centric vs. Data-Centric
7
鉄製品の欠陥検査
ソーラーパネルの欠
陥検査
表面検査
Baseline 76.2% 75.68% 85.05%
Model-Centric 76.2% (+0%) 75.72% (+0.04%) 85.05% (+0%)
Data-Centric 93.1% (+16.9%) 78.74% (+3.06%) 85.45% (+0.4%)
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube

Data-Centricアプローチ
8
イグアナをBBOXで囲む
アノテータA アノテータB
アノテータC
■ アノテータによるラベルの偏りがない、一貫したデータセットの構築を目指す
■ データにおける問題の発見、解決を機械学習エンジニアのスキルに依存するのでは
なくシステマティックに行う

1. 複数のアノテータに同一のサンプル画像を提示
2. アノテータ間のラベルの一貫性を定量化
3. アノテータ間でばらつきの大きいクラスについてアノテーションルールを見直し
4. 1. - 3. を収束するまで反復
一貫したラベルを得るための手法例
9

データが少ないほど品質が重要
10
■ データ量が多ければある程度のノイズはキャンセルされるが、データ量が少ない場
合はその品質が極めて重要になる
■ 500枚の学習データの12%がノイズである場合、以下2つは同じ効果を持つ
■ ノイズを除去する
■ 追加で500枚を学習データに加える（データセットサイズを2倍にする）
データ量：少
データ品質：低
データ量：多
データ品質：低
データ量：少
データ品質：高

従来のソフトウェア
機械学習ソフトウェア
従来のソフトウェアと機械学習ソフトウェアの違い
11
スコープ定義コーディングデプロイ
スコープ定義学習デプロイ
データ収集
DevOps
MLOps

MLOpsの役割
12
スコープ定義学習デプロイ
データ収集
MLOps
機械学習プロジェクトのライフサイクル全体を通じて高品質なデータを保証する
Q. どのようにデータを定義
し、集めればよいか？
Q. モデルの性能改善のた
めにどのようにデータを変
更すればよいか？
Q. コンセプト/データドリフト
を検知するためにどのよう
なデータをトラックすればよ
いか？
MLOpsチームは各フェーズでのこれらの問いに答えられる必要がある

Good Data is:
■ 定義が一貫している（ラベル y の定義に曖昧さがない）
■ 重要なケースをカバーしている（入力 x の分布を十分にカバーしている）
■ 現在のデータがタイムリーにフィードバックされる（データ分布がデータドリフトやコン
セプトドリフトをカバーしている）
■ サイズが適切である
Big DataからGood Dataへ
13

まとめ
14
AI System = Code + Data
Model-Centric AI
性能を改善するためにどのようにモ
デル（コード）を変更するか
Data-Centric AI
性能を改善するためにどのようにシ
ステマティックにデータを変更するか
■ MLOpsの最重要タスクは、機械学習プロジェクトのライフサイクル全体を通じて
高品質なデータを保証すること
■ 今後はData-Centric AIを効率的かつシステマティックに実現するためのツール
が重要となる

Data-Centric AI Competition
15
2 https://https-deeplearning-ai.github.io/data-centric-comp/

コンペ概要
期間：2021/6/24〜9/4
内容/ルール：
■ 手書きローマ数字のデータセット（2880枚）に対する分類精度を改善する
■ 分類モデル（ResNet50）や学習スクリプトは固定であり、参加者はデータセットの
みを変更する
■ データセットサイズはtrain/val併せて10000枚まで
■ train/valのスプリット方法も参加者が決める
■ 変更したデータセットをzipで固めてCodaLabからアップロードすると、学習が
CodaLab上で実行されてhidden test setでの評価が行われる
16

サンプルデータ（正常）*
17
* 参加された方のQiita記事より引用

サンプルデータ（ノイズ）*
18

サンプルデータ（ラベルミス、判別不能）*
19

結果
20
順位チーム名 Accuracy
Baseline 0.64421
1 Divakar Roy 0.85826
2 Innotescus 0.85744
3 Synaptic-AnN 0.85455
4 Synaptic-AnN 0.85083
5 Jens Kramer 0.84959
… … …
486 RAHUL GUPTA 0.059091
Best Performance賞が上位3チームに授与
その他、順位に関係なく（？） Most Innovative
賞が3チームに授与

Best Performance - 1st
21
文字領域（前景）とノイズ（背景）を分離
文字領域をクロップしてデータ拡張
拡張した文字領域を背景に合成
目視によるデータクレンジング
　　　　　　　・ラベルミスの修正
　　　　　　　・類似サンプルの削除
　　　　　　　・曖昧サンプルの削除
https://www.deeplearning.ai/data-centric-ai-competition-divakar-roy/

Best Performance - 2nd
22
https://www.deeplearning.ai/data-centric-ai-competition-innotescus/
データセットサイズは当初の 78%と
なったがAccuracyは9%改善
train/valスプリットの調整
サブクラスのbalancing
hard exampleの追加
画像特徴をクラスタリングすることで各クラ
スをサブクラスに分け、サブクラスレベルで
balancingするようにデータ拡張
validationサンプルに対し以下の
difficulty scoreを定義し、スコアに基
づいてhard exampleを探して学習
データに追加
Po
max
：クラス確率の最大値
Po
2ndmax
：クラス確率の
2番目に大きい値

Best Performance - 3rd
23
https://www.deeplearning.ai/data-centric-ai-competition-synaptic-ann/
手書きによるデータ追加
testセットサンプルからのデータ拡張
AutoAugment
複数モデルの投票によるフィルタリング
サンプル画像（青枠）の一部をコピペす
ることでデータを拡張
AutoAugment論文からSVHN向けに探
索されたデータ拡張手法を流用
拡張したデータセットに対して複数の
CNNモデルで推論を行い、クラス確率
の投票値に基づいて低品質な画像を
フィルタリング

Most Innovative - 1st
24
　　　　　　　・重複サンプルの削除
補助モデルの学習
補助モデルによるスクリーニング
クラス不均衡の解消
N-fold Cross Validation
少数のサンプルを選び、ラベルが正確
であることを確認した上で分類モデルを
学習
補助モデルでデータセット全体を推論
し、ロスが小さいサンプル K枚とロスが
大きいサンプルL枚を取り出して目視確
認を行い、必要に応じてラベル修正や
削除を実施
補助モデルの学習データ残りの学習データ
小　　　　　　　ロス　　　　　　　大
目視
目視により修正した高品質なデータを補
助モデルの学習データに加え、補助モ
デルを学習し直す
補助モデルの学習データ残りの学習データ
全サンプルを目視するまで繰り返し
https://www.deeplearning.ai/data-centric-ai-competition-mohammad-motamedi/

Most Innovative - 2nd
25
https://www.deeplearning.ai/data-centric-ai-competition-johnson-kuan/
候補データとして、データ拡張により 100万枚を生成
trainセットで学習、valセットで推論
valセットで推論を誤ったサンプルと最も近いサンプルを候
補データから探索し、 trainセットに加える
trainセットがルール上限である 1万枚に
到達するまで繰り返し
別途用意したpretrainedモデル
で抽出した特徴量を使って最近
傍探索を実施

Most Innovative - 3rd
26
https://www.deeplearning.ai/data-centric-ai-competition-godatadriven/
特徴量の可視化による train/val不均衡の調査
Streamlitでインタラクティブにデータ拡張
UMAPで特徴量を可視化
valに存在しない領域

ケーススタディ〜 Tesla 〜
27
3 以下資料の抜粋です
Teslaにおけるコンピュータビジョン技術の調査

Secret
28
https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=8181s

ユーザ車両からのデータ収集
29
https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=7625s
■ あらかじめ設定した条件をトリガとしてユーザ車両からデータを自動収集
■ 新機能はまずシャドーモードでデプロイし、機能がうまく動作しないシーンなどのデータを収集
■ 収集したデータは学習データの他、一部は将来的に対応すべきシーンとしてユニットテストに追加
■ デプロイ → データ収集 → 学習 → デプロイ…のループを”データエンジン”と呼ぶ

事例1：標識検出
30
■ 標識検出では、オクルージョンや補助標識による条件付きなど様々なケースに対応する必要がある
■ 例えば木で隠された標識だけを見つける検出器を作ってユーザ車両にデプロイし、検出結果をトリガとして木で隠
された標識の画像を大量に自動収集して学習データセットに加える
https://www.youtube.com/watch?v=hx7BXih7zx8&t=700s

■ レーダーは前方車両の距離と速度を正確に計測できるが、ノイズや垂直分解能の低さが課題
■ カメラのみでレーダーと同等精度の計測を可能にする機械学習モデルをわずか4ヶ月で開発
■ データ収集のためのトリガ（カメラとレーダーの不整合発生など）を221種類用意し、学習データとして100万映像
（1.5ペタバイト）を収集
事例2：レーダーの廃止
31
https://www.youtube.com/watch?v=g6bOwQdCJrc&t=893s

■ 前方車両の急ブレーキや道路にかかる橋などによりレーダーが不正確となるケースでもカメラにより正確な計測
が可能となった
■ リリースにあたっては6000種類のクリップによるユニットテストやシミュレーションで生成した1万シナリオを使って
検証を実施
事例2：レーダーの廃止
32
https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1366s

■ 自社に1000人規模のアノテーションチームを設置し、そのためのインフラをフルスクラッチで開発
■ オフライン処理である利点を活用してアノテーションを自動化し、その誤りを人間が修正
■ 車両にデプロイできないような大規模なモデルやアンサンブルの利用
■ 未来情報（hindsight）の活用
■ 同一箇所を走行した複数車両のデータを統合
アノテーション
33
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5075s https://www.youtube.com/watch?v=g6bOwQdCJrc&t=732s

4次元空間でのアノテーション
34
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5223s
��

複数車両のデータの統合
35
��

■ シミュレータを活用することでレアケースや人手でのアノテーションが困難なシーンを生成
■ 車両や歩行者などのオブジェクトは数千種類、マニュアルで作成した道路は2000マイル以上
■ 現行モデルが失敗したシーンの実データを3次元再構成してシミュレータ内に再現し改善に役立てる
■ より写実的なレンダリングのため、ニューラルレンダリングも活用
シミュレーションの活用
36

所感
37
4

所感
■ Data-Centric AIの細かい構成要素で言えば、特に目新しいものはなく、皆が課題と感
じており、すでに解決策を模索している
■ Data-Centric AIの言わんとしていることは、それらを個人のスキルや暗黙知に依存さ
せるのではなく、分野としてしっかり体系化しましょうということ（Andrew先生も、
systematicにやるという点を強調していた）
■ そのためには汎用的なツールの開発が最も重要になる（データセットのバージョン管
理技術なども含む）
38

文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
39

Data-Centric AIの紹介

More Related Content

What's hot

Similar to Data-Centric AIの紹介

More from Kazuyuki Miyazawa

Data-Centric AIの紹介