Mobility Technologies Co., Ltd.
Data-Centric AIの紹介
Mobility Technologies
宮澤一之
Mobility Technologies Co., Ltd.
宮澤 一之
株式会社Mobility Technologies
AI技術開発部 AI研究開発第二グループ
グループリーダー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
自己紹介
2
@kzykmyzw
Mobility Technologies Co., Ltd.
本日の内容
1. Data-Centric AIとは
2. Data-Centric AI Competition
3. ケーススタディ
4. 所感
3
Mobility Technologies Co., Ltd.
Data-Centric AIとは
4
1
Mobility Technologies Co., Ltd.
Model-Centric AIとData-Centric AI
5
Model-Centric AI
■ データを集め、データに含まれるノイズに耐えられるような良いモデルを開発する
■ データを固定し、コード/モデルを繰り返し改良していく
Data-Centric AI
■ データの一貫性を最重要とし、ツールを使ってデータの品質を改善する
■ コード/モデルを固定し、データを繰り返し改良していく
現在のパラダイム
新しいパラダイム
Mobility Technologies Co., Ltd.
Andrew Ng
■ xxxx 年 xx月 すごい経歴(略
■ 2017年12月 Landing AIというスタートアップを立ち上げ
■ 2020年10月 製造業向けの外観検査ツールLandingLensをローンチ
■ 2021年03月 Deeplearning.AIのイベントでData-Centric AIについて講演
■ 2021年06月 Data-Centirc AI Competition開催
■ 2021年12月 NeurIPSでData-Centric AI Workshop開催
Data-Centric AIの提唱者
6
https://en.wikipedia.org/wiki/Andrew_Ng
Mobility Technologies Co., Ltd.
■ 外観検査プロジェクトにおいて、ベースライン方式をどれだけ改善できるか
Model-CentricとData-Centricを比較
■ Model-Centricではベースライン性能をほとんど改善できなかったのに対し、
Data-Centricでは大きな改善が得られた
Model-Centric vs. Data-Centric
7
鉄製品の欠陥検査
ソーラーパネルの欠
陥検査
表面検査
Baseline 76.2% 75.68% 85.05%
Model-Centric 76.2% (+0%) 75.72% (+0.04%) 85.05% (+0%)
Data-Centric 93.1% (+16.9%) 78.74% (+3.06%) 85.45% (+0.4%)
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
Data-Centricアプローチ
8
イグアナをBBOXで囲む
アノテータA アノテータB
アノテータC
■ アノテータによるラベルの偏りがない、一貫したデータセットの構築を目指す
■ データにおける問題の発見、解決を機械学習エンジニアのスキルに依存するのでは
なくシステマティックに行う
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
1. 複数のアノテータに同一のサンプル画像を提示
2. アノテータ間のラベルの一貫性を定量化
3. アノテータ間でばらつきの大きいクラスについてアノテーションルールを見直し
4. 1. - 3. を収束するまで反復
一貫したラベルを得るための手法例
9
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
データが少ないほど品質が重要
10
■ データ量が多ければある程度のノイズはキャンセルされるが、データ量が少ない場
合はその品質が極めて重要になる
■ 500枚の学習データの12%がノイズである場合、以下2つは同じ効果を持つ
■ ノイズを除去する
■ 追加で500枚を学習データに加える(データセットサイズを2倍にする)
データ量:少
データ品質:低
データ量:多
データ品質:低
データ量:少
データ品質:高
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
従来のソフトウェア
機械学習ソフトウェア
従来のソフトウェアと機械学習ソフトウェアの違い
11
スコープ定義 コーディング デプロイ
スコープ定義 学習 デプロイ
データ収集
DevOps
MLOps
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
MLOpsの役割
12
スコープ定義 学習 デプロイ
データ収集
MLOps
機械学習プロジェクトのライフサイクル全体を通じて高品質なデータを保証する
Q. どのようにデータを定義
し、集めればよいか?
Q. モデルの性能改善のた
めにどのようにデータを変
更すればよいか?
Q. コンセプト/データドリフト
を検知するためにどのよう
なデータをトラックすればよ
いか?
MLOpsチームは各フェーズでのこれらの問いに答えられる必要がある
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
Good Data is:
■ 定義が一貫している(ラベル y の定義に曖昧さがない)
■ 重要なケースをカバーしている(入力 x の分布を十分にカバーしている)
■ 現在のデータがタイムリーにフィードバックされる(データ分布がデータドリフトやコン
セプトドリフトをカバーしている)
■ サイズが適切である
Big DataからGood Dataへ
13
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
まとめ
14
AI System = Code + Data
Model-Centric AI
性能を改善するためにどのようにモ
デル(コード)を変更するか
Data-Centric AI
性能を改善するためにどのようにシ
ステマティックにデータを変更するか
■ MLOpsの最重要タスクは、機械学習プロジェクトのライフサイクル全体を通じて
高品質なデータを保証すること
■ 今後はData-Centric AIを効率的かつシステマティックに実現するためのツール
が重要となる
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
Data-Centric AI Competition
15
2 https://https-deeplearning-ai.github.io/data-centric-comp/
Mobility Technologies Co., Ltd.
コンペ概要
期間:2021/6/24〜9/4
内容/ルール:
■ 手書きローマ数字のデータセット(2880枚)に対する分類精度を改善する
■ 分類モデル(ResNet50)や学習スクリプトは固定であり、参加者はデータセットの
みを変更する
■ データセットサイズはtrain/val併せて10000枚まで
■ train/valのスプリット方法も参加者が決める
■ 変更したデータセットをzipで固めてCodaLabからアップロードすると、学習が
CodaLab上で実行されてhidden test setでの評価が行われる
16
Mobility Technologies Co., Ltd.
サンプルデータ(正常)*
17
* 参加された方のQiita記事より引用
Mobility Technologies Co., Ltd.
サンプルデータ(ノイズ)*
18
* 参加された方のQiita記事より引用
Mobility Technologies Co., Ltd.
サンプルデータ(ラベルミス、判別不能)*
19
* 参加された方のQiita記事より引用
Mobility Technologies Co., Ltd.
結果
20
順位 チーム名 Accuracy
Baseline 0.64421
1 Divakar Roy 0.85826
2 Innotescus 0.85744
3 Synaptic-AnN 0.85455
4 Synaptic-AnN 0.85083
5 Jens Kramer 0.84959
… … …
486 RAHUL GUPTA 0.059091
Best Performance賞が上位3チームに授与
その他、順位に関係なく(?) Most Innovative
賞が3チームに授与
Mobility Technologies Co., Ltd.
Best Performance - 1st
21
文字領域(前景)とノイズ(背景)を分離
文字領域をクロップしてデータ拡張
拡張した文字領域を背景に合成
目視によるデータクレンジング
       ・ラベルミスの修正
       ・類似サンプルの削除
       ・曖昧サンプルの削除
https://www.deeplearning.ai/data-centric-ai-competition-divakar-roy/
Mobility Technologies Co., Ltd.
Best Performance - 2nd
22
目視によるデータクレンジング
       ・ラベルミスの修正
       ・曖昧サンプルの削除
https://www.deeplearning.ai/data-centric-ai-competition-innotescus/
データセットサイズは当初の 78%と
なったがAccuracyは9%改善
train/valスプリットの調整
サブクラスのbalancing
hard exampleの追加
画像特徴をクラスタリングすることで各クラ
スをサブクラスに分け、サブクラスレベルで
balancingするようにデータ拡張
validationサンプルに対し以下の
difficulty scoreを定義し、スコアに基
づいてhard exampleを探して学習
データに追加
Po
max
:クラス確率の最大値
Po
2ndmax
:クラス確率の
2番目に大きい値
Mobility Technologies Co., Ltd.
Best Performance - 3rd
23
目視によるデータクレンジング
https://www.deeplearning.ai/data-centric-ai-competition-synaptic-ann/
手書きによるデータ追加
testセットサンプルからのデータ拡張
AutoAugment
複数モデルの投票によるフィルタリング
サンプル画像(青枠)の一部をコピペす
ることでデータを拡張
AutoAugment論文からSVHN向けに探
索されたデータ拡張手法を流用
拡張したデータセットに対して複数の
CNNモデルで推論を行い、クラス確率
の投票値に基づいて低品質な画像を
フィルタリング
Mobility Technologies Co., Ltd.
Most Innovative - 1st
24
目視によるデータクレンジング
       ・重複サンプルの削除
補助モデルの学習
補助モデルによるスクリーニング
クラス不均衡の解消
N-fold Cross Validation
少数のサンプルを選び、ラベルが正確
であることを確認した上で分類モデルを
学習
補助モデルでデータセット全体を推論
し、ロスが小さいサンプル K枚とロスが
大きいサンプルL枚を取り出して目視確
認を行い、必要に応じてラベル修正や
削除を実施
補助モデルの学習データ 残りの学習データ
小       ロス       大
目視
目視により修正した高品質なデータを補
助モデルの学習データに加え、補助モ
デルを学習し直す
補助モデルの学習データ 残りの学習データ
全サンプルを目視するまで繰り返し
https://www.deeplearning.ai/data-centric-ai-competition-mohammad-motamedi/
Mobility Technologies Co., Ltd.
Most Innovative - 2nd
25
目視によるデータクレンジング
       ・ラベルミスの修正
       ・曖昧サンプルの削除
https://www.deeplearning.ai/data-centric-ai-competition-johnson-kuan/
候補データとして、データ拡張により 100万枚を生成
trainセットで学習、valセットで推論
valセットで推論を誤ったサンプルと最も近いサンプルを候
補データから探索し、 trainセットに加える
trainセットがルール上限である 1万枚に
到達するまで繰り返し
別途用意したpretrainedモデル
で抽出した特徴量を使って最近
傍探索を実施
Mobility Technologies Co., Ltd.
Most Innovative - 3rd
26
目視によるデータクレンジング
       ・ラベルミスの修正
https://www.deeplearning.ai/data-centric-ai-competition-godatadriven/
特徴量の可視化による train/val不均衡の調査
Streamlitでインタラクティブにデータ拡張
UMAPで特徴量を可視化
valに存在しない領域
Mobility Technologies Co., Ltd.
ケーススタディ 〜 Tesla 〜
27
3 以下資料の抜粋です
Teslaにおけるコンピュータビジョン技術の調査
Secret
Mobility Technologies Co., Ltd.
28
https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=8181s
Mobility Technologies Co., Ltd.
ユーザ車両からのデータ収集
29
https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=7625s
■ あらかじめ設定した条件をトリガとしてユーザ車両からデータを自動収集
■ 新機能はまずシャドーモードでデプロイし、機能がうまく動作しないシーンなどのデータを収集
■ 収集したデータは学習データの他、一部は将来的に対応すべきシーンとしてユニットテストに追加
■ デプロイ → データ収集 → 学習 → デプロイ…のループを”データエンジン”と呼ぶ
Mobility Technologies Co., Ltd.
事例1:標識検出
30
■ 標識検出では、オクルージョンや補助標識による条件付きなど様々なケースに対応する必要がある
■ 例えば木で隠された標識だけを見つける検出器を作ってユーザ車両にデプロイし、検出結果をトリガとして木で隠
された標識の画像を大量に自動収集して学習データセットに加える
https://www.youtube.com/watch?v=hx7BXih7zx8&t=700s
Mobility Technologies Co., Ltd.
■ レーダーは前方車両の距離と速度を正確に計測できるが、ノイズや垂直分解能の低さが課題
■ カメラのみでレーダーと同等精度の計測を可能にする機械学習モデルをわずか4ヶ月で開発
■ データ収集のためのトリガ(カメラとレーダーの不整合発生など)を221種類用意し、学習データとして100万映像
(1.5ペタバイト)を収集
事例2:レーダーの廃止
31
https://www.youtube.com/watch?v=g6bOwQdCJrc&t=893s
Mobility Technologies Co., Ltd.
■ 前方車両の急ブレーキや道路にかかる橋などによりレーダーが不正確となるケースでもカメラにより正確な計測
が可能となった
■ リリースにあたっては6000種類のクリップによるユニットテストやシミュレーションで生成した1万シナリオを使って
検証を実施
事例2:レーダーの廃止
32
https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1366s
Mobility Technologies Co., Ltd.
■ 自社に1000人規模のアノテーションチームを設置し、そのためのインフラをフルスクラッチで開発
■ オフライン処理である利点を活用してアノテーションを自動化し、その誤りを人間が修正
■ 車両にデプロイできないような大規模なモデルやアンサンブルの利用
■ 未来情報(hindsight)の活用
■ 同一箇所を走行した複数車両のデータを統合
アノテーション
33
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5075s https://www.youtube.com/watch?v=g6bOwQdCJrc&t=732s
Mobility Technologies Co., Ltd.
4次元空間でのアノテーション
34
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5223s
��
Mobility Technologies Co., Ltd.
複数車両のデータの統合
35
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5417s
��
Mobility Technologies Co., Ltd.
■ シミュレータを活用することでレアケースや人手でのアノテーションが困難なシーンを生成
■ 車両や歩行者などのオブジェクトは数千種類、マニュアルで作成した道路は2000マイル以上
■ 現行モデルが失敗したシーンの実データを3次元再構成してシミュレータ内に再現し改善に役立てる
■ より写実的なレンダリングのため、ニューラルレンダリングも活用
シミュレーションの活用
36
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5715s
Mobility Technologies Co., Ltd.
所感
37
4
Mobility Technologies Co., Ltd.
所感
■ Data-Centric AIの細かい構成要素で言えば、特に目新しいものはなく、皆が課題と感
じており、すでに解決策を模索している
■ Data-Centric AIの言わんとしていることは、それらを個人のスキルや暗黙知に依存さ
せるのではなく、分野としてしっかり体系化しましょうということ(Andrew先生も、
systematicにやるという点を強調していた)
■ そのためには汎用的なツールの開発が最も重要になる(データセットのバージョン管
理技術なども含む)
38
文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
Mobility Technologies Co., Ltd.
39

Data-Centric AIの紹介

  • 1.
    Mobility Technologies Co.,Ltd. Data-Centric AIの紹介 Mobility Technologies 宮澤一之
  • 2.
    Mobility Technologies Co.,Ltd. 宮澤 一之 株式会社Mobility Technologies AI技術開発部 AI研究開発第二グループ グループリーダー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 自己紹介 2 @kzykmyzw
  • 3.
    Mobility Technologies Co.,Ltd. 本日の内容 1. Data-Centric AIとは 2. Data-Centric AI Competition 3. ケーススタディ 4. 所感 3
  • 4.
    Mobility Technologies Co.,Ltd. Data-Centric AIとは 4 1
  • 5.
    Mobility Technologies Co.,Ltd. Model-Centric AIとData-Centric AI 5 Model-Centric AI ■ データを集め、データに含まれるノイズに耐えられるような良いモデルを開発する ■ データを固定し、コード/モデルを繰り返し改良していく Data-Centric AI ■ データの一貫性を最重要とし、ツールを使ってデータの品質を改善する ■ コード/モデルを固定し、データを繰り返し改良していく 現在のパラダイム 新しいパラダイム
  • 6.
    Mobility Technologies Co.,Ltd. Andrew Ng ■ xxxx 年 xx月 すごい経歴(略 ■ 2017年12月 Landing AIというスタートアップを立ち上げ ■ 2020年10月 製造業向けの外観検査ツールLandingLensをローンチ ■ 2021年03月 Deeplearning.AIのイベントでData-Centric AIについて講演 ■ 2021年06月 Data-Centirc AI Competition開催 ■ 2021年12月 NeurIPSでData-Centric AI Workshop開催 Data-Centric AIの提唱者 6 https://en.wikipedia.org/wiki/Andrew_Ng
  • 7.
    Mobility Technologies Co.,Ltd. ■ 外観検査プロジェクトにおいて、ベースライン方式をどれだけ改善できるか Model-CentricとData-Centricを比較 ■ Model-Centricではベースライン性能をほとんど改善できなかったのに対し、 Data-Centricでは大きな改善が得られた Model-Centric vs. Data-Centric 7 鉄製品の欠陥検査 ソーラーパネルの欠 陥検査 表面検査 Baseline 76.2% 75.68% 85.05% Model-Centric 76.2% (+0%) 75.72% (+0.04%) 85.05% (+0%) Data-Centric 93.1% (+16.9%) 78.74% (+3.06%) 85.45% (+0.4%) A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 8.
    Mobility Technologies Co.,Ltd. Data-Centricアプローチ 8 イグアナをBBOXで囲む アノテータA アノテータB アノテータC ■ アノテータによるラベルの偏りがない、一貫したデータセットの構築を目指す ■ データにおける問題の発見、解決を機械学習エンジニアのスキルに依存するのでは なくシステマティックに行う A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 9.
    Mobility Technologies Co.,Ltd. 1. 複数のアノテータに同一のサンプル画像を提示 2. アノテータ間のラベルの一貫性を定量化 3. アノテータ間でばらつきの大きいクラスについてアノテーションルールを見直し 4. 1. - 3. を収束するまで反復 一貫したラベルを得るための手法例 9 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 10.
    Mobility Technologies Co.,Ltd. データが少ないほど品質が重要 10 ■ データ量が多ければある程度のノイズはキャンセルされるが、データ量が少ない場 合はその品質が極めて重要になる ■ 500枚の学習データの12%がノイズである場合、以下2つは同じ効果を持つ ■ ノイズを除去する ■ 追加で500枚を学習データに加える(データセットサイズを2倍にする) データ量:少 データ品質:低 データ量:多 データ品質:低 データ量:少 データ品質:高 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 11.
    Mobility Technologies Co.,Ltd. 従来のソフトウェア 機械学習ソフトウェア 従来のソフトウェアと機械学習ソフトウェアの違い 11 スコープ定義 コーディング デプロイ スコープ定義 学習 デプロイ データ収集 DevOps MLOps A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 12.
    Mobility Technologies Co.,Ltd. MLOpsの役割 12 スコープ定義 学習 デプロイ データ収集 MLOps 機械学習プロジェクトのライフサイクル全体を通じて高品質なデータを保証する Q. どのようにデータを定義 し、集めればよいか? Q. モデルの性能改善のた めにどのようにデータを変 更すればよいか? Q. コンセプト/データドリフト を検知するためにどのよう なデータをトラックすればよ いか? MLOpsチームは各フェーズでのこれらの問いに答えられる必要がある A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 13.
    Mobility Technologies Co.,Ltd. Good Data is: ■ 定義が一貫している(ラベル y の定義に曖昧さがない) ■ 重要なケースをカバーしている(入力 x の分布を十分にカバーしている) ■ 現在のデータがタイムリーにフィードバックされる(データ分布がデータドリフトやコン セプトドリフトをカバーしている) ■ サイズが適切である Big DataからGood Dataへ 13 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 14.
    Mobility Technologies Co.,Ltd. まとめ 14 AI System = Code + Data Model-Centric AI 性能を改善するためにどのようにモ デル(コード)を変更するか Data-Centric AI 性能を改善するためにどのようにシ ステマティックにデータを変更するか ■ MLOpsの最重要タスクは、機械学習プロジェクトのライフサイクル全体を通じて 高品質なデータを保証すること ■ 今後はData-Centric AIを効率的かつシステマティックに実現するためのツール が重要となる A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 15.
    Mobility Technologies Co.,Ltd. Data-Centric AI Competition 15 2 https://https-deeplearning-ai.github.io/data-centric-comp/
  • 16.
    Mobility Technologies Co.,Ltd. コンペ概要 期間:2021/6/24〜9/4 内容/ルール: ■ 手書きローマ数字のデータセット(2880枚)に対する分類精度を改善する ■ 分類モデル(ResNet50)や学習スクリプトは固定であり、参加者はデータセットの みを変更する ■ データセットサイズはtrain/val併せて10000枚まで ■ train/valのスプリット方法も参加者が決める ■ 変更したデータセットをzipで固めてCodaLabからアップロードすると、学習が CodaLab上で実行されてhidden test setでの評価が行われる 16
  • 17.
    Mobility Technologies Co.,Ltd. サンプルデータ(正常)* 17 * 参加された方のQiita記事より引用
  • 18.
    Mobility Technologies Co.,Ltd. サンプルデータ(ノイズ)* 18 * 参加された方のQiita記事より引用
  • 19.
    Mobility Technologies Co.,Ltd. サンプルデータ(ラベルミス、判別不能)* 19 * 参加された方のQiita記事より引用
  • 20.
    Mobility Technologies Co.,Ltd. 結果 20 順位 チーム名 Accuracy Baseline 0.64421 1 Divakar Roy 0.85826 2 Innotescus 0.85744 3 Synaptic-AnN 0.85455 4 Synaptic-AnN 0.85083 5 Jens Kramer 0.84959 … … … 486 RAHUL GUPTA 0.059091 Best Performance賞が上位3チームに授与 その他、順位に関係なく(?) Most Innovative 賞が3チームに授与
  • 21.
    Mobility Technologies Co.,Ltd. Best Performance - 1st 21 文字領域(前景)とノイズ(背景)を分離 文字領域をクロップしてデータ拡張 拡張した文字領域を背景に合成 目視によるデータクレンジング        ・ラベルミスの修正        ・類似サンプルの削除        ・曖昧サンプルの削除 https://www.deeplearning.ai/data-centric-ai-competition-divakar-roy/
  • 22.
    Mobility Technologies Co.,Ltd. Best Performance - 2nd 22 目視によるデータクレンジング        ・ラベルミスの修正        ・曖昧サンプルの削除 https://www.deeplearning.ai/data-centric-ai-competition-innotescus/ データセットサイズは当初の 78%と なったがAccuracyは9%改善 train/valスプリットの調整 サブクラスのbalancing hard exampleの追加 画像特徴をクラスタリングすることで各クラ スをサブクラスに分け、サブクラスレベルで balancingするようにデータ拡張 validationサンプルに対し以下の difficulty scoreを定義し、スコアに基 づいてhard exampleを探して学習 データに追加 Po max :クラス確率の最大値 Po 2ndmax :クラス確率の 2番目に大きい値
  • 23.
    Mobility Technologies Co.,Ltd. Best Performance - 3rd 23 目視によるデータクレンジング https://www.deeplearning.ai/data-centric-ai-competition-synaptic-ann/ 手書きによるデータ追加 testセットサンプルからのデータ拡張 AutoAugment 複数モデルの投票によるフィルタリング サンプル画像(青枠)の一部をコピペす ることでデータを拡張 AutoAugment論文からSVHN向けに探 索されたデータ拡張手法を流用 拡張したデータセットに対して複数の CNNモデルで推論を行い、クラス確率 の投票値に基づいて低品質な画像を フィルタリング
  • 24.
    Mobility Technologies Co.,Ltd. Most Innovative - 1st 24 目視によるデータクレンジング        ・重複サンプルの削除 補助モデルの学習 補助モデルによるスクリーニング クラス不均衡の解消 N-fold Cross Validation 少数のサンプルを選び、ラベルが正確 であることを確認した上で分類モデルを 学習 補助モデルでデータセット全体を推論 し、ロスが小さいサンプル K枚とロスが 大きいサンプルL枚を取り出して目視確 認を行い、必要に応じてラベル修正や 削除を実施 補助モデルの学習データ 残りの学習データ 小       ロス       大 目視 目視により修正した高品質なデータを補 助モデルの学習データに加え、補助モ デルを学習し直す 補助モデルの学習データ 残りの学習データ 全サンプルを目視するまで繰り返し https://www.deeplearning.ai/data-centric-ai-competition-mohammad-motamedi/
  • 25.
    Mobility Technologies Co.,Ltd. Most Innovative - 2nd 25 目視によるデータクレンジング        ・ラベルミスの修正        ・曖昧サンプルの削除 https://www.deeplearning.ai/data-centric-ai-competition-johnson-kuan/ 候補データとして、データ拡張により 100万枚を生成 trainセットで学習、valセットで推論 valセットで推論を誤ったサンプルと最も近いサンプルを候 補データから探索し、 trainセットに加える trainセットがルール上限である 1万枚に 到達するまで繰り返し 別途用意したpretrainedモデル で抽出した特徴量を使って最近 傍探索を実施
  • 26.
    Mobility Technologies Co.,Ltd. Most Innovative - 3rd 26 目視によるデータクレンジング        ・ラベルミスの修正 https://www.deeplearning.ai/data-centric-ai-competition-godatadriven/ 特徴量の可視化による train/val不均衡の調査 Streamlitでインタラクティブにデータ拡張 UMAPで特徴量を可視化 valに存在しない領域
  • 27.
    Mobility Technologies Co.,Ltd. ケーススタディ 〜 Tesla 〜 27 3 以下資料の抜粋です Teslaにおけるコンピュータビジョン技術の調査
  • 28.
    Secret Mobility Technologies Co.,Ltd. 28 https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=8181s
  • 29.
    Mobility Technologies Co.,Ltd. ユーザ車両からのデータ収集 29 https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=7625s ■ あらかじめ設定した条件をトリガとしてユーザ車両からデータを自動収集 ■ 新機能はまずシャドーモードでデプロイし、機能がうまく動作しないシーンなどのデータを収集 ■ 収集したデータは学習データの他、一部は将来的に対応すべきシーンとしてユニットテストに追加 ■ デプロイ → データ収集 → 学習 → デプロイ…のループを”データエンジン”と呼ぶ
  • 30.
    Mobility Technologies Co.,Ltd. 事例1:標識検出 30 ■ 標識検出では、オクルージョンや補助標識による条件付きなど様々なケースに対応する必要がある ■ 例えば木で隠された標識だけを見つける検出器を作ってユーザ車両にデプロイし、検出結果をトリガとして木で隠 された標識の画像を大量に自動収集して学習データセットに加える https://www.youtube.com/watch?v=hx7BXih7zx8&t=700s
  • 31.
    Mobility Technologies Co.,Ltd. ■ レーダーは前方車両の距離と速度を正確に計測できるが、ノイズや垂直分解能の低さが課題 ■ カメラのみでレーダーと同等精度の計測を可能にする機械学習モデルをわずか4ヶ月で開発 ■ データ収集のためのトリガ(カメラとレーダーの不整合発生など)を221種類用意し、学習データとして100万映像 (1.5ペタバイト)を収集 事例2:レーダーの廃止 31 https://www.youtube.com/watch?v=g6bOwQdCJrc&t=893s
  • 32.
    Mobility Technologies Co.,Ltd. ■ 前方車両の急ブレーキや道路にかかる橋などによりレーダーが不正確となるケースでもカメラにより正確な計測 が可能となった ■ リリースにあたっては6000種類のクリップによるユニットテストやシミュレーションで生成した1万シナリオを使って 検証を実施 事例2:レーダーの廃止 32 https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1366s
  • 33.
    Mobility Technologies Co.,Ltd. ■ 自社に1000人規模のアノテーションチームを設置し、そのためのインフラをフルスクラッチで開発 ■ オフライン処理である利点を活用してアノテーションを自動化し、その誤りを人間が修正 ■ 車両にデプロイできないような大規模なモデルやアンサンブルの利用 ■ 未来情報(hindsight)の活用 ■ 同一箇所を走行した複数車両のデータを統合 アノテーション 33 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5075s https://www.youtube.com/watch?v=g6bOwQdCJrc&t=732s
  • 34.
    Mobility Technologies Co.,Ltd. 4次元空間でのアノテーション 34 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5223s ��
  • 35.
    Mobility Technologies Co.,Ltd. 複数車両のデータの統合 35 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5417s ��
  • 36.
    Mobility Technologies Co.,Ltd. ■ シミュレータを活用することでレアケースや人手でのアノテーションが困難なシーンを生成 ■ 車両や歩行者などのオブジェクトは数千種類、マニュアルで作成した道路は2000マイル以上 ■ 現行モデルが失敗したシーンの実データを3次元再構成してシミュレータ内に再現し改善に役立てる ■ より写実的なレンダリングのため、ニューラルレンダリングも活用 シミュレーションの活用 36 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5715s
  • 37.
  • 38.
    Mobility Technologies Co.,Ltd. 所感 ■ Data-Centric AIの細かい構成要素で言えば、特に目新しいものはなく、皆が課題と感 じており、すでに解決策を模索している ■ Data-Centric AIの言わんとしていることは、それらを個人のスキルや暗黙知に依存さ せるのではなく、分野としてしっかり体系化しましょうということ(Andrew先生も、 systematicにやるという点を強調していた) ■ そのためには汎用的なツールの開発が最も重要になる(データセットのバージョン管 理技術なども含む) 38
  • 39.