最近はTransformerベースのDiffusionモデル、いわゆるDiT(Diffusion Transformer)がUNetベースのDiffusionモデルよりも性能がいいと聞くもののコードレベルで理解ができなったのでMNISTの手書き数字の学習と生成を題材にシンプルなDiTを実装してみる。 (この記事はLLM・LLM活用 Advent Calendar 2024の16日目の記事です! テーマは画像生成ですが、 GPTなどLLMで広く使われているTransformerを画像生成に応用したという意味で許してください🙏) 出力比較 UNetベースのシンプルなDiffusionモデル ソースコード TransformerベースのシンプルなDiffusionモデル(DiT) ソースコード 10epochずつ学習させてみたが精度が出る学習率も違うし、どの段階で比較すればいいかがわからなかっ
1. 概要 トランスフォーマーを用いた拡散モデル(Diffusion Models with Transformers)の新しいアーキテクチャを提案している。通常はU-Netをバックボーンとして使用し潜在空間でパッチ毎にトランスフォーマーで演算をするが、この部分をシーケンスに変換するDiffution Transformers Block(DiT-block)を新たに提案しており、従来手法と比べて潜在空間上で高い表現力を獲得できるようにした。ImageNet512/256のベンチマークで従来の拡散モデルよりも高精度な2.27のFIDを達成している。 2. 新規性 Diffusion Transformers(DiT, 拡散トランスフォーマー)を提案しており、通常IxIxCで構成されるパッチをT=(I/p)^2の長さのシーケンスにシェイプ変換するDiT Blockを挿入することで、小さなパッ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く