最近、Transformerベースのdiffusion modelが高いパフォーマンス(ImageNetのFID基準)を出している。ということで、特に性能の高い最新モデルを2つ紹介する。加えて、これらを調査していたら、それらの性能をさらに底上げする手法とCNNベースでさらに高い性能を出してSOTAを達成したぞという論文にもさらに行き着いたので、それら2本も併せて追加で紹介する。 (追記)2024/2/23に発表されたStable Diffusion 3や2/15に発表されたOpenAIのSoraでは、今回紹介するDiTがDiffusion Transformer(拡散トランスフォーマー)のベース技術に採用されている。 ※以降の図は論文からそのまま引用、もしくはそれに多少の加工を加えたものとなる。 ※以降のpaperswithcodeの順位は2024/1時点 目次 DiT (ICCV'23)

