画像生成AI「Stable Diffusion」の仕組みをわかりやすく解説！

Stable Diffusion Web UIを使っていますか？

これ一つで色々な画像を生成することができますよね。

でも、「なんでこんなことができるのかな？」って不思議に思ったことはありませんか？

今回はそんな疑問を解消する為に、Stable Diffusion の仕組みについて解説していきます。

「Stable Diffusion」の概要

Stable Diffusion は入力されたテキスト（プロンプト）から高品質な画像を生成するAIモデルです。

2022年8月にGitHub上にオープンソースとして公開され、Web上に構築された環境で動作させたり、ローカル環境で独自に動かしたりすることが可能です。

GitHubからダウンロードすることで無料、かつ無制限で使用できます。モデルの更新や商用利用も可能で、HuggingFaceやCIVITAIを通じて学習済みモデルを利用できます。

Stable Diffusionは潜在拡散モデルというアルゴリズムが使われています。これは後述する拡散モデルを高速処理するために進化させたアルゴリズムです。

①論文 – CVPR 2022で発表されたStable Diffusionの元論文です。詳しく知りたい方はこちらからダウンロードしてください。

②GitHubリポジトリ- 開発者や提供会社ごとに複数存在します。数が多いので有名どころのみ紹介します。

たくさんの資料もありますので、Stable Diffusion で困ったときは各リポジトリーを覗いてみると、何かヒントがあるかもしれません。

元々学習に使用されたデータは、LAIONと呼ばれる非政府団体が提供しているデータセットを使い、様々な画像とそれに紐付くCaption（テキスト）データが大量に提供されています。

さらに今ではオープンソースとしてコードも公開されており、checkpoint（モデル）やLora(Low-Rank Adaptation)などの学習データを、ユーザー自身が作ることもできます。

※「Lora」や「モデル」についてさらに詳しく知りたい方は、以下の記事を参考にしてください。

本題に入る前に、Stable Diffusionの使用環境は整っていますか？

※「Stable Diffusion」の詳しい使い方については、以下の記事を参考にしてください。

Stable Diffusionの画像生成を最速で学びたいあなたへ！

＼このボタン限定！70%オフキャンペーン実施中！／

＼70%オフキャンペーン実施中！／

さて、本題に入りますが、色々な用語が出てきます。が、それぞれを極めて難解です。それをわかりやすいようになるべく難しい言葉は使わずに解説していきます。

Stable Diffusionの仕組みを図にしてみました

細かいところは抜きにして、あくまでわかりやすいように作った物です。でもこんな感じと思っていただいて大丈夫です。

まずは上の図の各用語の解説から

VAE -（Variational Auto-Encoder; 変分オートエンコーダー）潜在空間と画像を変換するアルゴリズムです。確率分布的なデータ処理で大規模データをコンパクトに処理できます。Stable Diffusionではimg2imgでの入力画像データの変換と、最後にデコーダーが画像の最終的な仕上げをしています。
Text Encoder – Stable Diffusion はText(プロンプト)をユーザーから受け取り、それを元に絵を描きます。しかしStable Diffusion 自身が理解できるのはベクトル（数字の羅列）のみなので、Text(プロンプト)をベクトルに翻訳するText Encoderが必要になります。その機能をCLIPから借りています。
CLIP – 与えられた画像にテキストラベルをつけてクラス分けするために作られたモデルです。ChatGPTで有名なOpenAI社が2021年に発表しました。画像エンコーダーとテキストエンコーダーを事前学習して、データセット内のどの画像がどのテキストとペアになっているかを予測します。
拡散モデル(モデル: U-Net) – U-Netはエンコーダとデコーダから成る、画像のピクセル（画素）1つひとつに対してラベル付けしていく手法のモデルです。ノイズ画像から少しずつノイズを取り除くことでキレイな画像を生成しています。

基本的な流れとしては [ プロンプト→ CLIP → U-Net → VAE Decoder → 画像] と思ってください。

拡散モデルについては以下で解説します。