「AnimateDiff」で画像を動かす方法をわかりやすく解説【ControlNet&拡張機能講座#25】｜Stable Diffusion

2024年11月1日2024年11月6日Stable diffusionControlNet

Stable diffusionの「ControlNET&拡張機能講座」第25回目。今回は「AnimateDiff」を使って画像を動かす方法です。

こんな感じで2秒ぐらいのがプロンプトの記入だけで作れます。

最近はAI動画の技術も上がっているのニャ。

Stable diffusionに追加機能を入れるだけなので、かなりお手軽になりましたね。

そんなわけで、やり方をさくっと説明していきましょう。用意した画像をImg2Imgで動かす方法も述べています。

前回の「「mov2mov」を使った動画作成をわかりやすく解説」は以下のリンクから。

「mov2mov」を使った動画作成をわかりやすく解説【ControlNet講座#15】｜Stable Diffu

Stable diffusionの「ControlNET&拡張機能講座」第15回目。今回は「mov2mov」を使った動画作成です ...

https://minorgame.syowp.com/archives/mov2mov.html

1. 「AnimateDiff」のインストール
- 1.1. インストール方法
- 1.2. モーションモデルのダウンロード
2. 「AnimateDiff」を使う
3. img2imgで画像を動かす
- 3.1. I2V Traditionalで2枚の画像をつなげて動画にする
- 3.2. 動画を利用
4. まとめ

「AnimateDiff」のインストール

インストール方法

「Stable diffusion」を起動し、「Extensions」タブ→「Install from URL」タブに移動し、「URL for extension’s git repository」に、

https://github.com/continue-revolution/sd-webui-animatediff.git

を貼り付けて、「Install」ボタンをクリックします。しばらく待つと「Install」ボタンの下の方にいろいろ文字が出てきてインストール終了。

つぎに「Extensions」タブ→「Installed」タブで「Apply and restart UI」ボタンをクリックして再起動します。これでインストール完了です。

注意としては、「Stable diffusion」のバージョンが古いと動きません。かなり長い間アップデートしていない人は、バックアップをとったうえで(フォルダごとどこかにコピーしておいておけばいい)、最新版にしてしまいましょう。

また「AnimateDiff」のインストールによって動作不良を起こす場合もあるため、動画用と画像用で２種類の「Stable diffusion」を用意して使い分けるのもいいとは思います。「AnimateDiff」用に、「Stable diffusion」を最初からインストールし直してもいいとは思います。

「Stable diffusion」をPCにさくっとインストールする方法をわかりやすく手短に解説ー

AIお絵描きができる「Stable diffusion」。 PCにインストールしたけど、もう一度やれといわれたらやり ...

https://minorgame.syowp.com/archives/stable-diffusion-instal...

それと「xformers」を設定していると動かないという報告がありますが、筆者の環境では動きます。もし動かなかったら「xformers」をいったん外してください。「xformers」については以下のリンクを参照してください。

「xformers」で「Stable diffusion」を高速化する方法をわかりやすく解説ーアップデー

今回は「Stable diffusion」で「xformers」を使って、画像生成を高速化するやり方です。「xformers」の ...

https://minorgame.syowp.com/archives/xformers.html

メモリが厳しい方は、「xformers」を書き込むところに

「–no-half-vae」（真っ黒を防ぐ）
「–medvram」（vram節約。生成速度は落ちる）
＊どちらも先頭のハイフンは「2つ」です。

の2つを付け加えてもいいでしょう。

モーションモデルのダウンロード

いったん「Stable diffusion」を終了し、モーションモデルをダウンロードします。

https://drive.google.com/drive/folders/1EqLC65eR1-W-sGD0Im7fkED6c8GkiNFI

にある

mm_sd_v14.ckpt
mm_sd_v15.ckpt
mm_sd_v15_v2.ckpt

の３つをダウンロードします。

そののち、この３つを「Stable diffusion」をインストールしたフォルダ内の

stable-diffusion-webui＞extensions＞sd-webui-animatediff＞model

のフォルダに入れます。

【追記】

https://huggingface.co/conrevo/AnimateDiff-A1111/tree/main/motion_module

に「mm_sd15_v3.safetensors」があるので、必要ならこれもダウンロードしておきましょう。

以上で準備は終了です。

「AnimateDiff」を使う

「Stable diffusion」を起動すると、下のほうに「AnimateDiff」が追加されていますので、それを開くと上の画像のようになります。

「Motion module」のところで、先ほど導入した３つのモーションモデルのうち１つを選択します。v14は動きが大きく、v15は動きが小さく、v15_v2はその中間という感じです。とりあえず中間の「mm_sd_v15_v2.ckpt」にしておきましょう。

「Enable AnimateDiff」にチェックを入れると、「AnimateDiff」が使えます。ようするにオンオフボタンですね。画像生成だけしたいときは、ここのチェックを外します。ぶっちゃけこれしか使いません。あとの設定はデフォルトでいいです。

いちおう説明しておくと、「Number of frames」は動画に使われる画像が全部で何枚かということです。デフォルトは0ですが、そのまま実行すれば16枚です。

「Context batch size」は一度に何枚処理するか。デフォルトのままでいいでしょう。

「FPS」は１秒間に何枚かということです。デフォルトは８枚になっているので、１秒に８枚ですね。さっきの１６枚と組み合わせると２秒の動画ができるということです。あまり多すぎるとPCへの負荷が大きくなるので、デフォルトの２秒ぐらい（１６枚）にしておくのがいいでしょう。

「Display loop number」はループ回数です。０は無限ループです。０のままでいいでしょう。

「Closed loop」はループのさせ方です。デフォルトは「R-P」。「ABCCBA」のように折り返すときは「A」を選択してください（動画サイズは2倍になります）。「N」だとループしません。

とりあえず全部デフォルトのままで、「Enable AnimateDiff」にチェックを入れてから、プロンプトに「cat,best quality, running」と書いてください。プロンプトは75トークン以下にしたほうがいいでしょう。それ以上になると筆者の環境ではエラーを吐き出し、再起動が必要になります。

画像サイズは512×512にしたほうがいいですね。縦長とかにしたい場合も512X720ぐらいにしておいたほうがいいでしょう。ここが大きいとメモリオーバーになったりします。

「Generate」してしばらく待つと、猫が走っているような２秒の動画ができると思います。

粗は多いけど、それっぽいのニャ。

あとはプロンプトいじったりで調整していく形ですね。

できあがった動画は「Stable diffusion」をインストールしたフォルダ内の

stable-diffusion-webui＞outputs＞txt2img-images>AnimateDiff

に格納されます。

フレーム変化の記述

プロンプトで、

0: Smile,
4: cry,
8: open mouth,
12: close eyes,

のような記述をすると（「：」のあとに半角スペースを入れるのに注意)、「0フレームからスマイル」→「4フレームから泣く」→「8フレームから口を開ける」→1「2フレームから目を閉じる」のように、時間ごとの変化を指定できます。

ただ大きな動きなどはできませんし、かならず変化するわけでありません。

また「Dynamic Prompt」と併用できないので、「Dynamic Prompt」はチェックを外してオフにしておきましょう。

「Dynamic prompts」をわかりやすく解説ーワイルドカードでランダムキャラ作成【Stabl

Stable diffusionの「ControlNET&拡張機能講座」第21回目。ワイルドカードを使って、ランダムでキ ...

https://minorgame.syowp.com/archives/dynamic-prompts.html

FreeInit Params

本拡張は基本的に16枚で学習しています。そのため、最大フレームを32枚にすると「16枚→16枚」というように2回生成する形になり、前半と後半で整合性が取れない場合があります。これを修正する方法として、「FreeInit Params」があります。

下にある「FreeInit Params」のところを開き、「Enable FreeInit」にチェックを入れて使用します。

一番下の「FreeInit Iterations」がデフォルトで3になっていますが、これは「3回見直せ」ということですね。「16枚→16枚」を生成し、それの整合性が取れているかを3回実行して見直します。そのため3倍の時間がかかるということです。

ただこれをやったからといって整合性が取れるわけではないので、気休めぐらいに思ったほうがいいでしょう。

顔や手を直す

動画だと、顔や手がうまく表現されないことが多くなります。それを修正する方法として、「ADetailer」という拡張を併用します。使い方は以下の記事を参照してください。

「ADetailer」で手や表情を修正【ControlNet&拡張機能講座#27】｜Stable Diffusi

Stable diffusionの「ControlNET&拡張機能講座」第27回目。今回は「Deforum」を使って、手や表情を ...

https://minorgame.syowp.com/archives/adetailer.html

img2imgで画像を動かす

先ほどまでの話はTxt2Imgでしたが、Img2Imgで「AnimateDiff」を使った場合、用意した画像を動かすことができます。

この画像をImg2Imgに放り込み、プロンプトに「cat」とか書いておきます。

適当ニャ。

あとは先ほどと同じように、、「Enable AnimateDiff」にチェックを入れてから「Generate」するだけです。

それっぽく動いたニャ。

プロンプトや「Denoise」と格闘しながらいろいろやってみるといいでしょう。「Denoise」を低くするとオリジナル画像要素が強くなります（低くし過ぎると動かなくなります）。デフォルトの0.7あたりぐらいでいいとは思います。

I2V Traditionalで2枚の画像をつなげて動画にする

始点と終点の画像を用意し、それをつなぎ合わせて動画をつくる方法です。

Img2Imgで、まず始点となる画像を放り込みます。上の画像をそのまま使いましょう。

それから「AnimateDiff」の一番下にある「I2V Traditional」を開き、ここに終点の画像を放り込みます。

ここのパラメータですが、以下のようになります。

Latent power：始点画像の影響力の大きさ。
Latent scale：始点画像が始点から何フレーム目まで影響を及ぼすか（数字＝フレームではない。あくまで強さ）。
Optional latent power for last frame：終点画像の影響力の大きさ。
Optional latent scale for last frame：終点画像が終点から何フレーム目まで影響を及ぼすか（数字＝フレームではない。あくまで強さ）。

このあたりの数字を調整するといいかと思います。

結果がこちら。正面に向き直しているのがわかるかと思います。

ちょっと強引な感じなのニャ。

さきほどのパラメータをいじりながら、ちょうどいい感じにしていくといいでしょう。

経験則としては、「Latent power」「Optional latent power for last frame」は1.5以上で強めにしておかないと、そもそもの始点・終点の画像が反応してくれない感じです。

始点・終点のどちらを強めにするかは、「Latent scale」「Optional latent scale for last frame」をいじるといいでしょう（強めにしたい方の数字を大きく、逆の方は小さく）。両方足して64以下にしたほうがいい感じですが、これも場合によるでしょう。最初のうちはデフォルトでいいとは思います