超優秀なオープンソース動画生成AI「Wan2.1」を解説！性能・使い方・注意点まとめて紹介

Q: SoraやLumaといった他の動画生成AIと比べてどう？

動画生成AIで有名なSoraや Luma と比べると、Wan2.1は「オープンソース」「ローカルで使える」「比較的軽量」という点が大きな利点です。一方で、極端に高精細な実写表現や長尺の動画ではSoraの方が優れています。ただし、ローカル環境で自分好みにカスタマイズできるという点では、Wan2.1は制限なく実験したい人に最適だといえるでしょう。

Q: OOMエラーが出てしまいますが、どうすればいいですか？

--offload_model Trueを指定することでVRAM消費を削減できます。しかし生成速度は約20〜30%低下します。

押さえておきたいポイント

Wan2.1は、オープンソースで高性能な動画生成AIとして、Text-to-Video・Image-to-Video・編集まで幅広く対応
プロンプト拡張機能により、短い指示でも映像品質と安定性を大きく向上
ローカル実行からAPI・ComfyUIまで用途と環境に応じた柔軟な使い分けが可能

2025年2月25日、中国のAlibaba Cloudが、大規模マルチモーダルAIモデルシリーズの最新版「Wan2.1」を公開しました！

「Wan2.1」はオープンソースでリリースされており、テキストや画像から高品質な動画を生成できるよう設計されているようです。また、VBenchで総合スコア86.22%と高い評価を記録し、SoraやLuma、Pikaを大きく上回る性能を持つとのこと。

本記事では、そんな「Wan2.1」の概要から使い方までご説明します。

ぜひ、最後までご覧ください。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Wan2.1の概要
1. VBenchとWan-Benchの違い
2. Wan2.2との違いと選び方
モデルラインナップの全体像
Wan2.1の機能
Wan2.1の料金プラン
Wan2.1のライセンス
Wan2.1の使い方
Wan2.1をGoogleColab上で使ってみた
Wan2.1をComfyUIで使ってみた
Wan2.1についてのよくある質問
まとめ
最後に

Wan2.1の概要

Wan2.1は、最先端の拡散モデル（DIT：Denoising Diffusion Transformer）と独自開発のVAEを組み合わせ、複雑な動きや空間関係、物理法則の再現に優れたリアルな動画生成を実現しています。

https://github.com/Wan-Video/Wan2.1?tab=readme-ov-file

特に、時間軸を捉えるのに優れており、実際の動きを精密に模倣することが可能な仕組みになっています。

また、Wan2.1はマルチモーダル対応モデルであり、「Text-to-Video」だけでなく、「Image-to-Video」、「既存動画の編集」、「テキストから画像生成」、「動画からオーディオ生成」まで、複数のタスクに対応した包括的なモデルです。

上述の通りですが、Wan2.1は主要なオープンソースおよびクローズドソースモデルとのベンチマークテスト比較で、高い評価を得ています。

参考：https://github.com/Wan-Video/Wan2.1?tab=readme-ov-file

上記の表は、人間の嗜好に由来する重みを利用して、各次元のスコアに対して加重計算を行った合計スコアの結果です。

Weighted Scoreにおいて、他モデルを上回っていることが分かりますね。

さらに、「Wan2.1」のストロングポイントとして、手軽さが挙げられます。

Wan2.1の小型版モデル「T2V-1.3B」は、必要なVRAMが約8.2GBと軽量で、RTX4090クラスのGPUであれば、約4分で5秒間、480P解像度の動画を生成することができます。

加えて、Wan2.1は画像生成モデル並みの柔軟なカスタマイズ性や、テキスト入り動画生成といったユニークな機能を備えており、総合的に見て現行の他の動画生成AIとの差別化が図られています。

VBenchとWan-Benchの違い

動画生成AIの評価には主にVBenchとWan-Benchという2つのベンチマークが使用されています。

VBenchは、「動画生成品質」を16の階層的な評価次元に分解し、被写体の一貫性、動きの滑らかさ、時間的なちらつき、空間関係など、技術的品質を細かく測定します。VBenchの最大の特徴は、各評価次元が人間の知覚と高い相関性を持つよう設計されている点です。

一方、Wan-Benchは、Alibabaチームが独自に開発した評価フレームワークで、Wan2.1の技術レポートで初めて導入されました。

Wan-Benchは人間の嗜好に基づく重み付けを採用しており、各評価次元のスコアに対して人間が重要視する要素を反映した加重計算を実施。

この手法により、総合スコアが実際のユーザー体験により近い形で算出されるようになっています。

両者の違いは評価するもの自体です。VBenchは「技術的に何ができているか」を客観的に測定するのに対し、Wan-Benchは「ユーザーが実際にどう感じるか」を重視しています。

Wan2.2との違いと選び方

2025年9月にWan2.2が公開され、2026年2月現在、Wan2.1とWan2.2の両方が利用可能です。どちらを選ぶべきか迷う方も多いため、ここでは両者の違いとどちらを選ぶべきかを解説します。

Wan2.2の最大の変更点は、アーキテクチャにMixture-of-Experts（MoE）を採用したことで、生成速度が2〜3倍向上し、音声生成がネイティブ対応となった点です。また、最大解像度も720Pから1080Pへ引き上げられています。

一方で、コミュニティからは初回・最終フレームの品質についてWan2.1の方が優れているという報告もあります。

音声生成が不要であればWan2.1、音声が必要であったり生成速度を求める、1080Pの解像度を求める時にはWan2.2を使うのがよいでしょう。

モデルラインナップの全体像

Wan2.1は、用途や環境に応じて選択できる複数のモデルを提供しています。

大きく分けてText-to-Video 、Image-to-Video、First-Last-Frame-to-Video、Video Auto-Caption Encoder の4つで、それぞれに1.3Bまたは14Bのパラメータサイズが用意されています。

T2V-1.3B / T2V-14B

T2V-1.3Bは、わずか13億パラメータという軽量設計ながら、必要VRAMが8.19GBと非常に低く抑えられており、RTX 3060やRTX 4060でも動作可能。

480P解像度の5秒動画をRTX 4090で約4分で生成でき、個人開発者や限られたリソース環境での利用に最適です。ただし、720P解像度での生成も技術的には可能ですが、学習データの制約により480Pでの利用が公式推奨されています。

一方、T2V-14Bは140億パラメータの大規模モデルで、480Pと720Pの両方に対応。より複雑な動きや高精細な表現が可能で、商用レベルの高品質動画生成に適しています。

I2V-14B（480P・720P）

Image-to-Videoは解像度別にI2V-14B-480PとI2V-14B-720Pの2つのバリエーションが用意されています。

I2V-14B-480Pは、低解像度ながら安定した動画生成が可能で、必要VRAMも比較的抑えられています。一方、I2V-14B-720Pは高解像度での動画生成に対応し、より精細な動きと画質を実現。

入力画像のアスペクト比は生成動画に引き継がれるため、ポートレートや風景など多様な構図に対応可能です。

FLF2V-14B

First-Last-Frame-to-Video (FLF2V) モデルは、動画の最初と最後のフレームを指定することで、その間の動きを補間生成するモデル。2025年4月にリリースされたFLF2V-14Bは、140億パラメータで720P解像度に対応しています。

FLF2Vの最大の特徴は、開始フレームと終了フレームの一致率が98%に達する高精度な制御性です。

これにより、シームレスなループ動画の作成や、ストーリーボードに基づいた正確なシーン遷移が可能になります。例えば、鳥が地面にいる画像と空を飛んでいる画像を指定すれば、離陸の過程を自然に補間した動画を生成できます。

VACE（1.3B / 14B）

Video Auto-Caption Encoder (VACE) は、Wan2.1の中で最も多機能なオールインワンモデル。動画生成だけでなく、動画編集、自動キャプション生成まで対応する統合型モデルとして2025年5月に公開されました。

VACE-1.3Bは480P推奨で低VRAM環境でも動作し、VACE-14Bは480Pと720Pの両方をサポート。

通常のT2VやI2Vと異なり、VACEはテキストプロンプト、動画、マスク、参照画像などの複数入力を組み合わせた生成が可能です。

実際にVACEを使われている方がXにいらっしゃいましたが、最初と最後の画像だけを指定して、間の動きを補完してくれるようです。

Wan2.1のモデルをそれぞれまとめると下記のようになります。

スクロールできます

モデル名	パラメータ	解像度	必要VRAM目安	主なタスク	推奨環境
T2V-1.3B	13億	480P推奨	8.19GB	テキストから動画生成	個人開発・低VRAM
T2V-14B	140億	480P/720P	24GB+	テキストから動画生成	商用・高品質制作
I2V-14B-480P	140億	480P	16GB+	画像から動画生成	写真アニメーション
I2V-14B-720P	140億	720P	24GB+	画像から動画生成	高精細I2V
FLF2V-14B	140億	720P	24GB+	開始終了フレーム指定	ループ動画・遷移
VACE-1.3B	13億	480P推奨	8GB+	統合編集・生成	オールインワン低負荷
VACE-14B	140億	480P/720P	24GB+	統合編集・生成	プロ級編集ワークフロー

Wan2.1モデルファミリー一覧表

用途や環境に応じて上記一覧表を参考に使用するモデルを決めるのが良いでしょう。

Wan2.1の機能

では次にWan2.1の機能を詳しくみていきましょう。

Text-to-Video (T2V)

Text-to-Video (T2V) は一般的に動画生成でよく使われる、テキストプロンプトから動画を生成する機能で、Wan2.1でも中核を担う機能です。

自然言語で入力されたテキストプロンプトをもとに、その内容に沿った映像を生成することが可能です。

たとえば「猫がピアノを弾いている」や「未来都市を飛び回るドローン」といった指示を与えるだけで、意味を解釈してアニメーション動画を作成することができます。

Image-to-Video (I2V)

1枚の静止画をもとに、その画像に動きを加えた動画を生成できるのがImage-to-Video（I2V）です。

たとえば、風景写真を入力すれば、空が流れたり人物が歩き出すようなモーションが加わった映像が生成されます。

Video Editing

Wan2.1は入力された動画に対して「編集」を加える機能が搭載されています。

具体的には、入力した動画の一部だけを変更したり、スタイルを変えたりエフェクトを追加するといった処理が可能です。単なる動画生成だけでなく、素材の加工や再構成ができるようになっています。

Text-to-Image

動画だけでなく、テキストから静止画（画像）を生成する機能も搭載しています。

これにより、まずテキストプロンプトで画像を作り、それを元に動画を生成させるという2段階構成の制作も可能になりました。

Video-to-Audio

Wan2.1では、生成した動画や入力された動画から、そのシーンにマッチする効果音などを自動生成する機能も搭載されています。

これにより、無音の動画にリアルな効果音を付ける作業を自動化できるようになりました。

ただ、BGM(音楽)というよりも効果音・環境音というイメージが強いようなので、現時点ではしっかりBGMをつけたいなら別途動画とBGMを合わせる方がよいでしょう。

テキスト生成

英語と中国語に限られますが、Wan2.1は動画生成時にテキストも追加することが可能です。

動画の中にキャッチコピーを入れたり、字幕を出すことができるので動画とテキストが一体化した

作品を一度の生成プロセスで作れるようになりました。

プロンプト拡張について

Wan2.1では、入力したプロンプトを自動的に詳細化・拡張するプロンプト拡張（Prompt Extension）機能があります。プロンプト拡張は、シンプルなプロンプトから生成される動画の品質を大幅に向上させることが可能。

例えば「猫がピアノを弾く」という短いプロンプトが、「ふわふわした毛並みの白い猫が、木製のグランドピアノの前に座り、前足で鍵盤を優雅に押している。柔らかな室内光が猫の毛並みを照らし、背景には本棚と観葉植物がぼやけて見える。カメラは猫の横からのミディアムショットで、ピアノの音色に合わせた動きを捉えている」といった詳細な記述に変換されます。

この拡張により、動きのリアリティ、映像美、意味理解の精度が改善されます。

Wan2.1では、プロンプト拡張を使う方法としてDashscope APIとローカルQwenモデルを使用する方法の2つがあります。

Dashscope API活用

Dashscope APIはQwenシリーズの大規模言語モデルがクラウド上で実行されるため、ローカル環境のVRAMやCPU負荷を一切消費せずにプロンプト拡張が可能です。

Dashscope APIを使用するには、事前にAlibaba Cloud Model StudioでAPIキーを取得する必要があります。

実際に使用する場合には、既存の動画もしくは画像が入力としてある前提で、それを編集・参照・拡張することになります。

サンプルコードはこちら

import requests

import json

import time

DASHSCOPE_API_KEY = "" 

BASE_URL = "https://dashscope-intl.aliyuncs.com"

CREATE_URL = f"{BASE_URL}/api/v1/services/aigc/video-generation/video-synthesis"

headers = {

    "Authorization": f"Bearer {DASHSCOPE_API_KEY}",

    "Content-Type": "application/json",

    "X-DashScope-Async": "enable",

}

payload = {

    "model": "wan2.1-vace-plus",

    "input": {

        "function": "image_reference",

        "prompt": "A woman standing calmly",

        "ref_images_url": [

            "https://weel.co.jp/wp-content/uploads/2025/11/image-415.png"

        ]

    },

    "parameters": {

        "prompt_extend": True,

        "obj_or_bg": ["obj"], 

        "size": "1280*720"

    }

}

res = requests.post(CREATE_URL, headers=headers, json=payload)

print("create:", res.status_code, res.json())

res.raise_for_status()

task_id = res.json()["output"]["task_id"]

print("task_id:", task_id)

TASK_URL = f"{BASE_URL}/api/v1/tasks/{task_id}"

while True:

    r = requests.get(TASK_URL, headers={"Authorization": f"Bearer {DASHSCOPE_API_KEY}"})

    r.raise_for_status()

    data = r.json()

    status = data["output"]["task_status"]

    print("status:", status)

    if status == "SUCCEEDED":

        out = data["output"]

        print("\n=== ORIG PROMPT ===\n", out.get("orig_prompt"))

        print("\n=== ACTUAL PROMPT (EXTENDED) ===\n", out.get("actual_prompt"))

        print("\n=== VIDEO URL ===\n", out.get("video_url"))

        break

    if status in ("FAILED", "CANCELED"):

        raise RuntimeError(json.dumps(data, ensure_ascii=False, indent=2))

    time.sleep(15)

結果はこちら

=== ORIG PROMPT ===

 A woman standing calmly

=== ACTUAL PROMPT (EXTENDED) ===

 纪实摄影风格，一位三十岁左右的东亚女性静静伫立在晨光微照的旧巷中。她身穿米白色风衣，长发松散垂肩，双手自然垂落，神情沉静，目光平和望向远方。背景是斑驳青砖墙与半开木门，光影柔和斜洒于她侧脸与衣摆。微风轻拂发丝与衣角，呈现细微动态。中景半身站姿，略低角度仰拍，突出从容气场。

日本語訳はこちら

ドキュメンタリー調のスタイルで、30歳前後の東アジア系の女性が、朝日にほのかに照らされた古い路地に静かに佇んでいる。ベージュのトレンチコートをまとい、長い髪が肩にゆるやかに垂れ、両手は自然に下ろされている。表情は穏やかで、視線は遠くを静かに見つめている。背景には斑模様の青レンガの壁と半開きの木戸が映り、柔らかな光が彼女の横顔と衣の裾に斜めに差し込む。微風が髪と衣の端をそっと揺らし、微細な動きを浮かび上がらせる。中景の半身立ち姿は、やや低い角度からの仰ぎ撮りにより、落ち着いた気品を際立たせている。

プロンプトは拡張されましたが、中国語で出力されました。

また、今回参照した画像はこちらの記事で取り扱っている、女性の画像です。

実際に生成された動画がこちら

ローカルQwen系の選択肢

ローカルQwen系モデルを使用する方法は、Hugging FaceからQwenモデルをダウンロードしてローカル環境で実行する形式です。この方法では、API費用が発生せず、オフライン環境でも動作するというメリットがあります。

モデルサイズが大きいほど拡張品質は向上しますが、その分VRAM消費も増加。

下記はモデルごとの必要VRAM目安です。

スクロールできます

モデル名	タスク対応	必要VRAM目安	拡張品質	実行速度
Qwen2.5-14B-Instruct	T2V	約28GB	最高	遅い
Qwen2.5-7B-Instruct	T2V	約14GB	高い	中程度
Qwen2.5-3B-Instruct	T2V	約6GB	中程度	速い
Qwen2.5-VL-7B-Instruct	I2V/FLF2V	約16GB	高い	中程度
Qwen2.5-VL-3B-Instruct	I2V/FLF2V	約8GB	中程度	速い

Wan2.1モデルごとの必要VRAM目安一覧表

上記一覧表を参考にモデルを選択していただくのが良いでしょう。

使うべきケースと注意点

プロンプト拡張は、動画品質を向上させる便利な機能ですが、すべてのケースで必要というわけではありません。

プロンプト拡張を使うべきケースとして、シンプルまたは短いプロンプトしか用意できない場合です。

「犬が走る」のような基本的な記述だけでは、モデルは動きの詳細や環境情報を自由に解釈してしまうため、結果にばらつきが生じます。プロンプト拡張により、これらの曖昧さが具体的な記述に変換され、安定した品質が得られます。

一方でプロンプト拡張を使わないほうが良いケースもあります。既に詳細で具体的なプロンプトを作成している場合、拡張により意図しない要素が追加されてしまう可能性があるので、詳細なプロンプトを用意できる時には使用しない方が良いでしょう。

Wan2.1の料金プラン

Wan2.1そのものはオープンソースモデルであり、モデルをダウンロードすることで無料で利用できます。

また、APIも用意されており、API使用料金は下記の通りです。

スクロールできます

モデル	用途	解像度	料金（秒単位）	5秒動画の料金
wan2.1-t2v-turbo	Text-to-Video	480P	$0.036/秒	$0.18
wan2.1-t2v-turbo	Text-to-Video	720P	$0.036/秒	$0.18
wan2.1-t2v-plus	Text-to-Video	720P	$0.10/秒	$0.50
wan2.1-i2v-turbo	Image-to-Video	480P	$0.036/秒	$0.18
wan2.1-i2v-turbo	Image-to-Video	720P	$0.036/秒	$0.18
wan2.1-i2v-plus	Image-to-Video	720P	$0.10/秒	$0.50

Wan2.1ファミリーのAPI利用料金一覧表

Wan.videoでもWanを利用することができ、料金は下記の通りです。

スクロールできます

プラン	Free	Pro	Premium
月額料金	US$ 0	US$ 5/月（通常 $72 → 年払い $60、50%オフ）	US$ 20/月（通常 $288 → 年払い $120、50%オフ）
支払い方法	−	年払い（Billed Yearly 50%off）または月払い（Billed Monthly）	年払い（Billed Yearly 50%off）または月払い（Billed Monthly）
月間クレジット	−	300 Credits	1200 Credits

Wan.videoの料金一覧表

ただ、2025年2月時点では、Wan2.1はオープンソース公開モデルという位置付けのため、公式の無料・有料プランといった区別はなく、誰もがApache 2.0ライセンスに基づいて無償で利用可能です。

Wan2.1のライセンス

Wan2.1はApache 2.0ライセンスのもとで公開されているため、商用利用を含め、自由に改変・再配布することが認められています。

利用用途	可否
商用利用
改変
配布
特許使用
私的使用

ただし、ライセンスについては変更となる可能性もありますので、利用する際は最新情報を必ずチェックするようにしましょう。

Wan2.1の使い方

Wan2.1を動かすのに必要な動作環境は以下の通りです。

■Pythonのバージョン
Python3.8以上

■RAMの使用量
8GBで、1.3Bモデルの480P動画生成が可能だが、16GB以上推奨

また、Wan2.1には、以下のような3つの利用方法があります。

ローカル環境での利用（Windows・Mac）

Windows環境

PythonとCUDA対応GPU環境を用意します。

PyTorch 2.4+ (CUDA対応版) をインストールし、GitHubリポジトリをクローン、そして依存ライブラリをpipで導入。

その後モデルファイルをHuggingFaceからダウンロードします。環境構築が完了すれば、以下のようなスクリプトを実行することで、Text-to-Videoを試すことが可能です。

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "（入力プロンプト）"

Mac環境

残念ながら2025年2月現在でWan2.1は、Appleシリコン対応 (MPS) していません。

1.3BモデルをCPU/MPSでかろうじて動かすのが限界で、実行に非常に時間を要します。もし、Appleシリコンで利用する場合は、サポートのアップデートを待つか、GoogleColabのGPU環境での利用を検討しましょう。

クラウドベースでの利用

GoogleColab

Colab上でもWan2.1を実行することができます。

基本的な手順はWindowsと同じで、GPU対応のランタイムを選択し、GitHubリポジトリをクローン＆依存関係をインストール後、モデルをダウンロードしてスクリプトを実行するといった流れです。

Alibaba Cloud PAI ModelGallery

Alibaba Cloud PAI ModelGalleryは、ローカル環境の構築が難しい方や企業・業務利用でクラウドベースの安定した実行環境が必要な方向けのデプロイ手段。

Platform for AIのModelGallery機能を利用することで、GitHubからのモデル手動ダウンロードや複雑な環境設定を行うことなく、数クリックでWan2.1をデプロイし、Web UIまたはAPI経由で利用できます。

Alibaba Cloud PAI ModelGalleryトップページ — 参考：https://www.alibabacloud.com/help/en/pai/user-guide/model-gallery/

WebUIでの利用

Hugging Face

環境構築不要でWan2.1を試す方法として、Hugging Face上のデモがあります。

Wan2.1デモページ — 参考：https://huggingface.co/spaces/Wan-AI/Wan2.1

このデモでは、バックエンドでWan2.1モデルがホストされており、英語または中国語のテキストから5秒前後の短い動画を生成することができます。また、Image-to-Videoも試すことができるようです。

簡易GUI・導入補助ツール

ローカル環境でWan2.1を手軽に使うにはそれなりのハードルがあります。

そのためコミュニティが開発した簡易インストーラーやワークフローなどを使うことによって、手軽に利用が可能。

ComfyUI Desktopは、Wan2.1を最も簡単に始められます。

公式サイトから専用インストーラーをダウンロードするだけで、Python環境、ComfyUI本体、必要な依存関係がすべて自動インストールされます。

インストール完了後、内蔵テンプレートから「ワークフロー＞テンプレート＞ビデオ＞Wan 2.1」を選択すれば、不足しているモデルファイルも自動検出され、ダウンロードボタンが表示されます。

EasyWanVideoは、Windows環境に特化した一括環境構築ツール。

Zuntan03が開発したこのツールは、空フォルダを作成し、EasyWanVideoInstaller.batを実行するだけで、ComfyUI、Wan2.1関連ノード、推奨モデル設定がすべて自動セットアップされます。

スクロールできます

ツール名	対象OS	特徴	推奨環境	ダウンロード元
ComfyUI Desktop	Windows/Mac	公式・自動インストール	VRAM 8GB+	公式サイト
EasyWanVideo	Windows	I2V特化・日本語対応	VRAM 12GB+, RAM 32GB+	GitHub

簡易GUI一覧表

ワークフロー配布サイトとしてはCivitaiがおすすめ。

Civitaiには、コミュニティメンバーが作成したWan2.1用ComfyUIワークフローが数百個公開されており、用途別に検索・ダウンロードできます。

推奨パラメータ

Wan2.1で高品質な動画を生成するには、適切なパラメータ設定が必要です。

guide_scaleは、プロンプトへの忠実度を制御するパラメータの一つです。

この値が高いほど、プロンプトの指示に厳密に従った動画が生成されますが、過度に高くすると不自然なアーティファクトが発生する可能性があります。公式推奨値は、T2V-14Bモデルで5.0、T2V-1.3Bモデルで6.0です。

sample_shiftは、生成プロセスのノイズスケジューリングを制御するパラメータ。

解像度によって最適値が異なり、720P生成時は5.0、480P生成時は3.0がよいでしょう。

sample_stepsは、生成の反復回数です。

ステップ数が多いほど高品質になりますが、生成時間も増加します。T2Vモデルのデフォルトは50ステップ、I2Vモデルは40ステップです。

解像度と安定性

Wan2.1では、モデルと解像度の組み合わせによって安定性が大きく異なります。

T2V-1.3Bモデルは720P解像度での動画生成が可能ですが、公式では480P推奨としています。コミュニティからの報告では、720P生成時に480Pと比較して不安定になる傾向があるとされていますが、公式ドキュメントでは明示されていませんでした。

低VRAM環境での運用方法

T2V-1.3Bモデルは約8.19GB VRAMを必要とし、RTX 4090などのコンシューマー向けGPUで動作可能です。

ただし、8GB VRAMのGPUでは、公式要件の8.19GBをわずかに下回るため、–offload_model True や –t5_cpu などのメモリ最適化オプションが必要になる場合があります。

メモリ最適化の他に量子化モデルを使う方法もあります。量子化モデルを使えばファイルサイズとメモリ消費を削減できます。

Mac環境での利用

Wan2.1の公式実装はCUDAを前提としているため、Apple Silicon搭載Macではそのままでは動作しません。

Apple Silicon搭載MacでWan2.1を使用する場合には、MPSを使用します。MPSを使用する場合には、CPUフォールバック用にPYTORCH_ENABLE_MPS_FALLBACK=1を設定、–offload_model True および –t5_cpu によるメモリ使用量の調整をする必要があります。

Wan2.1をGoogleColab上で使ってみた

今回は、GoogleColab A100 GPUで「Text-to-Video」を試してみます。

1．ランタイム設定

「ランタイムの変更」を選択し、「A100 GPU」を選択します。

2．リポジトリのクローンと依存パッケージインストール

以下コードを実行します。

#GitHubから Wan2.1 リポジトリをクローン
!git clone https://github.com/Wan-Video/Wan2.1.git
%cd Wan2.1

#必要なライブラリをインストール（PyTorch 2.4+、diffusers、transformers、opencv-python など）
!pip install -r requirements.txt

#Hugging Face CLI のインストール（モデルダウンロード用）
!pip install "huggingface_hub[cli]"

#GPUが認識されているか確認
import torch
print("PyTorch version:", torch.__version__)
print("GPU available:", torch.cuda.is_available())
print("GPU device:", torch.cuda.get_device_name(0) if torch.cuda.is_available() else "None")

3．モデルダウンロード

今回は、Text-to-Video 1.3Bモデル（480p向け）をダウンロードします。

※筆者はここで実行完了までに15分ほどかかったので、時間に余裕を持って試してみてください。

#Text-to-Video 1.3B モデルをダウンロード
!huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir /content/Wan2.1-T2V-1.3B

4．モデル実行

さあ、いよいよモデル実行です！

Promptはこちら

A futuristic robot explores a devastated spaceship. The scene is highlighted by cinematic lighting and high-definition detail.

和訳：
未来的なロボットが、荒廃した宇宙船内を探索する。シネマティックなライトと高精細なディテールが際立つシーン。

ひとまず、サクッとテストしたいので、以下のようなパラメータで実行します。

!python generate.py --task t2v-1.3B --size 832*480 \
    --ckpt_dir /content/Wan2.1-T2V-1.3B \
    --prompt "$A futuristic robot explores a devastated spaceship. The scene is highlighted by cinematic lighting and high-definition detail." \
    --sample_guide_scale 6 \
    --sample_shift 5 \
    --frame_num 24 \
    --sample_steps 20 \
    --t5_cpu \
    --offload_model True \
    --save_file text_to_video_quick.mp4

上記のコードは、2〜3分ほどで実行完了しました。

これで「text_to_video_quick.mp4」というファイルが保存されているので、以下コードでColab上にファイルを表示します。

from IPython.display import HTML, display
from base64 import b64encode

def show_video(filename, width=480):
    with open(filename, 'rb') as f:
        mp4 = f.read()
    data_url = "data:video/mp4;base64," + b64encode(mp4).decode()
    display(HTML(f'<video width="{width}" controls><source src="{data_url}" type="video/mp4"></video>'))

# テスト結果表示
show_video('text_to_video_quick.mp4', width=480)

パラメータ設定をかなり低めに抑えたのですがこの品質。予想以上のクオリティでした。

プロンプトは変えず、パラメータだけ上方修正して、再度実行してみます。

実行時間は5分ほど。これもまたキレイな映像に仕上がっています。

Wan2.1をComfyUIで使ってみた

では、次はWan2.1をComfyUIを使って、より視覚的に動画生成を行ってみます。

検証環境は先程と同じくGoogleColabで行います。

コードはGithubでComfyUI-Managerとして公開されているページにあるGoogleColab用のノートブックを参考にします。

※Googleドライブ上にモデルファイルなどを配置するので13GB以上の空きを確保しておきましょう。

GoogleColab上でComfyUIの初期セットアップ

一番最初のコードは初期設定のセットアップになります。

コード実行後、Googleドライブとの連携確認があるので、よく読んで進めてください。

■初期設定

# #@title Environment Setup

from pathlib import Path

OPTIONS = {}

USE_GOOGLE_DRIVE = True  #@param {type:"boolean"}

UPDATE_COMFY_UI = True  #@param {type:"boolean"}

USE_COMFYUI_MANAGER = True  #@param {type:"boolean"}

INSTALL_CUSTOM_NODES_DEPENDENCIES = True  #@param {type:"boolean"}

OPTIONS['USE_GOOGLE_DRIVE'] = USE_GOOGLE_DRIVE

OPTIONS['UPDATE_COMFY_UI'] = UPDATE_COMFY_UI

OPTIONS['USE_COMFYUI_MANAGER'] = USE_COMFYUI_MANAGER

OPTIONS['INSTALL_CUSTOM_NODES_DEPENDENCIES'] = INSTALL_CUSTOM_NODES_DEPENDENCIES

current_dir = !pwd

WORKSPACE = f"{current_dir[0]}/ComfyUI"

if OPTIONS['USE_GOOGLE_DRIVE']:

    !echo "Mounting Google Drive..."

    %cd /

    from google.colab import drive

    drive.mount('/content/drive')

    WORKSPACE = "/content/drive/MyDrive/ComfyUI"

    %cd /content/drive/MyDrive

![ ! -d $WORKSPACE ] && echo -= Initial setup ComfyUI =- && git clone https://github.com/comfyanonymous/ComfyUI

%cd $WORKSPACE

if OPTIONS['UPDATE_COMFY_UI']:

  !echo -= Updating ComfyUI =-

  # Correction of the issue of permissions being deleted on Google Drive.

  ![ -f ".ci/nightly/update_windows/update_comfyui_and_python_dependencies.bat" ] && chmod 755 .ci/nightly/update_windows/update_comfyui_and_python_dependencies.bat

  ![ -f ".ci/nightly/windows_base_files/run_nvidia_gpu.bat" ] && chmod 755 .ci/nightly/windows_base_files/run_nvidia_gpu.bat

  ![ -f ".ci/update_windows/update_comfyui_and_python_dependencies.bat" ] && chmod 755 .ci/update_windows/update_comfyui_and_python_dependencies.bat

  ![ -f ".ci/update_windows_cu118/update_comfyui_and_python_dependencies.bat" ] && chmod 755 .ci/update_windows_cu118/update_comfyui_and_python_dependencies.bat

  ![ -f ".ci/update_windows/update.py" ] && chmod 755 .ci/update_windows/update.py

  ![ -f ".ci/update_windows/update_comfyui.bat" ] && chmod 755 .ci/update_windows/update_comfyui.bat

  ![ -f ".ci/update_windows/README_VERY_IMPORTANT.txt" ] && chmod 755 .ci/update_windows/README_VERY_IMPORTANT.txt

  ![ -f ".ci/update_windows/run_cpu.bat" ] && chmod 755 .ci/update_windows/run_cpu.bat

  ![ -f ".ci/update_windows/run_nvidia_gpu.bat" ] && chmod 755 .ci/update_windows/run_nvidia_gpu.bat

  !git pull

!echo -= Install dependencies =-

!pip3 install accelerate

!pip3 install einops transformers>=4.28.1 safetensors>=0.4.2 aiohttp pyyaml Pillow scipy tqdm psutil tokenizers>=0.13.3

!pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

!pip3 install torchsde

!pip3 install kornia>=0.7.1 spandrel soundfile sentencepiece

if OPTIONS['USE_COMFYUI_MANAGER']:

  %cd custom_nodes

  # Correction of the issue of permissions being deleted on Google Drive.

  ![ -f "ComfyUI-Manager/check.sh" ] && chmod 755 ComfyUI-Manager/check.sh

  ![ -f "ComfyUI-Manager/scan.sh" ] && chmod 755 ComfyUI-Manager/scan.sh

  ![ -f "ComfyUI-Manager/node_db/dev/scan.sh" ] && chmod 755 ComfyUI-Manager/node_db/dev/scan.sh

  ![ -f "ComfyUI-Manager/node_db/tutorial/scan.sh" ] && chmod 755 ComfyUI-Manager/node_db/tutorial/scan.sh

  ![ -f "ComfyUI-Manager/scripts/install-comfyui-venv-linux.sh" ] && chmod 755 ComfyUI-Manager/scripts/install-comfyui-venv-linux.sh

  ![ -f "ComfyUI-Manager/scripts/install-comfyui-venv-win.bat" ] && chmod 755 ComfyUI-Manager/scripts/install-comfyui-venv-win.bat

  ![ ! -d ComfyUI-Manager ] && echo -= Initial setup ComfyUI-Manager =- && git clone https://github.com/ltdrdata/ComfyUI-Manager

  %cd ComfyUI-Manager

  !git pull

%cd $WORKSPACE

if OPTIONS['INSTALL_CUSTOM_NODES_DEPENDENCIES']:

  !echo -= Install custom nodes dependencies =-

  !pip install GitPython

  !python custom_nodes/ComfyUI-Manager/cm-cli.py restore-dependencies

各種ファイルの配置

初期セットアップ実行後、GoogleドライブにComfyUIというフォルダが新規作成されています。

モデル・テキストエンコーダー・VAEが必要なのでComfyUIのWikiを参照してダウンロードしてください。

大きいモデルだと時間がかかってしまうため、今回は「wan2.1_t2v_1.3B_bf16.safetensors」を使います。

■ファイルの配置図

ComfyUI/

├── models/

│   ├── diffusion_models/

│   │   └── wan2.1_t2v_1.3B_fp16.safetensors             　   #モデル

│   ├── text_encoders/

│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # テキストエンコーダー

│   └── vae/

│       └──  wan_2.1_vae.safetensors　　　　　　　　　　# vae

GoogleColab上でComfyUIを実行する

下記コードを実行してComfyUIを起動します。

!wget -P ~ https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64.deb

!dpkg -i ~/cloudflared-linux-amd64.deb

import subprocess

import threading

import time

import socket

import urllib.request

def iframe_thread(port):

  while True:

      time.sleep(0.5)

      sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

      result = sock.connect_ex(('127.0.0.1', port))

      if result == 0:

        break

      sock.close()

  print("\nComfyUI finished loading, trying to launch cloudflared (if it gets stuck here cloudflared is having issues)\n")

  p = subprocess.Popen(["cloudflared", "tunnel", "--url", "http://127.0.0.1:{}".format(port)], stdout=subprocess.PIPE, stderr=subprocess.PIPE)

  for line in p.stderr:

    l = line.decode()

    if "trycloudflare.com " in l:

      print("This is the URL to access ComfyUI:", l[l.find("http"):], end='')

    #print(l, end='')

threading.Thread(target=iframe_thread, daemon=True, args=(8188,)).start()

!python main.py --dont-print-server

実行中に下記のような表示がでれば成功です！

URLをクリックすると少し時間がかかりますがComfyUIの画面が表示されます。

This is the URL to access ComfyUI: https://anderson-br-benz-converted.trycloudflare.com

ComfyUIでWan2.1を使う

ComfyUIが起動したらWan2.1のワークフローを作成するのですが、今回はComfyUIのWikiにサンプルがあるのでJson形式のファイルをダウンロードして利用します。

ComfyUIを表示し「上部メニューのワークフロー→開く」をクリックしてダウンロードしたJsonファイルを開きます。初期設定と配置しているモデルが違うとエラーが出ますが後で変更するので問題ありません。

また、SaveWEBMのノードでエラーが出るかもしれませんが、こちらも今回は使用しないのでそのままでOKです。

モデルの変更

読み込んだサンプルのワークフローと、実際に配置されているモデルが異なっているとエラーが出てしまいますのでモデルを変更しておきましょう。

「拡散モデルを読み込む」の「unset_name」の箇所がモデルの指定場所です。左右の三角ボタンをクリックすれば配置されているモデルを指定することができます。

プロンプトの入力と実行

ワークフロー中央の緑のボックスがプロンプト、紫色のボックスがネガティブプロンプトを入力するエリアです。

最初からサンプルテキストが入っていますが、両方削除してまずはシンプルなプロンプトで試してみましょう。今回はネガティブプロンプトはなしで、プロンプトに「A cat playing piano」とだけ入力します。

プロンプトを入力したあとは画面下部の「実行する」ボタンをクリックすればOKです。

今回のプロンプトは「ピアノを弾く猫」というシンプルなものでしたが、1秒ほどの動画で概ねプロンプト通りの内容のものが生成されました。

今回、Google Colab T4 GPUでも何度か試したのですが、リソース不足でモデル実行ができませんでした。体感ですが、A100 GPU以上の環境が必須だと感じました。

今回はここまでのご紹介となりますが、気になる方はぜひ、「他のプロンプト」や「Image-to-Video」も試してみてください！

Wan2.1についてのよくある質問

SoraやLumaといった他の動画生成AIと比べてどう？

動画生成AIで有名なSoraやLumaと比べると、Wan2.1は「オープンソース」「ローカルで使える」「比較的軽量」という点が大きな利点です。一方で、極端に高精細な実写表現や長尺の動画ではSoraの方が優れています。ただし、ローカル環境で自分好みにカスタマイズできるという点では、Wan2.1は制限なく実験したい人に最適だといえるでしょう。

Wan2.1は日本語プロンプトに対応している？

はい、Wan2.1は日本語プロンプトに対応しています。ただし、学習データは英語及び中国語が中心とされているため長文や難しい言い回しの日本語では思った通りの結果が得られない可能性があります。より精度の高い結果を求めるのであれば英語に訳したプロンプトを使用するのがよいでしょう。

OOMエラーが出てしまいますが、どうすればいいですか？

–offload_model Trueを指定することでVRAM消費を削減できます。しかし生成速度は約20〜30%低下します。

Wan2.1は商用利用できますか？

はい、できます。Wan2.1はApache 2.0ライセンスで公開されており、商用利用・改変・再配布・特許使用が許可されています。

Wan2.1で日本語プロンプトは使えますか？

使えますが英語と中国語で学習されているので、可能であれば英語で指示を出すのが良いです。

まとめ

最後に改めて、「Wan2.1」の特徴をまとめます。

オープンソースで公開、テキストや画像から高品質な動画を生成できる
SoraやLuma、Pikaを大きく上回る性能を持つ
「拡散モデル×VAE」の組み合わせでよりリアルな動画生成を実現
Apache 2.0ライセンスのもとで、無償で利用可能
利用方法はローカル、クラウド、WebUIの3つ

日々進化する動画生成AI領域から目が離せませんね！

最後に

いかがだったでしょうか？

Wan2.1などの動画生成AIを活用し、プロダクトや事業の可能性を広げませんか？最先端の生成AI導入に向けた具体的な活用方法や、最適な実装手法について専門家が詳しくご提案します。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
︎株式会社WEELのサービスを詳しく見る。