Text-to-video-synthesisのWebアプリ

「テキストから動画を生成したい」
「Text-to-video-synthesisのインストールに失敗する・・・」

このような場合には、この記事の内容が参考になります。
この記事では、Text-to-video-synthesisのWebアプリについて解説しています。

本記事の内容

Text-to-video-synthesisのWebアプリとは？
Text-to-video-synthesisのWebアプリのシステム要件
Text-to-video-synthesisのWebアプリのインストール
Text-to-video-synthesisのWebアプリの動作確認

それでは、上記に沿って解説していきます。

Text-to-video-synthesisのWebアプリとは？

Text-to-video-synthesisを用いると、テキストから動画を生成できます。
Text-to-video-synthesisについては、次の記事で説明しています。

上記の記事では、公式のインストール方法を解説しています。
しかし、その方法は正直言って面倒です。

それに、GUI画面も存在せず、使い勝手も良くありません。
でも、今はすぐに便利なモノが出てきます。

ModelScope Text to Video Synthesis
https://huggingface.co/spaces/damo-vilab/modelscope-text-to-video-synthesis

これは、Text-to-video-synthesisのWebアプリです。
このアプリであれば、GUI画面が存在してます。

そして、インストールも非常に簡単です。
面倒なことをする必要なく、Text-to-video-synthesisを動かすことができます。

以上、Text-to-video-synthesisのWebアプリについて説明しました。
次ぎは、Text-to-video-synthesisのWebアプリのシステム要件を説明します。

Text-to-video-synthesisのWebアプリのシステム要件

基本的には、GPU版のPyTorchが動けばOKです。
バージョンに関しては、1系でも2系でもどちらでも構いません。

ここでは、PyTorch 2.0を推奨しておきます。
GPU版PyTorch 2.0のインストールは、次の記事で説明しています。

また、PyTorch 2.0はPython 3.8以降がサポート対象です。
とにかく、詳細は上記の記事をご覧ください。

以上、Text-to-video-synthesisのWebアプリのシステム要件を説明しました。
次は、Text-to-video-synthesisのWebアプリのインストールを説明します。

Text-to-video-synthesisのWebアプリのインストール

Text-to-video-synthesisのWebアプリのインストールは、次の手順で実施します。

ファイル一式の取得（Hugging Faceから）
requirements.txtを使った一括インストール

それぞれを下記で説明します。

ファイル一式の取得（Hugging Faceから）

ali-vilab/modelscope-text-to-video-synthesis at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

上記ページでファイルを確認できます。

この中で必要なモノは、次の3ファイルです。

app.py
requirements.txt
style.css

これだけであれば、一ファイル毎にダウンロードしましょう。
ダウンロードできたら、同じディレクトリ（コンテンツルート）に保存します。

requirements.txtを使った一括インストール

先ほどダウンロードしたrequirements.txtを見てください。

requirements.txt

accelerate==0.17.1
git+https://github.com/huggingface/diffusers@9dc8444
gradio==3.23.0
huggingface-hub==0.13.3
imageio[ffmpeg]==2.26.1
torch==2.0.0 
torchvision==0.15.1 
transformers==4.27.2

PyTorchはインストール済みのため、関連パッケージをコメントにしておきます。

#torch==2.0.0 
#torchvision==0.15.1

変更後のrequirements.txtを利用して、必要なモノを一気にインストールします。
実行するのは、次のコマンドです。

pip install -r requirements.txt

処理が完了したら、インストールは終了です。

以上、Text-to-video-synthesisのWebアプリのインストールを説明しました。
次は、Text-to-video-synthesisのWebアプリの動作確認を説明します。

Text-to-video-synthesisのWebアプリの動作確認

Text-to-video-synthesisのWebアプリの動作確認を行います。
コンテンツルートに配置したapp.pyを実行すれば、起動できます。

初回起動時は、モデル（約3.5GB）のダウンロードが行われます。
2分ほど待たされました。

でも、これは全然軽いし速いです。
公式のインストール方法の場合だと、15GBほどのサイズ容量となります。

さらに、ファイル保存元のModelScopeからのダウンロードは非常に遅いです。
1時間以上は待たされる可能性があります。

今回の方法だと、Hugging Faceからのダウンロードになります。
そのため、ダウンロードでストレスを感じることはないでしょう。

上手く起動できたら、コンソールには次のように表示されます。

Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.

Chromeなどのブラウザで「http://127.0.0.1:7860」にアクセスします。
Hugging Face上のデモと同じ画面を確認できます。

あとは、プロンプトを入力して「Generate video」ボタンを押すだけです。
「Advanced options」でSeedやStepsなどを設定できます。

ちなみに上記の設定の場合、2分30秒ほどの時間がかかりました。

再生時間は、25秒ほどです。

Text-to-video-synthesisで生成した動画

プロンプトは「Chihuahua is dancing on the moon.」

追記 2023年3月25日
メモリ不足でエラーが出る場合は、次の記事をご覧ください。

以上、Text-to-video-synthesisのWebアプリの動作確認を説明しました。