テクノロジー界において、AIの進化は目覚ましいものがあります。
特に、メタ(Facebookの後継)が開発した「Emu Video」と「Emu Edit」は、この分野の最先端を行く技術として注目されています。
これらの技術は、テキストから動画や画像を生成し、編集する新しい可能性を提示しています。
「Emu Video」の革新的なアプローチ
Emu Video
Factorizing Text-to-Video Generation by Explicit Image Conditioning
「Emu Video」は、テキストから高品質な動画を生成するモデルです。
このモデルは2ステップのアプローチを採用しています。
まず、テキストから画像を生成し、次にその画像とテキストの両方を条件として動画を生成します。
このアプローチにより、画像-テキストの大規模データセットを活用し、視覚的な質と多様性を保持することが可能です。
Emu Videoは、低解像度と低フレームレートからスタートする多段階トレーニングと、
512pxの動画を直接生成するためのゼロターミナルSNRノイズスケジュールを使用しています。
「Emu Edit」の進化
Emu Edit
Precise Image Editing via Recognition and Generation Tasks
Emu Editもまた、メタが開発した画像編集モデルです。
自由形式のテキスト命令に従って、画像を正確に編集できます。
このモデルは、領域ベースの編集、自由形式の編集、コンピュータビジョンのタスクなど、16の異なるタスクでトレーニングされています。
Emu Editは、命令から正しい編集タイプを特定するために、学習したタスク埋め込みを使用しています。
命令ベースの画像編集のベンチマークで最先端の結果を達成し、新しいタスクにもごく少数のデータで適応可能です。