メタによるAIの最先端:「Emu Video」と「Emu Edit」

メタ社が開発した革新的なAI技術、「Emu Video」と「Emu Edit」について深く掘り下げた記事。これらのツールはテキストから高品質な動画や画像を生成し、編集する能力を持ち、クリエイティブな分野におけるAIの進歩を象徴しています。 AI

テクノロジー界において、AIの進化は目覚ましいものがあります。
特に、メタ(Facebookの後継)が開発した「Emu Video」と「Emu Edit」は、この分野の最先端を行く技術として注目されています。

これらの技術は、テキストから動画や画像を生成し、編集する新しい可能性を提示しています。

「Emu Video」の革新的なアプローチ

Emu Video
Factorizing Text-to-Video Generation by Explicit Image Conditioning

「Emu Video」は、テキストから高品質な動画を生成するモデルです。
このモデルは2ステップのアプローチを採用しています。

まず、テキストから画像を生成し、次にその画像とテキストの両方を条件として動画を生成します。
このアプローチにより、画像-テキストの大規模データセットを活用し、視覚的な質と多様性を保持することが可能です。

Emu Videoは、低解像度と低フレームレートからスタートする多段階トレーニングと、
512pxの動画を直接生成するためのゼロターミナルSNRノイズスケジュールを使用しています。

「Emu Edit」の進化

Emu Edit
Precise Image Editing via Recognition and Generation Tasks

Emu Editもまた、メタが開発した画像編集モデルです。
自由形式のテキスト命令に従って、画像を正確に編集できます。

このモデルは、領域ベースの編集、自由形式の編集、コンピュータビジョンのタスクなど、16の異なるタスクでトレーニングされています。
Emu Editは、命令から正しい編集タイプを特定するために、学習したタスク埋め込みを使用しています。

命令ベースの画像編集のベンチマークで最先端の結果を達成し、新しいタスクにもごく少数のデータで適応可能です。

タイトルとURLをコピーしました