LaplaceAI
- 2023年11月20日
- 已讀 2 分鐘

Meta 發表 AI 影片編輯與生成模型：Emu Edit、Emu Video

Meta在影像生成基礎模型Emu的研究基礎上，進一步推出了一款僅需文字指令便能準確編輯圖像的Emu Edit模型。此外，團隊透過拆解文字轉影片（Text-to-Video，T2V）的生成過程，開發出名為Emu Video的方法，此方法能顯著提升影片的品質和多樣性。

Emu Edit是一種創新的影像編輯技術，旨在簡化各類影像操作任務，提供更便利的功能和更高的精準度。它能夠根據用戶指令進行多種編輯操作，包括局部和全域的編輯、移除和添加背景，甚至調整顏色和進行幾何變換，並且在偵測和分割任務上表現出色。

Emu Edit將電腦視覺任務整合至影像生成模型之中，從而在影像生成和編輯過程中提供更精準的控制。研究人員指出，現有的圖像編輯模型常常過度或不足地修改圖像，而Emu Edit則能夠依照指令精確執行編輯任務。

為了訓練Emu Edit，Meta使用了一個包含1,000萬個合成樣本的數據集，這是目前同類型中規模最大的資料集。每個樣本包括輸入圖像、任務描述和目標輸出圖像。這一龐大的資料集為圖像編輯提供了更高的能力，使模型能夠精準執行指令，產生優於目前所有研究的結果。

Emu Video則採用了一種簡單且高效的文字轉影片生成方法。該方法基於擴散模型，以Emu為實作基礎。開發團隊說明，這種影片生成架構能夠應對多種輸入，包括文字、圖像，或是它們的組合。

Emu Video將影片生成過程分為兩個階段：首先根據文字提示生成圖像，然後基於文字和生成圖像製作影片。這種分階段的影片生成方法，使研究人員能夠有效訓練生成模型。與需要一系列深層模型的過往研究（如Make-A-Video）不同，Emu Video更為簡潔，僅使用兩個擴散模型即可生成解析度為512x512、每秒16幀、長度為4秒的影片。

根據人類評估，Emu Video的成果更受偏好，無論是在影片品質或是文字提示的忠實度方面，均優於先前研究。在品質上，有高達96％的受訪者偏好Emu Video而非Make-A-Video方法；而在文字提示的忠實度方面，Emu Video則獲得了85％受訪者的青睞。

此外，Emu Video的功能還包括接受文字提示，將用戶提供的圖像轉化為動畫，這一特點使其在技術能力上超越了先前的模型。Emu Video的這一突破性功能，不僅提升了用戶互動體驗，也為動畫製作開啟了新的可能性。透過簡單的文字指令，用戶可以將靜態圖像轉變為生動的動畫，這種轉換不僅忠實於原始圖像，還能根據用戶的具體要求進行細膩調整，展現出前所未有的創意和靈活性。這一進步在圖像和影片生成領域中，標誌著一個重要的技術突破，預示著未來數位內容創作的無限可能。

Meta 發表 AI 影片編輯與生成模型：Emu Edit、Emu Video

資料來源

最新文章

Comments