Gen-1：從現(xiàn)有視頻生成新視頻的AI模型

沃卡惠
行業(yè)資訊
2023-02-13 09:09:16
105

共同開(kāi)發(fā)文本到圖像AI模型Stable Diffusion的研究實(shí)驗(yàn)室Runway ML推出了一種新的視頻到視頻模型：Gen-1，它可以從現(xiàn)有視頻生成新視頻。

Gen-1是一種內(nèi)容引導(dǎo)的視頻傳播模型。它根據(jù)基于所需輸出的視覺(jué)或文本描述來(lái)編輯視頻。

例如，用戶可以上傳白色皮毛狗的視頻，輸入文本提示“白色皮毛上有黑色斑點(diǎn)的狗”，模型將生成具有所需輸出的現(xiàn)有視頻的新版本。

Runway聲稱其新模式類似于“拍攝新事物，但根本不拍攝任何東西。沒(méi)有燈。沒(méi)有相機(jī)。所有的行動(dòng)。”

Runway宣稱其最新的生成模型能夠生成視頻，同時(shí)保留原始視頻的質(zhì)量和靈活性。

根據(jù)Runway的說(shuō)法，Gen-1“能夠真實(shí)、一致地將圖像或文本提示的構(gòu)圖和風(fēng)格應(yīng)用到目標(biāo)視頻中。”

視頻到視頻的方法是通過(guò)在圖像和視頻上聯(lián)合訓(xùn)練模型來(lái)實(shí)現(xiàn)的。此類訓(xùn)練數(shù)據(jù)使Gen-1能夠在推理時(shí)完全進(jìn)行編輯，而無(wú)需額外的每個(gè)視頻訓(xùn)練或預(yù)處理，因?yàn)樗褂檬纠龍D像作為指導(dǎo)。

根據(jù)Runway的說(shuō)法，Gen-1可以部署的用例包括定制、渲染和遮罩

目前，只有少數(shù)受邀用戶獲得了Gen-1的訪問(wèn)權(quán)限，盡管Runway將在幾周內(nèi)公開(kāi)發(fā)布該模型。想要訪問(wèn)Gen-1的用戶必須加入候補(bǔ)名單。

“Runway Research致力于構(gòu)建多模態(tài)AI系統(tǒng)，以實(shí)現(xiàn)新形式的創(chuàng)造力。Gen-1代表了我們?cè)谶@一使命中向前邁出的又一關(guān)鍵步驟，”Stable Diffusion制造商爭(zhēng)辯道。

可通過(guò)arXiv獲得全面概述該模型的論文。

用于視頻的生成AI并不是什么新鮮事。去年9月，當(dāng)全世界開(kāi)始對(duì)文本到圖像的AI模型著迷時(shí)，Meta的研究人員推出了Make-A-Video，這是一種能夠根據(jù)文本提示生成視頻的AI系統(tǒng)。Make-A-Video還可以從圖像創(chuàng)建視頻，或使用現(xiàn)有視頻創(chuàng)建類似的新視頻。

上一篇：量子在ChatGPT世界中的作用

下一篇：用于改進(jìn)對(duì)象跟蹤和距離測(cè)量的新型3D激光雷達(dá)系統(tǒng)