共同開(kāi)發(fā)文本到圖像AI模型Stable Diffusion的研究實(shí)驗(yàn)室Runway ML推出了一種新的視頻到視頻模型:Gen-1,它可以從現(xiàn)有視頻生成新視頻。
Gen-1是一種內(nèi)容引導(dǎo)的視頻傳播模型。它根據(jù)基于所需輸出的視覺(jué)或文本描述來(lái)編輯視頻。
例如,用戶可以上傳白色皮毛狗的視頻,輸入文本提示“白色皮毛上有黑色斑點(diǎn)的狗”,模型將生成具有所需輸出的現(xiàn)有視頻的新版本。
Runway聲稱其新模式類似于“拍攝新事物,但根本不拍攝任何東西。沒(méi)有燈。沒(méi)有相機(jī)。所有的行動(dòng)。”
Runway宣稱其最新的生成模型能夠生成視頻,同時(shí)保留原始視頻的質(zhì)量和靈活性。
根據(jù)Runway的說(shuō)法,Gen-1“能夠真實(shí)、一致地將圖像或文本提示的構(gòu)圖和風(fēng)格應(yīng)用到目標(biāo)視頻中。”
視頻到視頻的方法是通過(guò)在圖像和視頻上聯(lián)合訓(xùn)練模型來(lái)實(shí)現(xiàn)的。此類訓(xùn)練數(shù)據(jù)使Gen-1能夠在推理時(shí)完全進(jìn)行編輯,而無(wú)需額外的每個(gè)視頻訓(xùn)練或預(yù)處理,因?yàn)樗褂檬纠龍D像作為指導(dǎo)。
根據(jù)Runway的說(shuō)法,Gen-1可以部署的用例包括定制、渲染和遮罩
目前,只有少數(shù)受邀用戶獲得了Gen-1的訪問(wèn)權(quán)限,盡管Runway將在幾周內(nèi)公開(kāi)發(fā)布該模型。想要訪問(wèn)Gen-1的用戶必須加入候補(bǔ)名單。
“Runway Research致力于構(gòu)建多模態(tài)AI系統(tǒng),以實(shí)現(xiàn)新形式的創(chuàng)造力。Gen-1代表了我們?cè)谶@一使命中向前邁出的又一關(guān)鍵步驟,”Stable Diffusion制造商爭(zhēng)辯道。
可通過(guò)arXiv獲得全面概述該模型的論文。
用于視頻的生成AI并不是什么新鮮事。去年9月,當(dāng)全世界開(kāi)始對(duì)文本到圖像的AI模型著迷時(shí),Meta的研究人員推出了Make-A-Video,這是一種能夠根據(jù)文本提示生成視頻的AI系統(tǒng)。Make-A-Video還可以從圖像創(chuàng)建視頻,或使用現(xiàn)有視頻創(chuàng)建類似的新視頻。