近(jin)期,抖音集團(tuan)旗下圖片視(shi)頻工具即夢AI在(zai)官方(fang)社交媒體上(shang)發(fa)布了一條新功能上(shang)線預告片。
視頻(pin)(pin)顯(xian)示,新功(gong)能采(cai)用了全新的(de)多模態視頻(pin)(pin)生成模型OmniHuman,讓(rang)用戶僅需輸入一張圖片和一段(duan)音頻(pin)(pin),就可(ke)以生成一條(tiao)生動(dong)的(de)AI視頻(pin)(pin),有(you)望大幅提升AI短片的(de)制作效(xiao)率和質量。
OmniHuman技術主頁信息顯示,該模(mo)型為字節跳動自研的閉源模(mo)型,可支持肖像、半身(shen)以(yi)及全身(shen)等(deng)不(bu)同尺(chi)寸的圖片輸入(ru),并根據輸入(ru)的音頻(pin),在(zai)視頻(pin)中讓(rang)人物生成(cheng)與之(zhi)匹配的動作,包括(kuo)演講、唱歌、樂器演奏以(yi)及移動。
對(dui)于人物視頻生成(cheng)中常見的手勢(shi)崩壞,也相比(bi)現有(you)方法取(qu)得(de)了顯(xian)著的改善。
此(ci)外,對動(dong)漫、3D卡通等非真人圖(tu)片輸入的(de)支持(chi)效(xiao)果也較(jiao)為出色(se),生成的(de)視(shi)頻能保持(chi)特(te)定(ding)風格(ge)和原(yuan)有的(de)運動(dong)模式。
根(gen)據技術(shu)主(zhu)頁(ye)展示的(de)演示效(xiao)(xiao)果來看,OmniHuman的(de)生成效(xiao)(xiao)果已經(jing)具(ju)有(you)較(jiao)高的(de)自然(ran)度。為防止該項技術(shu)被不當利用,字(zi)節(jie)跳(tiao)動技術(shu)團隊在主(zhu)頁(ye)中特(te)別標注稱,OmniHuman將不會對外(wai)提供下載(zai)。
即夢AI相(xiang)關(guan)負責人(ren)透露,該模(mo)型目前已具備較好的表現,但在(zai)(zai)生成(cheng)影視(shi)真實級別(bie)的視(shi)頻上仍存在(zai)(zai)一定(ding)的提升空間。
由其(qi)支持的(de)多(duo)模態視頻生成功能(neng)會在即夢上以小范(fan)圍(wei)內(nei)測(ce)的(de)形式進行調優調整,并逐步開(kai)放。
該負責(ze)人同時表(biao)示,即(ji)夢還會對(dui)這(zhe)一功能設置嚴格的安全審核(he)機制,并且對(dui)輸出的視頻(pin)標(biao)注水印以作提醒,從(cong)而(er)確保AI發揮正面(mian)、積極的作用,助力(li)視頻(pin)創作者更好(hao)地實現(xian)想(xiang)象力(li)的表(biao)達。
稿源: 快科技


