機(jī)器之心報(bào)道
編輯:小舟、陳萍
一位 twitter 博主借助 DALL · E 模型,成功給視頻中的人物虛擬換裝。
DALL · E 是 OpenAI 推出的文本轉(zhuǎn)圖像模型,生成效果奇幻且逼真。升級(jí)為 DALL · E 2 后,生成圖像具有更高的分辨率和更低的延遲。值得注意的是,DALL · E 2 還添加了一個(gè)圖像編輯功能,可以修改圖像的部分區(qū)域,例如在下圖中 3 的位置加一只柯基犬:

現(xiàn)在,twitter 用戶 Karen X. Cheng 把 DALL · E 2 的這個(gè)編輯功能用在了視頻換裝上,我們看到視頻中的女生在往前走的過程中換了多套衣服,并且絲滑切換,無縫銜接。

要了解這個(gè)視頻用到的方法,我們首先要了解一下 DALL · E 生成「數(shù)字化」服裝的能力。日前,一位名為 Paul Trillo 的 twitter 用戶此前展示了他與藝術(shù)家 Shyama Golden 合作完成的上百套設(shè)計(jì)服裝。

相比于大多數(shù)用 AI 進(jìn)行服裝設(shè)計(jì)的研究,DALL · E 2 的優(yōu)點(diǎn)就是讓設(shè)計(jì)者可以使用文本描述來擴(kuò)展設(shè)計(jì)空間,其文本到圖像的強(qiáng)大生成能力可以完成很多新奇的設(shè)計(jì)思路。
而 Karen X. Cheng 發(fā)布的換裝視頻不僅生成了多套服裝,還能在人行走運(yùn)動(dòng)的過程中絲滑切換,我們來具體看一下她是怎么做的。
DALL · E + 開源工具
視頻作者 Karen X. Cheng 首先涂抹掉現(xiàn)有服裝的一部分,然后在上面涂上顏色。這一步她也考慮過涂抹掉整個(gè)衣服,但生成結(jié)果看起來沒有那么好,因此選擇保留衣服原有的一小部分,這樣一來,DALL · E 能夠更好地匹配顏色和照明。
如下動(dòng)圖所示,衣服上身被涂抹掉,最后生成了三種不同類型的上衣。

然后一個(gè)關(guān)鍵的難題是 DALL · E 在生成圖像方面表現(xiàn)卓越,但在視頻上就不太行了,要讓 DALL · E 生成的圖像實(shí)現(xiàn)幀與幀之間的一致性是很困難的。這里 Karen X. Cheng 列舉了一些早期試驗(yàn)的失敗案例,下面動(dòng)圖在換裝時(shí),很明顯能看到不同衣服之間存在交叉部分:

可能有人會(huì)問,讓 DALL · E 在每一幀中生成不同的衣服,衣服存在交叉部分問題就可以解決了。但作者想要的效果是同一套衣服堅(jiān)持幾幀,以實(shí)現(xiàn)較好的展示效果,但這是 DALL · E 目前做不到的。
經(jīng)過一番實(shí)驗(yàn),作者發(fā)現(xiàn)了一個(gè)可用的工具 EbSynth,該工具主要是將視頻素材轉(zhuǎn)換為各種風(fēng)格的動(dòng)畫。簡單來說,就是從一段視頻中選出幾張圖,然后根據(jù)自己的喜好,換成你想要的風(fēng)格,整個(gè)視頻就能全部變成你期望的畫風(fēng)了。效果如下所示:

EbSynth 擅長風(fēng)格轉(zhuǎn)換,如果把 DALL · E 生成靜態(tài)圖和 EbSynth 轉(zhuǎn)換視頻風(fēng)格的功能結(jié)合起來,就能夠形成視頻中無縫換裝的效果:

最后作者還用到了 DAIN(視頻補(bǔ)幀)工具,該工具可以給一些動(dòng)作場(chǎng)面添加新的幀,讓整個(gè)視頻看起來更加流暢。作者用實(shí)驗(yàn)證明了這一點(diǎn)

這樣 Karen X. Cheng 就完成了整個(gè)換裝視頻。有網(wǎng)友表示希望作者開設(shè)一門課程,專門介紹這項(xiàng)研究,詳細(xì)解讀一下。

還有網(wǎng)友調(diào)侃道網(wǎng)絡(luò)紅人甚至不用再買新衣服了:

看來以后穿搭博主的視頻也可以用上 DALL · E 這樣的 AI 模型了。
原文地址:http://www.myzaker.com/article/630ef5748e9f094b4f41dab1
轉(zhuǎn)載請(qǐng)注明:不可思議!DALL·E實(shí)現(xiàn)虛擬視頻換裝,網(wǎng)友:買衣服的錢省了 | 快導(dǎo)航網(wǎng)







川公網(wǎng)安備51012402001058號(hào)