編 | 白鴿
智東西3月2日消息,據(jù)Tech Crunch報道,今日,谷歌為You Tube添加了一項新的AI功能。即通過構建的卷積神經(jīng)網(wǎng)絡,讓用戶拍攝視頻時可自動更換視頻背景(摳圖)。
據(jù)悉,摳圖是一門應用了幾十年的特效技術,不過做起來很費時間,也很復雜。如在拍電影時,導演會讓演員在綠幕前表演,之后使用計算機的數(shù)字特效更換綠屏。此前,因計算機在一秒內至少需要計算30次,所以在移動設備上想要更換普通的RGB圖像,也不是很容易。如此可見想要更換視頻背景的難度。
谷歌工程師們則認為這是一個挑戰(zhàn),并為此建立了一個卷積神經(jīng)網(wǎng)絡結構,使其通過數(shù)千張被標記的圖片進行訓練。
通過訓練,該神經(jīng)網(wǎng)絡可以分辨臉部特征,如眼睛、頭發(fā)、眼鏡、嘴等部位的特點,并將這些特征與其它東西區(qū)分開來。為了做到這一點,谷歌工程師對其進行了一系列的優(yōu)化,從而降低了需要壓縮的數(shù)據(jù)量。此外,它還將先前的計算結果作為下一步的計算基礎,盡管它看起來有點作弊,但卻可以進一步降低移動設備的負荷。
在研發(fā)該功能中,其具體的任務是制作一個二進制蒙版,以計算從前景到背景進行分離的每一幀視頻所用的時間。其中,實現(xiàn)計算跨幀蒙版的時間的一致性是關鍵點。目前的方法是利用LSTM或 GRU進行計算,但對于移動設備來說,這樣操作是非常昂貴的。而谷歌研究人員則通過將之前計算掩碼作為之后計算掩碼的基礎進行計算,從而保持時間上的一致性,如下圖所示:
(原始幀(左)在其三個顏色通道中分開,并與之前的蒙版連接,并被用作神經(jīng)網(wǎng)絡的輸入來預測當前幀的蒙版(右))
而在視頻分割過程中,還要實現(xiàn)幀到幀的時間連續(xù)性,同時也要考慮到諸如在拍攝視頻過程中突然出現(xiàn)其他人物,以至于造成時間上不連續(xù)等問題。為訓練其模型適應這些問題,谷歌研究人員通過以下幾點對其進行優(yōu)化:
1、清空之前的蒙版,訓練神經(jīng)網(wǎng)絡在第一幀和第一個場景人物之間正常工作,并且模擬出了某人出現(xiàn)在相機中的場景。
2、將其轉換為真正的背景蒙版,通過轉換訓練,可使神經(jīng)網(wǎng)絡將其調整到前一幀蒙版之前。
3、轉換圖像。該功能實現(xiàn)了在相機中進行平滑流暢且快速的圖像轉化。
這樣做的結果就是其神經(jīng)網(wǎng)絡在移動設備上運行的速度非???,如在iPhone 7上實現(xiàn)了運行速度100+ FBS,在Pixel 2上實現(xiàn)了40+ FBS,并且其更換背景的準確性非常高。
刪除或替換背景工具對用戶來說很具有吸引力,所以該功能的推出對于很多人來說都是一個好消息。想要體驗該功能嗎?遺憾的是,它目前只能讓 YouTube Stories用戶使用該功能。
原文來自:Tech Crunch、Google Blog
- QQ:61149512