亚洲婷婷免费_区一区二区三区中文字幕_欧美做受高潮电影o_日韩av电影免费在线_国产精品麻豆入口_无码国产精品96久久久久_99热在线免费_成人性生交大片免费看午夜_成人高清av_欧美三级免费

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

前沿科技 3年前 (2022) 虛像
6 0 0

僅靠 19 億參數(shù),只用公共數(shù)據(jù)集,在 12 個任務(wù)上狂刷 SOTA。

微軟這篇多模態(tài)論文剛掛上 arXiv 不久,就在業(yè)內(nèi)引發(fā)強烈關(guān)注。

有網(wǎng)友將之總結(jié)成" 在所有事情上打敗了所有人 "

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

怎么回事?先來看這張雷達(dá)圖:

橙色內(nèi)圈,是各大任務(wù)之前的 SOTA。

紫色外圈,就是這篇 BEiT-3 的結(jié)果,不僅超越,而且是全面超越。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

具體一圈看下來,BEiT-3 這個多模態(tài)模型不光刷遍多模態(tài)任務(wù),連右上角的純視覺三大經(jīng)典任務(wù)也都刷到 SOTA,簡直是六邊形戰(zhàn)士

知乎上一位同樣做多模態(tài)研究的選手直呼" 殺死了比賽 "

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

其實說起來,微軟 BEiT 這個系列最開始做的是視覺自監(jiān)督學(xué)習(xí)。

其核心思想與何愷明的 MAE一致,甚至比 MAE 提出的還早一段時間,不過當(dāng)時性能惜敗于 MAE。

如今在多模態(tài)方向上繞了一圈后,沒想到能以方式橫掃視覺與多模態(tài)榜單。

取得這種成果的,一般來說還不得是上百億上千億參數(shù)的大大大模型?

但 BEiT-3 總參數(shù)不過19 億,甚至訓(xùn)練數(shù)據(jù)上也沒什么秘密武器,全都用的公開資源。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

那么,這一切是如何做到的?

把圖像當(dāng)成一種外語

最關(guān)鍵的一點,論文標(biāo)題和摘要就已經(jīng)指明:

把圖像當(dāng)成一種外語。

這樣一來,文本數(shù)據(jù)是English,圖像數(shù)據(jù)作者開了個小玩笑命名為Imglish,那么圖文對數(shù)據(jù)就相當(dāng)于平行語料。

那么多模態(tài)也好純視覺也罷,都能用同一個預(yù)訓(xùn)練任務(wù)來處理。

在這個基礎(chǔ)上,論文中把所做突破總結(jié)成一個詞,大一統(tǒng)(Big Convergence)。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

首先,大一統(tǒng)表現(xiàn)在網(wǎng)絡(luò)架構(gòu)上。

通過統(tǒng)一多模態(tài)表示方式,對于不同任務(wù)可以共享一部分參數(shù),采用 Multiway(多路)Transformer 架構(gòu)作為骨干網(wǎng)絡(luò)。

具體來說就是共享多頭自注意力層,輸出時再根據(jù)具體任務(wù)選擇專用的 FFN 層。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

第二,大一統(tǒng)又表現(xiàn)在預(yù)訓(xùn)練方法上。

既然所有數(shù)據(jù)都能當(dāng)成文本數(shù)據(jù),那就可以全都按照 BERT 的方法,用掩碼 - 預(yù)測來做預(yù)訓(xùn)練,稱為 Masked Data Modeling。

與基于對比學(xué)習(xí)的訓(xùn)練方法相比,新方法可以選用更小的 Batch Size,又能額外降低顯存消耗。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

第三,大一統(tǒng)還表現(xiàn)在規(guī)模效應(yīng)上。

統(tǒng)一的預(yù)訓(xùn)練任務(wù)讓模型參數(shù)擴大到 10 億數(shù)量級后,對下游任務(wù)的泛化能力增強。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

另外不同模態(tài)的數(shù)據(jù)集在此方法下也產(chǎn)生規(guī)模效應(yīng)。

團隊特意只用公開數(shù)據(jù)的條件下增加訓(xùn)練數(shù)據(jù)集規(guī)模,結(jié)果超越了一些使用高質(zhì)量私有數(shù)據(jù)的模型。

BEiT-v 的訓(xùn)練數(shù)據(jù)來自 5 個公開數(shù)據(jù)集中的約500 萬張圖像和 2100 萬圖像 - 文本對;單模態(tài)數(shù)據(jù)則使用來自 ImageNet-21K 的1400 萬張圖像和 160GB 的文本語料庫

除此之外,在規(guī)模上也遠(yuǎn)小于其它的多模態(tài)預(yù)訓(xùn)練模型,例如 ALIGN(18 億圖文對)、CLIP(4 億圖文對)、SimVLM(18 億圖文對,800GB 文本)等。

所有這些優(yōu)勢疊加在一起,BEiT-3 就以更少的訓(xùn)練數(shù)據(jù)、更小的模型參數(shù)取得更好的性能。

在純視覺任務(wù)(圖像分類、目標(biāo)檢測、語義分割)以及多模態(tài)任務(wù)(視覺推理、視覺問答、圖像描述、微調(diào)的跨模態(tài)檢索、零樣本跨模態(tài)檢索)總共 8 類任務(wù)下超越各自之前的 SOTA。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

BEiT-3 這篇論文很簡短,不算參考文獻(xiàn)只有 9 頁。

但熟悉微軟 BEiT 系列歷史的話就會知道,這項研究取得成功的意義不僅在于其自身,也不僅是多模態(tài)學(xué)習(xí)的一項突破——

還給視覺大規(guī)模預(yù)訓(xùn)練這個興起不久的領(lǐng)域,帶來新的可能性。

BEiT 與 MAE,視覺自監(jiān)督的路線之爭

關(guān)于微軟的 BEiT 系列,全稱為Bidirectional Encoder representation from Image Transformers,比大家熟悉的語言模型BERT多了個 "Image"。

其主要思想就是借鑒 BERT,把掩碼建模方法用到視覺任務(wù)上,做視覺的自監(jiān)督學(xué)習(xí),解決高質(zhì)量標(biāo)注數(shù)據(jù)難以獲得的難題。

初代 BEiT 論文于去年 6 月發(fā)表,比同類工作何愷明的 MAE 還要早一些,也是 MAE 論文中的主要比較對象之一。

初代 BEiT,惜敗 MAE

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

兩項研究都是用 " 先掩碼再預(yù)測 " 來做預(yù)訓(xùn)練任務(wù),最大的區(qū)別在于 BEiT 會把視覺 token 離散化、最后模型預(yù)測的是token,而 MAE 則是直接預(yù)測原始像素。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

初代 BEiT 的架構(gòu)

在三大視覺任務(wù)上,MAE 比當(dāng)時的 BEiT 略勝一籌。并且因方法更簡單直接,MAE 運行起來也要快上不少(3.5 倍)。

為了證明在 MAE 中 token 化這一步并無必要,何愷明團隊在論文中還特意做了消融試驗。

結(jié)果表明,兩種方法統(tǒng)計上并無顯著差異,對于 MAE 來說預(yù)測原始像素就足夠了。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

不過 BEiT 團隊并沒有放棄離散化 token 這個方法,而是沿著這個思路繼續(xù)探索下去。

VL-BEiT,初探多模態(tài)

一年之后,團隊發(fā)表了多模態(tài)模型 VL-BEiT,可以算作是現(xiàn)在這篇 BEiT-3 的雛形。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

VL-BEiT 已經(jīng)用上了共享 Attenion 層、再對不同任務(wù)連接不同 FFN 層的架構(gòu)。

這一思想其實來自同一團隊更早之前一篇論文VLMo,對每個模態(tài)設(shè)置一個專家層的方法稱為 MoME(Mixture-of-Modality-Experts)。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

不過,VL-BEiT 在預(yù)訓(xùn)練任務(wù)上還比較復(fù)雜,會對文本數(shù)據(jù)和圖像數(shù)據(jù)分別做掩碼建模,至于多模態(tài)圖文對數(shù)據(jù)也是分開處理的。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

最后結(jié)果,VL-BEiT 在多模態(tài)任務(wù)和純視覺任務(wù)上表現(xiàn)都不錯,但還不像現(xiàn)在的 BEiT-3 這樣大殺四方。

不過別急,突破口很快就被找到。

BEiT v2,把 token 提升到語義級

BEiT-3 發(fā)表僅一周之前,微軟與國科大團隊合作發(fā)表了一篇 BEiT v2。

兩者命名方式有細(xì)微差別,因為 BEiT v2 確實代表是 BEiT 的升級版。

而 BEiT-3 的 3 論文中雖未明說,但說的大概不是 " 第三代 ",而是另有所指(稍后揭秘)。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

說回到 BEiT v2,這篇論文重新專注于純視覺,在初代 BEiT 基礎(chǔ)上提出了新的語義級 tokenizer。

具體來說,BEiT v2 引入了矢量量化(Vector-Quantized)和知識蒸餾(Knowledge Distillation)來訓(xùn)練 tokenizer。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

同樣是做離散化 token,新方法能重建知識蒸餾中教師模型的語義特征,大大提高 token 中攜帶的語義信息,從而提高模型性能。

接下來,教師模型用誰就很關(guān)鍵了。

在對比了 FAIR 的DINO模型和 OpenAI 的CLIP模型之后,團隊發(fā)現(xiàn)還是 CLIP 更香。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

最終結(jié)果上,BEiTv2 性能反超 MAE 和這段時間出現(xiàn)的其他方法,重回 SOTA。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

BEiT-3,集大成者

了解了整個 BEiT 系列的發(fā)展歷程,最后再來看一下 BEiT-3。

論文共同一作董力,點出了模型命名中"3"的含義:

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

多模態(tài)統(tǒng)一的預(yù)訓(xùn)練方式 + 共享 Attention 的多路 Transformer+ 擴大規(guī)模的大一統(tǒng)(Big Convergence)。

如此一來,BEiT-3 能在多模態(tài)任務(wù)和視覺任務(wù)中都取得 SOTA 也就不奇怪了。

這樣一篇論文,自然吸引了行業(yè)內(nèi)很多目光。

魯汶大學(xué)一位教授認(rèn)為,這代表微軟在 AI 科研方面趕上谷歌 /DeepMind、Meta 和 OpenAI," 重新坐上了牌桌 "。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

隨著討論熱度升級,對論文更嚴(yán)格的審視目光也多了起來。

谷歌一位研究員指出,論文結(jié)果看起來簡潔又令人印象深刻,就是這雷達(dá)圖的坐標(biāo)取值有點不太嚴(yán)謹(jǐn)。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

知乎上也有網(wǎng)友提問,如果用了 CLIP 作為教師模型的話,那么來自 CLIP 高質(zhì)量配對數(shù)據(jù)的貢獻(xiàn)有多少,直接改改 CLIP 就用又會如何?

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

作者團隊

最后再來介紹一下作者團隊,BEiT-3 相關(guān)研究論文的作者都來自微軟。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了

三位共同一作分別是 Wenhui Wang,Hangbo Bao(鮑航波)和 Li Dong(董力)。

其中,鮑航波和董力都是從初代 BEiT 就參與了研究,一直貫穿 VL-BEiT 和 BEiT v2 的發(fā)展,鮑航波更是 BEiT 和 VL-BEiT 論文的一作。另一位 Wenhui Wang 之前也曾參與過 VL-BEiT 的研究。

通訊作者是微軟亞洲研究院 NLP 小組的 Partner 研究經(jīng)理 Furu Wei(韋福如)。

“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了
以上內(nèi)容由"量子位"上傳發(fā)布
一起剪

一起剪

ZAKER旗下免費視頻剪輯工具

智慧云

智慧云

ZAKER旗下新媒體協(xié)同創(chuàng)作平臺

相關(guān)標(biāo)簽
微軟外語谷歌

相關(guān)閱讀

高溫限電下的川渝電動車主:充電樁成新型社交貨幣

想判傳統(tǒng)車企死刑?可人家要翻盤了

售價突破百萬元大關(guān),三星發(fā)布110英寸Micro LED電視

這里是…玩情懷車,都懂的武林秘笈

庫克稱蘋果目標(biāo)是產(chǎn)品不用地球任何資源 用“廢品”造手機

2021-2022年度消費服務(wù)投資競爭力研究報告

新時代折疊屏不在乎折痕

雙節(jié)并過的文案話題營銷,教你如何給老師反向畫月餅!

我不是機器人,但你們呢?

210W!小米新機入網(wǎng):刷新快充紀(jì)錄

賈躍亭樂極生悲?新融資剛到手,員工又請愿罷免執(zhí)行董事

產(chǎn)品經(jīng)理如何有效處理需求變更

OPPO Enco R無線耳機新配色來了 風(fēng)信紫喜歡嗎?

《最后生還者 第一部》輔助功能宣傳片公開

最新評論

沒有更多評論了

原文地址:http://www.myzaker.com/article/630a38ab8e9f09231f39141d

相關(guān)文章

欧美日本视频在线| 午夜日韩在线观看| 稀缺小u女呦精品呦| 欧美丝袜美腿| 蜜桃视频成人| 亚洲综合影视| 久久久久久18| 97在线资源在| 欧美一区二区三区在线| 欧美在线精品一区二区三区| 国产精品的网站| 青青草在线观看视频| 男女男精品视频| 欧美又黄又嫩大片a级| 国产欧美日韩精品一区二区免费 | 欧美一区2区视频在线观看| 高清乱码毛片入口| 亚洲少妇屁股交4| 在线观看 中文字幕| 丰满放荡岳乱妇91ww| 亚洲AV无码国产成人久久| 亚洲狠狠婷婷| 久久黄色片网站| 成人在线电影在线观看视频| 妞干网视频在线观看| 秋霞影院一区| 亚洲电影一二三区| 成人不卡视频| 精品在线一区| 日韩伦理在线一区| 91精品综合久久| av毛片在线免费| 国产精品扒开腿做| 成人亚洲综合天堂| 97超级碰碰人国产在线观看| 中午字幕在线观看| 欧美精品免费看| 3dmax动漫人物在线看| 日韩中文字幕在线播放| sm一区二区三区| 曰本色欧美视频在线| 日日操天天摸| 亚洲欧美一区二区三区在线| 九九热在线视频观看| 亚洲精品91美女久久久久久久| 国产精品18久久久久网站| 制服.丝袜.亚洲.中文.综合| 中文字幕亚洲乱码| 中文字幕av在线| 操91在线视频| 亚洲精华国产| 久久影院中文字幕| 樱桃视频免费看| 欧美精品情趣视频| 少妇激情av一区二区| 欧美福利小视频| 中文字幕亚洲精品视频| 欧美激情欧美激情在线五月| 亚洲欧洲成人| 色综合天天狠天天透天天伊人| 美女网站在线观看| 欧美极品少妇xxxxⅹ裸体艺术| 黄动漫在线观看| 欧美精品久久久久a| 嫩草在线播放| 欧亚精品在线观看| 香蕉视频网站在线观看| 国产精品嫩草影院久久久| 男人天堂手机在线| 成人免费视频在线观看超级碰| 毛片在线导航| 国产精品视频免费观看| 88xx成人免费观看视频库 | 丁香六月婷婷综合| 中文字幕二三区不卡| 中文字幕av资源| 亚洲精品成人少妇| www.热久久| 色94色欧美sute亚洲13| 日韩综合另类| 精品国产一区二区三区不卡| 美女被c网站| 国产一区二区三区视频在线观看 | 亚洲欧美国产一区二区三区| 国产黄色免费电影| 国内外成人免费激情在线视频 | 午夜精品在线视频| 欧美尤物美女在线| 亚洲一区二区少妇| 素人一区二区三区| 欧美亚洲视频一区| 久久爱www成人| 亚洲xxx在线观看| 久久久蜜桃一区二区人| 婷婷国产成人精品视频| 26uuu精品一区二区| 中文字幕久久网| 欧美午夜女人视频在线| 欧美**室bdsm视频| 日韩精品在线视频美女| 能在线观看av网站| 日本精品一区二区三区在线| 丰满大乳少妇在线观看网站| 日韩精品欧美专区| 亚洲人成亚洲精品| 中文字幕第三区| 捆绑紧缚一区二区三区视频| 国产亚洲精品成人| 亚洲精品免费电影| 一区二区免费播放| 日韩av影视综合网| 伊人永久在线| 91久久久精品| 日韩五码电影| 成年人免费在线播放| 亚洲精品欧洲| 国产免费美女视频| 国产精品不卡视频| 一区二区三区激情| 亚洲精品国产欧美| 中文字幕在线免费播放| 成人欧美一区二区三区黑人| 欧美另类激情| 免费在线观看毛片网站| 欧美一级视频| 久久婷婷国产麻豆91| 亚洲最大的成人av| www黄色在线| av日韩一区| 欧美两根一起进3p做受视频| 国产日韩一区二区三区在线| 天天看片中文字幕| 亚洲精品国产高清久久伦理二区| 深田えいみ中文字幕99久久| 亚洲小视频在线| 成人在线免费看| 免费久久99精品国产自| 一道在线中文一区二区三区| 日本美女视频网站| 99热99精品| 国产乱码精品一区二区| 欧美一区二区三区系列电影| 亚洲美女在线免费观看| 91免费国产网站| 成人中文字幕视频| 久久久久亚洲av无码专区首jn| 成人午夜视频在线观看| av中文在线观看| 亚洲成人激情在线| 久久精品色图| 欧美精品一区二区三区在线四季 | 久久综合999| 色婷婷综合视频| 亚洲美女视频网| 91在线视频| 天堂av一区二区| 你懂的成人av| 久久久精品人妻一区二区三区四| 午夜精品久久久久久久蜜桃app| 免费毛片a线观看| 欧美中文在线字幕| 国语自产精品视频在线看抢先版结局| 日韩av黄色网址| 精品一区二区日韩| av综合在线观看| 日韩精品免费在线观看| av中文字幕在线| 国产精品jizz在线观看老狼| 一区二区三区成人精品| 日本道在线观看| 制服丝袜亚洲色图| 免费人成黄页在线观看忧物| 日本一区高清不卡| 欧美日韩一区二区国产| 国产性猛交普通话对白| 欧美色综合天天久久综合精品| 天堂资源av| 精品国产一区二区三区四区精华| 欧美hd在线| 免费一级a毛片夜夜看 | 日韩网站在线| 日韩精品一区二区亚洲av| 91.麻豆视频| 头脑特工队2免费完整版在线观看| 久久国产精品亚洲va麻豆| 99热国内精品永久免费观看| 欧美另类视频在线观看| 欧美亚洲一区二区在线| 写真福利理论片在线播放| 欧美精品一区二区视频| 欧美全黄视频| 国产手机在线视频| 日韩一区二区三区免费观看| 国产最新视频在线观看| 自拍偷拍亚洲色图欧美| 久久男女视频| 国内精品久久久久久久久久久| 一区二区成人av| 亚洲精品国产精品国产| 狠狠操狠狠干视频|