又大又粗又猛免费视频久久_国产理论在线播放_久久男人av资源网站免费软件_99国产精品无码

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

寫在前面

視覺語言預(yù)訓(xùn)練提高了許多下游視覺語言任務(wù)的性能,例如:圖文檢索、基于圖片的問答或推理。有朋友要問了,除了在公開的學(xué)術(shù)任務(wù)上使用更大的模型/更多的數(shù)據(jù)/技巧把指標(biāo)刷得很高,多模態(tài)預(yù)訓(xùn)練模型有什么實際應(yīng)用呢?

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

為此,字節(jié)跳動 AI Lab Research 團隊提出了X-VLM,首次提出學(xué)習(xí)多粒度的視覺和語言對齊。實驗證明,這種預(yù)訓(xùn)練方法十分高效,模型規(guī)模無需很大,預(yù)訓(xùn)練數(shù)據(jù)無需很多, 僅216M參數(shù)量的X-VLM就能在廣泛的多模態(tài)任務(wù)上獲得了十分優(yōu)秀的表現(xiàn),例如:圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成。目前,X-VLM 在字節(jié)跳動的真實應(yīng)用場景上超過了業(yè)界常用的多個模型,完成了上線,服務(wù)于如今日頭條等業(yè)務(wù)。相關(guān)論文已被ICML 2022接收。

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

論文:https://arxiv.org/abs/2111.08276
代碼:https://github.com/zengyan-97/X-VLM

比如,X-VLM 學(xué)到了多粒度的視覺和語言對齊,能為圖片生成更正確的描述物體和物體間關(guān)系的句子,這項能力被應(yīng)用到了字節(jié)跳動的公益項目上。有視覺障礙的趙先生常用今日頭條了解時事新聞,他一直有個期待:“希望和普通人一樣‘看’到全部資訊內(nèi)容。” 今日頭條上超過三分之二的資訊內(nèi)容帶有圖片,為了解決視障人士的讀圖難題,今日頭條App最近應(yīng)用了 X-VLM 的生成能力,可以自動識別圖片并為它們配上描述。

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

為了讓他們“看”見每張圖片,我們做了個小改進。

此外,X-VLM的理解和生成能力還被使用在大力智能學(xué)習(xí)燈的自動批改功能上。下圖展示了補全短語題型以及模型預(yù)測的結(jié)果:

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

搭配了自動解題功能的大力智能學(xué)習(xí)燈廣受家長好評,這項能力還在持續(xù)優(yōu)化中。

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

研究背景

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

現(xiàn)有的多模態(tài)預(yù)訓(xùn)練模型大致分為兩類:

1)依賴目標(biāo)檢測器提取基于物體(例如:車、人、樹、背包)的特征來表示圖片,這種方法可以學(xué)習(xí)到物體級別的視覺和語言對齊,如圖1中(a)所示。這些方法要么直接利用預(yù)先訓(xùn)練的目標(biāo)檢測器,要么將目標(biāo)檢測過程合并到多模態(tài)預(yù)訓(xùn)練中;

2)用 ResNet 或者 Vision Transformer 編碼整張圖片,只學(xué)習(xí)圖片和文本之間的對齊,如圖1(b)所示。

這兩種方法都存在一定的問題。首先,基于目標(biāo)檢測的方法會識別圖片中所有可能的物體,其中不乏一些與配對文本無關(guān)的。此外,這種方法所提取的基于物體的視覺特征可能會丟失物體之間的信息(可以認(rèn)為是一種上下文信息)。而且,這種方法只能識別有限種類的物體,我們很難預(yù)先定義合適的物體類別。而第二種方法則比較簡單直接,但是較難學(xué)習(xí)到細(xì)粒度的視覺和語言對齊,例如:物體級別的對齊。這種細(xì)粒度的對齊關(guān)系被之前的工作證實對于視覺推理 (visual reasoning) 和視覺定位 (visual grounding) 任務(wù)很有幫助。

實際上,對于多模態(tài)預(yù)訓(xùn)練,有以下公開數(shù)據(jù)以供模型使用:1)圖片和圖片標(biāo)題;2)區(qū)域標(biāo)注,例如:圖1中的文本 “man crossing the street” 關(guān)聯(lián)到了圖片中的某個具體區(qū)域。然而,之前的工作卻粗略地將區(qū)域標(biāo)注與整張圖片對齊;3)物體標(biāo)簽,例如 “backpack”,這些標(biāo)注被之前的工作用來訓(xùn)練目標(biāo)檢測器。

與之前的做法不同,本文中作者提出X-VLM,以統(tǒng)一的方式利用上述數(shù)據(jù)高效地學(xué)習(xí)多粒度的視覺和語言對齊,能夠避免高開銷的目標(biāo)檢測過程,也不局限于學(xué)習(xí)圖像級別或物體級別的對齊。具體來說,作者提出可以使用基于 Vision Transformer 的 patch embeddings 來靈活表示各種粒度大小的視覺概念,如圖1(c)所示:例如,視覺概念 “backpack” 由2個patch組成,而視覺概念 “man crossing the street” 由更多的patch組成。

因此,X-VLM學(xué)習(xí)多粒度視覺和語言對齊的秘訣在于:

1)使用 patch embeddings 來靈活表示各種粒度的視覺概念,然后直接拉齊不同粒度的視覺概念和對應(yīng)文本,這一過程使用常用的對比學(xué)習(xí)損失、匹配損失、和MLM損失優(yōu)化;

2)更進一步,在同一張圖片中,給出不同的文本,要求模型能預(yù)測出對應(yīng)粒度的視覺概念的坐標(biāo),以邊界框坐標(biāo)的回歸損失和交并比損失優(yōu)化。實驗證明,這種預(yù)訓(xùn)練方法十分高效,模型規(guī)模無需很大,預(yù)訓(xùn)練數(shù)據(jù)無需很多,X-VLM 就能在下游多種多模態(tài)理解/生成任務(wù)上獲得非常優(yōu)秀的表現(xiàn)。

方法

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

X-VLM 由一個圖像編碼器,一個文本編碼器,一個跨模態(tài)編碼器組成。

圖2左側(cè)給出了視覺概念 (可以是物體/區(qū)域/圖片)的編碼過程:該圖像編碼器基于Vision Transformer,將輸入圖片分成patch編碼。然后,給出任意一個邊界框,靈活地通過取框中所有patch表示的平均值獲得區(qū)域的全局表示。再將該全局表示和原本框中所有的patch表示按照原本順序整理成序列,作為該邊界框所對應(yīng)的視覺概念的表示。通過這樣的方式獲得圖片本身(I)和圖片中視覺概念(V1,V2,V3)的編碼。與視覺概念對應(yīng)的文本,則通過文本編碼器一一編碼獲得,例如圖片標(biāo)題、區(qū)域描述、或物體標(biāo)簽。

X-VLM采用常見的模型結(jié)構(gòu),其不同之處在于預(yù)訓(xùn)練的方法。作者通過以下兩類損失進行優(yōu)化:

第一,在同一張圖片中,給出不同的文本,例如:T(text)、T1(text1)、T2(text2)、T3(text3),要求模型預(yù)測圖片中對應(yīng)視覺概念的邊界框:

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

xjcls是跨模態(tài)編碼器在 [CLS] 位置的輸出向量。Sigmoid 函數(shù)是為了標(biāo)準(zhǔn)化預(yù)測的邊界框。Ground-truth bj對應(yīng)了 ,依次是標(biāo)準(zhǔn)化后的的中心橫坐標(biāo)、中心縱坐標(biāo)、寬、高。最后,該損失是邊界框坐標(biāo)的回歸損失(L1)和交并比損失(GIoU)之和。作者認(rèn)為在同一張圖片中,給不同文字,要求模型預(yù)測出對應(yīng)的視覺概念,能使模型更有效地學(xué)習(xí)到多粒度的視覺語言對齊。該損失也是首次被使用在多模態(tài)預(yù)訓(xùn)練中。

第二,使用patch embeddings來靈活表示各種粒度的視覺概念,然后直接優(yōu)化模型去拉齊不同粒度的文本和視覺概念,包括了物體/區(qū)域/圖片與文本的對齊。作者使用多模態(tài)預(yù)訓(xùn)練中常見的三個損失優(yōu)化,依次是:

1)對比學(xué)習(xí)損失:

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

yv2t,yt2v ∈ Rbsz x bsz是ground-truth相似度, 對角線為1,其余為0。

pv2t, pt2v ∈ Rbsz x bsz是模型基于文字編碼器輸出和圖像編碼器輸出所計算的相似度。

2)匹配損失:

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

pmatch是基于跨模態(tài)編碼器計算,預(yù)測所給 對是否匹配(換句話說,0/1分類)。對于每對正例,作者采樣一對負(fù)例。

3)Masked Language Modeling損失:

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

T(估計值)中的一些詞已經(jīng)被隨機替換成了 [MASK],pj(V, T(估計值))是跨模態(tài)編碼器在詞tj位置的輸出向量所計算的詞表概率分布。

實驗

作者使用多模態(tài)預(yù)訓(xùn)練中常見的中等規(guī)模的4M和16M圖片數(shù)據(jù)集進行實驗,如下表所示:

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

其中,標(biāo)注(# Ann)是區(qū)域標(biāo)注和物體標(biāo)簽的總和??梢钥闯?,有些數(shù)據(jù)集沒有圖片標(biāo)題,例如Visual Genome(VG),有些數(shù)據(jù)集沒有圖片標(biāo)注,例如CC-3M/12M。

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

表2展示了在圖像文本檢索任務(wù) (MSCOCO和Flickr30K) 上的表現(xiàn)。即使,之前的方法在更大量的內(nèi)部數(shù)據(jù)上預(yù)訓(xùn)練或者模型規(guī)模更大,在4M圖片數(shù)據(jù)集下訓(xùn)練的X-VLM就已經(jīng)可以超過之前的方法。

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

表3展示了在視覺推理 (VQA2.0和NLVR2)、視覺定位 (RefCOCO ) 、圖片描述生成 (COCO Caption) 上的模型表現(xiàn)。為了公平的對比,X-VLM 沿用了之前工作的 fine-tune 方法,沒有進行額外的調(diào)整。結(jié)合表2和表3,可以看出,相比之前的方法,X-VLM支持更多種類的下游任務(wù),并且在這些常見的視覺語言任務(wù)上都取得了十分優(yōu)秀的表現(xiàn)。

總結(jié)和討論

在本文中,作者提出了X-VLM以學(xué)習(xí)多粒度的視覺和語言對齊,能夠避免高開銷的目標(biāo)檢測過程,也不局限于學(xué)習(xí)圖像級別或物體級別的對齊。X-VLM 的秘訣在于:

1)基于 patch embeddings 靈活表示各種粒度的視覺概念,然后直接拉齊不同粒度的視覺概念和對應(yīng)文本;

2)更進一步,在同一張圖片中,給出不同的文本,要求模型能預(yù)測出對應(yīng)視覺概念的坐標(biāo)。實驗證實這種預(yù)訓(xùn)練方法十分高效。

在實驗部分,作者使用常用的4M和16M數(shù)據(jù),訓(xùn)練總參數(shù)量216M的 X-VLM ,就能超過更大規(guī)模的模型或使用大量預(yù)訓(xùn)練數(shù)據(jù)的模型,在下游多種多模態(tài)理解/生成任務(wù)上取得非常優(yōu)秀的表現(xiàn)。并且,字節(jié)跳動的工程師們也把 X-VLM 用在了真實的業(yè)務(wù)場景上,例如:為視障人群描述圖片內(nèi)容,小學(xué)生作業(yè)的自動批改。實際上,X-VLM 還十分擅長細(xì)粒度的 retrieval,visual grounding 等任務(wù)。

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
在線咨詢
分享本頁
返回頂部