博客專欄

EEPW首頁 > 博客 > 復(fù)旦大學(xué):多模態(tài)知識(shí)圖譜最新綜述

復(fù)旦大學(xué):多模態(tài)知識(shí)圖譜最新綜述

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2022-05-15 來源:工程師 發(fā)布文章

以下文章來源于NewBeeNLP ,作者上杉翔二

本篇博文梳理一篇knowledge-based方向的文章,結(jié)合了多模態(tài)知識(shí)的多模態(tài)知識(shí)圖譜。來自復(fù)旦大學(xué),先上路徑:


圖片

  • Title:Multi-Modal Knowledge Graph Construction and Application: A Survey
  • Link:https://arxiv.org/abs/2202.05786v1

知識(shí)圖譜到多模態(tài)知識(shí)圖譜


首先知識(shí)圖譜是一個(gè)以實(shí)體、概念為節(jié)點(diǎn)、以概念之間的各種語義關(guān)系為邊的大規(guī)模語義網(wǎng)絡(luò)。這種帶有知識(shí)的結(jié)構(gòu)也被廣泛應(yīng)用,但是,現(xiàn)有知識(shí)圖譜都以純文本的形式出現(xiàn),卻沒有真實(shí)世界的連接。比如:

  • 對(duì)抽象概念的理解。一個(gè)符號(hào)“dog”應(yīng)該根植于物理世界,將其和真的狗之間建立聯(lián)系對(duì)理解這些抽象概念是有效的。作者同時(shí)也舉例了“Hand-in-waistcoat”等詞匯。
  • 對(duì)特定任務(wù)的幫助。在關(guān)系提取任務(wù)中,額外的圖像會(huì)以在視覺上幫助區(qū)分屬性和關(guān)系,如partOf (鍵盤和屏幕是筆記本電腦的一部分),colorOf(香蕉通常是黃色或黃綠色,而無藍(lán)色的)。在文本生成任務(wù)中,可以幫助生成一個(gè)信息更豐富的實(shí)體級(jí)句子(例如特朗普正在發(fā)表演講),而不是一個(gè)模糊的概念級(jí)描述(例如一個(gè)金發(fā)高個(gè)子男人正在發(fā)表演講)。


因此多模態(tài)知識(shí)圖譜(Multi-Modal Knowledge Graph,MMKG)被逐漸矚目,這篇文章主要關(guān)注兩個(gè)話題:

  1. 構(gòu)建(Construction)。MMKG的構(gòu)建主要有兩種:一種是從圖像到符號(hào)(from images to symbols),即用KG表示符號(hào)來標(biāo)注圖像;另一種是從符號(hào)到圖像( from symbols to images),即把KG中的符號(hào)對(duì)應(yīng)到圖像。
  2. 應(yīng)用(Application)。MMKG的應(yīng)用也可以大致分為兩類,一類是In-MMKG應(yīng)用,目的是解決MMKG本身的質(zhì)量或集成問題;另一類是 Out-of-MMKG應(yīng)用,作者指的是如果將MMKG應(yīng)用到一般的多模態(tài)任務(wù)中。

多模態(tài)知識(shí)圖譜的好處


  • MMKG提供了足夠的背景知識(shí)來豐富實(shí)體和概念的表示,特別是對(duì)于長(zhǎng)尾問題,引入輔助的常識(shí)知識(shí)可以增強(qiáng)圖像和文本的表示能力。
  • MMKG能夠理解圖像中不可見的物體。這主要是利用符號(hào)知識(shí)提供的在視覺上看不見物體的符號(hào)信息,或在看不見物體和看不見物體之間建立語義關(guān)系。
  • MMKG支持多模態(tài)推理。在外部知識(shí)資源的幫助下,VQA任務(wù)的推理能力可以得到提升。
  • MMKG通常提供多模態(tài)數(shù)據(jù)作為附加特性來彌補(bǔ)一些NLP任務(wù)中的信息差距。以實(shí)體識(shí)別為例,一個(gè)圖像可以提供足夠的信息來識(shí)別“Rocky”是一只狗的名字還是一個(gè)人的名字。

多模態(tài)知識(shí)圖譜構(gòu)建


MMKG構(gòu)建需要將普通KG中的符號(hào)知識(shí)(包括實(shí)體、概念、關(guān)系等)與圖像關(guān)聯(lián)起來。MMKG按類型可分為兩種,A-MMKG和N-MMKG。A即 attribute,將多模態(tài)數(shù)據(jù)如圖像作為實(shí)體或概念的特定屬性值,而N即entities,將多模態(tài)數(shù)據(jù)直接作為KGs中的實(shí)體。
下圖是兩種類型的主要predicate,如在A-MMKG中hasImage,N-MMKG的sameAs。
圖片
在構(gòu)建上,上面也提到過的,主要有兩種方式
(1) from images to symbols,即在圖像上標(biāo)注KG中的符號(hào);(2) from symbols to images,即在圖像上標(biāo)注KG中的對(duì)應(yīng)符號(hào)。
下圖a是第一種靠 labeling images構(gòu)建的方法,圖b是第二種 symbol grounding的構(gòu)建方式的流行數(shù)據(jù)集們。
圖片


從圖像到符號(hào):標(biāo)注圖像(labeling images)


可以由人工標(biāo)注的數(shù)據(jù)集來監(jiān)督,讓人畫出邊界框并標(biāo)注帶有給定標(biāo)簽的圖像或圖像區(qū)域。也可搭建一個(gè)系統(tǒng)來做,比如分為三個(gè)子任務(wù):視覺實(shí)體/概念提取、視覺關(guān)系提取和視覺事件提取。

  • 視覺實(shí)體/概念提取的目的是檢測(cè)和定位圖像中的目標(biāo)視覺對(duì)象,然后用KG中的實(shí)體/概念符號(hào)標(biāo)記這些對(duì)象,目標(biāo)檢測(cè)和視覺定位使用較多;
  • 視覺關(guān)系提取的目的是識(shí)別圖像中檢測(cè)到的視覺實(shí)體/概念之間的語義關(guān)系,然后用KG中的關(guān)系對(duì)其進(jìn)行標(biāo)記,其中基于規(guī)則、統(tǒng)計(jì)或者更細(xì)粒度的方法較多;
  • 事件提取任務(wù)的目的是預(yù)測(cè)事件類型。

從符號(hào)到圖像:符號(hào)定位( symbol grounding)


主要尋找合適的圖像來表示傳統(tǒng)KG中已經(jīng)存在的符號(hào)。與圖像標(biāo)注方式相比,這種方式在MMKG構(gòu)建中更為廣泛,主要分為幾個(gè)過程:實(shí)體定位、概念定位和關(guān)系定位。

  • 對(duì)于找實(shí)體圖像來說,基于百科或搜索是常見的方式
  • 對(duì)于概念來說,該概念是否可以被可視化,和如何從大量圖片中選擇有代表性、多樣性的圖片是重要話題;
  • 對(duì)于關(guān)系定位來說,圖文匹配或圖匹配會(huì)是比較好的選擇。


作者對(duì)這兩塊兒會(huì)遇到的挑戰(zhàn)和未來的優(yōu)化機(jī)會(huì)做了詳細(xì)的探討,有興趣可以拜讀原文。與此同時(shí),如何應(yīng)用好這些已經(jīng)被制作完善的MMKG也很重要。
圖片


多模態(tài)知識(shí)圖譜應(yīng)用


應(yīng)用任務(wù)主要分為in-KG和out-of-KG。In-MMKG應(yīng)用是指在MMKG本身內(nèi)進(jìn)行的任務(wù),如:鏈接預(yù)測(cè)Link Prediction,三元組分類Triple Classification,實(shí)體鏈接Entity Classification,實(shí)體對(duì)齊Entity Alignment等等。這些和KG中已經(jīng)探討很多的任務(wù),本篇博文就不再贅述太多。
Out-of-MMKG則是更為廣泛一些的下游任務(wù),如多模態(tài)實(shí)體識(shí)別與鏈接Multi-modal Entity Recognition and Linking,視覺問答 Visual Question Answering,圖像文本匹配Image-Text Matching,多模態(tài)生成任務(wù)Multi-modal Generation Tasks,多模態(tài)推薦系統(tǒng)Multi-modal Recommender System。

  • Multi-modal Entity Recognition and Linking。圖像可以為實(shí)體識(shí)別提供必要的互補(bǔ)信息。主要通過兩種方式利用MMKG中的圖像知識(shí):1)提供實(shí)體應(yīng)該鏈接的目標(biāo)實(shí)體;2)學(xué)習(xí)每個(gè)多模態(tài)數(shù)據(jù)的分布式表示,然后用它來度量相關(guān)性。
  • Visual Question Answering。MMKG可以提供關(guān)于問題實(shí)體及其在圖像中的關(guān)系的知識(shí),從而帶來更深層次的視覺內(nèi)容理解,同時(shí)MMKG中的結(jié)構(gòu)化符號(hào)知識(shí)都可以為進(jìn)行推理過程和預(yù)測(cè)最終答案的一種更明確的方式。
  • Image-Text Matching。MMKG可以利用多模態(tài)實(shí)體之間的關(guān)系來擴(kuò)展更多的視覺和語義概念。此外MMKG還可以幫助構(gòu)建場(chǎng)景圖,引入視覺概念之間的信息相關(guān)知識(shí),進(jìn)一步增強(qiáng)圖像表示。
  • Multi-modal Generation Tasks。包括 image tagging, image captioning, visual storytelling都算,MMKG中的概念知識(shí)可以極大地提高圖像的表示能力,在解決歧義、看不見的物體、詞匯量等方面都表現(xiàn)強(qiáng)大。
  • Multi-modal Recommender System。利用外部MMKG來獲得具有豐富語義的item表示,甚至個(gè)性化的表示都完全可以,這一點(diǎn)在KG in Recommendation就很有效,擴(kuò)展到多模態(tài)形式或許能進(jìn)一步增強(qiáng)效果。

多模態(tài)知識(shí)圖譜開放問題


作者主要提了以下未來的開放性問題:

  • 復(fù)雜符號(hào)知識(shí)定位(Grounding Complex Symbolic Knowledge Grounding)。即除了實(shí)體、概念和關(guān)系的基礎(chǔ)之外,一些下游應(yīng)用還需要復(fù)雜的符號(hào)知識(shí)的基礎(chǔ),如KG中的一條路徑、一個(gè)子圖等涉及到多重關(guān)系。且在許多情況下,多重關(guān)系的復(fù)合語義是隱式表達(dá)的且可能隨著時(shí)間而改變。
  • 質(zhì)量控制(Quality Control)。大規(guī)模的MMKG可能存在錯(cuò)誤、缺少事實(shí)或過時(shí)的事實(shí),因此精度、完整性、一致性和新鮮度,圖像質(zhì)量等可能都需要被討論。
  • 效率(Efficiency)。MMKG的構(gòu)造效率問題較大,如NEIL需要大約350K CPU hours來為2273個(gè)對(duì)象收集400K的可視化實(shí)例,而在一個(gè)典型的KG中,這個(gè)數(shù)量會(huì)變成數(shù)十億個(gè)實(shí)例。而如果繼續(xù)擴(kuò)展到視頻數(shù)據(jù),這個(gè)擴(kuò)展性問題會(huì)繼續(xù)被放大。除了MMKG的構(gòu)建,MMKG的在線應(yīng)用的要求也會(huì)更高。



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉