新聞中心

EEPW首頁 > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 如何建立中游領(lǐng)域性KG(知識(shí)圖)

如何建立中游領(lǐng)域性KG(知識(shí)圖)

作者:高煥堂 時(shí)間:2025-04-19 來源:EEPW 收藏


本文引用地址:http://www.2s4d.com/article/202504/469577.htm

1   復(fù)習(xí):上游行業(yè)性KG

在前一期《如何善用通用性行業(yè)KG》文章里,曾舉例說明了基于FlavorGraph 通用性上游KG,來建立下游任務(wù)型KG。其中,通用性行業(yè)KG(如Flavor Graph)蘊(yùn)含豐富的行業(yè)共享性知識(shí),而企業(yè)則針對(duì)小領(lǐng)域的特殊需求(如拉面的烹飪過程、食材搭配、口味調(diào)配等)。這種模式是一種知識(shí)驅(qū)動(dòng)的AI 遷移學(xué)習(xí),其建立的企業(yè)KG(如FoodKG)更具針對(duì)性,能加速AI針對(duì)企業(yè)目標(biāo)的應(yīng)用。其架構(gòu)如下圖1所示。

1745023064750313.png

圖1 行業(yè)KG支持下游任務(wù)

其中的核心任務(wù)是:將行業(yè)FlavorGraph的節(jié)點(diǎn)嵌入(node embedding)作為企業(yè)FoodKG + GCN的初始特征(initial features),讓外部的行業(yè)性知識(shí)來增強(qiáng)本地圖譜的表現(xiàn)。初始特征來自于成熟的譜,代表了節(jié)點(diǎn)間的隱含語義與結(jié)構(gòu)關(guān)系。這種初始化能顯著提升模型在各行業(yè)的學(xué)習(xí)能力和性能。

2   三層KG架構(gòu)設(shè)計(jì)

從上圖-1里,可以看到其為兩層KG架構(gòu)。其中,下游任務(wù)KG直接使用上游任務(wù)KG,兩者常常會(huì)出現(xiàn)過度相依,降低了靈活性。此時(shí),可以考慮建立三層KG架構(gòu),其添加了中間層KG,帶來上游與下游KG之間的松耦合(loose coupling)關(guān)系,創(chuàng)造了整體架構(gòu)的靈活性。茲說明各層KG 架構(gòu)設(shè)計(jì)要點(diǎn),如下:

第一層:上游通用性行業(yè)大KG

設(shè)計(jì)要點(diǎn):利用開源的FlavorGraph行業(yè)大KG+GNN。建立「食材?分子成分?味覺特性」的三重組關(guān)系,表達(dá)食材與其主要香氣化學(xué)物的對(duì)應(yīng)關(guān)系。

第二層:中游特定領(lǐng)域KG

設(shè)計(jì)要點(diǎn):建構(gòu)以特定領(lǐng)域的「共現(xiàn)」關(guān)系,例如在同一份發(fā)酵菜單中出現(xiàn)的食材群。自定義發(fā)酵食譜共現(xiàn)圖,使用共現(xiàn)關(guān)聯(lián)矩陣或DGL異質(zhì)圖作為模型訓(xùn)練素材。使用GraphSAGE/GAT/GCN訓(xùn)練contextual食材嵌入,讓語意更貼近文化與地方搭配習(xí)慣。

第三層:下游任務(wù)型應(yīng)用KG

設(shè)計(jì)要點(diǎn):聚焦在人與物的關(guān)系:顧客?食材,建立異質(zhì)圖。加入偏好分?jǐn)?shù)、食用紀(jì)錄、健康因子等個(gè)人化屬性。融合GNN score(語意內(nèi)積)與群體差異(CF_ link)做出創(chuàng)新食譜、食材推薦。

3   承先啟后:設(shè)計(jì)

A.認(rèn)識(shí)上游KG的既有架構(gòu)

首先觀察通用性FlavorGraph 里,內(nèi)含兩種節(jié)點(diǎn)(Node):食材(Ingredient)和風(fēng)味化合物(Flavor compound)。也含有兩種邊(Edge):ingr-ingr共現(xiàn)邊和ingr-fcomp成分邊。如下圖2 所示:

1745023227296056.png

圖2 上游KG的架構(gòu)

這兩種邊協(xié)助FlavorGraph架構(gòu)起跨食材與化合物的知識(shí)網(wǎng)絡(luò)。其含義如下:

●   ingr-ingr共現(xiàn)邊:即< 食材- 食材> 之共現(xiàn)關(guān)系

    ●   含義:這條邊代表兩種食材之間的風(fēng)味分子相似性(Flavor Compound Similarity)。

    ●   使用場景:當(dāng)兩種食材具有類似的化學(xué)風(fēng)味分子(Flavor compounds),這FlavorGraph就會(huì)建立一條ingr-i表示它們可能能夠很好地搭配(互補(bǔ))。

    ●   應(yīng)用例子:洋蔥與大蒜可能具有共同的硫化物化合物,因此在許多料理中常一起使用。

●   ingr-fcomp成分邊:即< 食材- 風(fēng)味化合物> 之包含關(guān)系

    ●   含義:這條邊表示某個(gè)食材中實(shí)際包含某個(gè)特定的風(fēng)味化合物(或稱:風(fēng)味分子)。

    ●   使用場景:建立從食材節(jié)點(diǎn)(Ingredient node)指向風(fēng)味化合物節(jié)點(diǎn)(Flavor compound node)的連結(jié),描繪食材的化學(xué)組成。

    ●   應(yīng)用例子:香菜(Cilantro)會(huì)連結(jié)到decanal 或linalool這類風(fēng)味化合物。

以表格說明如下:

1745134080974635.png

以Python 代碼(片段)表示如下:

1745134134457205.png

這種通用性行業(yè)KG蘊(yùn)含了豐富的行業(yè)共享性知識(shí)。

B.中游KG的架構(gòu)設(shè)計(jì)

一旦充分熟悉了上游大KG 的架構(gòu)了,就能承先啟后、繼往開來,設(shè)計(jì)出一個(gè)了。例如,基于FlavorGraph 的預(yù)訓(xùn)練嵌入(Embedding)來建立發(fā)酵食品的領(lǐng)域性(中游)<食譜?食材KG>,它將具備語意豐富的風(fēng)味知識(shí)結(jié)構(gòu)。從上圖-2里,可以觀察到,F(xiàn)lavorGraph的核心節(jié)點(diǎn)是:食材,而其< 食材?食材>邊是分子層級(jí)風(fēng)味成分的相似性之關(guān)聯(lián),又稱為:下層(分子)的共現(xiàn)性。

接著,仍以食材為中心,添加上層視角的觀察,會(huì)發(fā)現(xiàn)到:上層(食譜)的共現(xiàn)性。亦即,兩種食材出現(xiàn)于同一食譜的共現(xiàn)性。這就構(gòu)成一個(gè)中游KG的基礎(chǔ)架構(gòu)了。如下圖3所示。

1745027229277449.png

圖3 中游KG的架構(gòu)

茲以Python 代碼( 片段) 表示如下:

1745134218774337.png

現(xiàn)在已經(jīng)在Python 代碼里定義好了一個(gè)異構(gòu)圖(Heterograph)。接著,就能拿它(異構(gòu)圖)來訓(xùn)練GNN模型。例如,其完整代碼執(zhí)行時(shí),訓(xùn)練GIN模型100回合,輸出如下:

image.png

于是,訓(xùn)練好了中游KG模型,并且生成各節(jié)點(diǎn)的嵌入表示,儲(chǔ)存于mid_ingredient_embeddings.csv檔案里。

4   下游任務(wù)KG &應(yīng)用開發(fā)

這是最貼近消費(fèi)者的下游應(yīng)用層,可以將顧客數(shù)據(jù)(如偏好、點(diǎn)餐行為等)建成下游KG,結(jié)合中游KG模型學(xué)得的食材嵌入(Embedding),透過GNN預(yù)測出每位顧客對(duì)食材的潛在偏好。我們更導(dǎo)入傳統(tǒng)策略如K-means分群、和反事實(shí)連結(jié)(Counterfactual link)推薦,成為一個(gè)商業(yè)性的AI推薦引擎。例如,可以建立一個(gè)下游KG,如下圖4所示:

1745027321476441.png

茲以Python代碼( 片段) 表示如下:

1745134362531793.png

1745134402759706.png

例如,其完整代碼執(zhí)行時(shí),輸出如下:

image.png

這先讀取中游KG 的節(jié)點(diǎn)嵌入,作為下游KG 的初期節(jié)點(diǎn)特征。接著,對(duì)全部客人(customer)節(jié)點(diǎn)特征,進(jìn)行K-means分群(Clustering),然后探索出反事實(shí)連結(jié),而輸出推薦內(nèi)容。

5   結(jié)語

上游大KG設(shè)計(jì)思維是,選擇具可信度的領(lǐng)域知識(shí)來源(如FlavorGraph、專業(yè)食材文獻(xiàn)),著重于「可轉(zhuǎn)為語意向量」的屬性建構(gòu),例如分子、味覺分類、功能卷標(biāo)。其設(shè)計(jì)時(shí)應(yīng)盡量通用與可重復(fù)使用,讓其他任務(wù)也能延伸引用。亦即,整合了化學(xué)組成、風(fēng)味關(guān)聯(lián),建立食材之間的語意知識(shí)網(wǎng)絡(luò)。

中游領(lǐng)域KG設(shè)計(jì)思維是,以「任務(wù)情境」為驅(qū)動(dòng)(例如:發(fā)酵菜單、飲食場景),其圖結(jié)構(gòu)可簡單(如共現(xiàn))但要具有代表性與數(shù)據(jù)源依據(jù),可以從同一菜單中出現(xiàn)的食材建立雙邊共現(xiàn)關(guān)系。亦即,捕捉到「能共煮」、「風(fēng)味類似」等潛在語意,為后續(xù)推薦提供基礎(chǔ)。

下游應(yīng)用任務(wù)KG設(shè)計(jì)思維是,聚焦在人與物的關(guān)系:顧客?食材,建立異質(zhì)圖。加入偏好分?jǐn)?shù)、食用紀(jì)錄、健康因子等個(gè)人化屬性。并融合GNN score(語意內(nèi)積)、K-Means(分群)與群體差異(CF_link)做出推薦。例如,在<食譜?食材> 的包含邊,添加一個(gè)邊屬性(attribute):烹煮順序。如下圖5 所示:

1745027556317639.png

圖5 更多下游應(yīng)用KG

在這下游KG 模型里,將客人、食材與食譜建構(gòu)成異質(zhì)圖,導(dǎo)入GNN與 KMeans推薦模型,一旦找到CF_links,就能推薦創(chuàng)新食譜給客人,也能提供創(chuàng)新制程(SOP)給廚師(可能是機(jī)器人),不亦美哉。

(本文來源于《EEPW》



評(píng)論


技術(shù)專區(qū)

關(guān)閉