微軟亞洲研究院推出時空預測開源工具FOST,應對各行業(yè)共性預測需求
編者按:2020年新冠疫情肆虐全球,為了控制疫情蔓延,找到應對措施,美國疾病控制中心公布了大量疫情相關數據,向全世界頂級科研機構救助,希望科學家們可以利用技術能力,提供具有較高參考價值的預測數據,從而幫助制定有效的控制策略。微軟亞洲研究院基于時空預測技術,訓練了針對新冠疫情的預測模型,并于2020年下半年被美國疾控中心采納使用。在過去的近一年中,該預測模型的表現整體優(yōu)于全球其它四十幾家科研機構提供的預測模型。日前,微軟亞洲研究院基于此前的技術積累,正式推出了面向全行業(yè)的時空預測開源工具 FOST。
什么是時空概念?“時”是指時間序列,“空”即空間上的相互影響和聯系。例如,物流行業(yè)每個站點的歷史派件量是時序關系,而各中轉/配送站點間又存在空間上的聯系;再比如,在新冠疫情防控中,各級行政區(qū)域的每日感染病例數字,單獨來看是時序關系,而彼此之間的關聯則屬于空間關系。
“時空”因素在各行業(yè)中的廣泛存在,使時空預測成為眾多行業(yè)進行科學決策、優(yōu)化效率的關鍵。近日,微軟亞洲研究院推出了面向全行業(yè)、具有高度通用性與易用性的時空預測開源工具 FOST(Forecasting Open Source Tool)。存在相關需求的企業(yè)和機構可以基于這一便捷易用的工具生成高效的時空預測解決方案。
GitHub 鏈接:
https://github.com/microsoft/FOST
共性抽象:時空預測開源工具FOST
近年來在與行業(yè)伙伴的緊密合作中,微軟亞洲研究院的研究員們發(fā)現,時空預測需求普遍存在于物流、電信、醫(yī)療、交通等許多行業(yè)中。然而,當前大部分的時空預測還只是停留在研究階段,真正應用時,大家只是相互借鑒思路,想要解決實際問題還需要各自從頭開始一點點摸索,并沒有一個簡單、易上手的通用工具。
基于與多家企業(yè)在時空預測上的合作研究,微軟亞洲研究院的研究員們抽象出了行業(yè)共性問題,將多年的技術和經驗積累進行轉化,推出了具有極高行業(yè)通用性的時空預測工具 FOST。
FOST 架構圖
要使時空預測工具兼顧通用性和可用性,需解決三個常見問題:第一是數據的質量問題,這就需要降低數據噪音,減小信息缺失的影響;第二是時序上要能對趨勢、周期、突發(fā)等各類維度具有良好的包容性;第三則是在空間維度上打破以往預測模型只能單點預測的局限性,能夠在空間結構中準確預測并利用關聯影響。
為此,微軟亞洲研究院為時空預測工具 FOST 集成了三大功能模塊,來應對多種復雜時空條件下的預測:
數據處理:數據降噪,提升數據質量
在 FOST 中,數據的收集由用戶自主完成,這既保證了能夠基于多樣的場景數據訓練出不同的業(yè)務場景模型,又保證了用戶數據的隱私安全。之后,FOST 會針對存在噪音等問題的質量低下的數據進行清洗,提升數據質量,確保模型訓練的準確度。
時序解碼:輕量級時序神經網絡
在時序預測上,微軟亞洲研究院采用了輕量級深度時序神經網絡。
深度時序神經網絡主要用來捕捉實際業(yè)務場景中的復雜歷史規(guī)律。以物流行業(yè)為例,可能數據顯示某幾個站點在夏季派件量比平時多,那么是否就可以推測出下個夏天派件量同樣會上漲呢?實際的關聯關系通常并不是這么簡單就可以推斷出來的。深度時序網絡的作用就是找出其中的復雜關聯和細節(jié)規(guī)律。
但深度時序神經網絡往往面臨訓練速度慢,對于噪聲敏感的問題。同時在數據量不充足的情況下,容易過擬合訓練數據。因此,微軟亞洲研究院在深度時序神經網絡的基礎上通過對時序數據降維,使結構輕量化,從而加速訓練效率并穩(wěn)定預測結果。
空間解碼:圖神經網絡構建層次圖
在空間層上,微軟亞洲研究院采用了圖神經網絡,通過節(jié)點間的空間聯系,來建模信號變化在空間上的相互影響和關聯。例如在疫情數據預測中,一個地區(qū)的疫情結果會受到其他區(qū)域,尤其是相鄰地區(qū)的影響,所以預測時也不能忽略空間上的關聯。對此,微軟亞洲研究院利用圖神經網絡,在預測疫情發(fā)展信息時,也將其他省市的信息參考進來,進一步提升預測的精度。引入圖卷積網絡后,無論是針對縣區(qū)的細粒度預測,還是省市級別的粗粒度預測,結果的準確性都大大提升。
微軟亞洲研究院副院長劉鐵巖表示,“FOST 不是一個自上而下的研究產物,也并不是一開始就有明確計劃要進行研發(fā)的,而是經過與產業(yè)界的深度接觸后,我們發(fā)現了很多行業(yè)在時空預測方面存在的共性需求,包括問題挑戰(zhàn)、解決方案等多個層面。因此,我們決定將共性問題抽象出來做成一個通用的開源工具,幫助更多企業(yè)借助先進的人工智能技術節(jié)省精力、成本,提升運營及創(chuàng)新效率。”
憑借高通用性,應對眾多行業(yè)時空預測需求
在與時間、空間概念密切相關的行業(yè)中,時空預測工具 FOST 如何運作并發(fā)揮作用?
依然以較為典型的物流行業(yè)為例。如果物流企業(yè)希望通過 FOST 對某個大站點的次日派件量進行預測,首先,企業(yè)需要在底層的深度時序神經網絡模塊中輸入近一段時期的時間序列數據,包括這個站點的每日總出庫量和總收件量,及以該站點為終點或中轉站的派件量,之后模型的時序模塊會先學習歷史數據中的特征,并表示為隱空間中的一組向量。
接下來則需要進一步疊加相鄰站點的時序規(guī)律信息進行空間上的信息聚合。一個例子是站點與其相鄰站點之間往往存在這樣的關系——當相鄰站點快遞件數增加時,就會將一部分快件發(fā)送給該站點。在這種情況下,當在時序上預測出該站點次日派件量為200件,同時又看到空間層上相鄰站點次日快遞件數預計會急劇增加時,就可以預估出該站點次日的派件量可能將遠超200件,這樣就將站點空間上的關聯關系也融入到了模型中。
上述僅是物流行業(yè)的例子。很多其他行業(yè)場景,如網絡****流量預測、交通流量預測、電力輸送預測,與物流行業(yè)同樣存在共通的時空概念,時空預測工具 FOST 在這些行業(yè)上的作用原理也基本類似。
不過要注意的是,對于關聯性越大的節(jié)點,在預測時就越要優(yōu)先考慮他們的關聯關系,否則如果將所有關聯信息都進行無差別計算,那計算量將會巨大到難以承受。比如原本就已經有數千個地點,如果還要將所有地點間的關系都考慮進來,這樣的計算量對服務器的要求會非常高,是一般企業(yè)所無法承擔的一筆開銷。對此,微軟亞洲研究院也做了很多優(yōu)化,包括在圖隨機采樣時會優(yōu)先考慮強關聯的信息,從而提高整個預測工具的運行效率。
此外,在某些行業(yè)中,空間概念未必僅停留在地理空間層面。例如,在醫(yī)療行業(yè)的糖尿病患者病情預測中,同一類糖尿病的不同患者,就可視作多個不同空間。一個病人的病情發(fā)展規(guī)律可以作為歷史參考,幫助預測出其他患者的病情發(fā)展趨勢。
微軟亞洲研究院的時空預測開源工具給各行業(yè)用戶提供了一個簡單易用的深度學習“利器”。通過使用 FOST,用戶不僅可以有效提升業(yè)務場景預測的準確率,還可以避免從頭開發(fā)類似平臺的重復工作。未來,微軟亞洲研究院將在當前版本的基礎上,持續(xù)優(yōu)化時空預測工具上模型的準確性和訓練效率,助力更多企業(yè)和機構通過構建時空預測能力創(chuàng)造更大的價值。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。