馬賽克變高清,谷歌將SR3、CDM相結(jié)合,推出超分辨率新方法
谷歌的研究者用兩種有關(guān)聯(lián)的方法提升了擴(kuò)散模型的圖像合成質(zhì)量。
自然圖像合成作為一類機(jī)器學(xué)習(xí) (ML) 任務(wù),具有廣泛的應(yīng)用,也帶來了許多設(shè)計(jì)挑戰(zhàn)。例如圖像超分辨率,需要訓(xùn)練模型將低分辨率圖像轉(zhuǎn)換為高分辨率圖像。從修復(fù)老照片到改進(jìn)醫(yī)學(xué)成像系統(tǒng),超分辨率有著非常重要的作用。
另一個(gè)圖像合成任務(wù)是類條件圖像生成,該任務(wù)訓(xùn)練模型以從輸入類標(biāo)簽生成樣本圖像。生成的樣本圖像可用于提高下游模型的圖像分類、分割等性能。
通常,這些圖像合成任務(wù)由深度生成模型執(zhí)行,例如 GAN、VAE 和自回歸模型。然而,當(dāng)經(jīng)過訓(xùn)練以在高分辨率數(shù)據(jù)集上合成高質(zhì)量樣本時(shí),這些生成模型都有其缺點(diǎn)。例如,GAN 經(jīng)常遭受不穩(wěn)定的訓(xùn)練和模式崩潰,而自回歸模型通常會(huì)遭受合成速度緩慢的問題。
最初于 2015 年提出的擴(kuò)散模型由于其訓(xùn)練穩(wěn)定性和對(duì)圖像的有希望的樣本質(zhì)量結(jié)果,最近重新引起了人們的興趣 。因此,與其他類型的深度生成模型相比,它們提供了潛在的有利權(quán)衡。擴(kuò)散模型通過逐漸添加高斯噪聲來破壞訓(xùn)練數(shù)據(jù),慢慢消除數(shù)據(jù)中的細(xì)節(jié)直到它變成純?cè)肼?,然后?xùn)練神經(jīng)網(wǎng)絡(luò)來逆轉(zhuǎn)這種破壞過程。運(yùn)行這個(gè)反向損壞過程通過逐漸去噪直到產(chǎn)生干凈的樣本來合成來自純?cè)肼暤臄?shù)據(jù)。該合成過程可以解釋為作為一種優(yōu)化算法,它遵循數(shù)據(jù)密度的梯度以生成可能的樣本。
近日,來自谷歌的研究者提出了兩種有關(guān)聯(lián)的方法,它們推動(dòng)了擴(kuò)散模型的圖像合成質(zhì)量的界限——通過重復(fù)細(xì)化的超分辨率(SR3,Super-Resolution via Repeated Refinements)和一個(gè)類條件合成模型,稱為級(jí)聯(lián)擴(kuò)散模型(CDM)。研究者表明,通過擴(kuò)大擴(kuò)散模型和精心挑選的數(shù)據(jù)增強(qiáng)技術(shù),新方法可以勝過現(xiàn)有的方法。具體來說,SR3 在人類評(píng)估中獲得了超過 GAN 的強(qiáng)大圖像超分辨率結(jié)果。CDM 生成的高保真 ImageNet 樣本在兩個(gè) FID 得分上均超過 BigGAN-deep 和 VQ-VAE2。分類準(zhǔn)確率得分大幅提升。
SR3:圖像超分辨率
SR3 是一種超分辨率擴(kuò)散模型,它以低分辨率圖像作為輸入,并從純?cè)肼曋袠?gòu)建相應(yīng)的高分辨率圖像。該模型在圖像損壞過程中進(jìn)行訓(xùn)練,其中噪聲逐漸添加到高分辨率圖像中,直到只剩下純?cè)肼暈橹埂H缓笏鼘W(xué)習(xí)逆轉(zhuǎn)這個(gè)過程,從純?cè)肼曢_始,并通過輸入低分辨率圖像的引導(dǎo)逐步去除噪聲以達(dá)到目標(biāo)分布。
通過大規(guī)模訓(xùn)練,當(dāng)擴(kuò)展到輸入低分辨率圖像的 4 倍到 8 倍的分辨率時(shí),SR3 在人臉和自然圖像的超分辨率任務(wù)上取得了強(qiáng)大的基準(zhǔn)測(cè)試結(jié)果。這些超分辨率模型可以進(jìn)一步級(jí)聯(lián)在一起以增加有效的超分辨率比例因子,例如,將 64x64 → 256x256 和 256x256 → 1024x1024 人臉超分辨率模型堆疊在一起,以執(zhí)行 64x64 → 1024x1024 的超分辨率任務(wù)。
研究者將 SR3 與現(xiàn)有方法進(jìn)行比較,并進(jìn)行了一項(xiàng)雙重強(qiáng)制選擇實(shí)驗(yàn),要求受試者在參考高分辨率圖像和被問及以下問題時(shí)的模型輸出之間進(jìn)行選擇:「你猜是相機(jī)拍的嗎?」該研究通過混淆率(confusion rate)來衡量模型的性能(評(píng)估者選擇模型輸出而不是參考圖像的時(shí)間百分比,其中完美的算法將實(shí)現(xiàn) 50% 的混淆率)。這項(xiàng)研究的結(jié)果如下圖所示。
上圖:該研究在 16x16 → 128x128 人臉的任務(wù)上實(shí)現(xiàn)了接近 50% 的混淆率,優(yōu)于 SOTA 人臉超分辨率方法 PULSE 和 FSRGAN。下圖:該方法還在 64x64 → 256x256 自然圖像這一更困難的任務(wù)上實(shí)現(xiàn)了 40% 的混淆率,大大優(yōu)于回歸基線。
實(shí)驗(yàn)結(jié)果
自然圖像:圖 3 給出了 ImageNet 開發(fā)集上 64×64 → 256×256 的超分辨率自然圖像示例,以及用于更精細(xì)檢查的放大 patch。基線回歸模型生成的圖像忠實(shí)于輸入,但模糊且缺乏細(xì)節(jié)。相比之下,SR3 產(chǎn)生的圖像清晰,細(xì)節(jié)更豐富。
圖 3:SR3 模型(64×64 → 256×256)的結(jié)果,模型在 ImageNet 上訓(xùn)練并在兩個(gè) ImageNet 測(cè)試圖像上進(jìn)行評(píng)估。
人臉圖像:圖 4 顯示了兩個(gè)測(cè)試圖像上的人臉超分辨率模型(64×64 → 512×512)的輸出,并放大了選定 patch。使用 8 倍的放大因子可以清楚地看到推斷的詳細(xì)結(jié)構(gòu)。注意由于放大因子很大,因此有很多似是而非的輸出,因此我們不期望輸出與參考圖像完全匹配。
圖 4:SR3 模型(64×64 → 512×512)的結(jié)果,在 FFHQ 上訓(xùn)練并應(yīng)用于訓(xùn)練集之外的圖像,以及放大的 patch 以顯示更精細(xì)的細(xì)節(jié)。
表 1 顯示了 16×16 → 128×128 人臉超分辨率的 PSNR、SSIM [59] 和 Consistency 分?jǐn)?shù)。SR3 在 PSNR 和 SSIM 上的表現(xiàn)優(yōu)于 PULSE 和 FSRGAN,而在回歸基準(zhǔn)上的表現(xiàn)則遜色。先前的工作 [7, 8, 28] 觀察到,當(dāng)輸入分辨率低且放大因子大時(shí),這些傳統(tǒng)的自動(dòng)評(píng)估措施與人類感知的相關(guān)性不佳。這并不奇怪,因?yàn)檫@些指標(biāo)往往會(huì)懲罰與目標(biāo)圖像不完全對(duì)齊的任何合成高頻細(xì)節(jié)。
表 1:16×16 → 128×128 人臉超分辨率下的 PSNR 和 SSIM。
由于生成完美對(duì)齊的高頻細(xì)節(jié),例如,圖 4 中完全相同的發(fā)束和圖 3 中相同的豹斑,幾乎是不可能的,因此 PSNR 和 SSIM 往往基于 MSE 回歸的技術(shù),這些技術(shù)對(duì)高頻保守細(xì)節(jié)。對(duì)于 ImageNet 超分辨率 (64×64 → 256×256),表 2 進(jìn)一步證實(shí)了這一點(diǎn),其中 SR3 的輸出實(shí)現(xiàn)了更高的樣本質(zhì)量分?jǐn)?shù)(FID 和 IS),但 PSNR 和 SSIM 比回歸差。
表 2:使用在 ImageNet 驗(yàn)證集上計(jì)算的標(biāo)準(zhǔn)指標(biāo),SR3 和回歸基線在自然圖像超分辨率上的性能比較。
受試者(subject) fool rate 是受試者選擇模型輸出而不是真實(shí)情況的試驗(yàn)比例。每個(gè)模型的 fool rate 有 50 名受試者,每個(gè)人都看到了測(cè)試集中 100 張圖像中的 50 張。圖 6 顯示了 Task-1(頂部)和 Task-2(底部)的 fool rate。在這兩個(gè)實(shí)驗(yàn)中,SR3 的 fool rate 接近 50%,表明 SR3 生成的圖像既逼真又忠實(shí)于低分辨率輸入。
圖 6:人臉超分辨率人類 fool rates(越高越好,照片逼真的樣本產(chǎn)生 50% 的 fool rate)。將 4 個(gè)模型的輸出與真實(shí)情況進(jìn)行比較。(頂部)對(duì)象顯示為低分辨率輸入, (底部)未顯示輸入。
CDM:類條件 ImageNet 生成
上面展示了 SR3 在生成超分辨率自然圖像的有效性,更近一步的,研究者使用 SR3 模型來生成類條件圖像。CDM 是在 ImageNet 數(shù)據(jù)集上訓(xùn)練的類條件擴(kuò)散模型,用于生成高分辨率的自然圖像。由于 ImageNet 是一個(gè)難度較高、熵較高的數(shù)據(jù)集,因此研究者將 CDM 構(gòu)建為多個(gè)擴(kuò)散模型的級(jí)聯(lián)。
這種級(jí)聯(lián)方法涉及在多個(gè)空間分辨率上級(jí)聯(lián)多個(gè)生成模型:一個(gè)擴(kuò)散模型以低分辨率生成數(shù)據(jù),然后是一系列 SR3 超分辨率擴(kuò)散模型,這種級(jí)聯(lián)模型將生成圖像的分辨率提高到最高分辨率。眾所周知,級(jí)聯(lián)可以提高高分辨率數(shù)據(jù)的質(zhì)量和訓(xùn)練速度。正如定量評(píng)估結(jié)果所證明的那樣,CDM 進(jìn)一步突出了擴(kuò)散模型中級(jí)聯(lián)對(duì)樣本質(zhì)量和下游任務(wù)(例如圖像分類)有效性。
一系列擴(kuò)散模型的級(jí)聯(lián) pipeline 示例:第一個(gè)是生成低分辨率圖像,其余圖片是執(zhí)行上采樣到最終高分辨率圖像。這里 pipeline 用于類條件 ImageNet 生成,它從 32x32 分辨率的類條件擴(kuò)散模型開始,然后是使用 SR3 生成分辨率是原始分辨率 2 倍和 4 倍的類條件超分辨率圖像。
上圖為 256x256 級(jí)聯(lián)類條件 ImageNet 模型中選擇生成的圖像。
除了在級(jí)聯(lián) pipeline 中包含 SR3 模型外,該研究還引入了一種新的數(shù)據(jù)增強(qiáng)技術(shù):條件增強(qiáng),它進(jìn)一步提高了 CDM 生成的樣本質(zhì)量。雖然 CDM 中的超分辨率模型是在原始圖像上訓(xùn)練的,但在生成階段,需要對(duì)低分辨率基礎(chǔ)模型生成的圖像進(jìn)行超分辨率處理。這導(dǎo)致超分辨率模型「訓(xùn)練 - 測(cè)試」不匹配。
條件增強(qiáng)是指對(duì)級(jí)聯(lián) pipeline 中每個(gè)超分辨率模型的低分辨率輸入圖像進(jìn)行數(shù)據(jù)增強(qiáng)。這些數(shù)據(jù)增強(qiáng)包括高斯噪聲和高斯模糊,以防止每個(gè)超分辨率模型對(duì)其低分辨率條件輸入過擬合,最終得到更好的高分辨率 CDM 樣本質(zhì)量。
實(shí)驗(yàn)結(jié)果
下表為級(jí)聯(lián)擴(kuò)散模型 (CDM) 的主要結(jié)果,主要針對(duì) 64×64、 128×128、256×256 ImageNet 數(shù)據(jù)集分辨率以及基線的結(jié)果。
下表為在 128×128 、256×256 分辨率下,模型分類準(zhǔn)確率得分(Classification Accuracy Score,CAS)結(jié)果:
表 2b 和圖 7 為 16×16→64×64 級(jí)聯(lián) pipeline 結(jié)果。結(jié)果發(fā)現(xiàn)如果沒有條件增強(qiáng),級(jí)聯(lián) pipeline 獲得的樣本質(zhì)量低于非級(jí)聯(lián)基線 64×64 模型,以 FID 得分為例,得分從 2.35 增加到 6.02。
圖 7:消融實(shí)驗(yàn),小規(guī)模 16×16→64×64pipeline 在不同數(shù)量的條件增強(qiáng)下生成的圖形。如表 2b 所示。
表 4a 為 64×64→256×256 超分辨率模型應(yīng)用高斯模糊增強(qiáng)的結(jié)果。表 4b 顯示了超分辨率模型在類條件、大批量訓(xùn)練和隨機(jī)翻轉(zhuǎn)增強(qiáng)方面的進(jìn)一步改進(jìn)。
總之,CDM 生成的高保真樣本在類條件 ImageNet 生成的 FID 得分和分類準(zhǔn)確率得分方面均優(yōu)于 BigGAN-deep 和 VQ-VAE-2。CDM 是一種純生成模型,與 ADM 和 VQ-VAE-2 等其他模型不同,它不使用分類器來提高樣本質(zhì)量。
對(duì)于不使用額外分類器來提高樣本質(zhì)量的方法,類條件 ImageNet 在 256x256 分辨率下的 FID 得分結(jié)果(值越低越好)。
ImageNet 在 256x256 分辨率下的分類準(zhǔn)確率得分,與現(xiàn)有方法相比,CDM 生成的數(shù)據(jù)獲得了顯著的增益,縮小了真實(shí)數(shù)據(jù)和生成數(shù)據(jù)之間的分類準(zhǔn)確率差距(值越高越好)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。