人臉技術(shù):不清楚人照片修復(fù)成高質(zhì)量高清晰圖像框架
Blind face恢復(fù)是從未知退化中恢復(fù)高質(zhì)量的人臉圖像。由于人臉圖像包含豐富的上下文信息,研究者提出了一種方法,RestoreFormer,它探索了對(duì)上下文信息建模的全空間注意力,并超越了使用本地運(yùn)算符的現(xiàn)有工作。
01
概述
Blind face恢復(fù)是從未知退化中恢復(fù)高質(zhì)量的人臉圖像。由于人臉圖像包含豐富的上下文信息,研究者提出了一種方法,RestoreFormer,它探索了對(duì)上下文信息建模的全空間注意力,并超越了使用本地運(yùn)算符的現(xiàn)有工作。
與現(xiàn)有技術(shù)相比,RestoreFormer有幾個(gè)好處。首先,與以前的Vision Transformers(ViT)中的傳統(tǒng)多頭自注意力不同,RestoreFormer合并了一個(gè)多頭交叉注意力層來學(xué)習(xí)損壞查詢和高質(zhì)量鍵值對(duì)之間的全空間交互。其次,ResotreFormer中的鍵值對(duì)是從面向重建的高質(zhì)量字典中采樣的,其元素豐富,具有專門針對(duì)人臉重建的高質(zhì)量人臉特征,從而具有出色的恢復(fù)效果。第三,RestoreFormer在一個(gè)合成數(shù)據(jù)集和三個(gè)真實(shí)世界數(shù)據(jù)集上優(yōu)于先進(jìn)的最先進(jìn)方法,并生成具有更好視覺質(zhì)量的圖像。
02
背景
Blind face恢復(fù)旨在從已遭受復(fù)雜多樣退化(如下采樣、模糊、噪聲、壓縮偽影等)的退化人臉中恢復(fù)出高質(zhì)量的人臉。由于退化在現(xiàn)實(shí)世界中是未知的,因此恢復(fù)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。Blind face恢復(fù)旨在從復(fù)雜和未知的退化中恢復(fù)高質(zhì)量的人臉。以前的工作表明,額外的先驗(yàn)在這項(xiàng)任務(wù)中起著至關(guān)重要的作用,它們可以粗略地分為三種類型:幾何、先驗(yàn)和生成先驗(yàn)。
基于幾何先驗(yàn)的方法傾向于使用landmark熱圖或面部組件熱圖逐步恢復(fù)面部。由于這些幾何先驗(yàn)主要是從低質(zhì)量的人臉生成的,因此損壞的人臉限制了恢復(fù)的性能。另一方面,基于參考的作品需要參考與退化的人臉具有相同的身份,這并不總是可以訪問的。雖然有研究者通過收集由高質(zhì)量面部組件特征組成的組件字典作為一般參考來緩解這一限制,這些組件字典中的面部細(xì)節(jié)是有限的,因?yàn)樗鼈兪怯妹嫦螂x線識(shí)別的模型提取的,并且只關(guān)注一些面部成分。
Vision Transformer。Transformer是一種最初用于自然語(yǔ)言處理領(lǐng)域的深度神經(jīng)網(wǎng)絡(luò) 。由于其具有競(jìng)爭(zhēng)力的表示能力,它開始應(yīng)用于計(jì)算機(jī)視覺任務(wù),例如識(shí)別、檢測(cè)和分割。在有些論文中,低級(jí)視覺任務(wù)也從中受益。有研究者利用Transformer在大規(guī)模預(yù)訓(xùn)練上的優(yōu)勢(shì),構(gòu)建了一個(gè)復(fù)雜的模型,涵蓋了多個(gè)圖像處理任務(wù),例如去噪、去雨和超分辨率。埃塞爾等人【Patrick Esser, Robin Rombach, and Bjorn Ommer. Taming transformers for high-resolution image synthesis】應(yīng)用transformer通過預(yù)測(cè)其編碼器的一系列碼本索引來生成高分辨率圖像,充分利用了強(qiáng)代表性transformer在可接受的計(jì)算資源內(nèi)的容量。 在【Mingrui Zhu, Changcheng Liang, Nannan Wang, Xiaoyu Wang, Zhifeng Li, and Xinbo Gao. A sketch-transformer network for face photo-sketch synthesis】中,采用transformer獲取人臉的全局結(jié)構(gòu),有助photo-sketch的合成。
03
新框架分析
(a)MHSA是一種具有多頭自注意力的transformer,用于大多數(shù)以前的ViT。它的查詢、鍵和值來自降級(jí)信息Zd。(b)MHCA是一個(gè)帶有多頭交叉注意力的transformer,用于提出的RestoreFormer。它旨在通過將Zd作為查詢,將Zp作為鍵值對(duì),在空間上融合退化信息Zd及其相應(yīng)的高質(zhì)量先驗(yàn)Zp。(c)是RestoreFormer的整個(gè)流程。首先部署編碼器Ed來提取退化人臉I(yè)d的表示Zd,并從HQ字典D中提取其最近的高質(zhì)量先驗(yàn)Zp。然后使用兩個(gè)MHCA融合退化特征Zd和先驗(yàn)Zp。最后,在融合表示Z0f上應(yīng)用****Dd以恢復(fù)高質(zhì)量的人臉I(yè)d。
Comparison of Prior Dictionary。(a)DFDNet中提出的組件字典是由VGG網(wǎng)絡(luò)離線生成的,并使用K-means進(jìn)行聚類。他們只考慮眼睛、鼻子和嘴巴。(b)今天研究者提出的HQ Dictionary是通過結(jié)合矢量量化思想的高質(zhì)量人臉生成網(wǎng)絡(luò)學(xué)習(xí)的。HQ Dictionary中的高質(zhì)量先驗(yàn)是面向重建的,為退化人臉的恢復(fù)提供更多的人臉細(xì)節(jié)。此外HQ Dictionary中的先驗(yàn)涉及所有面部區(qū)域。
04
實(shí)驗(yàn)及可視化
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。