王文昊:虛實結(jié)合,無需人工標(biāo)注的可泛化行人再辨識
時間:2021-11-25 14:20 來源:今日頭條 責(zé)任編輯:毛青青
隨著人工智能深度學(xué)習(xí)(DL, Deep Learning)的發(fā)展,行人再辨識的準(zhǔn)確度取得了很大的進步。但是,訓(xùn)練好的模型在全新的場景下部署時泛化能力往往較低。也正因為此,大規(guī)模商業(yè)化行人再辨識面臨困難。其中的一大部分原因是缺少大規(guī)模的有標(biāo)注的真實數(shù)據(jù)訓(xùn)練集。然而,標(biāo)注大規(guī)模的真實數(shù)據(jù)通常是費時費力的。所以,近年來,一些工作開始關(guān)注用大規(guī)模合成數(shù)據(jù)集訓(xùn)練實現(xiàn)可泛化的行人再辨識;谌斯ぶ悄芗夹g(shù)的圖像版權(quán)保護專家王文昊在可泛化行人再辨識的科研成果與商業(yè)應(yīng)用取得了原創(chuàng)性重大突破,引起了人工智能領(lǐng)域的廣泛關(guān)注。
王文昊(杰出的基于人工智能技術(shù)的圖像版權(quán)保護專家)
王文昊,中國杰出的基于人工智能技術(shù)的圖像版權(quán)保護專家,長期從事人工智能、計算機視覺、行人重識別相關(guān)研究,尤其是在基于人工智能技術(shù)的跨鏡追蹤安全算法、基于人工智能技術(shù)的數(shù)字藝術(shù)品版權(quán)保護算法的研究方面達到中國領(lǐng)先水準(zhǔn)。讀書生涯榮獲北京航空航天大學(xué) 榮譽“沈元獎?wù)?rdquo;,獲得澳大利亞人工智能研究院博士全額獎學(xué)金,曾前往包括英國劍橋大學(xué)(University of Cambridge)、帝國理工大學(xué)(Imperial College London)、愛丁堡大學(xué)(The University of Edinburgh)在內(nèi)的多所國際名校訪學(xué)多學(xué)科方向?qū)W習(xí)人工智能前沿知識,參加先進高溫結(jié)構(gòu)材料國防重點實驗室項目,曾工作于阿聯(lián)酋起源人工智能研究院,同阿聯(lián)酋起源人工智能研究院等頂尖科學(xué)家合作,現(xiàn)任北京高碼科技有限公司人工智能技術(shù)總監(jiān),在權(quán)威學(xué)術(shù)期刊發(fā)表眾多SCI論文、EI論文、人工智能 會議(CVPR)論文、圖像處理 期刊 (TIP)論文,是中國最頂尖的基于人工智能技術(shù)的圖像版權(quán)保護專家。
行人再辨識(re-ID)的目標(biāo)是在不同時間、地點等拍攝的許多行人圖像中匹配給定的行人圖像。隨著深度學(xué)習(xí)的發(fā)展,全監(jiān)督的行人再辨識已經(jīng)得到了廣泛的研究并且取得了長足進步。然而,當(dāng)一個訓(xùn)練好的模型在全新的未知數(shù)據(jù)集測試時,顯著的性能下降依然會發(fā)生。目前已知算法的泛化能力主要受兩方面限制。第一,人們設(shè)計算法時很少考慮算法的泛化能力。很少有算法專門為域泛化設(shè)計。第二,公開的數(shù)據(jù)集中行人數(shù)量有限,并且多樣性也較差。
標(biāo)注大規(guī)模且多樣性高的真實數(shù)據(jù)集是十分昂貴的,也十分耗時。比如,標(biāo)注MSMT17數(shù)據(jù)庫(4,101人,126,441圖像)耗費三個人聯(lián)合標(biāo)注了兩個月。為了解決這個問題,王文昊使用大規(guī)模合成數(shù)據(jù)做行人再辨識的訓(xùn)練,這樣就省去了人工標(biāo)注。然而,如果只使用合成數(shù)據(jù)集,模型的泛化能力依舊是有限的。這是因為在虛擬數(shù)據(jù)和真實數(shù)據(jù)之間依然存在較大的域差異。一個解決辦法是直接將虛擬數(shù)據(jù)和有標(biāo)簽的真實數(shù)據(jù)混合,并從中學(xué)習(xí)。雖然性能得到了提升,該方法依舊嚴(yán)重依賴手工標(biāo)注的真實數(shù)據(jù)。同時,采用常見的方法訓(xùn)練的話,域差異的問題依舊存在。
為了解決這個問題,王文昊提出了DomainMix框架。王文昊所提出的方法首先將無標(biāo)簽的真實圖片聚類,并從中選出可靠的類別。訓(xùn)練過程中,為解決兩個域之間的差異,我們通過提出域平衡損失函數(shù)來引導(dǎo)在域不變特征學(xué)習(xí)和域區(qū)分之間的對抗訓(xùn)練。這樣既減少了虛擬數(shù)據(jù)和真實數(shù)據(jù)之間的域差異;大規(guī)模和多樣性的訓(xùn)練數(shù)據(jù)又使得學(xué)到的特征更有泛化能力。
王文昊提出的DomainMix框架設(shè)計
在DomainMix框架設(shè)計階段,在每個訓(xùn)練段,無標(biāo)簽的真實圖片首先被 DBSCAN 聚類然后被三個準(zhǔn)則挑選。然后,根據(jù)上一階段訓(xùn)練結(jié)果和打上偽標(biāo)簽的真實數(shù)據(jù)的特征對分類層自適應(yīng)初始化。在訓(xùn)練過程中,使用兩個域的數(shù)據(jù)訓(xùn)練骨干網(wǎng)絡(luò)以提取有區(qū)分的、域不變的、可以泛化的特征。另外,借助域分類損失函數(shù),域分類器可以將每個特征正確地分到它所屬的類別。
王文昊提出一個虛實結(jié)合的行人再辨識新思路:通過半監(jiān)督方式聯(lián)合訓(xùn)練有標(biāo)簽虛擬數(shù)據(jù)和無標(biāo)簽真實數(shù)據(jù),取得更好的可泛化行人再辨識性能,并且其無需人工標(biāo)注的優(yōu)點更具有規(guī)模化的可擴展性和實際應(yīng)用價值。王文昊提出了一個更具有實際應(yīng)用價值的行人再辨識任務(wù)A+B->C:即如何利用大規(guī)模有標(biāo)簽的合成數(shù)據(jù)集A和無標(biāo)簽的真實數(shù)據(jù)集B訓(xùn)練出能泛化到未知場景C的模型。該任務(wù)不再依賴于對真實數(shù)據(jù)的手工標(biāo)注,因此可以擴展到更大規(guī)模、更多樣化的真實數(shù)據(jù)上,從而提高模型的泛化能力。在實現(xiàn)“開箱即用”的行人再辨識方法中,該任務(wù)是更具潛力且成本低廉的方案。
值得注意的是,無論如何,一個完全公平的比較是不可行的,因為王文昊只使用了無標(biāo)簽的真實數(shù)據(jù)(盡管有額外的合成數(shù)據(jù)),而其他方法均使用了有標(biāo)簽的真實數(shù)據(jù)。所以,和 的算法在Market1501,CUHK03-NP 和 MSMT17三個數(shù)據(jù)集上進行比較,比較的結(jié)果只是用來輔助對比完全不使用手工標(biāo)簽的方案可以達到多高的準(zhǔn)確度。
因此,王文昊進一步采用其他創(chuàng)新的方法來提高性能。第一,直接將虛擬數(shù)據(jù)和真實數(shù)據(jù)相結(jié)合增加了源域的多樣性和規(guī)模。第二,域平衡損失函數(shù)進一步強制網(wǎng)絡(luò)學(xué)習(xí)到了域不變的特征并最小化了合成數(shù)據(jù)和真實數(shù)據(jù)之間的域差異。
王文昊提出的 DomainMix 框架和 的算法在Market1501,CUHK03-NP 和 MSMT17三個數(shù)據(jù)集上進行比較,結(jié)果證明王文昊提出的無需人工標(biāo)注的方法對于域泛化行人再辨識具有優(yōu)越性。
王文昊提出了一個更實用、更具普適性的行人再辨識任務(wù),即如何將有標(biāo)簽的合成數(shù)據(jù)集與無標(biāo)簽的真實世界數(shù)據(jù)相結(jié)合,以訓(xùn)練出更具有泛化能力的開箱即用的模型。為了解決這個問題,王文昊提出了DomainMix框架,完全消除了人工標(biāo)注的需求,縮小了合成數(shù)據(jù)和真實數(shù)據(jù)之間的差距,在完全無手工標(biāo)注的情況下學(xué)習(xí)可以泛化的行人再辨識,這樣可以利用真實世界中大規(guī)模且多樣化的無標(biāo)簽數(shù)據(jù)。大量實驗表明,王文昊提出的無需人工標(biāo)注的方法對于域泛化行人再辨識具有優(yōu)越性。
投稿郵箱:chuanbeiol@163.com 詳情請訪問川北在線:http://sanmuled.cn/