當(dāng)前位置：首頁 > 最新資訊 > 行業(yè)資訊

積木式深度學(xué)習(xí)的正確玩法

沃卡惠
行業(yè)資訊
2022-12-02 08:44:04
89

在距今980年前的北宋仁宗慶歷年間，一場(chǎng)關(guān)于知識(shí)的革命在華夏大地正悄然發(fā)生。

這一切的導(dǎo)火索，并非那些身居廟堂的圣賢之言，而是一塊塊燒制規(guī)整的刻字泥坯。

這場(chǎng)革命，正是「活字印刷術(shù)」。

活字印刷的精妙之處在于其中「積木拼裝」的思想：工匠先制成單字的陽文反文字模，再按照稿件把單字挑選出來刷墨拓印，這些字模可按需求多次使用。

相比于雕版印刷術(shù)「一印一版」的繁瑣工藝，模塊化-按需組裝-多次使用的工作模式幾何倍數(shù)地提高印刷術(shù)的工作效率，也為千年來人類的文明發(fā)展傳承奠定了基礎(chǔ)。

回歸到深度學(xué)習(xí)領(lǐng)域，在大預(yù)訓(xùn)練模型風(fēng)行的今天，如何將一系列大模型的能力遷移到下游特定任務(wù)中已經(jīng)成為一個(gè)關(guān)鍵問題。

以往的知識(shí)遷移或復(fù)用方法類似「雕版印刷」：我們往往需要按照任務(wù)需求訓(xùn)練新的完整模型。這些方法往往伴隨著極大地訓(xùn)練成本，并難以擴(kuò)展到大量的任務(wù)當(dāng)中。

于是一個(gè)很自然的想法產(chǎn)生了：我們是否可以通過把神經(jīng)網(wǎng)絡(luò)，也看作一個(gè)個(gè)積木的拼裝，并通過對(duì)已有網(wǎng)絡(luò)進(jìn)行重組裝的方式，獲得新的網(wǎng)絡(luò)，并以此進(jìn)行遷移學(xué)習(xí)呢？?

在NeurIPS 2022上，來自新加坡國(guó)立大學(xué)LVlab的團(tuán)隊(duì)就提出了一種全新的遷移學(xué)習(xí)范式，稱為《Deep Model Reassembly》深度模型重組。

作者首先將已有的預(yù)訓(xùn)練模型按照功能相似度拆解成一個(gè)個(gè)子網(wǎng)絡(luò)，再通過把子網(wǎng)絡(luò)重新組裝的方式，構(gòu)建在特定任務(wù)上高效且易用的模型。

該論文以886的評(píng)分被NeurIPS接收，并被推薦為Paper Award Nomination。

本文中，作者探索了一種新的知識(shí)遷移任務(wù)，稱為深度模型重組（Deep Model Reassembly, 簡(jiǎn)稱DeRy），用于通用模型重用。

給定一組在不同數(shù)據(jù)和異構(gòu)架構(gòu)上訓(xùn)練得到的預(yù)訓(xùn)練模型，深度模型重組首先將每個(gè)模型拆分為獨(dú)立的模型塊，然后有選擇地以在硬件和性能約束下對(duì)子模型塊重新組裝。

該方法類似于將深度神經(jīng)網(wǎng)絡(luò)模型當(dāng)作成積木：將已有大積木拆解成為一個(gè)個(gè)小積木塊，然后將零件按照需求組裝起來。組裝起來的新模型不但應(yīng)具備更強(qiáng)的性能；且組裝過程應(yīng)盡可能不改變?cè)K的結(jié)構(gòu)和參數(shù)，保證其的高效性。

把深度模型打散并重組

本文的方法可分為兩部分。DeRy首先求解一個(gè)覆蓋集問題（Set Cover Problem）并對(duì)所有預(yù)訓(xùn)練網(wǎng)絡(luò)按照功能級(jí)進(jìn)行拆分；第二步中，DeRy將模型拼裝形式化為一個(gè)0-1整數(shù)規(guī)劃問題，保證組裝后模型在特定任務(wù)上性能最佳。

深度模型重組（Deep Model Reassembly)

首先作者對(duì)深度模型重組裝的問題進(jìn)行定義：給定個(gè)訓(xùn)練好的深度模型，稱作一個(gè)模型庫。

每一個(gè)模型由層鏈接組合而成，表示為。不同的網(wǎng)絡(luò)可以擁有完全不同的結(jié)構(gòu)和操作，只要保證模型是一層一層連接而成。

給定一個(gè)任務(wù)，希望找到在上效果最佳的層混合模型，且模型的計(jì)算量滿足一定的限制：

在任務(wù)上的性能；表示第個(gè)模型的第層操作；

該問題需要搜索對(duì)所有模型層的所有排列，以期最大化收益。從本質(zhì)而言，這一任務(wù)牽涉一個(gè)極其復(fù)雜的組合優(yōu)化。

為了簡(jiǎn)化搜索成本，本文首先將模型庫模型從深度方向拆分開，形成一些更淺更小的子網(wǎng)絡(luò)；然后進(jìn)行子網(wǎng)絡(luò)層次上的拼接搜索。

按照功能級(jí)對(duì)網(wǎng)絡(luò)進(jìn)行拆分

DeRy的第一步在于把深度學(xué)習(xí)模型像積木一樣拆解開。作者采用了在深度上的網(wǎng)絡(luò)拆分方式，將深層模型拆分為一些較淺的小模型。

文中希望拆開的子模型盡可能擁有不同的功能性。這一過程可以類比于把積木拆解，并分門別類放入玩具箱的過程：相似的積木被放在一起，不同的積木被拆開。

例如，將模型拆分為底層和高層，并期待底層主要負(fù)責(zé)識(shí)別曲線或形狀等局部模式，而高層能判斷樣本的整體語義。

使用一般的特征相似度衡量指標(biāo)，可以對(duì)任意模型的功能四相似度進(jìn)行量化的度量。

其中的關(guān)鍵思想在于，對(duì)于相似的輸入，相同功能的神經(jīng)網(wǎng)絡(luò)能產(chǎn)生相似的輸出。

于是，對(duì)于兩個(gè)網(wǎng)絡(luò)和和起對(duì)應(yīng)的輸入張量X和X'，他們的功能相似性被定義為：

于是就可以通過功能相似性將模型庫劃分成為個(gè)功能等價(jià)集。

在每一個(gè)等價(jià)集中的子網(wǎng)絡(luò)擁有較高的功能相似度，同時(shí)每個(gè)模型的劃分保證模型庫的可分性。

這樣進(jìn)行拆解的一個(gè)核心好處在于，由于具有功能相似性，每一個(gè)等價(jià)集中的子網(wǎng)絡(luò)可以看做近似可交換的，即一個(gè)網(wǎng)絡(luò)塊可以被同一等價(jià)集的另一子網(wǎng)絡(luò)所替換，而不影響網(wǎng)絡(luò)預(yù)測(cè)。

上述拆分問題可以形式化為一個(gè)三層的有約束的優(yōu)化問題：

該問題的內(nèi)層優(yōu)化和一般的覆蓋集問題或的圖分割問題有較大的相似性。于是，作者使用一種啟發(fā)式的Kernighan-Lin (KL)算法對(duì)內(nèi)層進(jìn)行優(yōu)化。

其大意在于，對(duì)兩個(gè)隨機(jī)初始化的子模型，每次交換一層操作，如果該交換能增加評(píng)估函數(shù)的值，則保留這一交換；否則放棄這一交換。

這里的外層循環(huán)采取了一種K-Means的聚類算法。

對(duì)于每一次的網(wǎng)絡(luò)劃分，總是將每一個(gè)子網(wǎng)絡(luò)分配到中心距離與其最大的一個(gè)功能集。由于內(nèi)外層循環(huán)都是迭代式切有收斂性保證的，就能通過求解以上問題得到按照功能級(jí)的最優(yōu)子網(wǎng)絡(luò)拆分。

基于整數(shù)優(yōu)化的網(wǎng)絡(luò)組裝

網(wǎng)絡(luò)拆分將每個(gè)網(wǎng)絡(luò)分成個(gè)子網(wǎng)絡(luò)，每個(gè)子網(wǎng)絡(luò)屬于一個(gè)等價(jià)集。可以由此作為搜索空間，找到在下游任務(wù)上最優(yōu)的網(wǎng)絡(luò)拼接。

由于子模型的多樣性，這種網(wǎng)絡(luò)組裝是一個(gè)搜索空間較大的組合優(yōu)化問題，定義了一定的搜索條件：每次網(wǎng)絡(luò)組合從同一個(gè)功能集拿出一個(gè)網(wǎng)絡(luò)塊，并按照其在原始網(wǎng)絡(luò)中的位置進(jìn)行放置；合成的網(wǎng)絡(luò)需滿足計(jì)算量的限制。這一過程被描述為一個(gè)0-1整數(shù)優(yōu)化問題優(yōu)化。

為了進(jìn)一步減小每一次計(jì)算組合模型性能的訓(xùn)練開銷，作者借鑒了NAS訓(xùn)練中一種無需訓(xùn)練的替代函數(shù)，稱為NASWOT。由此，可以只是用網(wǎng)絡(luò)在指定數(shù)據(jù)集上的推理，來近似網(wǎng)絡(luò)的真實(shí)性能。

通過上述的拆分-重組過程，就能將不同的預(yù)訓(xùn)練模型拼接融合起來，以得到全新且更強(qiáng)的模型。

實(shí)驗(yàn)結(jié)果

模型重組適用于遷移學(xué)習(xí)

作者將一個(gè)包涵30個(gè)不同預(yù)訓(xùn)練網(wǎng)絡(luò)的模型庫盡心拆解重組，并在ImageNet和其他9個(gè)下游分類任務(wù)上進(jìn)行性能評(píng)估。

實(shí)驗(yàn)中采用了兩種不同的訓(xùn)練方式：Full-Tuning，表示對(duì)拼接之后的模型所有參數(shù)都進(jìn)行訓(xùn)練；Freeze-Tuning，表示只對(duì)拼接后的連接層進(jìn)行訓(xùn)練。

此外，還選擇了五種尺度的模型并進(jìn)行比較，稱為DeRy(,,)。

可以再上圖看到，在ImageNet數(shù)據(jù)集上，DeRy得到的不同尺度的模型都可以優(yōu)于或持平模型庫中大小相當(dāng)?shù)哪Ｐ汀?/p>

可以發(fā)現(xiàn)，即便只訓(xùn)練鏈接部分的參數(shù)，模型仍然可以獲得較強(qiáng)的性能增益。例如DeRy(4,90,20)的模型在只訓(xùn)練1.27M參數(shù)的條件下達(dá)到了78.6%的Top1準(zhǔn)確率。

同時(shí)在9個(gè)遷移學(xué)習(xí)的實(shí)驗(yàn)也驗(yàn)證了DeRy的有效性。可以看到在沒有預(yù)訓(xùn)練的情況下，DeRy的模型在各個(gè)模型大小的比較中都能優(yōu)于其他模型；通過對(duì)重新組裝的模型進(jìn)行持續(xù)預(yù)訓(xùn)練，模型性能還能夠有較大幅度的提升，達(dá)到紅色的曲線。

相比于其他的一些從模型庫做遷移學(xué)習(xí)的方法例如LEEP或LogME，DeRy可以超越模型庫本身的性能限制，甚至優(yōu)于原本模型庫中的最佳模型。

模型重組的性質(zhì)探究

作者也很好奇本文提出的模型重組的性質(zhì)，例如「模型會(huì)按照什么樣的模式進(jìn)行拆分？」和「模型會(huì)按照何種規(guī)則進(jìn)行重組？」。對(duì)此作者提供了實(shí)驗(yàn)進(jìn)行分析。

功能相似性，重組位置與重組性能?

作者探究了將同一個(gè)網(wǎng)絡(luò)塊被其他擁有不同功能相似度的網(wǎng)絡(luò)塊進(jìn)行替換后，Freeze-Tuning20個(gè)epoch的的性能對(duì)比。?

對(duì)在ImageNet上訓(xùn)練后的ResNet50, 將其第3和第4個(gè)stage的網(wǎng)絡(luò)塊，與ResNet101, ResNeXt50和RegNetY8G的不同網(wǎng)絡(luò)塊進(jìn)行替換。

可以觀察到，替換的位置對(duì)性能有極大的影響。

比如將第3個(gè)stage換成其他網(wǎng)絡(luò)的第3個(gè)stage，重組網(wǎng)絡(luò)的性能會(huì)特別強(qiáng)。同時(shí)，功能相似性也是和重組性能正向匹配的。

在同一深度的網(wǎng)絡(luò)模型塊有較大的相似度，導(dǎo)致了訓(xùn)練后有較強(qiáng)的模型能力。這指向了相似性-重組位置-重組性能三者的依存和正向關(guān)系。

拆分結(jié)果的觀察

下圖中，作者畫出了第一步拆分的結(jié)果。顏色代表網(wǎng)絡(luò)塊和美歌等價(jià)集中心網(wǎng)絡(luò)塊的相似性。

可以看到，本文提出的劃分傾向于將子網(wǎng)絡(luò)按照深度聚類在一起并加以拆分。同時(shí)CNN和Transformer的功能相似性數(shù)據(jù)較小，但CNN與不同架構(gòu)CNN之間功能相似性通常較大。

使用NASWOT作為性能指標(biāo)

由于本文第一次應(yīng)用NASWOT來進(jìn)行零訓(xùn)練遷移性預(yù)測(cè)，作者也對(duì)這一指標(biāo)的可靠性進(jìn)行了檢驗(yàn)。

在下圖中，作者計(jì)算不同模型愛不同數(shù)據(jù)集上NASWOT的分?jǐn)?shù)數(shù)值，并與遷移學(xué)習(xí)的準(zhǔn)確的準(zhǔn)確率加一對(duì)比。

可以觀察到，NASWOT分?jǐn)?shù)得到了較準(zhǔn)確的性能排序(Kendall's Tau相關(guān)性)。這表明本文使用的零訓(xùn)練指標(biāo)能有效預(yù)測(cè)模型的在下游數(shù)據(jù)的性能。

總結(jié)

本文提出了一種新的知識(shí)遷移任務(wù)，稱為深度模型重組 (Deep Model Reassembly, 簡(jiǎn)稱DeRy)。他通過打散已有異質(zhì)預(yù)訓(xùn)練模型并重新組裝的方式，來構(gòu)造與下游任務(wù)適配的模型。

作者提出了一個(gè)簡(jiǎn)單的兩階段實(shí)現(xiàn)方式來完成這一任務(wù)。首先，DeRy求解一個(gè)覆蓋集問題并對(duì)所有預(yù)訓(xùn)練網(wǎng)絡(luò)按照功能級(jí)進(jìn)行拆分；第二步中，DeRy將模型拼裝形式化為一個(gè)0-1整數(shù)規(guī)劃問題，保證組裝后模型在特定任務(wù)上性能最佳。

該工作不但收獲了較強(qiáng)的性能提升，同時(shí)也映射出了不同神經(jīng)網(wǎng)絡(luò)之間可能存在的連接性。

上一篇：科學(xué)家造出首個(gè)蟲洞

下一篇：2023年企業(yè)需要關(guān)注的是大元宇宙發(fā)展趨勢(shì)