精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

當前位置:首頁 > 最新資訊 > 行業資訊

積木式深度學習的正確玩法

在距今980年前的北宋仁宗慶歷年間,一場關于知識的革命在華夏大地正悄然發生。

這一切的導火索,并非那些身居廟堂的圣賢之言,而是一塊塊燒制規整的刻字泥坯。

這場革命,正是「活字印刷術」。

活字印刷的精妙之處在于其中「積木拼裝」的思想:工匠先制成單字的陽文反文字模,再按照稿件把單字挑選出來刷墨拓印,這些字??砂葱枨蠖啻问褂?。

相比于雕版印刷術「一印一版」的繁瑣工藝,模塊化-按需組裝-多次使用的工作模式幾何倍數地提高印刷術的工作效率,也為千年來人類的文明發展傳承奠定了基礎。

回歸到深度學習領域,在大預訓練模型風行的今天,如何將一系列大模型的能力遷移到下游特定任務中已經成為一個關鍵問題。

以往的知識遷移或復用方法類似「雕版印刷」:我們往往需要按照任務需求訓練新的完整模型。這些方法往往伴隨著極大地訓練成本,并難以擴展到大量的任務當中。

于是一個很自然的想法產生了:我們是否可以通過把神經網絡,也看作一個個積木的拼裝,并通過對已有網絡進行重組裝的方式,獲得新的網絡,并以此進行遷移學習呢??

?

在NeurIPS 2022上,來自新加坡國立大學LVlab的團隊就提出了一種全新的遷移學習范式,稱為《Deep Model Reassembly》深度模型重組。

作者首先將已有的預訓練模型按照功能相似度拆解成一個個子網絡,再通過把子網絡重新組裝的方式,構建在特定任務上高效且易用的模型。

該論文以886的評分被NeurIPS接收,并被推薦為Paper Award Nomination。

本文中,作者探索了一種新的知識遷移任務,稱為深度模型重組(Deep Model Reassembly, 簡稱DeRy),用于通用模型重用。

給定一組在不同數據和異構架構上訓練得到的預訓練模型,深度模型重組首先將每個模型拆分為獨立的模型塊,然后有選擇地以在硬件和性能約束下對子模型塊重新組裝。

該方法類似于將深度神經網絡模型當作成積木:將已有大積木拆解成為一個個小積木塊,然后將零件按照需求組裝起來。組裝起來的新模型不但應具備更強的性能;且組裝過程應盡可能不改變原模塊的結構和參數,保證其的高效性。

把深度模型打散并重組

本文的方法可分為兩部分。DeRy首先求解一個覆蓋集問題(Set Cover Problem)并對所有預訓練網絡按照功能級進行拆分;第二步中,DeRy將模型拼裝形式化為一個0-1整數規劃問題,保證組裝后模型在特定任務上性能最佳。

深度模型重組(Deep Model Reassembly)

首先作者對深度模型重組裝的問題進行定義:給定個訓練好的深度模型,稱作一個模型庫。

每一個模型由層鏈接組合而成, 表示為。不同的網絡可以擁有完全不同的結構和操作,只要保證模型是一層一層連接而成。

給定一個任務,希望找到在上效果最佳的層混合模型,且模型的計算量滿足一定的限制:

在任務上的性能;表示第個模型的第層操作;

該問題需要搜索對所有模型層的所有排列,以期最大化收益。從本質而言,這一任務牽涉一個極其復雜的組合優化。

為了簡化搜索成本,本文首先將模型庫模型從深度方向拆分開,形成一些更淺更小的子網絡;然后進行子網絡層次上的拼接搜索。

按照功能級對網絡進行拆分

DeRy的第一步在于把深度學習模型像積木一樣拆解開。作者采用了在深度上的網絡拆分方式,將深層模型拆分為一些較淺的小模型。

文中希望拆開的子模型盡可能擁有不同的功能性。這一過程可以類比于把積木拆解,并分門別類放入玩具箱的過程:相似的積木被放在一起,不同的積木被拆開。

例如,將模型拆分為底層和高層,并期待底層主要負責識別曲線或形狀等局部模式,而高層能判斷樣本的整體語義。

使用一般的特征相似度衡量指標,可以對任意模型的功能四相似度進行量化的度量。

其中的關鍵思想在于,對于相似的輸入,相同功能的神經網絡能產生相似的輸出。

于是,對于兩個網絡和和起對應的輸入張量X和X',他們的功能相似性被定義為:

于是就可以通過功能相似性將模型庫劃分成為個功能等價集。

在每一個等價集中的子網絡擁有較高的功能相似度,同時每個模型的劃分保證模型庫的可分性。

這樣進行拆解的一個核心好處在于,由于具有功能相似性,每一個等價集中的子網絡可以看做近似可交換的,即一個網絡塊可以被同一等價集的另一子網絡所替換,而不影響網絡預測。

上述拆分問題可以形式化為一個三層的有約束的優化問題:

該問題的內層優化和一般的覆蓋集問題或的圖分割問題有較大的相似性。于是,作者使用一種啟發式的Kernighan-Lin (KL)算法對內層進行優化。

其大意在于,對兩個隨機初始化的子模型,每次交換一層操作,如果該交換能增加評估函數的值,則保留這一交換;否則放棄這一交換。

這里的外層循環采取了一種K-Means的聚類算法。

對于每一次的網絡劃分,總是將每一個子網絡分配到中心距離與其最大的一個功能集。由于內外層循環都是迭代式切有收斂性保證的,就能通過求解以上問題得到按照功能級的最優子網絡拆分。

基于整數優化的網絡組裝

網絡拆分將每個網絡分成個子網絡,每個子網絡屬于一個等價集。可以由此作為搜索空間,找到在下游任務上最優的網絡拼接。

由于子模型的多樣性,這種網絡組裝是一個搜索空間較大的組合優化問題,定義了一定的搜索條件:每次網絡組合從同一個功能集拿出一個網絡塊,并按照其在原始網絡中的位置進行放置;合成的網絡需滿足計算量的限制。這一過程被描述為一個0-1整數優化問題優化。

為了進一步減小每一次計算組合模型性能的訓練開銷,作者借鑒了NAS訓練中一種無需訓練的替代函數,稱為NASWOT。由此,可以只是用網絡在指定數據集上的推理,來近似網絡的真實性能。

通過上述的拆分-重組過程,就能將不同的預訓練模型拼接融合起來,以得到全新且更強的模型。

實驗結果

模型重組適用于遷移學習

作者將一個包涵30個不同預訓練網絡的模型庫盡心拆解重組,并在ImageNet和其他9個下游分類任務上進行性能評估。

實驗中采用了兩種不同的訓練方式:Full-Tuning,表示對拼接之后的模型所有參數都進行訓練;Freeze-Tuning,表示只對拼接后的連接層進行訓練。

此外,還選擇了五種尺度的模型并進行比較,稱為DeRy(,,)。

可以再上圖看到,在ImageNet數據集上,DeRy得到的不同尺度的模型都可以優于或持平模型庫中大小相當的模型。

可以發現,即便只訓練鏈接部分的參數,模型仍然可以獲得較強的性能增益。例如DeRy(4,90,20)的模型在只訓練1.27M參數的條件下達到了78.6%的Top1準確率。

同時在9個遷移學習的實驗也驗證了DeRy的有效性??梢钥吹皆跊]有預訓練的情況下,DeRy的模型在各個模型大小的比較中都能優于其他模型;通過對重新組裝的模型進行持續預訓練,模型性能還能夠有較大幅度的提升,達到紅色的曲線。

相比于其他的一些從模型庫做遷移學習的方法例如LEEP或LogME,DeRy可以超越模型庫本身的性能限制,甚至優于原本模型庫中的最佳模型。

模型重組的性質探究

作者也很好奇本文提出的模型重組的性質,例如「模型會按照什么樣的模式進行拆分?」和「模型會按照何種規則進行重組?」。對此作者提供了實驗進行分析。

功能相似性,重組位置與重組性能?

作者探究了將同一個網絡塊被其他擁有不同功能相似度的網絡塊進行替換后,Freeze-Tuning20個epoch的的性能對比。?

對在ImageNet上訓練后的ResNet50, 將其第3和第4個stage的網絡塊, 與ResNet101, ResNeXt50和RegNetY8G的不同網絡塊進行替換。

可以觀察到,替換的位置對性能有極大的影響。

比如將第3個stage換成其他網絡的第3個stage,重組網絡的性能會特別強。同時,功能相似性也是和重組性能正向匹配的。

在同一深度的網絡模型塊有較大的相似度,導致了訓練后有較強的模型能力。這指向了相似性-重組位置-重組性能三者的依存和正向關系。

拆分結果的觀察

下圖中,作者畫出了第一步拆分的結果。顏色代表網絡塊和美歌等價集中心網絡塊的相似性。

可以看到,本文提出的劃分傾向于將子網絡按照深度聚類在一起并加以拆分。同時CNN和Transformer的功能相似性數據較小,但CNN與不同架構CNN之間功能相似性通常較大。

使用NASWOT作為性能指標

由于本文第一次應用NASWOT來進行零訓練遷移性預測,作者也對這一指標的可靠性進行了檢驗。

在下圖中,作者計算不同模型愛不同數據集上NASWOT的分數數值,并與遷移學習的準確的準確率加一對比。

可以觀察到,NASWOT分數得到了較準確的性能排序(Kendall's Tau相關性)。這表明本文使用的零訓練指標能有效預測模型的在下游數據的性能。

總結

本文提出了一種新的知識遷移任務,稱為深度模型重組 (Deep Model Reassembly, 簡稱DeRy)。他通過打散已有異質預訓練模型并重新組裝的方式,來構造與下游任務適配的模型。

作者提出了一個簡單的兩階段實現方式來完成這一任務。首先,DeRy求解一個覆蓋集問題并對所有預訓練網絡按照功能級進行拆分;第二步中,DeRy將模型拼裝形式化為一個0-1整數規劃問題,保證組裝后模型在特定任務上性能最佳。

該工作不但收獲了較強的性能提升,同時也映射出了不同神經網絡之間可能存在的連接性。

猜你喜歡