曠視科技孫劍團隊首次披露AutoML相關成果,通過構建一個簡化的超網絡來解決訓練過程中面對的主要挑戰。在在ImageNet上的實驗結果超過了谷歌、Facebook等AutoML技術的成績。
曠視首次曝光自家AutoML技術。
今天,曠視科技首席科學家孫劍團隊發布論文Single Path One-Shot Neural Architecture Search with Uniform Sampling,首次披露AutoML中的重要子領域神經結構搜索的最新成果——單路徑One-Shot模型。
單路徑One-Shot模型用來解決訓練過程中面對的主要挑戰,其核心思想是構建一個簡化的超網絡——單路徑超網絡(Single Path Supernet),這個網絡按照均勻的路徑采樣方法進行訓練,在ImageNet上的實驗證明,這一方法在精度、內存消耗、訓練時間、模型搜索的有效性及靈活性方面結果最優,超過了谷歌、Facebook等公司AutoML技術的成績。
設計神經網絡非常耗費時間,并且需要專業知識,幾年前谷歌創建了AutoML的方法,通常使用強化學習或進化算法來設計新的神經網絡架構,也證明神經網絡可以設計神經網絡。
論文的作者之一、曠視上海研究院負責人危夷晨表示,深度學習是非常通用的技術,但在實際落地時會面臨在不同行業、不同場景、不同計算設備上尋找最優算法和工程實現的問題。自動神經網絡搜索是用“計算換智能”的新范式,可以極大地加速我們的產品及解決方案在各行業的落地。
單路徑One-Shot模型:模型搜索框架的新變體
深度學習終結了手工設計特征的時代,同時解決了權重優化問題。NAS(神經網絡模型搜索)則旨在通過另一個方法——模型搜索(architecture search),終結人工設計架構。
早期的NAS方法使用嵌套式優化,從搜索空間采樣出模型結構,接著從頭訓練其權重,缺點是對于大型數據集來講計算量過大。新近的NAS方法則采用權重共享策略減少計算量。本文提出的超網絡則包含所有子結構,只訓練一次,所有子結構便可以直接從超網絡獲得其權重,無需從頭訓練。即使在大型數據集上,計算也十分高效。
大多數權重共享方法使用連續的搜索空間,將模型結構分布不斷參數化。這些參數在超網絡訓練期間與網絡權重進行聯合優化。因此可以在優化時進行模型搜索,從分布中采樣最優的架構。其公式化表示優雅而理論完備。但是存在兩個問題:
第一,超網絡的權重深度耦合。目前尚不清楚為什么特定結構的復用權重(inherited weights)依然有效。
第二,聯合優化導致了模型參數和超網絡權重的進一步耦合。梯度方法的貪婪天性不可避免地在結構分布和超網絡權重中引入偏差。這很容易誤導模型搜索。精細地微調超參數和優化過程被用于先前方法之中。
One-shot(一步法)是一種新范式。它定義了超網絡,并以相似的方式做權重復用。但是并沒有將模型結構分布參數化。模型搜索從超網絡訓練中解耦,并且解決步驟是獨立的。因此,One-shot具有序列性。它結合了上述嵌套式和聯合式優化方法的優點,因此靈活而高效。
盡管第二個問題已解決,現有One-shot并未很好地解決第一個問題。超網絡的權重依然耦合。優化依然復雜,并包含敏感的超參數,導致在大型數據集上表現欠佳。
曠視提出方法的動機旨在吸收One-shot的優點,克服其缺點。One-shot成功的關鍵是使用復用權重的模型的精度可以用來預測從頭訓練模型的精度。因此,曠視研究院提出,超網絡訓練應是隨機的。這樣所有子結構的權重能夠被同時且均勻地優化。
為減少超網絡的權重耦合,曠視研究院提出一個單路徑超網絡,在每次迭代訓練中只有單路徑結構被激活。訓練中不需要任何超參數來指導子結構的選擇,采用均勻采樣的方式,平等對待所有子結構。
本文方法簡單而靈活,超網絡訓練中沒有超參數。其簡易性允許設計豐富的搜索空間,包括新設計通道單元和位寬單元。模型搜索過程十分高效,因為只需要基于超網絡的權重進行前向計算。進化算法則用來輕松支持多種約束。
綜合性消融實驗及在大型數據集(ImageNet)上的實驗證明了這一方法在精度、內存消耗、訓練時間、模型搜索的有效性及靈活性方面都表現良好,達到了當前最優的結果。
方法詳解
如上所述,耦合式模型搜索和權重優化是存在挑戰和問題的。通過回顧發現,早期使用嵌套優化的 NAS 方法在于解決公式 (1) 和 (2) 的優化問題,這不禁引起思考,問題解耦和權重共享的優點是否可以兼得?
這一考慮誕生了所謂的 One-shot 。這些方法依然只訓練一次超網絡,并允許各結構共享其中的權重。
但是,超網絡訓練及模型搜索作為先后次序的兩個步驟是解耦的。請注意,這不同于嵌套優化或聯合優化。
首先,超網絡權重被優化為:
相比公式 (4)
公式 (5) 已經不存在搜索空間的連續參數化,只有網絡權重被優化。
其次,搜索部分被表示為:
公式 (6) 與公式 (1) 、 (2) 的最大區別是其權重是預先初始化的。評估僅需要推理。沒有微調或者再訓練。因此搜索非常有效。
通過借助進化算法,搜索同樣非常靈活。像等式 (3)
對模型結構進行的約束可以精確地滿足。并且一旦訓練好一個超網絡,可在同一超網絡內基于不同約束(比如 100ms 和 200ms 延遲)重復搜索。這些特性是先前方法所缺失的,將使 One-Shot NAS 方法對實際任務更具吸引力。
但依然存在一個問題。在等式 (5) 中,超網絡訓練的圖節點權重是耦合的,復用權重是否適用于任意子結構尚不清楚。
單路徑超網絡和均勻采樣
按照基本原理重新出發,會使 One-Shot 范式更有效。在等式 (5) 中,模型搜索成功的關鍵在于,在驗證集中,使用復用權重(沒有額外的微調)的任意子結構的精度是高度可信的。正如等式 (1) 是理想情況,需要權重
近似最優權重
。近似的效果和訓練損失函數
被最小化的程度成正比。這推導出一個原則:超網絡權重
的優化應當與搜索空間中所有子結構的優化同時進行。這可表示為:
請注意,等式 (7) 是等式 (5) 的實現。在優化的每一步中,子結構是隨機采樣的,只有對應的權重被激活和更新。這不僅節省內存空間,而且高效。由此,超網絡本身不再是一個有效的網絡,而變成一個隨機的網絡。
為減少節點權重之間的協同適應,曠視研究院提出最大化簡化搜索空間。它只包含單一路徑架構,如圖 1 所示。
圖 1:單一路徑超網絡架構圖
在每次訓練時僅保留一個。不存在任何調優。訓練在本文實驗中收斂良好。
先驗分布很重要。曠視研究員通過實驗發現,均勻采樣已經足夠好。這并不讓人驚訝。這是因為實際任務常常期望有多個模型結構,以滿足不同的約束。圖 2 表明,兩個采樣方法皆工作良好,均勻約束采樣方法表現稍好,本文默認使用它。
圖 2:不同采樣策略的單路徑超網絡的進化模型搜索
2025-03-28 08:34
2025-03-28 08:31
2025-03-28 08:28
2025-03-28 08:27
2025-03-28 08:27
2025-03-28 08:26
2025-03-28 08:25
2025-03-28 08:24
2025-03-28 08:22