移動智能機器人正在越來越多的非結構化環境中部署,它們有望在其中執行復雜的動態任務,例如自主移動和移動操縱。這種基于學習的機器人不僅需要獲取有關其環境的基本信息,而且還必須針對諸如對象檢測和語義分類之類的因素建立這種理解。
通常,在各種基于數據的預訓練靜態模型會部署在特定的基于學習的機器人系統中。因此,期望了解語義(即場景中發生的事情)的機器人將在其預訓練階段學習如何做到這一點。這種方法帶來了三個主要挑戰:可能需要對模型進行重新訓練以合并新數據;在適應新的任務和環境的同時,應保留獲得的知識;部署期間需要環境的訓練信號。
蘇黎世聯邦理工學院的研究團隊對建筑機器人的自我改進語義感知提出了一種新方法,該方法將持續學習和自我監督結合在一個新穎的機器人系統中,以實現對語義場景理解的在線終身自我監督學習。
在先前的工作中,已經在兩個框架(強化學習(RL)和用于模型預測控制的在線參數優化)下探索了自我改進學習型機器人代理的想法。在RL的情況下,機器人可以學習執行其所需的任務,例如行走、抓物體、飛行等。但一旦掌握了這些技能,學習的模型便會固定,這樣的機器人因此缺乏任何終身學習能力。用于模型預測控制框架的在線參數優化使機器人可以從在職學習中受益,但不會解決另一個問題:遺忘。
以前關于自我監督學習的許多研究都集中在學習卷積神經網絡中有用的圖像特征上。缺點是這些方法需要監督才能將學習到的功能與任何含義相關聯。其他方法旨在產生用于圖像分割的偽標簽,例如為圖像生成稀疏區域注釋的圖像分類器的類激活圖(CAM)。新論文通過使用環境的可觀察特征來生成用于目標任務的學習信號,同時利用相關任務中的現有注釋數據作為先驗知識來完善后一種方法。在后續學習中,從各種任務和領域的非平穩數據分布中訓練神經網絡模型,目的是優化每個任務的性能,以及在將知識從先前任務轉移到當前任務時保持性能。一種方法是存儲來自先前任務的所有數據,并為每個新任務從頭開始重新訓練網絡。但是,由于內存有限,這個方法不切實際,因為需要同時更新和部署模型。為了解決這個問題,研究人員提出了“重播緩沖區”,通過記憶功能來補充每個新環境中的訓練數據,該記憶功能可保留來自先前環境的有限數量的樣本。先前關于在語義分割的上下文中應用持續學習的研究通常假定源域和目標域在訓練時都是已知的,并且模型并未設計為在線更新。相反,蘇黎世聯邦理工學院的方法假定部署域事先未知,并且代理必須連續更新當前環境中的語義知識,而不會忘記以前看到的環境。
將這些部分放在一起,提出的自我改進感知系統將地圖內的本地化與場景的語義分段互連起來。研究人員基于地圖本地化創建偽標簽,以訓練語義分割,并使用此前景和背景分割來告知本地化,從而創建一個反饋環,從而對這兩個部分都進行改進。該團隊在增加復雜性的不同步驟和三種不同環境(建筑工地,停車場和辦公室)中評估了所提議框架的性能。為了進行自我改進能力測試,將機器人部署在不同的未知環境中,并對獲得的改進進行了測量。為了忘記和知識轉移效果評估,在不同環境之間切換了部署。他們還進行了一項實驗,以測試機器人的在線學習能力。
實驗結果驗證了該系統在多種環境下具有自我完善的能力,并且所提出的內存重放技術是緩解遺忘的有效解決方案,證明了該方法可以賦予機器人系統自我完善,持續不斷的在線學習能力。
文中圖片均來源于網絡
2025-04-02 09:01
2025-03-31 15:35
2025-03-31 15:33
2025-03-26 11:46
2025-03-26 11:45
2025-03-25 08:58
2025-03-24 11:41
2025-03-20 13:44
2025-03-17 12:35
2025-03-12 17:36