谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓(xùn)練機(jī)器人

2019-01-24 09:04 性質(zhì)：轉(zhuǎn)載作者：雷鋒網(wǎng) 來源：雷鋒網(wǎng)

免責(zé)聲明：AGV網(wǎng)（www.xmydyc.com)尊重合法版權(quán)，反對侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點，與本網(wǎng)無關(guān)。如有需要刪除，敬請來電商榷！）

雷鋒網(wǎng) AI 科技評論按：相比于傳統(tǒng)方式中需要工程人員手動設(shè)計機(jī)器人每一個動作的精確參數(shù)，AI 時代的研究人員們有了一種全自動化的、有著廣闊前景的新學(xué)習(xí)方式：深度強(qiáng)化學(xué)習(xí)可以讓...

雷鋒網(wǎng) AI 科技評論按：相比于傳統(tǒng)方式中需要工程人員手動設(shè)計機(jī)器人每一個動作的精確參數(shù)，AI 時代的研究人員們有了一種全自動化的、有著廣闊前景的新學(xué)習(xí)方式：深度強(qiáng)化學(xué)習(xí)可以讓機(jī)器人從經(jīng)驗、從與世界的互動中直接學(xué)習(xí)行為，因為它可以借助通用化的神經(jīng)網(wǎng)絡(luò)表示，處理復(fù)雜的傳感器輸入。然而，許多現(xiàn)有的強(qiáng)化學(xué)習(xí)算法都需要幾天、幾周甚至更久時長的真實世界數(shù)據(jù)才能收斂到比較理想的動作。更重要的是，這樣的系統(tǒng)很難在復(fù)雜的機(jī)器人系統(tǒng)上使用（比如多足機(jī)器人），在系統(tǒng)的探索學(xué)習(xí)過程中很容易就會損傷到機(jī)器人的機(jī)械部件，同時還難以調(diào)節(jié)超參數(shù)，許多安全方面的考量也可能帶來更多的限制。

近期，谷歌 AI 與 UC 伯克利大學(xué)合作研發(fā)了一種新的強(qiáng)化學(xué)習(xí)算法 Soft Actor-Critic（SAC）。這是一種穩(wěn)定、高效的深度強(qiáng)化學(xué)習(xí)算法，它高度符合機(jī)器人實驗的需求，也就非常適合真實世界中的機(jī)器人技能學(xué)習(xí)。重點是，SAC 的學(xué)習(xí)效率足夠高，可以在數(shù)個小時內(nèi)學(xué)會解決真實世界的機(jī)器人問題，而且同一套超參數(shù)可以在多種不同的環(huán)境中工作。

谷歌 AI 撰寫博客介紹了 SAC 背后的一些研究工作，也介紹了相關(guān)的實驗結(jié)果。雷鋒網(wǎng) AI 科技評論編譯如下。另外可以參見 OpenAI 先在模擬環(huán)境中訓(xùn)練機(jī)器人，然后高效地遷移到真實機(jī)器人的研究。

在真實世界中學(xué)習(xí)機(jī)器人的要求

真實世界的機(jī)器人實驗有著一些重大的挑戰(zhàn)，比如硬件失效和人工重置會導(dǎo)致數(shù)據(jù)流經(jīng)常中斷，以及需要讓探索學(xué)習(xí)過程平滑，避免快速的機(jī)械磨損或者撞擊破壞，這都對算法理論和算法的實現(xiàn)增加了額外的限制，包括以下（但不限于）：

有較高的樣本效率，以便降低學(xué)習(xí)時間；需要調(diào)節(jié)的超參數(shù)的數(shù)量盡量小；能在不同的場景中重復(fù)使用已經(jīng)采集到的數(shù)據(jù)（也被稱作“無策略學(xué)習(xí)”）；確保探索學(xué)習(xí)過程不損壞硬件；Soft Actor-Critic

Soft Actor-Critic 是基于最大熵強(qiáng)化學(xué)習(xí)開發(fā)的，這是一種嘗試讓預(yù)期回報最大化（標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)目標(biāo)），同時也讓策略的熵最大化的框架。熵更高的策略具有更高的隨機(jī)性，從直覺上看來，這意味著最大熵強(qiáng)化學(xué)習(xí)會學(xué)習(xí)出能取得高回報的策略中具有最高隨機(jī)性的那個策略。

為什么在機(jī)器人學(xué)習(xí)中這是一件好事呢？一個明顯的原因是，為最大熵優(yōu)化的策略會更為魯棒：如果策略在訓(xùn)練過程中能夠允許高度隨機(jī)的動作，那么它在測試時候也就更有可能可以順利地應(yīng)對預(yù)期不到的擾動。不過更穩(wěn)妥的理由是，最大熵訓(xùn)練不僅可以提高算法對超參數(shù)的魯棒性，也可以提高它的采樣效率。

Soft Actor-Critic 會學(xué)習(xí)一個隨機(jī)策略，這個策略會把狀態(tài)映射到動作以及一個 Q 函數(shù)，這個 Q 函數(shù)會估計當(dāng)前策略的目標(biāo)價值，并通過逼近動態(tài)編程優(yōu)化它們。通過這樣的方式，Soft Actor-Critic 可以讓經(jīng)過熵強(qiáng)化的回報最大化。在這個過程中，SAC 會把目標(biāo)看作一個絕對真的方法來導(dǎo)出更好的強(qiáng)化學(xué)習(xí)算法，它們的表現(xiàn)穩(wěn)定，而且有足夠高的樣本效率，可以用在真實世界的機(jī)器人應(yīng)用中。

SAC 的表現(xiàn)

研究人員們在兩個任務(wù)中評估了算法的表現(xiàn)：1，Ghost Robotics 環(huán)境中 Minitaur 四足機(jī)器人的行走；2，用一個三指動力爪轉(zhuǎn)動閥門。學(xué)習(xí)行走這件事當(dāng)然是一個不小的挑戰(zhàn)了，由于機(jī)器人是欠驅(qū)動的，所以機(jī)器人需要學(xué)會如何在四只腿之間平衡接觸力的大小，這樣才能持續(xù)往前走。未經(jīng)訓(xùn)練的策略會讓機(jī)器人失去平衡摔倒，而如果摔了太多次，最終是有可能把機(jī)器人摔壞的。樣本高效的學(xué)習(xí)在這時候也就非常關(guān)鍵。

雖然研究人員們是在平地上訓(xùn)練的機(jī)器人行走策略，但稍后的測試階段是在多種不同的地面狀況和障礙物上進(jìn)行的。理論上來說，通過 SAC 學(xué)習(xí)到的策略在測試時遇到擾動的時候也應(yīng)當(dāng)是魯棒的。而實際上研究人員們也觀察到，通過他們的方法學(xué)習(xí)到的策略不需要任何額外的學(xué)習(xí)就可以應(yīng)對這些擾動。

訓(xùn)練

測試 1

測試 2

測試 3

下面這個操控任務(wù)需要機(jī)械手轉(zhuǎn)動一個類似閥門的物體，目標(biāo)是讓藍(lán)色的一面朝向右側(cè)。這個任務(wù)尤其有挑戰(zhàn)性，不僅任務(wù)的理解感知有難度，而且還需要控制這個具有 9 個自由度的機(jī)械手。為了能夠感知這個閥門，機(jī)器人必須要使用來自攝像頭的原始 RGB 圖像輸入（如圖右下角）。對于每一輪嘗試，閥門的位置都會重新設(shè)定到一個隨機(jī)角度，迫使策略學(xué)習(xí)如何根據(jù) RGB 圖像輸入感知當(dāng)前的閥門角度。

對于這兩個任務(wù)，SAC 都能很快地解決：前一個四足機(jī)器人任務(wù)學(xué)了 2 個小時，后一個觀察圖像、轉(zhuǎn)動閥門的任務(wù)學(xué)習(xí)了 20 個小時。研究人員們也為轉(zhuǎn)動閥門任務(wù)學(xué)習(xí)了一個無需圖像輸入的策略，他們把其它方式采集到的閥門角度作為觀察結(jié)果輸入給策略，在這種簡單的設(shè)置下 SAC 只需要 3 個小時就可以學(xué)會解決這個任務(wù)。相比之下，更早的使用自然策略梯度的研究學(xué)習(xí)同一個無需圖像輸入的任務(wù)需要花 7.4 個小時。

結(jié)論

這項研究展示了基于熵最大化框架的深度強(qiáng)化學(xué)習(xí)可以用來在有挑戰(zhàn)性的真實世界環(huán)境中學(xué)習(xí)機(jī)器人技能。由于這些策略是直接在真實世界中學(xué)習(xí)到的，它們對環(huán)境中的變化表現(xiàn)出了魯棒性，這通過其他方式是很難獲得的。研究人員們也展示了他們可以直接從高維圖像觀察中學(xué)習(xí)，這對經(jīng)典機(jī)器人控制來說也是一個很大的挑戰(zhàn)。研究人員們希望 SAC 的發(fā)表可以幫助其他的研究團(tuán)隊一同更好地把深度強(qiáng)化學(xué)習(xí)應(yīng)用在未來更多的復(fù)雜真實世界任務(wù)中。

0贊 0踩

下一篇 2019年值得關(guān)注的六大零售科技趨勢：無人便利店、機(jī)器人增多

上一篇 AGV鋰電池組，讓AGV物盡其用！

網(wǎng)友評論
文明上網(wǎng)，理性發(fā)言，拒絕廣告
0條評論

相關(guān)資訊
更多>>

美國工業(yè)車輛協(xié)會宣布第12屆全國叉車安全日將于6月10日舉行聚焦操作員培訓(xùn)與安全文化建設(shè)

2025年4月16日，美國工業(yè)車輛協(xié)會（Industrial Truck Association，簡稱ITA）正式宣布，第12屆全國叉車安全日（National Forklift Safety Day）將于2025年6月10日（星期二）在美國華盛頓特區(qū)...

2025-04-18 08:54
Automate 2025?（北美自動化展）5 月 12 日在底特律開幕

創(chuàng)紀(jì)錄的2024年Automate展會彰顯行業(yè)的快速增長和創(chuàng)新，A3 贊助的活動創(chuàng)下新紀(jì)錄，注冊人數(shù)達(dá) 42,895 人，比去年增長 40%。自 2019 年在芝加哥舉辦以來，Automate 的參與人數(shù)增加了一倍多。...

2025-04-18 08:53
秀出機(jī)器人產(chǎn)業(yè)硬實力！吳中亮相“中國第一展”！

出口展參展企業(yè)首次突破3萬家、首次增設(shè)服務(wù)機(jī)器人專區(qū)、首次新設(shè)集成房屋專區(qū)、首個城市美食文化活動……4月15日，第137屆中國進(jìn)出口商品交易會（廣交會）在廣州盛大啟幕，并以“開放共贏未來”的...

2025-04-17 08:16
物流機(jī)器人"小白"暖心上線，開啟醫(yī)藥服務(wù)"加速度"

在湛江市第一中醫(yī)醫(yī)院，一場科技與醫(yī)療的深度融合正悄然展開——智能物流機(jī)器人"小白"正式加入住院藥品配送隊伍，以科技之力為患者的健康護(hù)航。這位身披潔白戰(zhàn)袍的"配送員"，不僅是醫(yī)院智能化升級...

2025-04-17 08:13
《Roboticsandautomationnews》:2025年20強(qiáng)自動送貨機(jī)器人公司

作者：Mark Allinson早在 2019 年，當(dāng)我們發(fā)布類似的報告時，自動送貨機(jī)器人就是一種未來主義的奇觀——可愛、緩慢移動的箱子沿著人行道緩慢移動，主要在大學(xué)校園或試點項目中。快進(jìn)到2025年，A...

2025-04-16 10:55
央視點贊！京東物流智狼、地狼機(jī)器人助力激發(fā)消費(fèi)活力

今年以來，隨著消費(fèi)品以舊換新政策持續(xù)深入，3C和家電產(chǎn)品迎來換新熱潮。近日，央視記者探訪京東物流武漢“亞洲一號”智能產(chǎn)業(yè)園（簡稱“武漢亞一”），京東物流“智狼”穿梭版機(jī)器人、“地狼”智...

2025-04-16 08:50
【智能制造】搬運(yùn)工不好招？工人不愿意干？人工搬運(yùn)碰撞多？……——看AGV如何一車解千愁

2025-04-14 14:57
中國AGV網(wǎng)本周熱點回顧（2025年4月7日-4月12日)

AGV網(wǎng)(www.xmydyc.com)是中國自動導(dǎo)航機(jī)器人(AGV)和自主移動機(jī)器人(AMR)行業(yè)網(wǎng)站!團(tuán)隊擁有超過23年的行業(yè)垂直門戶運(yùn)營經(jīng)驗，多年來見證了傳統(tǒng)內(nèi)部物料搬運(yùn)從粗放化、低效率沿著更加智能化、...

2025-04-14 14:53
甘其毛都口岸AGV自動導(dǎo)引車今年跨境運(yùn)輸貨物突破100萬噸

截至4月7日，甘其毛都口岸AGV自動導(dǎo)引車今年跨境運(yùn)輸貨物突破100萬噸，達(dá)到100.7萬噸。AGV自動導(dǎo)引車跨境運(yùn)輸貨物甘其毛都口岸是中蒙兩國間貨運(yùn)量最大的公路口岸，占內(nèi)蒙古14個沿邊口岸貨運(yùn)總量的1...

2025-04-09 12:40
《人民日報》頭版頭條點贊極氪5G智慧工廠

2025年4月6日《人民日報》頭版頭條點贊極氪5G智慧工廠數(shù)字大腦融合AI人工智能以數(shù)字孿生驅(qū)動產(chǎn)品綠色研發(fā)以智能化生產(chǎn)牢控產(chǎn)品質(zhì)量以工業(yè)互聯(lián)網(wǎng)平臺實現(xiàn)高效協(xié)作打造新質(zhì)生產(chǎn)力智造新標(biāo)桿《人民日...

2025-04-08 08:51