為了提升機(jī)器人完成操作任務(wù)(如抓取)的能力,卡耐基梅隆大學(xué)(CMU)和谷歌的研究人員讓機(jī)器人通過對抗訓(xùn)練來不斷進(jìn)步。在訓(xùn)練中,“敵方”機(jī)器人會(huì)試圖阻礙另一臺(tái)機(jī)器人抓取物品(就像功夫熊貓中阿寶和師傅用筷子搶包子)。當(dāng)然,研究人員還準(zhǔn)備了更高難度的訓(xùn)練項(xiàng)目,他們有時(shí)會(huì)讓同一個(gè)機(jī)器人的兩只機(jī)械臂直接玩“左右互搏”,讓一只機(jī)械臂阻止另一只抓取物品。
你知道在機(jī)器人研究中什么最無聊和乏味嗎?當(dāng)然是訓(xùn)練它們抓取不同的物品。現(xiàn)在有了 AI,研究人員再也不用看著這些“傻孩子”學(xué)習(xí)了,在自監(jiān)督學(xué)習(xí)模式下,機(jī)器人會(huì)通過不同的方式不斷嘗試抓取物品。不過,這一過程可能要花費(fèi)數(shù)千小時(shí),而且即使機(jī)器人大致掌握了抓取的技巧,它也很難理解什么才是最棒的抓取方式。
這種訓(xùn)練方式的問題在于,大多數(shù)時(shí)間這些技術(shù)都在利用最基本的傳感器來看待抓取的動(dòng)作,這樣的視角過于二元化,它們只在乎機(jī)器人是否拿起了目標(biāo)物體,只要拿起來就算成功。不過,在現(xiàn)實(shí)世界中抓取是否成功可不是這個(gè)標(biāo)準(zhǔn),因?yàn)椴环€(wěn)定的抓取會(huì)讓物體墜落的可能性增大。此外,如果讓機(jī)器人抓起一個(gè)盛了湯的碗,現(xiàn)有的粗暴抓取法肯定不可取,畢竟現(xiàn)實(shí)世界不是實(shí)驗(yàn)室。
出于這一考慮,CMU 和谷歌的研究人員決定將博弈論和深度學(xué)習(xí)用在機(jī)器人的訓(xùn)練中,而他們用到的方法就是開頭提到的“搗亂法”,一臺(tái)機(jī)器人會(huì)想方設(shè)法讓對手無法抓起目標(biāo)物體。
上周,該項(xiàng)目參與者 Lerrel Pinto、James Davidson 和 Abhinav Gupta 在 ICRA 展示了他們的研究成果,研究人員將這種對抗的方法描述為“雙人零和重復(fù)博弈法”(零和博弈來自著名的博弈論)。在互相“拆臺(tái)”的戰(zhàn)斗中,雙方都用到了卷積神經(jīng)網(wǎng)絡(luò),一方會(huì)專注于抓取物品,另一方則要阻止對方抓取物品。
在訓(xùn)練中,一心要抓取物品的機(jī)器人不但要躲過對方不斷襲來的“黑手”,還要處理重力、慣性和摩擦力等因素帶來的影響。如果想進(jìn)一步提升機(jī)器人的抓取能力,還可設(shè)定抓到物品機(jī)械臂就會(huì)搖晃幾下的壞招(希望抓娃娃機(jī)老板不要學(xué)會(huì)這一招)。這樣一來,加上另一只不停搗亂想要搶奪物品的機(jī)械臂,機(jī)器人的抓取能力就能提升到新的境界。
如果搗亂的機(jī)械臂成功打掉或搶走負(fù)責(zé)抓取機(jī)械臂手中的物品,那么這次抓取任務(wù)就算失敗,在訓(xùn)練過程中抓取程序會(huì)不斷從失敗中吸取教訓(xùn)。與此同時(shí),負(fù)責(zé)搗亂的程序則會(huì)從成功中找到新的法門,兩者會(huì)在“嬉戲打鬧”中共同進(jìn)步。這也是該項(xiàng)目具有重大現(xiàn)實(shí)意義的原因,機(jī)器人要想走出實(shí)驗(yàn)室,必須保證能在挑戰(zhàn)不斷的環(huán)境中不犯錯(cuò)。
一臺(tái)機(jī)器人試圖從對手那里奪下抓取的物品
研究人員表示,他們的對抗策略確實(shí)能加快機(jī)器人的訓(xùn)練進(jìn)程,這種方法培養(yǎng)的系統(tǒng)更加強(qiáng)大。經(jīng)過測試,三次迭代后,其抓取成功率從 43% 升到了 58%,而沒有采用對抗策略訓(xùn)練的機(jī)器人,抓取成功率僅為 47%。
該結(jié)果可以清楚的表明,有個(gè)給機(jī)器人“拆臺(tái)”的伙伴監(jiān)督和陪練,作用可比傻乎乎的搜集抓取數(shù)據(jù)大多了。雷鋒網(wǎng)注意到,研究人員公布的測試數(shù)據(jù)顯示,6 千次的陪練后,機(jī)器人的抓取成功率比機(jī)器人自己單練 1.6 萬次都要高。因此,對抗策略在機(jī)器人訓(xùn)練中明顯更有優(yōu)勢。
經(jīng)過一段時(shí)間的訓(xùn)練后,有陪練的機(jī)器人抓取成功率提升到了 82%,而沒有這個(gè)待遇的機(jī)器人成功率僅為 68%。更令人驚訝的是,即使降低抓取機(jī)器人的力量和抓手的摩擦力,其成功率依然有 65%,而采用單練策略的機(jī)器人則下滑至 47%。
在這一過程中,研究人員也使盡了自己“一肚子壞水”,他們專門觀摩了單練機(jī)器人容易失誤的地方,并將這些破綻編入了搗亂機(jī)器人的程序中。同時(shí),在訓(xùn)練中搗亂機(jī)器人不斷的搶奪也是物品掉落的重要因素。當(dāng)然,只有經(jīng)歷了這樣的魔鬼訓(xùn)練,抓取機(jī)器人才能練出一身技藝。
2025-03-05 15:37
2025-03-03 09:55
2025-03-03 09:51
2025-03-03 09:51
2025-03-03 09:49
2025-02-26 08:53
2025-02-25 10:56
2025-02-25 10:46
2025-02-25 10:29
2025-02-24 22:23