【CNMO新聞】谷歌機器人研究部門在一篇博客文章中表示,他們正在研究如何讓機器人自己進行長距離移動。高級研究科學家Aleksandra Faust和高級機器人軟件工程師Anthony Francis表示:“僅在美國,就有300萬人患有行動障礙,無法出門,機器可以幫助行動不便的人做一些簡單的事情,比如拿食品、藥品或包裹等?!?
在某種程度上,通過使用強化學習(RL)可以做到這一點,這是一種人工智能訓練技術,它利用獎勵來驅動個體朝著目標前進。福斯特、弗朗西斯和他的同事們將強化學習與長距離規劃路線結合起來,編出能夠安全穿越短距離(約15米)且不會撞上移動障礙物的程序。他們利用AutoRL,一個自動搜索強化學習獎勵和神經網絡架構的工具,在模擬環境中進行訓練,再使用經過訓練的程序構建路線圖,或由節點(位置)和邊組成圖。
機器人
使用傳統RL方法的訓練,仍存在許多問題,比如它需要花費時間迭代和手工調整獎勵,并在人工智能架構方面不夠明智,更不用說減輕遺忘,這種現象是指人工智能系統在學習新信息時,突然忘記了以前學過的信息。
AutoRL試圖通過兩個階段來解決這個問題,獎勵搜索和神經網絡架構搜索。在第一階段, 每個獎勵功能略有不同,在這個階段的最后,通常會選擇將帶到其目的地的獎勵。神經網絡架構搜索階段本質上是第一階段的重復,但使用選定的獎勵來優化網絡,并對累積獎勵進行優化。
這個自動化的訓練過程,可以減輕模型的遺忘情況,并且與現有技術相比,由此產生的策略的質量更高(導航任務的質量提高了26%),它們甚至足夠強大,可以在非結構化環境中引導機器人。
AutoRL制定的策略,對本地導航很有幫助,但遠程導航就需要用到概率路線圖了,它們是基于采樣的規劃器的一個子類,對機器人的姿態進行采樣,創建符合機器人特性的路線圖。
福斯特和弗朗西斯解釋說:“首先,我們在一個通用的模擬訓練環境中對機器人進行訓練,訓練一個本地規劃策略。再根據該策略構建一個PRM,稱為PRM-rl,它位于部署環境的平鋪圖之上,相同的平面圖可以用于任何機器人。”
為了評估PRM-RL,谷歌的研究人員使用比培訓環境大200倍的辦公室樓層地圖構建了一個路線圖,在20次試驗中,成功率達90%以上。
2025-03-07 14:59
2025-03-05 15:37
2025-03-03 09:55
2025-03-03 09:51
2025-03-03 09:51
2025-03-03 09:49
2025-02-26 08:53
2025-02-25 10:56
2025-02-25 10:46
2025-02-25 10:29