近日,谷歌官方博客上發(fā)表了一篇題為《Teaching Robots to Understand Semantic Concepts》的文章,探討了在機(jī)器人學(xué)習(xí)(robotic learning)方面的一些最新進(jìn)展。機(jī)器人學(xué)習(xí)是指通過機(jī)器人自動收集的數(shù)據(jù)(量很大,但是缺乏標(biāo)簽)與人類的標(biāo)注數(shù)據(jù)結(jié)合起來從而允許其理解語義概念。通過深度視覺特征(deep visual features),機(jī)器人在人類演示中借助其數(shù)據(jù)理解顯性事件,模仿人類的行動,理解語義概念比如「玩具」和「鋼筆」從而根據(jù)用戶指令撿起物體。這次的實驗可能為未來在自動機(jī)器人系統(tǒng)中結(jié)合自監(jiān)督數(shù)據(jù)和人類標(biāo)注數(shù)據(jù)的工作指出了一條新的道路。
機(jī)器學(xué)習(xí)可以使機(jī)器人具備復(fù)雜技能,比如抓取和開門。但是,學(xué)習(xí)這些技能需手動編程機(jī)器人試圖優(yōu)化的獎勵函數(shù)。與之相反,人類可以通過觀察別人理解任務(wù)目標(biāo),或者被簡單地告知目標(biāo)是什么。人類能夠做到這點是因為有這個世界的背景知識:當(dāng)我們看到一個人切蘋果時,我們明白目標(biāo)是切成兩半,而不管蘋果是什么種類的,或者切蘋果的工具是什么樣的。相似地,如果我們被告知撿起蘋果,我們可以通過語境確定哪個物體是蘋果,因為我們知道蘋果的意義是什么。
這就是語義概念:切成兩半這種顯性事件(salient event)和單詞所指稱的物體概念比如蘋果。我們可以教會機(jī)器人理解語義概念、并使其遵循通過類別標(biāo)簽或用戶提供的實例指定的簡單命令嗎? 在本文中,我們探討了在機(jī)器人學(xué)習(xí)(robotic learning)方面的一些最新進(jìn)展,機(jī)器人學(xué)習(xí)把機(jī)器人自動收集的數(shù)據(jù)(量很大,但是缺乏標(biāo)簽)與人類的標(biāo)注數(shù)據(jù)結(jié)合起來從而允許其理解語義概念。我們將會描述機(jī)器人如何在人類提供的演示中通過其數(shù)據(jù)理解顯性事件,模仿人類的行動,理解語義概念比如「玩具」和「鋼筆」以根據(jù)用戶指令撿起物體。
通過深度視覺特征理解人類的演示
在第一組實驗中,我們的目標(biāo)是幫助機(jī)器人通過僅僅觀看若干個無標(biāo)注的人類演示來理解一個任務(wù),比如開門。通過分析這些演示,機(jī)器人必須先從語義上理解顯性事件,這對任務(wù)的成功很重要,接著運用強(qiáng)化學(xué)習(xí)來執(zhí)行任務(wù)。
人類演示(左)與機(jī)器人模仿(右)
小數(shù)據(jù)集上的無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中最具挑戰(zhàn)性的場景之一。為了使之可行,我們使用了深度視覺特征(deep visual feature),它來自一個被訓(xùn)練用來參加 ImageNet 圖像識別競賽的大型網(wǎng)絡(luò)。深度視覺特征對語義概念非常敏感,同時保持對諸如外觀和光線的滋擾變量(nuisance variables)的不變性。我們使用這些功能闡釋用戶提供的演示,結(jié)果證明以非監(jiān)督的形式從少許演示中學(xué)習(xí)獎勵函數(shù)確實是可能的,并且無需再訓(xùn)練。
僅僅通過觀察開門任務(wù)來學(xué)習(xí)獎勵函數(shù)的實例。隨著任務(wù)的完成,獎勵函數(shù)從零增加到最大值。
在僅通過觀察學(xué)習(xí)了獎勵函數(shù)之后,我們使用它去指導(dǎo)機(jī)器人學(xué)習(xí)開門任務(wù)(僅通過圖像評估獎勵函數(shù))。借助于大約 10% 時間的初始動作演示,機(jī)器人通過已學(xué)習(xí)的獎勵函數(shù)把精度提升到了 100%。
學(xué)習(xí)的進(jìn)程。
通過自監(jiān)督和模擬來趕超人類動作
在《時間對比網(wǎng)絡(luò):多視角觀察的自監(jiān)督學(xué)習(xí)》(Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation)(https://sermanet.github.io/tcn/)中,我們提出了一種通過觀察理解世界的全新方法,并借助自監(jiān)督姿態(tài)模仿對其進(jìn)行了演示。我們的方法主要依賴于監(jiān)督的時空同現(xiàn):通過訓(xùn)練來區(qū)分來自視頻不同時段的幀,從而學(xué)習(xí)解開現(xiàn)實并將其組織為有用的抽象表征。
以姿態(tài)模仿任務(wù)為例,表征的不同維度也許編碼一個人類或機(jī)器人身體的不同關(guān)節(jié)。我們沒有手動定義人與機(jī)器人關(guān)節(jié)之間的映射(由于生理差異這首先是含糊不清的),而是讓機(jī)器人以端到端的形式學(xué)習(xí)模仿。當(dāng)我們的模型同時在人與機(jī)器人的觀察中被訓(xùn)練,即使沒有提供對應(yīng)關(guān)系,它也自然地會發(fā)現(xiàn)兩者的這種關(guān)系。因此我們無須給出人與機(jī)器人之間的對應(yīng)就獲得了模仿人類姿態(tài)的機(jī)器人。
機(jī)器人的自監(jiān)督式人類姿態(tài)模擬。
端到端學(xué)習(xí)的好處的一個有力證據(jù)是上述的多對一和高度非線性節(jié)點映射。在這個實例中,上下的動作需動用人類的很多關(guān)節(jié),而機(jī)器人只需動用一個就夠了。我們表明機(jī)器人已經(jīng)自己發(fā)現(xiàn)了高度復(fù)雜的映射,而無須任何明確的人類姿態(tài)信息。
利用物體的語義類別進(jìn)行抓取
上述實驗說明人如何通過實例演示使機(jī)器人理解任務(wù)的語義——顯性事件及動作的相關(guān)特征,進(jìn)而給機(jī)器人設(shè)定具體目標(biāo)。如果人類不向機(jī)器人演示任務(wù),僅僅告訴它怎么做,又會怎么樣呢?這仍然需要機(jī)器人理解語義,以識別用戶指定的語義類別所對應(yīng)的實物。在《語義抓取的端到端學(xué)習(xí)》(End-to-End Learning of Semantic Grasping)一文中,我們研究了如何使用人工標(biāo)注數(shù)據(jù)和自動收集數(shù)據(jù)來執(zhí)行語義抓取任務(wù),該任務(wù)中機(jī)器人必須從一個塞滿的箱子里抓取用戶指定類別標(biāo)簽的物體,如「橡皮」或「玩具」。
在我們的語義抓取實驗設(shè)置中,機(jī)器臂的任務(wù)是抓取用戶指定語義類別的物體(如樂高玩具)。
為了學(xué)習(xí)如何執(zhí)行語義抓取任務(wù),機(jī)器人首先通過自動抓取多種物體來收集抓取數(shù)據(jù)集。這些數(shù)據(jù)可以使機(jī)器人抓取物體,但無法讓它理解如何將物體與語義標(biāo)簽對應(yīng)起來。為了使機(jī)器人理解語義,我們又進(jìn)行了少量的人類監(jiān)督。機(jī)器人每成功抓取到一個物體,都會以一個固定姿勢將物體放到攝像機(jī)前面,如下圖所示。
機(jī)器人在抓取成功后,將物體放置在攝像機(jī)前面。這些圖像可用于標(biāo)注抓取物體的類別。
人類將這些圖像的子集進(jìn)行標(biāo)注。由于這些圖像中機(jī)器人使用同一個姿勢呈現(xiàn)物體,因此在標(biāo)注樣本上訓(xùn)練分類器,進(jìn)而在剩余圖像上標(biāo)注標(biāo)簽就比較容易了。圖像標(biāo)注后,機(jī)器人可以從中了解實際抓取的物體,并將標(biāo)簽與物體抓取成功后觀察到的圖像聯(lián)系起來。
使用這個標(biāo)注后的數(shù)據(jù)集,我們可以訓(xùn)練一個雙流模型,該模型基于當(dāng)前圖像和機(jī)器人可能的行動,可以預(yù)測即將抓取到的物體。該模型受到人類視覺皮質(zhì)中的背腹側(cè)流分解的啟發(fā),人類視覺皮質(zhì)中腹側(cè)流負(fù)責(zé)對物體的語義類別進(jìn)行推理,背側(cè)流負(fù)責(zé)對抓取物的幾何形狀進(jìn)行推理。最重要的是,腹側(cè)流可以吸納包括標(biāo)注物體圖像在內(nèi)的輔助數(shù)據(jù)(未必來自機(jī)器人),背側(cè)流可以吸納包含不帶有語義標(biāo)簽的抓取物的輔助數(shù)據(jù),這使得整個系統(tǒng)可通過大量復(fù)雜標(biāo)注數(shù)據(jù)進(jìn)行更高效的訓(xùn)練。通過這種方式,我們可以將有限的人類標(biāo)注數(shù)據(jù)和機(jī)器人自動收集的數(shù)據(jù)結(jié)合起來,基于想要的語義類別抓取物體,如視頻中所示:
展望
我們的實驗展示了如何將語義標(biāo)注數(shù)據(jù)和機(jī)器人自動收集、自動標(biāo)注的數(shù)據(jù)結(jié)合起來,進(jìn)而使機(jī)器人理解事件、物體類別以及用戶演示。未來,我們或許可以想象使用用戶標(biāo)注數(shù)據(jù)和不斷增加的自動收集數(shù)據(jù)集來訓(xùn)練機(jī)器人系統(tǒng),以提高機(jī)器人的能力、減輕設(shè)計自動機(jī)器人的工程負(fù)擔(dān)。另外,隨著機(jī)器人系統(tǒng)從真實世界中自動標(biāo)注的數(shù)據(jù)不斷增加,這些數(shù)據(jù)不僅可用于改善機(jī)器人系統(tǒng),還可用于訓(xùn)練計算機(jī)視覺、語音識別和自然語言處理。
當(dāng)然,我們不是第一個思考將機(jī)器人和語義結(jié)合起來的人。自然語言理解、機(jī)器感知、抓取、模仿學(xué)習(xí)領(lǐng)域的大量研究已經(jīng)考慮如何在機(jī)器人系統(tǒng)中結(jié)合語義和機(jī)器人行為。但是,我們的實驗可能為未來在自動機(jī)器人系統(tǒng)中結(jié)合自監(jiān)督數(shù)據(jù)和人類標(biāo)注數(shù)據(jù)的工作指出了一條新的道路。
2025-04-18 08:54
2025-04-18 08:53
2025-04-17 08:16
2025-04-17 08:13
2025-04-16 10:55
2025-04-16 08:50
2025-04-14 14:57
2025-04-14 14:53
2025-04-09 12:40
2025-04-08 08:51