近年來,研究人員一直在嘗試開能發使機器人學習新技能的方法。一種選擇是讓機器人從人類那里學習這些新技能,在不確定如何操作時從人類用戶的反應中學習。
斯坦福大學的研究團隊最近開發了另一種用戶友好的主動獎勵學習方法,可通過讓人類用戶回答他們的問題來訓練機器人。在arXiv上預發表的一篇論文中提出的這種新方法可以訓練機器人主動提出一些問題,這些問題對于人類用戶來說很容易回答,并且不是多余或不必要的,但對于機器人來說這使得他們學習。
研究人員通過電子郵件告訴記者:“我們的團隊對機器人如何學習人類想要的東西很感興趣?!?“一種直觀的學習方式是通過提問。例如,您寧愿謹慎駕駛還是主動駕駛自動駕駛汽車?這種自動駕駛汽車應該在人類駕駛的汽車之前還是之后合并?”這項最新研究背后的主要假設是,理想情況下,機器人應該問一些有益的問題,以從人類用戶那里獲取盡可能多的信息。換句話說,高學習能力的機器人應該能夠通過問盡可能少的問題,來理解人類的需求或想要他們做什么。
但是,實際上,大多數基于問題回答的現有培訓方法,都沒有考慮人類用戶回答機器人提出的特定問題有多么容易。這通常會導致用戶浪費時間來回答大量不必要的問題或無法確定地進行響應。
研究人員說:“我們發現大多數最先進的算法都顯示出(幾乎)無法區分的人類替代方案,從而使人們無法正確回答機器人的問題。” “以我們的示例為例,這些方法可能會問:“您是否希望以29 mph或31 mph的速度在人工駕駛汽車前合并?”這對于機器人決定是否在人們希望時速超過30英里/小時,但這種選擇(對于人來說)太接近了,人們無法可靠地做出響應?!?/p>
為了克服現有主動學習方法的局限性,研究人員開發了一種算法,可以選擇更有效的問題來詢問用戶。該算法確定的問題最大程度地減少了機器人對人類用戶偏好的不確定性(即,使信息獲取最大化),同時還考慮了人類用戶回答這些問題的難易程度。
研究人員說:“受先前工作的缺點的啟發,當我們開發這種算法時,我們專注于考慮人類實際回答機器人提出的問題的能力?!?“這是基于這樣的思想,即只有負責人類回答能力的機器人才能準確,高效地學習人類的需求?!?/p>
研究人員通過測量熵的減少(即不確定性的量度)來計算信息增益,該熵的減少是根據機器人提出的問題對人類用戶的偏好進行的。換句話說,最大化信息增益的問題將最大程度地減少機器人對人類用戶的喜好有什么不確定性。這為機器人提供了一個正式的目標,他們可以用來選擇最有用的問題。
“信息增益的一個很好的特點是它固有地最大化了機器人的不確定性(這樣機器人就可以從這個問題中學到很多東西),同時也使人類的不確定性最小化(這樣,這個問題對人類來說是容易回答的)。使用信息增益生成問題,從而提高主動學習,不僅是因為問題是最大的信息,但也因為人類提供更少的錯誤反應。
研究人員設計的方法貪婪地選擇在每一個時間步長最大化信息增益的問題。從本質上講,機器人對與之交互的用戶的偏好保持一種信念(即概率分布),并從這種信念和可能的問題空間中獲取樣本。
最終,機器人選擇的問題是,在當前可能的人類偏好分布中,提供最多的信息增益。隨后,它會根據收到的答案更新用戶想要什么的答案。這個過程不斷重復,讓機器人通過學習用戶的偏好逐漸提高性能。
圖片來源:B?y?k等
研究人員說:“我們制定了一種計算簡便的方法,可以讓我們快速發現人類對真實機器人任務的偏好,優于以往的方法。”在我們的研究中,用戶更喜歡我們的方法,而不是其他最先進的技術。”
在他們的研究中,斯坦福大學的團隊表明,訓練機器人提問最大化信息增益與最先進的方法具有相同的計算復雜性。換句話說,與其他方法產生的問題相比,機器人發現這些信息性問題并不難。
最終,機器人選擇了在可能的人類偏好的當前分布范圍內提供最大信息收益的問題。隨后,它根據收到的答案更新對用戶想要的信念。該過程不斷重復進行,從而使機器人可以通過了解用戶的偏好來逐漸提高其性能。
研究人員說:“我們還指出,我們的方法具有一些理想的數學特性,例如亞模量,這使我們能夠采用為先前方法開發的擴展和理論界限,并將其與我們的方法一起使用?!?“例如,我們可以使用先前的著作來一次查找多個信息性問題,而不是一次搜索一個問題?!?/p>
該團隊通過一系列模擬評估了他們的主動獎勵學習方法,發現該方法使機器人能夠比其他最新方法更快,更準確地掌握人類的喜好。在人們可以正確回答難題或回答為“我不知道”的情況下,也是如此。
研究人員還進行了一項用戶研究,其中要求人類參與者回答由他們的方法產生的問題,以及使用其他最新方法產生的其他問題。他們收集的反饋表明,人們發現用他們的方法所產生的問題要容易回答得多。另外,用戶通常認為使用新方法的機器人比以前提出的方法更能準確地表達自己的偏好。
研究人員說:“綜合考慮我們所有的貢獻,我們朝著使機器人能夠確定人的偏好邁出了一步?!?“我們證明了我們最初希望機器人最大化的真正目標——提出問題以獲取盡可能多的信息,這可以用與現有方法相同的計算復雜性來解決?!?/p>
將來,由這組研究人員開發的主動獎勵學習技術可以幫助更有效地訓練機器人,使它們更符合用戶的喜好。此外,它還可用于教機器人問人類可以輕松理解和回答的問題。在未來的研究中,研究人員還希望研究訓練機器人的方法,以對其動作進行有用的解釋。
研究人員說:“我們對機器人感到興奮,它們不僅能提出好問題,還能解釋為什么會提出這些問題。”我們設想這樣一個場景:一輛自動駕駛汽車將人類兩種不同的合并方案可視化,然后說明它之所以詢問這些方案,是因為現在正是交通高峰時間,它想確定自己的行為是否應該更積極?!?/p>
2025-04-09 12:40
2025-04-08 08:51
2025-04-07 12:08
2025-04-07 12:07
2025-04-07 12:06
2025-04-07 09:52
2025-04-07 09:49
2025-04-07 09:43
2025-04-03 09:11
2025-04-03 08:56