該方法可以教一組合作或競爭的人工智能代理找到最佳的長期解決方案。
概括:
一項新技術使人工智能代理在考慮它們的行為如何影響其他人工智能代理的行為時,能夠考慮到更遠的未來,以完成一項任務。這種方法提高了合作或競爭性人工智能代理的長期性能。
想象一下兩支球隊在足球場上的對決。球員們可以通過合作來實現一個目標,并與其他有利益沖突的球員競爭。這就是游戲的運作方式。創建能夠像人類一樣有效學習競爭和合作的人工智能代理仍然是一個棘手的問題。一個關鍵的挑戰是使人工智能代理能夠在其他代理同時學習時預測其未來行為。
由于這個問題的復雜性,目前的方法往往是近視的;代理人只能猜測他們的隊友或競爭對手的未來幾步棋,這導致了長期的不良表現。
來自美國麻省理工學院、麻省理工學院-IB+M沃森人工智能實驗室和其他地方的研究人員開發了一種新方法,使人工智能代理具有遠見卓識。他們的機器學習框架使合作或競爭的人工智能代理能夠考慮其他代理在時間接近無窮大時將會做什么,而不僅僅是在接下來的幾個步驟中。然后,代理人相應地調整他們的行為,以影響其他代理人的未來行為,并達成一個最佳的、長期的解決方案。
這個框架可以被一群自主的無人機用來在茂密的森林中尋找迷路的徒步者,或者被自駕車使用,通過預測在繁忙的高速公路上行駛的其他車輛的未來行動來努力保證乘客的安全。
“當人工智能代理進行合作或競爭時,最重要的是他們的行為在未來的某個時間點上會聚。一路上有很多短暫的行為,從長遠來看并不十分重要。”麻省理工學院信息與決策系統實驗室(LIDS)的研究生、一篇描述該框架的論文的主要作者Dong-Ki Kim說:“達到這種收斂的行為是我們真正關心的,我們現在有一種數學方法來實現這一點。”
高級作者是Richard C. Maclaurin航空學和航天學教授Jonathan P. How,他是麻省理工學院-IBM Watson人工智能實驗室的成員。共同作者包括麻省理工學院-IBM沃森人工智能實驗室、IBM研究院、米拉-魁北克人工智能研究所和牛津大學的其他人。該研究將在神經信息處理系統會議上發表。
更多的代理,更多的問題
研究人員專注于一個被稱為多代理強化學習的問題。強化學習是機器學習的一種形式,其中人工智能代理通過試驗和錯誤進行學習。研究人員對幫助其實現目標的 "良好 "行為給予代理獎勵。代理人調整其行為以最大化該獎勵,直到它最終成為一項任務的專家。
但當許多合作或競爭的代理同時學習時,事情變得越來越復雜。隨著代理人考慮到他們同伴的更多未來步驟,以及他們自己的行為如何影響其他人,這個問題很快就需要太多的計算能力來有效解決。這就是為什么其他方法只關注短期的原因。
“人工智能真的想考慮游戲的結束,但他們不知道游戲何時結束。他們需要思考如何不斷地將自己的行為調整到無限大,以便在未來某個遙遠的時間里獲勝。我們的論文本質上提出了一個新的目標,使人工智能能夠考慮到無限大的問題。”Kim說。
但是,由于不可能把無限塞進算法中,研究人員設計了他們的系統,使代理人專注于他們的行為將與其他代理人的行為趨同的未來點,即所謂的平衡點。平衡點決定了代理人的長期表現,而且在多代理人的情況下可能存在多個平衡點。因此,一個有效的代理人積極影響其他代理人的未來行為,使他們從代理人的角度達到一個理想的均衡點。如果所有的代理人都相互影響,他們就會收斂到一個一般的概念,研究人員稱之為 "主動均衡"。
他們開發的機器學習框架被稱為FURTHER(代表FUlly Reinforcing acTive influence with averagE Reward),使代理人能夠學習如何在與其他代理人互動時調整自己的行為,以實現這種主動平衡。
FURTHER使用兩個機器學習模塊來實現這一目標。第一個模塊是推理模塊,它使代理人能夠僅根據其他代理人的先前行動來猜測他們的未來行為和他們使用的學習算法。
這些信息被送入強化學習模塊,代理人利用這些信息來調整自己的行為,并以最大化回報的方式來影響其他代理人。
“挑戰是對無限的思考。我們不得不使用許多不同的數學工具來實現這一點,并做出一些假設,使其在實踐中發揮作用。”Kim說。
長遠的贏家
他們在幾個不同的場景中對他們的方法與其他多代理強化學習框架進行了測試,包括一對機器人的相撲式戰斗和兩個25個代理團隊的對戰。在這兩種情況下,使用FURTHER的人工智能代理更經常地贏得比賽。
Kim解釋說,由于他們的方法是分散的,這意味著代理人獨立學習贏得游戲,它也比其他需要中央計算機控制代理人的方法更具可擴展性。
研究人員用游戲來測試他們的方法,但FURTHER可以用來解決任何類型的多代理問題。例如,在許多相互作用的權利人的行為和利益隨時間變化的情況下,經濟學家可以應用它來制定合理的政策。
經濟學是Kim對研究的一個應用特別感興趣。他還想更深入地研究主動平衡的概念,并繼續加強FURTHER框架。
這項研究得到了美國麻省理工學院-IBM沃森人工智能實驗室的部分資助。
美國麻省理工學院(MIT)的Hyperloop II團隊由一組具有航空航天,機械,電氣和系統工程背景的多學科研究人員組成。
MIT四十名學生合作設計和制造了Hyperloop II,這是一種高速、無摩擦的車輛,旨在通過空氣懸浮技術來運載人員或貨物。Hyperloop與許多需要軌道或在真空管運行軌道列車不同,這款模型僅需要平坦的表面并能在氣墊上行駛。它不依賴昂貴的磁性系統為其懸浮提供動力,不需要高昂的真空環境。
Hyperloop II是2019年在SpaceX Hyperloop Pod競賽中唯一以其功能齊全的空氣懸浮吊艙而聞名。這是一項年度的超級環形高鐵車廂大賽大賽,SpaceX公司旨在鼓勵開發新的運輸方式。該團隊在去年比賽中排名第5,并獲得了創新獎。因為大火摧毀了原始原型后,三周后該團隊再次對其軌道車進行了大幅度修改。
美國MIT開發的AirLev是第一款電動高速無摩擦空氣懸浮軌道車,旨在通過其空氣懸浮技術來運載人員或貨物。該團隊在2019年的SpaceX-Hyperloop大賽上展示了升級版-Hyperloop II,該軌道車在20秒內,以0到200 mph(時速200英里/352公里)迅速提升。
2025-03-20 13:16
2025-03-20 13:15
2025-03-20 13:14
2025-03-20 13:13
2025-03-20 13:12
2025-03-20 13:12
2025-03-20 13:11
2025-03-20 13:10
2025-03-20 13:10
2025-03-20 13:09