來自麻省理工學院、MIT-IBM 沃森人工智能實驗室和其他機構的一組研究人員開發了一種新方法,使人工智能 (AI) 代理能夠實現遠見卓識。換句話說,在考慮他們的行為在完成任務時如何包含其他 AI 代理的行為時,AI 可以考慮到很遠的未來。
該研究將在神經信息處理系統會議上發表。
人工智能考慮其他代理人的未來行動
該團隊創建的機器學習框架使合作或競爭的 AI 代理能夠考慮其他代理將做什么。這不僅僅是在接下來的步驟中,而是隨著時間接近無窮大。智能體相應地調整他們的行為以影響其他智能體未來的行為,幫助他們達成最優的長期解決方案。
據該團隊稱,該框架可用于例如一組自主無人機協同工作以尋找迷路的徒步旅行者。自動駕駛車輛也可以使用它來預測其他車輛的未來動作,以提高乘客安全。
Dong-Ki Kim 是麻省理工學院信息與決策系統實驗室 (LIDS) 的研究生,也是該研究論文的主要作者。
“當 AI 代理合作或競爭時,最重要的是它們的行為何時會在未來的某個時刻收斂,”Kim 說。“一路上有很多短暫的行為,從長遠來看并不重要。實現這種融合行為是我們真正關心的,我們現在有一種數學方法可以實現這一點。”
研究人員解決的問題稱為多代理強化學習,強化學習是機器學習的一種形式,AI 代理通過反復試驗進行學習。
每當有多個合作或競爭代理同時學習時,過程就會變得復雜得多。隨著代理考慮其他代理的更多未來步驟,以及他們自己的行為及其對他人的影響,這個問題需要太多的計算能力。
人工智能思考無限
“AI 真的很想考慮游戲的結局,但他們不知道游戲何時結束,”Kim 說。“他們需要考慮如何不斷調整自己的行為,以便在未來某個遙遠的時間獲勝。我們的論文實質上提出了一個新目標,使人工智能能夠思考無限。”
將無窮大集成到算法中是不可能的,因此該團隊設計系統的方式是讓代理專注于他們的行為將與其他代理收斂的未來點。這被稱為均衡,均衡點決定了代理人的長期表現。
多智能體場景中可能存在多重均衡,當一個有效的智能體主動影響其他智能體未來的行為時,它們可以達到智能體角度的理想均衡。當所有代理人相互影響時,他們會收斂到一個被稱為“主動均衡”的一般概念。
進一步的框架
該團隊的機器學習框架稱為 FURTHER,它使智能體能夠學習如何根據與其他智能體的交互來調整自己的行為,以實現主動平衡。
該框架依賴于兩個機器學習模塊。第一個是推理模塊,使代理能夠根據先前的操作猜測其他代理的未來行為以及他們使用的學習算法。然后將信息輸入強化學習模塊,代理依賴該模塊調整其行為并影響其他代理。
“挑戰在于思考無限。我們必須使用許多不同的數學工具來實現這一點,并做出一些假設才能使其在實踐中發揮作用,”Kim 說。
該團隊在不同場景中針對其他多智能體強化學習框架測試了他們的方法,其中使用 FURTHER 的 AI 智能體領先。
該方法是分散的,因此代理人學會獨立取勝。最重要的是,與需要中央計算機控制代理的其他方法相比,它更適合擴展。
據該團隊稱,FURTHER 可用于廣泛的多代理問題。Kim 對其在經濟學中的應用特別有希望,因為它可以應用于在涉及許多行為和利益隨時間變化的交互實體的情況下制定合理的政策。