人工智能考慮其他代理的未來行動
該團隊創建的機器學習框架使合作或競爭的人工智能代理能夠考慮其他代理將做什么。這不僅僅是在接下來的步驟中,而是隨著時間接近無限。代理人相應地調整他們的行為來影響其他代理人的未來行為,幫助他們達成最優的、長期的解決方案。
根據該團隊的說法,該框架可以用于,例如,一組自主無人機合作尋找迷路的徒步旅行者。自動駕駛汽車也可以使用它來預測其他車輛的未來動向,以提高乘客的安全性。
金東紀是麻省理工學院信息與決策系統實驗室(LIDS)的研究生,也是這篇研究論文的第一作者。
“當人工智能主體合作或競爭時,最重要的是它們的行為在未來的某個時間點匯合,”Kim說。“在這個過程中有很多短暫的行為,但從長遠來看,這些行為并不重要。達到這種融合行為是我們真正關心的,我們現在有一種數學方法來實現這一點。”
研究人員解決的問題被稱為多智能體強化學習,強化學習是一種機器學習人工智能代理通過試錯來學習。
每當有多個合作或競爭的主體同時學習時,這個過程就會變得復雜得多。當代理考慮其他代理的更多未來步驟,以及他們自己的行為和它如何影響其他人時,這個問題需要太多的計算能力。
人工智能思考無限
“人工智能真的想考慮游戲的結束,但他們不知道游戲什么時候會結束,”金說。“他們需要考慮如何不斷調整自己的行為,以便在未來某個遙遠的時候取得勝利。我們的論文本質上提出了一個新的目標,使人工智能能夠思考無限。”將無窮大集成到算法中是不可能的,所以團隊以一種方式設計了該系統,即代理專注于他們的行為將與其他代理收斂的未來點。這被稱為均衡,均衡點決定了代理的長期性能。
在多智能體場景中可能存在多個均衡,當一個有效的智能體積極影響其他智能體的未來行為時,從智能體的角度來看,它們可以達到一個理想的均衡。當所有的代理人相互影響時,他們匯聚成一個被稱為“主動平衡”的一般概念。
進一步的框架
該團隊的機器學習框架被進一步稱為,它使代理能夠學習如何根據他們與其他代理的交互來調整他們的行為,以實現主動平衡。
該框架依賴于兩個機器學習模塊。第一個是推理模塊,它使一個代理能夠根據以前的行為猜測其他代理的未來行為和它們使用的學習算法。然后,這些信息被輸入到強化學習模塊中,代理依靠這個模塊來調整自己的行為并影響其他代理。
“挑戰在于思考無限。我們不得不使用許多不同的數學工具來實現這一點,并做出一些假設來讓它在實踐中發揮作用,”金說。
該團隊在不同的場景中針對其他多智能體強化學習框架測試了他們的方法,在這些場景中,人工智能智能智能體進一步脫穎而出。
這種方法是分散的,所以代理人學會了獨立取勝。最重要的是,與需要中央計算機來控制代理的其他方法相比,它的設計更具擴展性。
根據該團隊的說法,FURTHER可以用于廣泛的多智能體問題。金對其在經濟學中的應用尤其充滿希望,在經濟學中,它可以用于在涉及許多行為和利益隨著時間的推移而變化的互動實體的情況下制定合理的政策。