來(lái)自麻省理工學(xué)院、MIT-IBM 沃森人工智能實(shí)驗(yàn)室和其他機(jī)構(gòu)的一組研究人員開(kāi)發(fā)了一種新方法,使人工智能 (AI) 代理能夠?qū)崿F(xiàn)遠(yuǎn)見(jiàn)卓識(shí)。換句話說(shuō),在考慮他們的行為在完成任務(wù)時(shí)如何包含其他 AI 代理的行為時(shí),AI 可以考慮到很遠(yuǎn)的未來(lái)。
該研究將在神經(jīng)信息處理系統(tǒng)會(huì)議上發(fā)表。
人工智能考慮其他代理人的未來(lái)行動(dòng)
該團(tuán)隊(duì)創(chuàng)建的機(jī)器學(xué)習(xí)框架使合作或競(jìng)爭(zhēng)的 AI 代理能夠考慮其他代理將做什么。這不僅僅是在接下來(lái)的步驟中,而是隨著時(shí)間接近無(wú)窮大。智能體相應(yīng)地調(diào)整他們的行為以影響其他智能體未來(lái)的行為,幫助他們達(dá)成最優(yōu)的長(zhǎng)期解決方案。
據(jù)該團(tuán)隊(duì)稱,該框架可用于例如一組自主無(wú)人機(jī)協(xié)同工作以尋找迷路的徒步旅行者。自動(dòng)駕駛車輛也可以使用它來(lái)預(yù)測(cè)其他車輛的未來(lái)動(dòng)作,以提高乘客安全。
Dong-Ki Kim 是麻省理工學(xué)院信息與決策系統(tǒng)實(shí)驗(yàn)室 (LIDS) 的研究生,也是該研究論文的主要作者。
“當(dāng) AI 代理合作或競(jìng)爭(zhēng)時(shí),最重要的是它們的行為何時(shí)會(huì)在未來(lái)的某個(gè)時(shí)刻收斂,”Kim 說(shuō)。“一路上有很多短暫的行為,從長(zhǎng)遠(yuǎn)來(lái)看并不重要。實(shí)現(xiàn)這種融合行為是我們真正關(guān)心的,我們現(xiàn)在有一種數(shù)學(xué)方法可以實(shí)現(xiàn)這一點(diǎn)。”
研究人員解決的問(wèn)題稱為多代理強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種形式,AI 代理通過(guò)反復(fù)試驗(yàn)進(jìn)行學(xué)習(xí)。
每當(dāng)有多個(gè)合作或競(jìng)爭(zhēng)代理同時(shí)學(xué)習(xí)時(shí),過(guò)程就會(huì)變得復(fù)雜得多。隨著代理考慮其他代理的更多未來(lái)步驟,以及他們自己的行為及其對(duì)他人的影響,這個(gè)問(wèn)題需要太多的計(jì)算能力。
人工智能思考無(wú)限
“AI 真的很想考慮游戲的結(jié)局,但他們不知道游戲何時(shí)結(jié)束,”Kim 說(shuō)。“他們需要考慮如何不斷調(diào)整自己的行為,以便在未來(lái)某個(gè)遙遠(yuǎn)的時(shí)間獲勝。我們的論文實(shí)質(zhì)上提出了一個(gè)新目標(biāo),使人工智能能夠思考無(wú)限。”
將無(wú)窮大集成到算法中是不可能的,因此該團(tuán)隊(duì)設(shè)計(jì)系統(tǒng)的方式是讓代理專注于他們的行為將與其他代理收斂的未來(lái)點(diǎn)。這被稱為均衡,均衡點(diǎn)決定了代理人的長(zhǎng)期表現(xiàn)。
多智能體場(chǎng)景中可能存在多重均衡,當(dāng)一個(gè)有效的智能體主動(dòng)影響其他智能體未來(lái)的行為時(shí),它們可以達(dá)到智能體角度的理想均衡。當(dāng)所有代理人相互影響時(shí),他們會(huì)收斂到一個(gè)被稱為“主動(dòng)均衡”的一般概念。
進(jìn)一步的框架
該團(tuán)隊(duì)的機(jī)器學(xué)習(xí)框架稱為 FURTHER,它使智能體能夠?qū)W習(xí)如何根據(jù)與其他智能體的交互來(lái)調(diào)整自己的行為,以實(shí)現(xiàn)主動(dòng)平衡。
該框架依賴于兩個(gè)機(jī)器學(xué)習(xí)模塊。第一個(gè)是推理模塊,使代理能夠根據(jù)先前的操作猜測(cè)其他代理的未來(lái)行為以及他們使用的學(xué)習(xí)算法。然后將信息輸入強(qiáng)化學(xué)習(xí)模塊,代理依賴該模塊調(diào)整其行為并影響其他代理。
“挑戰(zhàn)在于思考無(wú)限。我們必須使用許多不同的數(shù)學(xué)工具來(lái)實(shí)現(xiàn)這一點(diǎn),并做出一些假設(shè)才能使其在實(shí)踐中發(fā)揮作用,”Kim 說(shuō)。
該團(tuán)隊(duì)在不同場(chǎng)景中針對(duì)其他多智能體強(qiáng)化學(xué)習(xí)框架測(cè)試了他們的方法,其中使用 FURTHER 的 AI 智能體領(lǐng)先。
該方法是分散的,因此代理人學(xué)會(huì)獨(dú)立取勝。最重要的是,與需要中央計(jì)算機(jī)控制代理的其他方法相比,它更適合擴(kuò)展。
據(jù)該團(tuán)隊(duì)稱,F(xiàn)URTHER 可用于廣泛的多代理問(wèn)題。Kim 對(duì)其在經(jīng)濟(jì)學(xué)中的應(yīng)用特別有希望,因?yàn)樗梢詰?yīng)用于在涉及許多行為和利益隨時(shí)間變化的交互實(shí)體的情況下制定合理的政策。