近日,研究人工智能(AI)和游戲的科學(xué)家將迎來最新的人機對決。但此次并非一個人與一臺機器對決,一個由5名頂尖電子游戲玩家組成的團隊,將會瘋狂地向一群名為OpenAI 5的機器人施展魔法咒語和發(fā)射(虛擬)火球。他們將在加拿大溫哥華舉行的國際電子競技錦標(biāo)賽上玩實時策略游戲Dota 2,這是一項一年一度的電子競技賽事,其數(shù)百萬美元的獎金吸引了許多職業(yè)玩家參與。
1997年,IBM的“深藍(lán)AI”擊敗國際象棋冠軍加里·卡斯帕羅夫。2016年,深度思維公司的AlphaGo AI在傳統(tǒng)圍棋比賽中擊敗了世界圍棋大師李世石。計算機在跳棋和一些撲克游戲中也擊敗了人類。但快節(jié)奏的多人視頻游戲則帶來了另一種挑戰(zhàn),它需要計算機協(xié)作和管理不可預(yù)測性。這一目標(biāo)是常識,它可以幫助AI應(yīng)對現(xiàn)實世界的情況,如導(dǎo)航交通和提供家庭護理,即使它們永遠(yuǎn)不必面對魔法咒語。
“AI的下一件大事是合作?!庇鴤惗卮髮W(xué)學(xué)院計算機學(xué)家、研究另一種實時戰(zhàn)略游戲《星際爭霸2》的王軍(音譯)說。牛津大學(xué)計算機學(xué)家、《星際爭霸2》的另一名研究者Jakob Foerster說,它需要“戰(zhàn)略推理,在這里它可以了解其他人的動機”。
Dota 2于2013年公布,在全球擁有數(shù)百萬玩家。在游戲中,團隊在保衛(wèi)自己地盤的同時,還要通過戰(zhàn)斗摧毀敵人的地盤,同時收集資源以增加自己的力量和技能。一場勢均力敵的比賽持續(xù)時間約45分鐘。1年前,美國加州舊金山非營利研究機構(gòu)OpenAI公布了一種能在一對一游戲中擊敗人類最佳玩家的AI。但OpenAI的聯(lián)合創(chuàng)始人兼首席技術(shù)官Greg Brockman表示,在此次國際比賽中,5對5的對決對電腦來說是一個更大的挑戰(zhàn),因為比賽的時間更長,也更復(fù)雜。盡管如此,在近日熱身賽中,OpenAI 5仍輕松擊敗了一個前職業(yè)玩家團隊?!氨灰粋€非人類弄得很尷尬是件糟糕的事?!痹谝蝗河^眾面前輸?shù)舯荣惖腤illiam“Blitz”Lee說,“我們被左右碾壓。”
Dota2中潛在的走法范圍遠(yuǎn)遠(yuǎn)大于國際象棋或圍棋,后兩者最多只有幾百種走法。但在Dota2中,動作是不變的,玩家的每次移動卻有著成千上萬種選擇,例如向哪里逃跑、用哪個魔法以及在哪里瞄準(zhǔn)等。這樣的自由度加上游戲固有的隨機性和玩家對視野之外事物的忽視,意味著你不能完美地預(yù)測游戲的走向,哪怕是向前移動一步。在國際象棋和圍棋中,算法會使用搜索樹分析未來分支的可能性。而在Dota2中,預(yù)測變得更加模糊。
因此,OpenAI 5沒有依賴于搜索樹,而是使用了神經(jīng)網(wǎng)絡(luò),這是一種受大腦啟發(fā)的算法,可以加強小計算元素之間的聯(lián)系從而予以回應(yīng)。(AlphaGo則是將神經(jīng)網(wǎng)絡(luò)與搜索樹相結(jié)合)在訓(xùn)練過程中,該系統(tǒng)在游戲中盲目地實驗不同的動作。當(dāng)它們表現(xiàn)良好時,負(fù)責(zé)那些行為的聯(lián)系就會加強。經(jīng)過長時間的游戲加速,強大的策略出現(xiàn)了。OpenAI大規(guī)模應(yīng)用了這種被稱為強化學(xué)習(xí)的方法,并在數(shù)千臺計算機上同時運行該算法?!癘penAI 5是我見過的令人印象最深刻的強化學(xué)習(xí)演示之一?!钡湼绫竟畔⒓夹g(shù)大學(xué)計算機科學(xué)家、參與《星際爭霸2》研究的Niels Justesen說。
從表面上看,OpenAI 5在合作方面也取得了成功。AI的5名玩家非常愿意為了團隊的整體利益而犧牲自我,這可能會讓它們比人類團隊更有優(yōu)勢。“這臺機器人表現(xiàn)得很有犧牲精神?!盠ee說,而人類不太可能為了獲勝而放棄一個玩家?!柏澙肥且环N人性觀念?!钡獳I依賴于一種蜂群思維,它可能讓協(xié)作變得更容易。系統(tǒng)中幾乎相同的5種算法中的每一種都能看到其他算法所看到的內(nèi)容,而人類只能看到自己屏幕上的內(nèi)容,只有通過交談才能共享信息。王軍表示,為了與人或與它們不同的程序合作,無論是在游戲還是在生活中,這些算法最終需要發(fā)展溝通技巧和“心理理論”,即有關(guān)其他人和算法的信念和愿望的模型。
即便如此,Dota2仍然是對AI的一個有價值的測試。許多專家預(yù)測OpenAI 5將在國際比賽中獲勝。不過,德國多特蒙德技術(shù)大學(xué)研究人工智能和游戲的Vanessa Volz則看到了其潛在的弱點,那就是OpenAI 5使用“自我對決”來訓(xùn)練算法。她表示:“這種方式有可能會受到以前看不到的游戲風(fēng)格的影響?!陛斀o人工智能的Lee也有同樣的感覺。“現(xiàn)在,機器人有點太死板了。”他說,“它的可預(yù)測性變得有些過強。我覺得如果我們再多打幾場比賽,就能干凈利落地獲勝。”(晉楠編譯)
摘自《中國科學(xué)報》