米老鼠论坛二肖中特|什么是二肖中特
您正在使用IE低版瀏覽器,為了您的雷鋒網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發私信給楊曉凡
發送

0

血虐人類玩家,DeepMind星際2 AI 現身Nature

本文作者:楊曉凡 2019-10-31 16:46
導語:大規模測試迎來喜訊

血虐人類玩家,DeepMind星際2 AI 現身Nature

雷鋒網 AI 科技評論按:游戲 AI 的新進展接連不斷,昨晚 DeepMind 發表推特和博客表示他們的星際 2 AI「AlphaStar」的論文已經被 Nature 雜志接收,最重要的是補上了大規模 1v1 人類對局的實驗結果。而這個結果也是令人欽佩的:在星際 2 歐服的大約九萬名玩家中取得了「Grandmaster」的段位,天梯排名達到所有活躍玩家的前 0.15%(在九萬名玩家中相當于前 150 名以內)。這樣的水準直接參加星際 2 天梯比賽可謂是「炸魚」般的存在,一路被血虐的人類玩家不知道有沒有懷疑過自己到底碰上的是 AI 還是職業選手(笑)。

血虐人類玩家,DeepMind星際2 AI 現身Nature

一月的比賽中,AlphaStar 會建造大量工人,快速建立資源優勢(超過人類職業選手的 16 個或 18 個的上限)

血虐人類玩家,DeepMind星際2 AI 現身Nature

一月的比賽中,AlphaStar 控制的兩個追獵者黑血極限逃生

AlphaStar 是如何走到這一步的?

技術方面,今年一月 DeepMind 就公開了 AlphaStar 和人類職業選手的一些測試比賽對局,并解釋了許多 AlphaStar 中重要的技術原理,包括:

  • 模型結構 - AlphaStar 使用的是一個長序列建模模型,模型從游戲接口接收的數據是單位列表和這些單位的屬性,經過神經網絡計算后輸出在游戲中執行的指令。這個神經網絡的基礎是 Transformer 網絡,并且結合了一個深度 LSTM 網絡核心、一個帶有指針網絡的自動回歸策略頭,以及一個中心化的評分基準。

    血虐人類玩家,DeepMind星際2 AI 現身Nature

    AlphaStar league 中的個體形成了明顯的策略分布
  • 訓練策略 - AlphaStar 首先根據高水平人類比賽進行監督學習訓練(模仿學習),然后進行自我對弈。自我對弈的過程中使用了群體強化學習的思路:AlphaStar 自我對弈過程中始終都同時記錄、更新多個不同版本的網絡,保持一個群體,稱作 AlphaStar league;AlphaStar league 中不同的網絡具有不同的對戰策略、學習目標等等,維持了群體的多樣性,整個群體的對弈學習保證了持續穩定的表現提升,而且很新的版本也不會「忘記」如何擊敗很早的版本。

  • 訓練結果輸出 - 當需要輸出一個網絡作為最終的訓練結果時,以 AlphaStar league 中的納什分布進行采樣,可以得到已經發現的多種策略的綜合最優解。

  • 算力需求 - 為了支持大批不同版本 AlphaStar 智能體的對戰與更新,DeepMind 專門構建了一個大規模可拓展的分布式訓練環境,其中使用了最新的谷歌 TPUv3。AlphaStar league 的自我對戰訓練過程用了 14 天,每個 AlphaStar 智能體使用了 16 個 TPU,最終相當于每個智能體都有長達 200 年的游戲時間。訓練結束后的模型在單塊消費級 GPU 上就可以運行。

  • 操作統計 - 在今年一月的版本中,AlphaStar 的平均 APM 為 280,峰值 APM 超過 1000,計算延時平均為 350 毫秒;切換關注區域的速度大約是每分鐘 30 次。

  • 技術細節的更詳細介紹參見雷鋒網(公眾號:雷鋒網) AI 科技評論的這篇文章

今年 7 月,DeepMind 準備 AlphaStar 論文的 Nature 版本,并準備進行大規模人類 1v1 比賽作為論文中的重要實驗的時候,他們也曾發出預告。而且,其實 1 月時和人類比賽的 AlphaStar 版本中有一些設定對 AI 有偏袒,這次進行大規模比賽的版本中進行了修改,以便更公平,也更好地體現 DeepMind 的科研水準。這些改動包括:

  • 一月的版本可以直接讀取地圖上所有的可見內容,不需要用操作切換視角,這次需要自己控制視角,和人類一樣只能觀察到視野內的單位,也只能在視野內移動單位

  • 一月的版本僅使用了神族,這次 AlphaStar 會使用人族、蟲族、神族全部三個種族

  • 一月的版本在操作方面沒有明確的性能限制,這次,在與人類職業選手共同商議后,對 AlphaStar 的平均每秒操作數、平均每分鐘操作數(APM)、瞬時最高 APM 等一些方面都做了更嚴格的限制,減少操作方面相比人類的優勢。

  • 參與測試的 AlphaStar 都是從人類比賽 replay 和自我比賽中學習的,沒有從與人類的對局中學習。

除此之外,AlphaStar 的表現會在整個測試期間保持不變,不進行訓練學習;這樣得到的測試結果能直接反應 DeepMind 目前的技術水準到達了怎么樣的水平。另一方面,作為 AlphaStar 技術方案的一大亮點,參與測試的 AlphaStar 也會是 AlphaStar 種群(AlphaStar league,詳見下文)中的多個不同個體,匹配到的不同 AlphaStar 個體可能會有迥異的游戲表現。

這個新版的 AlphaStar 一共經過了 44 天的訓練,然后在星際 2 天梯上(在暴雪的幫助下)用各種各樣的馬甲進行比賽,以免被玩家輕易發現。最終達到了星際 2 歐服的「Grandmaster」段位,以及所有活躍玩家的前 0.15% 排名。

AlphaStar 是怎樣一個里程碑?

首先,星際 2 是一個不完全信息游戲(博弈),戰爭迷霧隱藏了對手的許多信息,AI 需要具有探索、記憶甚至推測的能力才能獲得更好的表現。

其次,雖然 AlphaStar 和圍棋 AI AlphaGo 一樣都是以自我對局作為重要的訓練策略,但在星際 2 中,策略的遺忘和互相克制更加明顯,并沒有某一個策略可以穩定地勝過所有其他的策略,所以繼續使用簡單的自我對局學習會讓智能體陷入在不同策略間游移但水平停滯不前的境地。為了應對這個問題,DeepMind 采用了群體強化學習的訓練策略(上文中提到的 AlphaStar league),用一個群體中許多不同個體的各自演進來保存并持續優化各種不同的游戲策略。

星際 2 還具有很大的行為空間,比如每個玩家可以同步做出行動、每個行動可以有不同的時間長短、位移和移動都是空間連續的、攻擊防御技能物品等還有很多的變化,要比圍棋的行為空間大很多。為了應對這樣的行為空間,DeepMind 不僅使用了模仿學習找到優秀的初始策略,而且借助了一些網絡設計技巧來明確智能體對策略的使用和切換,以及使用策略不在線的強化學習算法,讓舊策略完成的比賽也能幫助新策略的學習。除此之外,DeepMind 還發現,對于這么大的行動空間,許多在其他任務中能起到幫助的強化學習技巧已經變得幫助不大了,這對整個強化學習領域來說也是新的發現。

在越來越困難的任務中,使用了基于學習的智能體、借助自我對局持續進化的開放目標的學習系統已經展現出了越來越好的表現。這次在 AlphaStar 的例子里,大規模比賽結果已經表明通用化的學習方法完全可以拓展 AI 系統的規模,讓它在復雜、動態、多玩家的環境中發揮出良好的表現。在 DeepMind 看來,開發 AlphaStar 的過程中涉及的技術都可以幫助他們未來開發出更安全、更魯棒、更有用的通用 AI 系統,最好還能夠對真實世界問題的研究解決帶來幫助。

AlphaStar 論文 Nature 版:https://doi.org/10.1038/s41586-019-1724-z

AlphaStar 論文開放閱讀版:https://storage.googleapis.com/deepmind-media/research/alphastar/AlphaStar_unformatted.pdf

參考 deepmind.com/blog,雷鋒網 AI 科技評論報道

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知

血虐人類玩家,DeepMind星際2 AI 現身Nature

分享:
相關文章

文章點評:

表情
最新文章
請填寫申請人資料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說
米老鼠论坛二肖中特 中国福彩app 亿客隆网址 天天捕鱼游戏中心 双色球复式投注咋玩的 2017捕鱼大师安卓版 手机上的麻将软件哪个最好玩 湖北快三下载官方网站 武汉青山开什么店赚钱 上海快三计划软件免费下载 不充值可以赚钱的手游 福建十一选五 ig赛车计划软件免费版 免费彩金捕鱼 pk10全天在线计划群 黑龙江22选5和值走势图 重庆幸运农场