?">

久久久免费观成人影院,日韩亚洲欧美综合,中文字幕av一区,日本欧美一区二区三区

首頁(yè) > 科學(xué) > 科學(xué)探索

玩躲貓貓游戲 AI學(xué)會(huì)攻防術(shù)

2019-09-19 08:07:19

來(lái)源: 科技日?qǐng)?bào)

??? 盡管機(jī)器學(xué)習(xí)在諸如圍棋和Dota?2等復(fù)雜游戲中取得了顯著進(jìn)步,但在這些領(lǐng)域掌握的技能并不一定能推廣到真實(shí)場(chǎng)景中實(shí)際應(yīng)用。越來(lái)越多的研究人員正在尋求建立一種機(jī)器智能,使其行為、學(xué)習(xí)和進(jìn)化更像人類(lèi)。

????總部位于舊金山的OpenAI公司近日發(fā)表的一篇新論文提出,在兒童的“躲貓貓”游戲中訓(xùn)練模型,并在數(shù)以千萬(wàn)計(jì)的競(jìng)賽中使它們相互對(duì)抗,可導(dǎo)致模型自動(dòng)發(fā)展出類(lèi)似人類(lèi)的行為,從而提高智力并改善后續(xù)行動(dòng)的性能。

????為什么選擇躲貓貓?

????該論文的第一作者、OpenAI研究員博文·貝克認(rèn)為,躲貓貓被選為一個(gè)有趣的起點(diǎn),主要是因?yàn)槠湟?guī)則很簡(jiǎn)單。所有游戲中的代理(Agent,也稱(chēng)智能體,指能自主活動(dòng)的軟件或硬件實(shí)體)都被模擬為球形對(duì)象,可執(zhí)行3種類(lèi)型的操作:導(dǎo)航、抓住并移動(dòng)物體、鎖定對(duì)象,且只能由該代理的隊(duì)友解鎖。

????研究人員在模擬的、物理接地的環(huán)境中放置了1—3個(gè)“躲藏者”和1—3個(gè)“尋找者”,房間的邊界是靜態(tài)墻。環(huán)境中還包括不同尺寸的可移動(dòng)箱子和可移動(dòng)坡道。

????研究人員使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練游戲代理,并遵循簡(jiǎn)單的躲貓貓規(guī)則:隱藏者成功躲過(guò)尋找者的追逐,或是尋找者成功找到躲藏者。

????AI如何玩躲貓貓?

????在經(jīng)過(guò)數(shù)億次的游戲后,AI代理經(jīng)歷了幾個(gè)階段的策略發(fā)展過(guò)程。

????在初始階段,躲藏者(藍(lán)色)和尋找者(紅色)通過(guò)在空間中移動(dòng)而不操縱任何物體,制定了非常粗糙的躲避和追逐策略。

????在經(jīng)歷2500萬(wàn)個(gè)回合后,游戲變得更加復(fù)雜。躲藏者學(xué)會(huì)了移動(dòng)和鎖定在環(huán)境中的箱子和路障,以在自己周?chē)⒈荆@樣尋找者就永遠(yuǎn)看不到它們了。不僅如此,他們還制定了協(xié)調(diào)戰(zhàn)略,例如相互傳遞物體,以加快建造堡壘的進(jìn)程。

????然而,在游戲進(jìn)行了7500萬(wàn)回合之后,尋找者發(fā)現(xiàn)了一個(gè)反策略。他們學(xué)會(huì)了在躲藏者的要塞旁邊移動(dòng)一個(gè)坡道,并用它來(lái)爬過(guò)墻壁。

????作為回應(yīng),躲藏者學(xué)會(huì)了將坡道移入他們的房間,因此尋找者無(wú)法用它來(lái)越過(guò)墻壁。

????隨著環(huán)境變得越來(lái)越復(fù)雜,躲藏者學(xué)會(huì)了使用細(xì)長(zhǎng)箱子建造更強(qiáng)大的“堡壘”。雖然OpenAI認(rèn)為這將是最終的策略,但在游戲進(jìn)行到3.8億回合時(shí),尋找者再次成功反擊,找出一種方法來(lái)跳到一個(gè)盒子上并利用動(dòng)力在它上面“沖浪”,越過(guò)墻壁進(jìn)入堡壘。

????在最后階段,躲藏者學(xué)會(huì)在建造堡壘之前鎖定所有箱子,以防止“箱子沖浪”。

????研究人員將這些不同策略的演變稱(chēng)為“來(lái)自多智能體自動(dòng)課程的緊急技能進(jìn)展”。“自動(dòng)課程”這一術(shù)語(yǔ)是今年由DeepMind創(chuàng)造的,適用于多個(gè)代理逐漸創(chuàng)造新任務(wù)以在特定環(huán)境中相互挑戰(zhàn)。OpenAI的研究人員認(rèn)為,這個(gè)過(guò)程在自然選擇方面具有相似之處。

????這項(xiàng)研究為啥很重要?

????鑒于躲貓貓相對(duì)簡(jiǎn)單的目標(biāo),通過(guò)競(jìng)爭(zhēng)性自我游戲訓(xùn)練的多個(gè)代理學(xué)會(huì)了使用工具,并采用人類(lèi)相關(guān)技能來(lái)獲勝。OpenAI認(rèn)為,這為未來(lái)的智能代理開(kāi)發(fā)和部署提供了一個(gè)有前景的研究方向。OpenAI正在開(kāi)源其代碼和環(huán)境,以鼓勵(lì)在該領(lǐng)域進(jìn)一步研究。

????OpenAI的最終目標(biāo)是構(gòu)建能夠在一個(gè)通用系統(tǒng)中執(zhí)行多項(xiàng)任務(wù)的人工通用智能(AGI)。雖然可能會(huì)有不同的目標(biāo),但OpenAI正在大力投資由大規(guī)模計(jì)算能力實(shí)現(xiàn)的強(qiáng)化學(xué)習(xí)研究。OpenAI最近與微軟簽署了一份價(jià)值10億美元的為期10年的計(jì)算合同。

????躲貓貓游戲研究也激發(fā)了OpenAI,因?yàn)殡S著環(huán)境復(fù)雜性的增加,游戲中的代理不斷地通過(guò)新策略自我適應(yīng)新的挑戰(zhàn)。貝克表示:“如果擴(kuò)展像這樣的流程,并將其放入更復(fù)雜的環(huán)境中,那么你可能會(huì)得到足夠復(fù)雜的代理,以便為我們解決實(shí)際任務(wù)。”

????挑戰(zhàn)在哪里?

????游戲代理有時(shí)會(huì)表現(xiàn)出令人驚訝的行為。例如,躲藏者試圖完全逃離游戲區(qū)域,直到研究人員對(duì)此施加懲罰。

????其他挑戰(zhàn)可能歸因于模擬環(huán)境設(shè)計(jì)中的物理缺陷。例如,躲藏者了解到,如果他們?cè)诠战翘幭驂Ρ谕苿?dòng)斜坡,斜坡將由于某種原因穿過(guò)墻壁然后消失。這種“作弊”說(shuō)明了算法的安全性如何在機(jī)器學(xué)習(xí)中發(fā)揮關(guān)鍵作用。研究人員說(shuō):“在它發(fā)生之前,你永遠(yuǎn)不會(huì)知道。這類(lèi)系統(tǒng)總是存在缺陷。我們所做的基本上是觀察,以便我們可以看到這種奇怪的事情發(fā)生,然后試著修復(fù)物理缺陷。”

  • 相關(guān)閱讀
  • 迎接“全屋智能”時(shí)代

      【現(xiàn)象】 ??? 近幾年,“全屋智能”的概念逐漸在家裝領(lǐng)域流行開(kāi)來(lái)。顧名思義,所謂全屋智能,是指整體的智能家居系統(tǒng),集智能照明、安防、影音、家電控制等于一體的整體家居解決方案。“全屋智能”實(shí)現(xiàn)家居產(chǎn)...

    時(shí)間:09-20
  • 會(huì)員經(jīng)濟(jì),當(dāng)以誠(chéng)信為先

      近年來(lái),聽(tīng)歌、購(gòu)物、旅游、點(diǎn)外賣(mài)……凡日常生活所能觸及的領(lǐng)域,各類(lèi)互聯(lián)網(wǎng)平臺(tái)紛紛推出了各式各樣的會(huì)員制度,讓用戶(hù)目不暇接。為了享受更優(yōu)惠的價(jià)格、更高品質(zhì)的服務(wù),辦理付費(fèi)會(huì)員正在成為一種消費(fèi)常態(tài)...

    時(shí)間:09-20
  • 共和國(guó)的故事·飛天記

      中國(guó)載人航天工程自1992年立項(xiàng)實(shí)施以來(lái),從無(wú)人飛行到載人飛行,從一人一天到多人多天,從艙內(nèi)實(shí)驗(yàn)到出艙活動(dòng),從單船飛行到組合體穩(wěn)定運(yùn)行……在西方國(guó)家的技術(shù)封鎖和質(zhì)疑聲中,我國(guó)先后突破掌握天地往返、...

    時(shí)間:09-19
  • 共和國(guó)的故事·飛天記

      中國(guó)載人航天工程自1992年立項(xiàng)實(shí)施以來(lái),從無(wú)人飛行到載人飛行,從一人一天到多人多天,從艙內(nèi)實(shí)驗(yàn)到出艙活動(dòng),從單船飛行到組合體穩(wěn)定運(yùn)行……在西方國(guó)家的技術(shù)封鎖和質(zhì)疑聲中,我國(guó)先后突破掌握天地往返、...

    時(shí)間:09-19
  • 第六屆世界互聯(lián)網(wǎng)大會(huì)將于十月舉行

      國(guó)新辦18日舉行發(fā)布會(huì),介紹第六屆世界互聯(lián)網(wǎng)大會(huì)有關(guān)情況及籌備工作。國(guó)家互聯(lián)網(wǎng)信息辦公室副主任劉烈宏宣布,由國(guó)家網(wǎng)信辦和浙江省人民政府共同舉辦的第六屆世界互聯(lián)網(wǎng)大會(huì)將于10月20日至22日在浙江烏鎮(zhèn)召...

    時(shí)間:09-19
  • 第六屆世界互聯(lián)網(wǎng)大會(huì)將于十月舉行

      國(guó)新辦18日舉行發(fā)布會(huì),介紹第六屆世界互聯(lián)網(wǎng)大會(huì)有關(guān)情況及籌備工作。國(guó)家互聯(lián)網(wǎng)信息辦公室副主任劉烈宏宣布,由國(guó)家網(wǎng)信辦和浙江省人民政府共同舉辦的第六屆世界互聯(lián)網(wǎng)大會(huì)將于10月20日至22日在浙江烏鎮(zhèn)召...

    時(shí)間:09-19
  • 長(zhǎng)江水下藏著一個(gè)超大管廊,能通電百萬(wàn)伏

      橫亙?cè)陂L(zhǎng)江兩岸的蘇通大橋,車(chē)量川流不息;寬闊的江面上,舟楫如梭。上游一公里處,江水下深藏著一個(gè)超大管廊,長(zhǎng)5468.5米,盾構(gòu)直徑12.07米,能通百萬(wàn)伏電。   這個(gè)超大管廊名為蘇通GIL管廊,連接蘇州和南...

    時(shí)間:09-19
  • 長(zhǎng)江水下藏著一個(gè)超大管廊,能通電百萬(wàn)伏

      橫亙?cè)陂L(zhǎng)江兩岸的蘇通大橋,車(chē)量川流不息;寬闊的江面上,舟楫如梭。上游一公里處,江水下深藏著一個(gè)超大管廊,長(zhǎng)5468.5米,盾構(gòu)直徑12.07米,能通百萬(wàn)伏電。   這個(gè)超大管廊名為蘇通GIL管廊,連接蘇州和南...

    時(shí)間:09-19
  • 我國(guó)首片自主研發(fā)的8.5代TFT—LCD玻璃基板下線

      9月18日,我國(guó)首片8.5代TFT—LCD玻璃基板在安徽蚌埠下線。我國(guó)成為全球第三個(gè)掌握高世代TFT—LCD玻璃基板生產(chǎn)技術(shù)的國(guó)家。   TFT—LCD玻璃基板是液晶顯示面板的核心部件,是電子信息顯示產(chǎn)業(yè)的關(guān)鍵戰(zhàn)略材料...

    時(shí)間:09-19
  • 我國(guó)首片自主研發(fā)的8.5代TFT—LCD玻璃基板下線

      9月18日,我國(guó)首片8.5代TFT—LCD玻璃基板在安徽蚌埠下線。我國(guó)成為全球第三個(gè)掌握高世代TFT—LCD玻璃基板生產(chǎn)技術(shù)的國(guó)家。   TFT—LCD玻璃基板是液晶顯示面板的核心部件,是電子信息顯示產(chǎn)業(yè)的關(guān)鍵戰(zhàn)略材料...

    時(shí)間:09-19
免責(zé)聲明:本網(wǎng)對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。 本網(wǎng)站轉(zhuǎn)載圖片、文字之類(lèi)版權(quán)申明,本網(wǎng)站無(wú)法鑒別所上傳圖片或文字的知識(shí)版權(quán),如果侵犯,請(qǐng)及時(shí)通知我們,本網(wǎng)站將在第一時(shí)間及時(shí)刪除。