国产精品嫩草影院在线,国产成人啪精品视频站午夜

??? 盡管機(jī)器學(xué)習(xí)在諸如圍棋和Dota?2等復(fù)雜游戲中取得了顯著進(jìn)步，但在這些領(lǐng)域掌握的技能并不一定能推廣到真實(shí)場景中實(shí)際應(yīng)用。越來越多的研究人員正在尋求建立一種機(jī)器智能，使其行為、學(xué)習(xí)和進(jìn)化更像人類。

????總部位于舊金山的OpenAI公司近日發(fā)表的一篇新論文提出，在兒童的“躲貓貓”游戲中訓(xùn)練模型，并在數(shù)以千萬計(jì)的競賽中使它們相互對(duì)抗，可導(dǎo)致模型自動(dòng)發(fā)展出類似人類的行為，從而提高智力并改善后續(xù)行動(dòng)的性能。

????為什么選擇躲貓貓？

????該論文的第一作者、OpenAI研究員博文·貝克認(rèn)為，躲貓貓被選為一個(gè)有趣的起點(diǎn)，主要是因?yàn)槠湟?guī)則很簡單。所有游戲中的代理（Agent，也稱智能體，指能自主活動(dòng)的軟件或硬件實(shí)體）都被模擬為球形對(duì)象，可執(zhí)行3種類型的操作：導(dǎo)航、抓住并移動(dòng)物體、鎖定對(duì)象，且只能由該代理的隊(duì)友解鎖。

????研究人員在模擬的、物理接地的環(huán)境中放置了1—3個(gè)“躲藏者”和1—3個(gè)“尋找者”，房間的邊界是靜態(tài)墻。環(huán)境中還包括不同尺寸的可移動(dòng)箱子和可移動(dòng)坡道。

????研究人員使用強(qiáng)化學(xué)習(xí)來訓(xùn)練游戲代理，并遵循簡單的躲貓貓規(guī)則：隱藏者成功躲過尋找者的追逐，或是尋找者成功找到躲藏者。

????AI如何玩躲貓貓？

????在經(jīng)過數(shù)億次的游戲后，AI代理經(jīng)歷了幾個(gè)階段的策略發(fā)展過程。

????在初始階段，躲藏者（藍(lán)色）和尋找者（紅色）通過在空間中移動(dòng)而不操縱任何物體，制定了非常粗糙的躲避和追逐策略。

????在經(jīng)歷2500萬個(gè)回合后，游戲變得更加復(fù)雜。躲藏者學(xué)會(huì)了移動(dòng)和鎖定在環(huán)境中的箱子和路障，以在自己周圍建立堡壘，這樣尋找者就永遠(yuǎn)看不到它們了。不僅如此，他們還制定了協(xié)調(diào)戰(zhàn)略，例如相互傳遞物體，以加快建造堡壘的進(jìn)程。

????然而，在游戲進(jìn)行了7500萬回合之后，尋找者發(fā)現(xiàn)了一個(gè)反策略。他們學(xué)會(huì)了在躲藏者的要塞旁邊移動(dòng)一個(gè)坡道，并用它來爬過墻壁。

????作為回應(yīng)，躲藏者學(xué)會(huì)了將坡道移入他們的房間，因此尋找者無法用它來越過墻壁。

????隨著環(huán)境變得越來越復(fù)雜，躲藏者學(xué)會(huì)了使用細(xì)長箱子建造更強(qiáng)大的“堡壘”。雖然OpenAI認(rèn)為這將是最終的策略，但在游戲進(jìn)行到3.8億回合時(shí)，尋找者再次成功反擊，找出一種方法來跳到一個(gè)盒子上并利用動(dòng)力在它上面“沖浪”，越過墻壁進(jìn)入堡壘。

????在最后階段，躲藏者學(xué)會(huì)在建造堡壘之前鎖定所有箱子，以防止“箱子沖浪”。

????研究人員將這些不同策略的演變稱為“來自多智能體自動(dòng)課程的緊急技能進(jìn)展”。“自動(dòng)課程”這一術(shù)語是今年由DeepMind創(chuàng)造的，適用于多個(gè)代理逐漸創(chuàng)造新任務(wù)以在特定環(huán)境中相互挑戰(zhàn)。OpenAI的研究人員認(rèn)為，這個(gè)過程在自然選擇方面具有相似之處。

????這項(xiàng)研究為啥很重要？

????鑒于躲貓貓相對(duì)簡單的目標(biāo)，通過競爭性自我游戲訓(xùn)練的多個(gè)代理學(xué)會(huì)了使用工具，并采用人類相關(guān)技能來獲勝。OpenAI認(rèn)為，這為未來的智能代理開發(fā)和部署提供了一個(gè)有前景的研究方向。OpenAI正在開源其代碼和環(huán)境，以鼓勵(lì)在該領(lǐng)域進(jìn)一步研究。

????OpenAI的最終目標(biāo)是構(gòu)建能夠在一個(gè)通用系統(tǒng)中執(zhí)行多項(xiàng)任務(wù)的人工通用智能（AGI）。雖然可能會(huì)有不同的目標(biāo)，但OpenAI正在大力投資由大規(guī)模計(jì)算能力實(shí)現(xiàn)的強(qiáng)化學(xué)習(xí)研究。OpenAI最近與微軟簽署了一份價(jià)值10億美元的為期10年的計(jì)算合同。

????躲貓貓游戲研究也激發(fā)了OpenAI，因?yàn)殡S著環(huán)境復(fù)雜性的增加，游戲中的代理不斷地通過新策略自我適應(yīng)新的挑戰(zhàn)。貝克表示：“如果擴(kuò)展像這樣的流程，并將其放入更復(fù)雜的環(huán)境中，那么你可能會(huì)得到足夠復(fù)雜的代理，以便為我們解決實(shí)際任務(wù)。”

????挑戰(zhàn)在哪里？

????游戲代理有時(shí)會(huì)表現(xiàn)出令人驚訝的行為。例如，躲藏者試圖完全逃離游戲區(qū)域，直到研究人員對(duì)此施加懲罰。

????其他挑戰(zhàn)可能歸因于模擬環(huán)境設(shè)計(jì)中的物理缺陷。例如，躲藏者了解到，如果他們在拐角處向墻壁推動(dòng)斜坡，斜坡將由于某種原因穿過墻壁然后消失。這種“作弊”說明了算法的安全性如何在機(jī)器學(xué)習(xí)中發(fā)揮關(guān)鍵作用。研究人員說：“在它發(fā)生之前，你永遠(yuǎn)不會(huì)知道。這類系統(tǒng)總是存在缺陷。我們所做的基本上是觀察，以便我們可以看到這種奇怪的事情發(fā)生，然后試著修復(fù)物理缺陷。”

久久久免费观成人影院,日韩亚洲欧美综合,中文字幕av一区,日本欧美一区二区三区

玩躲貓貓游戲 AI學(xué)會(huì)攻防術(shù)