當(dāng)前位置：首頁 > 體育 > 電競

AI玩《超級馬力歐兄弟》：Claude模型操作最溜，推理模型表現(xiàn)不佳

時間：2025-03-04 16:24:15 來源：24直播網(wǎng)

加利福尼亞大學(xué)圣地亞哥分校的 Hao 人工智能實(shí)驗(yàn)室（Hao AI Lab）上周五開展了一項獨(dú)特的研究，將人工智能（AI）引入經(jīng)典游戲《超級馬力歐兄弟》中，以測試其性能表現(xiàn)。研究結(jié)果顯示，在參與測試的 AI 模型中，Anthropic 的 Claude 3.7 表現(xiàn)最為出色，緊隨其后的是 Claude 3.5。相比之下，谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 則表現(xiàn)不佳。

需要明確的是，此次實(shí)驗(yàn)所使用的并非 1985 年最初發(fā)布的《超級馬力歐兄弟》版本。游戲運(yùn)行在一個模擬器中，并通過一個名為 GamingAgent 的框架與 AI 進(jìn)行連接，從而讓 AI 能夠控制馬力歐。GamingAgent 由 Hao 人工智能實(shí)驗(yàn)室自主研發(fā)，其向 AI 提供基本指令，例如“如果附近有障礙物或敵人，向左移動或跳躍以躲避”，同時還提供游戲內(nèi)的截圖。隨后，AI 通過生成 Python 代碼的形式來操控馬力歐。

據(jù)實(shí)驗(yàn)室介紹，該游戲環(huán)境迫使每個 AI 模型“學(xué)習(xí)”如何規(guī)劃復(fù)雜的操作并制定游戲策略。有趣的是，實(shí)驗(yàn)發(fā)現(xiàn)像 OpenAI 的 o1 這樣的推理模型（它們通過逐步思考問題來得出解決方案）表現(xiàn)不如“非推理”模型，盡管它們在大多數(shù)基準(zhǔn)測試中通常表現(xiàn)更強(qiáng)。研究人員指出，推理模型在實(shí)時游戲中表現(xiàn)不佳的主要原因之一是它們通常需要花費(fèi)數(shù)秒時間來決定行動。而在《超級馬力歐兄弟》中，時機(jī)至關(guān)重要，一秒鐘的差別可能意味著安全跳過和墜落死亡的不同結(jié)果。

數(shù)十年來，游戲一直是衡量 AI 性能的重要工具。然而，一些專家對將 AI 在游戲中的表現(xiàn)與技術(shù)進(jìn)步直接掛鉤的做法提出了質(zhì)疑。與現(xiàn)實(shí)世界相比，游戲往往是抽象且相對簡單的，并且能夠?yàn)?AI 訓(xùn)練提供理論上無限的數(shù)據(jù)。

IT之家注意到，最近一些引人注目的游戲基準(zhǔn)測試結(jié)果引發(fā)了 OpenAI 研究科學(xué)家、創(chuàng)始成員安德烈?卡帕西（Andrej Karpathy）所說的“評估危機(jī)”。他在 X 平臺上發(fā)表的一篇帖子中寫道：“我目前真的不知道該關(guān)注哪些 AI 指標(biāo)?！彼偨Y(jié)道：“我的反應(yīng)是，我目前真的不知道這些模型到底有多好?！?/p>

標(biāo)簽模型推理操作馬力超級兄弟

上一篇：新華社采訪多位國內(nèi)游戲制作人：國產(chǎn)單機(jī)游戲未來擁有無限的可能！

下一篇：返回列表

欧美一级做a爰片免费-aa久久久久久一级一片毛片特色-一级国产A免费看-欧美性受一级A片兔费

AI玩《超級馬力歐兄弟》：Claude模型操作最溜，推理模型表現(xiàn)不佳

熱門數(shù)據(jù)

相關(guān)信息

AI玩《超級馬力歐兄弟》：Claude模型操作最溜，推理模型表現(xiàn)不佳

新華社采訪多位國內(nèi)游戲制作人：國產(chǎn)單機(jī)游戲未來擁有無限的可能！

LCK美女主持人裴惠智更新社媒動態(tài)：早點(diǎn)下班，和老公約會去咯

網(wǎng)易游戲深夜全線崩潰官方致歉中國移動網(wǎng)絡(luò)故障

寧王puff吐槽喊瞳夕Pubg兮夜就會來：每次都當(dāng)他倆的電燈泡！

先鋒賽獎金池公開：總計100萬美元冠軍戰(zhàn)隊30萬美金

PS5的極致就這《宇宙機(jī)器人》開發(fā)者：游戲?qū)S5的機(jī)能發(fā)揮到了極致

第一賽段各聯(lián)賽海外收視峰值：T1大戰(zhàn)HLE吸引190萬觀看！LPL幾乎無人問津

韓網(wǎng)流出先鋒賽賽程：CFO兩天四場拉滿！HLE與TES均為兩天三場

這也太丈育了Leyan更博曬照：始終人口看一下豬頭

03月04日NBA常規(guī)賽活塞爵士全場錄像

03月04日NBA常規(guī)賽火箭雷霆全場錄像

03月03日WCBA季后賽首輪G2內(nèi)蒙古女籃陜西女籃全場錄像

03月03日WCBA季后賽首輪G2四川女籃黑龍江女籃全場錄像

03月03日NBA常規(guī)賽快船湖人全場錄像

03月03日NBA常規(guī)賽公牛步行者全場錄像

03月02日CBA全明星賽北區(qū)明星南區(qū)明星全場錄像

03月02日NBA常規(guī)賽雄鹿獨(dú)行俠全場錄像

03月02日NBA常規(guī)賽馬刺灰熊全場錄像

03月01日CBA星銳賽2二年級大學(xué)生聯(lián)隊全場錄像

相關(guān)集錦

康寧漢姆29+9菲利波夫斯基25+8活塞6人上雙大勝爵士

拉文22分歐文重傷退賽凱瓊斯首秀21+9國王大勝獨(dú)行俠

亞歷山大51+5+7謝潑德新高25+5白魔27+11雷霆擊退殘陣火箭

丹尼爾斯搶斷助勒韋爾絕殺里薩謝27分貝恩三雙老鷹勝灰熊

阿德巴約19+14米德爾頓16分維金斯&普爾缺戰(zhàn)熱火大勝奇才

03月04日NBA常規(guī)賽開拓者76人精彩鏡頭

03月04日NBA常規(guī)賽勇士黃蜂精彩鏡頭

03月03日WCBA季后賽首輪G2內(nèi)蒙古女籃9761陜西女籃集錦

03月03日WCBA季后賽首輪G2四川女籃9653黑龍江女籃集錦

詹姆斯千勝里程碑東契奇29+9小卡33+10湖人再勝快船升第2

熱門TAG

欧美一级做a爰片免费-aa久久久久久一级一片毛片特色-一级国产A免费看-欧美性受一级A片兔费

AI玩《超級馬力歐兄弟》：Claude模型操作最溜，推理模型表現(xiàn)不佳

熱門數(shù)據(jù)

相關(guān)信息

AI玩《超級馬力歐兄弟》：Claude模型操作最溜，推理模型表現(xiàn)不佳

新華社采訪多位國內(nèi)游戲制作人：國產(chǎn)單機(jī)游戲未來擁有無限的可能！

LCK美女主持人裴惠智更新社媒動態(tài)：早點(diǎn)下班，和老公約會去咯

網(wǎng)易游戲深夜全線崩潰官方致歉中國移動網(wǎng)絡(luò)故障

寧王puff吐槽喊瞳夕Pubg兮夜就會來：每次都當(dāng)他倆的電燈泡！

先鋒賽獎金池公開：總計100萬美元冠軍戰(zhàn)隊30萬美金

PS5的極致就這《宇宙機(jī)器人》開發(fā)者：游戲?qū)S5的機(jī)能發(fā)揮到了極致

第一賽段各聯(lián)賽海外收視峰值：T1大戰(zhàn)HLE吸引190萬觀看！LPL幾乎無人問津

韓網(wǎng)流出先鋒賽賽程：CFO兩天四場拉滿！HLE與TES均為兩天三場

這也太丈育了Leyan更博曬照：始終人口看一下豬頭

03月04日NBA常規(guī)賽活塞爵士全場錄像

03月04日NBA常規(guī)賽火箭雷霆全場錄像

03月03日WCBA季后賽首輪G2內(nèi)蒙古女籃陜西女籃全場錄像

03月03日WCBA季后賽首輪G2四川女籃黑龍江女籃全場錄像

03月03日NBA常規(guī)賽快船湖人全場錄像

03月03日NBA常規(guī)賽公牛步行者全場錄像

03月02日CBA全明星賽北區(qū)明星南區(qū)明星全場錄像

03月02日NBA常規(guī)賽雄鹿獨(dú)行俠全場錄像

03月02日NBA常規(guī)賽馬刺灰熊全場錄像

03月01日CBA星銳賽2二年級大學(xué)生聯(lián)隊全場錄像

相關(guān)集錦

康寧漢姆29+9菲利波夫斯基25+8活塞6人上雙大勝爵士

拉文22分歐文重傷退賽凱瓊斯首秀21+9國王大勝獨(dú)行俠

亞歷山大51+5+7謝潑德新高25+5白魔27+11雷霆擊退殘陣火箭

丹尼爾斯搶斷助勒韋爾絕殺里薩謝27分貝恩三雙老鷹勝灰熊

阿德巴約19+14米德爾頓16分維金斯&普爾缺戰(zhàn)熱火大勝奇才

03月04日NBA常規(guī)賽開拓者76人精彩鏡頭

03月04日NBA常規(guī)賽勇士黃蜂精彩鏡頭

03月03日WCBA季后賽首輪G2內(nèi)蒙古女籃9761陜西女籃集錦

03月03日WCBA季后賽首輪G2四川女籃9653黑龍江女籃集錦

詹姆斯千勝里程碑東契奇29+9小卡33+10湖人再勝快船升第2

熱門TAG

AI玩《超級馬力歐兄弟》：Claude模型操作最溜，推理模型表現(xiàn)不佳

新華社采訪多位國內(nèi)游戲制作人：國產(chǎn)單機(jī)游戲未來擁有無限的可能！

LCK美女主持人裴惠智更新社媒動態(tài)：早點(diǎn)下班，和老公約會去咯

寧王puff吐槽喊瞳夕Pubg兮夜就會來：每次都當(dāng)他倆的電燈泡！

第一賽段各聯(lián)賽海外收視峰值：T1大戰(zhàn)HLE吸引190萬觀看！LPL幾乎無人問津

韓網(wǎng)流出先鋒賽賽程：CFO兩天四場拉滿！HLE與TES均為兩天三場