<b id="nqvhe"><source id="nqvhe"><menu id="nqvhe"></menu></source></b>

    1. <source id="nqvhe"></source><xmp id="nqvhe"></xmp>
      1. <b id="nqvhe"></b>
        <u id="nqvhe"></u>
      2. <b id="nqvhe"><address id="nqvhe"><ol id="nqvhe"></ol></address></b>
      3. <source id="nqvhe"></source>
        <xmp id="nqvhe"><video id="nqvhe"></video></xmp>
          <b id="nqvhe"></b>
          <u id="nqvhe"></u>
        1. ABB25年12月
          關注中國自動化產業發展的先行者!
          2026中國自動化產業年會
          工業智能邊緣計算2025年會
          2025工業安全大會
          OICT公益講堂
          當前位置:首頁 >> 資訊 >> 行業資訊

          資訊頻道

          DeepMind推出SIMA 2:具身智能的“全能玩家”與“自主學習者”
          • 點擊數:797     發布時間:2025-12-23 17:54:24
          • 分享到:
          在AI從「被動理解」到「主動交互」的發展過程中,具身智能始終面臨一個核心挑戰:如何讓模型在3D世界中像人類一樣「感知-推理-行動」?Google DeepMind最新發布的SIMA 2,是一款基于Gemini的通用具身智能體,不僅能在多樣虛擬世界中逼近人類水平,還能自主學習新技能,為「通用智能的具身化」邁出了關鍵一步。

          在AI從「被動理解」到「主動交互」的發展過程中,具身智能始終面臨一個核心挑戰:如何讓模型在3D世界中像人類一樣「感知-推理-行動」?Google DeepMind最新發布的SIMA 2,是一款基于Gemini的通用具身智能體,不僅能在多樣虛擬世界中逼近人類水平,還能自主學習新技能,為「通用智能的具身化」邁出了關鍵一步。

          論文鏈接:https://arxiv.org/pdf/2512.04797

          項目主頁:https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

          摘要:我們提出SIMA 2,一款能夠在各類3D虛擬世界中理解并行動的通用具身智能體。該智能體基于Gemini基礎模型構建,是向具身環境中主動、目標導向交互邁出的重要一步。

          與僅局限于簡單語言指令的先前研究(如SIMA 1)不同,SIMA 2可作為交互式伙伴,能夠對高階目標進行推理、與用戶對話,并處理通過語言和圖像傳遞的復雜指令。在多樣化的游戲組合中,SIMA 2大幅縮小了與人類表現的差距,展現出對未見過環境的穩健泛化能力,同時保留了基礎模型的核心推理能力。

          此外,我們還驗證了其開放端自改進能力:通過利用Gemini生成任務并提供獎勵,SIMA 2能夠在全新環境中從零自主學習新技能。本研究驗證了一條路徑,即打造適用于虛擬世界、并最終可拓展至物理世界的多功能且能持續學習的智能體。

          1  具身智能核心挑戰

          長期以來,基礎模型(LLM/VLM)在語言、圖像等靜態任務中表現驚艷,但在3D環境中卻陷入「Moravec悖論」:下圍棋、寫代碼等高階認知任務易實現,而清理餐桌、導航復雜地形等低階感知運動技能卻難如登天。

          核心問題在于「非具身性」:傳統模型依賴靜態互聯網數據訓練,缺乏與環境的交互體驗,無法理解行動的因果關系。Google DeepMind此前的SIMA 1雖能遵循簡單指令,但局限于短指令、無推理能力,泛化性極差。

          因此團隊提出SIMA 2,以Gemini為核心,將推理、對話、行動深度融合,從「指令執行者」升級為「交互式伙伴」,并且能在未見過的環境中自主進化。

          17667424991.png

          SIMA 2在多環境中的交互示意圖

          2  核心設計

          SIMA 2的強大性能,源于其從架構到訓練的全方位優化:

          2.1 基礎架構

          SIMA 2以Gemini Flash-Lite為核心,融合游戲數據與預訓練數據,打破了「感知、語言、行動」的模態壁壘。與SIMA 1不同,它無需單獨訓練語言編碼器,直接繼承Gemini的多模態理解、推理和對話能力,實現「輸入-思考-輸出」的端到端閉環。

          2.2 訓練環境

          · 訓練環境:覆蓋8款商用游戲(如《無人深空》《英靈神殿》)+3款研究環境,新增《太空工程師》等復雜沙盒游戲,場景包含開放世界、生存建造、太空探索等多元類型。

          · 泛化測試環境:專門設置“未訓練環境”,包括維京生存游戲ASKA、Minecraft基準MineDojo、故事驅動型游戲《The Gunk》,以及Genie 3生成的 photorealistic 場景(自然/城市環境)。

          2.3 訓練數據與流程

          · 數據類型:

              ☉ 人類數據(主體):通過“單人游戲后標注”和“Setter-Solver雙人互動”兩種方式,收集包含“圖像-動作-語言指令”的多模態軌跡,覆蓋低階動作控制。

              ☉ 橋接數據(關鍵補充):由Gemini Pro生成,注入“推理-對話”模態,彌補人類數據的模態缺失,教會模型如何將高階指令轉化為分步行動。

          · 訓練流程:先通過監督微調(SFT)融合雙數據源,再通過強化學習(RL)優化可驗證任務,確保“高 embodied 性能”與“通用推理能力”不沖突。

          17667425171.png

          Agent-Environment Interface交互流程圖

          3  核心能力

          3.1 具身對話

          SIMA 2能像伙伴一樣與用戶互動——不僅能確認指令、反饋進度,還能主動探索并回答問題。例如在《無人深空》中,用戶詢問“蛋形物體的材質”,它會導航至目標、掃描分析,最終回復“這些是含碳植物”。

          3.2 基礎推理

          面對“去像成熟番茄的房子”這類模糊指令,SIMA 2能通過內部推理拆解意圖:成熟番茄=紅色→ 識別紅色房屋→ 規劃路線。這種能力讓它能處理訓練數據中未見過的新穎指令。

          3.3 復雜指令執行

          · 多步驟指令:能拆解“上二樓→左轉進觸手房間→拿VR設備”等長指令,分步執行并實時匯報。

          · 跨語言/符號:零-shot支持法語、中文等多語言,甚至能解析表情符號(斧頭+樹=砍樹)。

          3.4 多模態提示

          繼承Gemini的多模態能力,SIMA 2能通過草圖、截圖等指令行動。例如給它一張樹的草圖,它會自動識別并完成“砍樹”動作,無需文字描述。

          17667425321.png

          具身對話與基礎推理示例

          17667425461.png

          復雜指令與多模態提示示例

          4  性能實測

          4.1 訓練環境

          在自動評估(基于環境狀態/ OCR )和人類評估(5名獨立評分者)中,SIMA 2的平均成功率較SIMA 1翻倍——自動評估從33%提升至65%,人類評估從25%提升至50%,逼近人類限時表現(66%)。

          從技能維度看,它在“環境交互”“物體管理”等類別中幾乎追平人類,僅在“戰斗”“資源收集”等依賴精細操作的任務中仍有提升空間。

          17667425501.png

          訓練環境性能對比圖

          4.2 未知環境

          在完全未訓練的ASKA和MineDojo中,SIMA 2的成功率較SIMA 1提升12%-13%:

          · ASKA中:從“僅能打開地圖”升級為“建造村莊、分配村民任務”;

          · MineDojo中:從“僅能挖泥土、打蜘蛛”擴展到26/50個任務類別,涵蓋采礦、 crafting 、戰斗;

          · 更極端的測試中,它能在《The Gunk》中完成15-20分鐘劇情任務(使用全新吸附工具清理污染物),在Genie 3的 photorealistic 場景中精準導航至目標。

          17667425681.png

          未訓練環境泛化對比圖

          17667425851.png

          Genie 3 photorealistic 環境導航示例

          4.3 關鍵優勢

          傳統具身模型微調后易出現「災難性遺忘」,但SIMA 2在編碼(LCB)、數學(AIME)、STEM(GPQA Diamond)基準中僅輕微下降(最大降幅25.5%),證明高「embodied 性能」與「通用智能」可兼得。

          5  自主學習,持續進化

          通過雙Gemini協作,SIMA 2可實現無需人類標注新數據,就能在陌生環境中自主提升技能。

          5.1 自改進機制

          · 任務生成器(Gemini):根據當前環境狀態,生成“可實現、有挑戰性”的任務(如“靠近雨水收集器”“熄滅篝火”);

          · 獎勵模型(Gemini):對 agent 行動軌跡評分(0-100分,≥50分為成功),評分維度包括“任務完成度”“行動效率”;

          · 迭代優化: agent 用自我生成的“任務-軌跡-評分”數據重新訓練,持續提升性能。

          17667425901.png

          5.2 實測效果

          在ASKA環境中,初始SIMA 2僅能完成25%的任務,經過多輪自改進后:

          · 所有任務成功率達100%,平均分數超越人類資深玩家;

          · 自主解鎖新技能:識別雨水收集器、操作陌生 crafting 菜單、熄滅篝火;

          · 更驚人的是,在Genie 3的“城市-自然”跨場景測試中,自改進后的SIMA 2能將城市環境學到的導航技能,遷移到自然場景中(如尋找紅色蘑菇)。

          17667426031.png

          自改進 setup 與游戲進度圖

          17667426171.png

          Genie 3跨場景自改進對比

          6  意義與局限

          6.1 核心意義

          · 技術突破:驗證了“基礎模型+具身訓練”的可行性,解決了“推理-行動”融合的核心難題;

          · 泛化價值:虛擬環境中習得的技能可遷移至 photorealistic 場景,為 robotics 等物理世界應用鋪墊;

          · 自改進啟示:開創了“ agent + world model ”的開放端學習范式,為通用智能的“終身學習”提供了思路。

          6.2 現存局限

          · 長周期任務:處理需多步推理+目標驗證的復雜任務仍有困難;

          · 記憶限制:依賴有限上下文窗口,難以記住長期交互歷史;

          · 精細操作:鍵盤鼠標接口的低階動作精度不足,復雜3D場景的視覺理解仍需優化。

          6.3 未來方向

          SIMA 2的發布,不僅是「虛擬世界的全能玩家」,更是「通用具身智能的鋪路石」。未來,隨著Gemini的迭代和物理世界數據的融合,它有望將虛擬環境中習得的技能遷移至機器人,真正「打通虛擬訓練與物理應用的邊界」。


          來源:一點人工一點智能


          熱點新聞

          推薦產品

          x
          • 在線反饋
          1.我有以下需求:



          2.詳細的需求:
          姓名:
          單位:
          電話:
          郵件:

            <b id="nqvhe"><source id="nqvhe"><menu id="nqvhe"></menu></source></b>

            1. <source id="nqvhe"></source><xmp id="nqvhe"></xmp>
              1. <b id="nqvhe"></b>
                <u id="nqvhe"></u>
              2. <b id="nqvhe"><address id="nqvhe"><ol id="nqvhe"></ol></address></b>
              3. <source id="nqvhe"></source>
                <xmp id="nqvhe"><video id="nqvhe"></video></xmp>
                  <b id="nqvhe"></b>
                  <u id="nqvhe"></u>
                1. 国产精品高清视亚洲精品