DeepMind推出SIMA 2：具身智能的“全能玩家”與“自主學習者”-資訊-控制網

DeepMind推出SIMA 2：具身智能的“全能玩家”與“自主學習者”

點擊數：797 發布時間：2025-12-23 17:54:24
分享到：

在AI從「被動理解」到「主動交互」的發展過程中，具身智能始終面臨一個核心挑戰：如何讓模型在3D世界中像人類一樣「感知-推理-行動」？Google DeepMind最新發布的SIMA 2，是一款基于Gemini的通用具身智能體，不僅能在多樣虛擬世界中逼近人類水平，還能自主學習新技能，為「通用智能的具身化」邁出了關鍵一步。

關鍵詞：具身智能體 , 多模態提示 , 自主學習

論文鏈接：https://arxiv.org/pdf/2512.04797

項目主頁：https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

摘要：我們提出SIMA 2，一款能夠在各類3D虛擬世界中理解并行動的通用具身智能體。該智能體基于Gemini基礎模型構建，是向具身環境中主動、目標導向交互邁出的重要一步。

與僅局限于簡單語言指令的先前研究（如SIMA 1）不同，SIMA 2可作為交互式伙伴，能夠對高階目標進行推理、與用戶對話，并處理通過語言和圖像傳遞的復雜指令。在多樣化的游戲組合中，SIMA 2大幅縮小了與人類表現的差距，展現出對未見過環境的穩健泛化能力，同時保留了基礎模型的核心推理能力。

此外，我們還驗證了其開放端自改進能力：通過利用Gemini生成任務并提供獎勵，SIMA 2能夠在全新環境中從零自主學習新技能。本研究驗證了一條路徑，即打造適用于虛擬世界、并最終可拓展至物理世界的多功能且能持續學習的智能體。

1 具身智能核心挑戰

長期以來，基礎模型（LLM/VLM）在語言、圖像等靜態任務中表現驚艷，但在3D環境中卻陷入「Moravec悖論」：下圍棋、寫代碼等高階認知任務易實現，而清理餐桌、導航復雜地形等低階感知運動技能卻難如登天。

核心問題在于「非具身性」：傳統模型依賴靜態互聯網數據訓練，缺乏與環境的交互體驗，無法理解行動的因果關系。Google DeepMind此前的SIMA 1雖能遵循簡單指令，但局限于短指令、無推理能力，泛化性極差。

因此團隊提出SIMA 2，以Gemini為核心，將推理、對話、行動深度融合，從「指令執行者」升級為「交互式伙伴」，并且能在未見過的環境中自主進化。

SIMA 2在多環境中的交互示意圖

2 核心設計

SIMA 2的強大性能，源于其從架構到訓練的全方位優化：

2.1 基礎架構

SIMA 2以Gemini Flash-Lite為核心，融合游戲數據與預訓練數據，打破了「感知、語言、行動」的模態壁壘。與SIMA 1不同，它無需單獨訓練語言編碼器，直接繼承Gemini的多模態理解、推理和對話能力，實現「輸入-思考-輸出」的端到端閉環。

2.2 訓練環境

· 訓練環境：覆蓋8款商用游戲（如《無人深空》《英靈神殿》）+3款研究環境，新增《太空工程師》等復雜沙盒游戲，場景包含開放世界、生存建造、太空探索等多元類型。

· 泛化測試環境：專門設置“未訓練環境”，包括維京生存游戲ASKA、Minecraft基準MineDojo、故事驅動型游戲《The Gunk》，以及Genie 3生成的 photorealistic 場景（自然/城市環境）。

2.3 訓練數據與流程

· 數據類型：

☉ 人類數據（主體）：通過“單人游戲后標注”和“Setter-Solver雙人互動”兩種方式，收集包含“圖像-動作-語言指令”的多模態軌跡，覆蓋低階動作控制。

☉ 橋接數據（關鍵補充）：由Gemini Pro生成，注入“推理-對話”模態，彌補人類數據的模態缺失，教會模型如何將高階指令轉化為分步行動。

· 訓練流程：先通過監督微調（SFT）融合雙數據源，再通過強化學習（RL）優化可驗證任務，確保“高 embodied 性能”與“通用推理能力”不沖突。

Agent-Environment Interface交互流程圖

3 核心能力

3.1 具身對話

SIMA 2能像伙伴一樣與用戶互動——不僅能確認指令、反饋進度，還能主動探索并回答問題。例如在《無人深空》中，用戶詢問“蛋形物體的材質”，它會導航至目標、掃描分析，最終回復“這些是含碳植物”。

3.2 基礎推理

面對“去像成熟番茄的房子”這類模糊指令，SIMA 2能通過內部推理拆解意圖：成熟番茄=紅色→ 識別紅色房屋→ 規劃路線。這種能力讓它能處理訓練數據中未見過的新穎指令。

3.3 復雜指令執行

· 多步驟指令：能拆解“上二樓→左轉進觸手房間→拿VR設備”等長指令，分步執行并實時匯報。

· 跨語言/符號：零-shot支持法語、中文等多語言，甚至能解析表情符號（斧頭+樹=砍樹）。

3.4 多模態提示

繼承Gemini的多模態能力，SIMA 2能通過草圖、截圖等指令行動。例如給它一張樹的草圖，它會自動識別并完成“砍樹”動作，無需文字描述。

具身對話與基礎推理示例

復雜指令與多模態提示示例

4 性能實測

4.1 訓練環境

在自動評估（基于環境狀態/ OCR ）和人類評估（5名獨立評分者）中，SIMA 2的平均成功率較SIMA 1翻倍——自動評估從33%提升至65%，人類評估從25%提升至50%，逼近人類限時表現（66%）。

從技能維度看，它在“環境交互”“物體管理”等類別中幾乎追平人類，僅在“戰斗”“資源收集”等依賴精細操作的任務中仍有提升空間。

訓練環境性能對比圖

4.2 未知環境

在完全未訓練的ASKA和MineDojo中，SIMA 2的成功率較SIMA 1提升12%-13%：

· ASKA中：從“僅能打開地圖”升級為“建造村莊、分配村民任務”；

· MineDojo中：從“僅能挖泥土、打蜘蛛”擴展到26/50個任務類別，涵蓋采礦、 crafting 、戰斗；

· 更極端的測試中，它能在《The Gunk》中完成15-20分鐘劇情任務（使用全新吸附工具清理污染物），在Genie 3的 photorealistic 場景中精準導航至目標。

未訓練環境泛化對比圖

Genie 3 photorealistic 環境導航示例

4.3 關鍵優勢

傳統具身模型微調后易出現「災難性遺忘」，但SIMA 2在編碼（LCB）、數學（AIME）、STEM（GPQA Diamond）基準中僅輕微下降（最大降幅25.5%），證明高「embodied 性能」與「通用智能」可兼得。

5 自主學習，持續進化

通過雙Gemini協作，SIMA 2可實現無需人類標注新數據，就能在陌生環境中自主提升技能。

5.1 自改進機制

· 任務生成器（Gemini）：根據當前環境狀態，生成“可實現、有挑戰性”的任務（如“靠近雨水收集器”“熄滅篝火”）；

· 獎勵模型（Gemini）：對 agent 行動軌跡評分（0-100分，≥50分為成功），評分維度包括“任務完成度”“行動效率”；

· 迭代優化： agent 用自我生成的“任務-軌跡-評分”數據重新訓練，持續提升性能。

5.2 實測效果

在ASKA環境中，初始SIMA 2僅能完成25%的任務，經過多輪自改進后：

· 所有任務成功率達100%，平均分數超越人類資深玩家；

· 自主解鎖新技能：識別雨水收集器、操作陌生 crafting 菜單、熄滅篝火；

· 更驚人的是，在Genie 3的“城市-自然”跨場景測試中，自改進后的SIMA 2能將城市環境學到的導航技能，遷移到自然場景中（如尋找紅色蘑菇）。

自改進 setup 與游戲進度圖

Genie 3跨場景自改進對比

6 意義與局限

6.1 核心意義

· 技術突破：驗證了“基礎模型+具身訓練”的可行性，解決了“推理-行動”融合的核心難題；

· 泛化價值：虛擬環境中習得的技能可遷移至 photorealistic 場景，為 robotics 等物理世界應用鋪墊；

· 自改進啟示：開創了“ agent + world model ”的開放端學習范式，為通用智能的“終身學習”提供了思路。

6.2 現存局限

· 長周期任務：處理需多步推理+目標驗證的復雜任務仍有困難；

· 記憶限制：依賴有限上下文窗口，難以記住長期交互歷史；

· 精細操作：鍵盤鼠標接口的低階動作精度不足，復雜3D場景的視覺理解仍需優化。

6.3 未來方向

SIMA 2的發布，不僅是「虛擬世界的全能玩家」，更是「通用具身智能的鋪路石」。未來，隨著Gemini的迭代和物理世界數據的融合，它有望將虛擬環境中習得的技能遷移至機器人，真正「打通虛擬訓練與物理應用的邊界」。

來源：一點人工一點智能

1.我有以下需求：
得到貴公司產品詳細資料得到貴公司產品的價格信息貴公司產品銷售人員聯系我貴公司技術支持人員聯系我
2.詳細的需求：
*
姓名:	*
單位:
電話:	*
郵件:	*

技術頻道

行業頻道

熱門頻道

技術頻道

行業頻道

熱門頻道

資訊頻道

熱點新聞

推薦產品