在AI從「被動理解」到「主動交互」的發展過程中,具身智能始終面臨一個核心挑戰:如何讓模型在3D世界中像人類一樣「感知-推理-行動」?Google DeepMind最新發布的SIMA 2,是一款基于Gemini的通用具身智能體,不僅能在多樣虛擬世界中逼近人類水平,還能自主學習新技能,為「通用智能的具身化」邁出了關鍵一步。
論文鏈接:https://arxiv.org/pdf/2512.04797
摘要:我們提出SIMA 2,一款能夠在各類3D虛擬世界中理解并行動的通用具身智能體。該智能體基于Gemini基礎模型構建,是向具身環境中主動、目標導向交互邁出的重要一步。
與僅局限于簡單語言指令的先前研究(如SIMA 1)不同,SIMA 2可作為交互式伙伴,能夠對高階目標進行推理、與用戶對話,并處理通過語言和圖像傳遞的復雜指令。在多樣化的游戲組合中,SIMA 2大幅縮小了與人類表現的差距,展現出對未見過環境的穩健泛化能力,同時保留了基礎模型的核心推理能力。
此外,我們還驗證了其開放端自改進能力:通過利用Gemini生成任務并提供獎勵,SIMA 2能夠在全新環境中從零自主學習新技能。本研究驗證了一條路徑,即打造適用于虛擬世界、并最終可拓展至物理世界的多功能且能持續學習的智能體。
1 具身智能核心挑戰
長期以來,基礎模型(LLM/VLM)在語言、圖像等靜態任務中表現驚艷,但在3D環境中卻陷入「Moravec悖論」:下圍棋、寫代碼等高階認知任務易實現,而清理餐桌、導航復雜地形等低階感知運動技能卻難如登天。
核心問題在于「非具身性」:傳統模型依賴靜態互聯網數據訓練,缺乏與環境的交互體驗,無法理解行動的因果關系。Google DeepMind此前的SIMA 1雖能遵循簡單指令,但局限于短指令、無推理能力,泛化性極差。
因此團隊提出SIMA 2,以Gemini為核心,將推理、對話、行動深度融合,從「指令執行者」升級為「交互式伙伴」,并且能在未見過的環境中自主進化。

SIMA 2在多環境中的交互示意圖
2 核心設計
SIMA 2的強大性能,源于其從架構到訓練的全方位優化:
2.1 基礎架構
SIMA 2以Gemini Flash-Lite為核心,融合游戲數據與預訓練數據,打破了「感知、語言、行動」的模態壁壘。與SIMA 1不同,它無需單獨訓練語言編碼器,直接繼承Gemini的多模態理解、推理和對話能力,實現「輸入-思考-輸出」的端到端閉環。
2.2 訓練環境
· 訓練環境:覆蓋8款商用游戲(如《無人深空》《英靈神殿》)+3款研究環境,新增《太空工程師》等復雜沙盒游戲,場景包含開放世界、生存建造、太空探索等多元類型。
· 泛化測試環境:專門設置“未訓練環境”,包括維京生存游戲ASKA、Minecraft基準MineDojo、故事驅動型游戲《The Gunk》,以及Genie 3生成的 photorealistic 場景(自然/城市環境)。
2.3 訓練數據與流程
· 數據類型:
☉ 人類數據(主體):通過“單人游戲后標注”和“Setter-Solver雙人互動”兩種方式,收集包含“圖像-動作-語言指令”的多模態軌跡,覆蓋低階動作控制。
☉ 橋接數據(關鍵補充):由Gemini Pro生成,注入“推理-對話”模態,彌補人類數據的模態缺失,教會模型如何將高階指令轉化為分步行動。
· 訓練流程:先通過監督微調(SFT)融合雙數據源,再通過強化學習(RL)優化可驗證任務,確保“高 embodied 性能”與“通用推理能力”不沖突。

Agent-Environment Interface交互流程圖
3 核心能力
3.1 具身對話
SIMA 2能像伙伴一樣與用戶互動——不僅能確認指令、反饋進度,還能主動探索并回答問題。例如在《無人深空》中,用戶詢問“蛋形物體的材質”,它會導航至目標、掃描分析,最終回復“這些是含碳植物”。
3.2 基礎推理
面對“去像成熟番茄的房子”這類模糊指令,SIMA 2能通過內部推理拆解意圖:成熟番茄=紅色→ 識別紅色房屋→ 規劃路線。這種能力讓它能處理訓練數據中未見過的新穎指令。
3.3 復雜指令執行
· 多步驟指令:能拆解“上二樓→左轉進觸手房間→拿VR設備”等長指令,分步執行并實時匯報。
· 跨語言/符號:零-shot支持法語、中文等多語言,甚至能解析表情符號(斧頭+樹=砍樹)。
3.4 多模態提示
繼承Gemini的多模態能力,SIMA 2能通過草圖、截圖等指令行動。例如給它一張樹的草圖,它會自動識別并完成“砍樹”動作,無需文字描述。

具身對話與基礎推理示例

復雜指令與多模態提示示例
4 性能實測
4.1 訓練環境
在自動評估(基于環境狀態/ OCR )和人類評估(5名獨立評分者)中,SIMA 2的平均成功率較SIMA 1翻倍——自動評估從33%提升至65%,人類評估從25%提升至50%,逼近人類限時表現(66%)。
從技能維度看,它在“環境交互”“物體管理”等類別中幾乎追平人類,僅在“戰斗”“資源收集”等依賴精細操作的任務中仍有提升空間。

訓練環境性能對比圖
4.2 未知環境
在完全未訓練的ASKA和MineDojo中,SIMA 2的成功率較SIMA 1提升12%-13%:
· ASKA中:從“僅能打開地圖”升級為“建造村莊、分配村民任務”;
· MineDojo中:從“僅能挖泥土、打蜘蛛”擴展到26/50個任務類別,涵蓋采礦、 crafting 、戰斗;
· 更極端的測試中,它能在《The Gunk》中完成15-20分鐘劇情任務(使用全新吸附工具清理污染物),在Genie 3的 photorealistic 場景中精準導航至目標。

未訓練環境泛化對比圖

Genie 3 photorealistic 環境導航示例
4.3 關鍵優勢
傳統具身模型微調后易出現「災難性遺忘」,但SIMA 2在編碼(LCB)、數學(AIME)、STEM(GPQA Diamond)基準中僅輕微下降(最大降幅25.5%),證明高「embodied 性能」與「通用智能」可兼得。
5 自主學習,持續進化
通過雙Gemini協作,SIMA 2可實現無需人類標注新數據,就能在陌生環境中自主提升技能。
5.1 自改進機制
· 任務生成器(Gemini):根據當前環境狀態,生成“可實現、有挑戰性”的任務(如“靠近雨水收集器”“熄滅篝火”);
· 獎勵模型(Gemini):對 agent 行動軌跡評分(0-100分,≥50分為成功),評分維度包括“任務完成度”“行動效率”;
· 迭代優化: agent 用自我生成的“任務-軌跡-評分”數據重新訓練,持續提升性能。

5.2 實測效果
在ASKA環境中,初始SIMA 2僅能完成25%的任務,經過多輪自改進后:
· 所有任務成功率達100%,平均分數超越人類資深玩家;
· 自主解鎖新技能:識別雨水收集器、操作陌生 crafting 菜單、熄滅篝火;
· 更驚人的是,在Genie 3的“城市-自然”跨場景測試中,自改進后的SIMA 2能將城市環境學到的導航技能,遷移到自然場景中(如尋找紅色蘑菇)。

自改進 setup 與游戲進度圖

Genie 3跨場景自改進對比
6 意義與局限
6.1 核心意義
· 技術突破:驗證了“基礎模型+具身訓練”的可行性,解決了“推理-行動”融合的核心難題;
· 泛化價值:虛擬環境中習得的技能可遷移至 photorealistic 場景,為 robotics 等物理世界應用鋪墊;
· 自改進啟示:開創了“ agent + world model ”的開放端學習范式,為通用智能的“終身學習”提供了思路。
6.2 現存局限
· 長周期任務:處理需多步推理+目標驗證的復雜任務仍有困難;
· 記憶限制:依賴有限上下文窗口,難以記住長期交互歷史;
· 精細操作:鍵盤鼠標接口的低階動作精度不足,復雜3D場景的視覺理解仍需優化。
6.3 未來方向
SIMA 2的發布,不僅是「虛擬世界的全能玩家」,更是「通用具身智能的鋪路石」。未來,隨著Gemini的迭代和物理世界數據的融合,它有望將虛擬環境中習得的技能遷移至機器人,真正「打通虛擬訓練與物理應用的邊界」。
來源:一點人工一點智能






資訊頻道