西安交通大學二級教授,博士生導師 蘭旭光
在人工智能邁向更高階發展的今天,“具身智能”(Embodied AI)正成為繼語言大模型之后又一個備受關注的前沿方向。它強調智能體通過與環境互動實現感知、推理與行動的統一,是實現通用人工智能(AGI)的重要路徑之一。近日,我們專訪了西安交通大學人工智能學院蘭旭光教授,他就具身智能的核心挑戰、技術路徑與工業應用前景進行了深入解讀。
記者:請您從技術和產業層面談談“具身智能”的發展?
蘭旭光:隨著算力的極大提升、大規模數據的獲取日益便捷以及多種新型AI模型的涌現,人類長期以來對“智能體與環境交互并實現進化適應”的追求正在加速轉變為現實。“人工智能”“具身智能”與“人形機器人”常被混為一談,實際上三者各有側重:人工智能更注重算法和計算層面的信息處理與認知能力提升;人形機器人的核心在于實現具有類人形態的物理載體;具身智能則注重“智能體—環境—算法”三位一體的協同演化,更強調如何在物理實體中充分利用感知、決策和執行機制,并在環境交互中不斷演進。當前研究與應用主要聚焦以下五大核心領域:面向具身技術的仿真引擎(Simulators)、具身感知(Embodied Perception)、具身交互(Embodied Interaction)、具身智能體(Embodied Agent)、虛實遷移方法(Sim-to-Real Adaptation),它們構成更通用、更自主且更具協作性的智能形態的關鍵環節。
具身智能在滿足國家重大需求以及提升關鍵領域競爭力方面具有巨大潛力,應用范圍涵蓋國防安全、應急救援、太空探索,以及醫療康復、養老助殘、智能家居和智能制造等民生領域。近年來,具身智能正不斷催生出新的產業形態,有望深刻改變社會的生產方式和生產關系,并以空前速度與深度重塑世界。在產業層面,具身智能與制造業、農業、服務業等深度融合,創造出新業態、新模式,成為經濟增長的新引擎。目前全球各大科技巨頭均投入了巨額資源來開發人形機器人、自動駕駛汽車、工業機器人及無人機等具身智能產品。就我們中國市場而言,中國已成為全球最大的機器人消費市場和生產基地,國家政策的大力支持極大推動了具身智能產業的發展。
在工業制造領域,國產機器人迅速崛起,新松機器人、埃斯頓機器人等企業的產品廣泛應用于汽車制造、電子裝配、機械加工等領域。此外,國際巨頭ABB在上海建立了全球最大規模的機器人超級工廠,為中國及亞太地區提供更加高效的機器人解決方案。在物流服務領域,中國本土企業極智嘉(Geek+)取得快速發展,其自動倉儲機器人系統已廣泛服務于阿里巴巴、京東等大型電商企業,極大提高了物流效率和倉儲管理自動化水平。在智能交通領域,百度Apollo在無人駕駛領域不斷實現技術突破,第六代無人駕駛出租車RT6在北京、深圳等多個城市實現了規模化商業運營。小馬智行(Pony.ai)也在廣州和北京的Robotaxi實現了無安全員運營,并成功登陸美國資本市場,估值超過85億美元,成為具身智能交通應用的重要里程碑。在服務機器人領域,宇樹科技(Unitree)在2023年發布了價格親民的人形機器人H1,進一步推動了人形機器人的產業落地和市場普及,顯示出中國企業在成本控制和市場化推廣方面的優勢。此外,科沃斯和石頭科技在家用掃地機器人領域取得突破,其高智能化、自動化的產品受到市場廣泛歡迎。
記者:在您看來,工業場景的“高精度要求”與“強容錯需求”如何倒逼技術迭代?您是否認同“非人形機器人將率先搶灘工業具身智能”這一趨勢?
蘭旭光:工業場景流程高度剛性、任務確定性強,傳統非人形機器人(如工業機械臂、協作機器人和自動移動機器人)經過多年迭代,已在特定工序中積累豐富經驗并表現出優異的穩定性,顯著提升了生產效率。若在這些成熟執行體上加載生成式人工智能驅動的“智能大腦”,最有可能在工業領域率先實現具身智能的規模化落地。總體而言,非人形與人形機器人并非零和替代關系,而是優勢互補、協同共存:短期內非人形機器人占據主導,中長期則多形態融合,共同構建具身智能生態。
短期內,非人形機器人仍將主導工業自動化,原因主要體現在以下三方面:
第一,非人形機器人在高重復、嚴精度任務上優勢顯著。以半導體晶圓搬運為例,薄而脆的晶圓需滿足近乎零容錯率的搬運標準。領先廠商為移動機器人配置步距精度達毫米級的微驅動模組,實現毫米級移動并輕拿輕放精密部件。在航空發動機葉片裝配中,高分辨率三維視覺定位與六自由度力覺控制協同,可將裝配誤差控制在0.01mm以內。
第二,經過十余年技術迭代,非人形機器人成本大幅下降,可靠性顯著提高。國際機器人聯合會數據顯示,國內工業機器人平均價格已從2016年的30萬元降至2023年的18.8萬元。相比之下,人形機器人因關節眾多且結構復雜,成本遠高于非人形平臺:早期Atlas造價逾百萬美元,Digit亦高達數十萬美元,特斯拉Optimus的物料成本約數十萬美元。以機械臂為代表的非人形機器人目前具有更高的投入—產出比。
其三,非人形機器人技術成熟度高,易于集成部署。非人形機器人可通過視覺伺服、柔順力控與數字孿生仿真快速強化感知與閉環控制,并與流水線式剛性工位天然契合,無需大規模改造即可部署。結合激光SLAM與視覺語義理解的協作機器人和自動搬運車,已能夠在動態環境中實現穩定交互,進一步穩固了其在工業高精度、低誤差流程中的領先地位。
工業生產對極端精度與可靠性的需求正在促使相關技術持續升級。一方面,為滿足航空、航天等高端制造環境的微米級裝配精度,硬件正向高分辨率傳感與高剛度執行模組演進。另一方面,極低容錯率推動控制算法由開環轉向與硬件深度耦合的閉環架構。基于實時力覺反饋的柔順控制、碰撞檢測與避障算法,以及異常檢測和預警機制等多層級安全策略已成為工業機器人系統的標配。例如在航空葉片裝配過程中,即使出現輕微位置偏差,系統亦可依賴視覺和力控雙重反饋實時修正路徑,從而避免損傷。數字孿生平臺的引入,使算法能夠在虛擬環境中進行大規模仿真測試,顯著縮短調試周期并提升系統魯棒性。綜合來看,工業環境對極端性能的要求正在加速感知、控制與規劃算法的迭代,為具身智能在工業場景的快速落地奠定基礎。
中長期而言,人形機器人具有獨特的戰略價值。首先,人形機器人在復雜非結構化環境中的適應能力更強,可在跨場景中執行多樣化任務。當前建筑、家具與生產設備多基于人類體態設計,人形機器人因模仿人類而天然適應此類環境,無需額外改造即可進入現場。例如,圓盤式掃地機器人難以覆蓋床底和墻角等死角,而人形機器人可憑借靈活的肢體完成清潔和檢測任務。在汽車裝配線中,機械臂可承擔大部分流程,但“彎腰進入車內系安全帶”之類任務仍需人類或人形機器人完成。
其次,人形機器人因體態接近人類,在共享空間中的人機交互更自然,可與人類協同作業而無需隔離措施。在教育、醫療與服務場景中,其友好外形亦符合“技術具備溫度”的社會期待。
進一步而言,生成式大模型已在語義解析、多模態融合、知識推理、個性化學習與跨域泛化領域表現出了前所未有的能力。大模型與硬件技術的持續演進,為人形機器人打開了廣闊想象空間。有研究預測,未來10–20年,人形機器人成本有望降至數萬元量級,相當于低端電動車價格。一旦算法與核心部件成熟,人形機器人將在柔性制造、物流配送、倉儲巡檢以及救災、個性化服務等場景發揮不可替代的作用。
記者:針對人形機器人在生產場景中的進一步應用,其還面臨哪些技術瓶頸?有何解決路徑?
蘭旭光:當前的人形機器人仍面臨多重技術瓶頸。首先,雙足行走需處理多維感知輸入與高自由度軌跡規劃,尤其在負載狀態下保持與人類相當的步速仍屬挑戰,強化學習與模型預測控制尚未取得根本性突破。其次,多指協調、觸覺感知及微米級位置控制對軟硬件均提出更高要求,許多精細操作尚難在雙足雙臂機器人上穩定實現。進一步,現有高端人形機器人成本動輒百萬美元,但耐久性和可靠性仍難滿足工業連續作業需求。業界制定的人形機器人“1500h無故障”目標亟待在傳動件壽命與續航能力方面取得突破。最后,現有大語言模型可解釋性差、易出現幻覺、缺乏因果推斷,對物理場景理解薄弱,且算力—能耗效率不高,難以支撐復雜場景下的通用作業。
為緩解上述問題,我們正嘗試面向物理世界交互任務,受人類認知機制啟發,并基于“認知可穿透性”原則設計新一代的認知機器人系統。該系統能夠主動感知并獲取環境信息,借助記憶、想象、規劃、決策、行動與協同、學習等認知過程,在開放且動態的環境中持續提升其泛化能力,以應對數據匱乏、多模態信息融合困難及因果推理能力不足等挑戰。受雙系統處理模式、想象性認知、稀疏激活機制、反饋效應與大腦可塑性等神經科學與認知心理學發現的啟發,認知機器人能夠模擬人類的“感知-想象與規劃-行動-反饋與學習-協同-再感知”閉環認知活動,在開放環境下利用有限經驗進行推理與泛化。例如,通過多模態感知和內部模擬,實現對未見場景的因果推斷與啟發式搜索,主動生成符合全局目標的行動方案。又如,將實時偏差轉化為誤差信號,驅動策略自適應迭代,并在多主體協作中整合他人意圖與情緒動態調整計劃,使群體行為快速收斂。人類認知的引入有望顯著提升人形機器人在動態平衡、靈巧操作等方面的表現,為其在復雜場景中的長期自主運行和與人類的自然互動奠定理論基礎,從而成為邁向“通用型”具身智能的關鍵發展路徑。
展望未來,非人形與人形機器人將形成多形態協作的具身智能體系。在典型生產場景中,機械臂負責高速精準加工,自動搬運車負責物料運輸,人形機器人承擔靈活度與場地適應性更高的工作。三者通過云端大模型與本地智能體協同決策,實現多機協作。例如在半導體制造、智能物流與裝配巡檢等領域,可利用多模態感知融合與領域大模型構建協同系統,率先落地混合機器人系統;群體智能算法使多臺機器人可根據任務需求自動分工并協同作業,形成動態柔性生產線。未來的工業具身智能賽道不會被單一形態壟斷,而是依靠非人形與人形機器人深度融合、各展所長,以整體智能協作模式大幅提升生產力。隨著多智能體與人機協同技術的持續進步與標準化,智能工廠將實現高度可靠且靈活的生產,為制造強國建設提供有力支撐。
記者:您如何解讀具身智能的未來發展趨勢?
蘭旭光:具身智能的未來演進將圍繞“感知—學習—想象—協同”四個關鍵方向,構筑從低層物理執行到高層認知決策的多層次智能體系。這標志著AI從“算力驅動”向“理解驅動”跨越,為進一步邁向“類人智能”乃至“通用人工智能”提供了清晰的技術路線,推動產業發展并全面提升人類生活品質。
具身智能既連接了“大腦—小腦”(感知、規劃、決策算法)與“軀體”(物理載體),也將感知、運動、環境和社會等多維要素納入統一考量,正成為驅動新一輪科技革命和產業變革的核心力量。盡管在高度動態與不確定性的真實環境中,當前方法尚不足以進行完善的因果推理和靈活規劃,但借鑒人類主動探測、持續交互和閉環學習的認知機制,必將助力具身智能實現跨越式發展。
未來十年,隨著高效算力設施的廣泛部署、智能算法的不斷迭代以及社會需求的持續增長,具身智能將在工廠車間、物流倉儲、家庭服務、醫療康復、城市交通等各個領域持續落地,深刻改變人類生產生活方式,并孕育出全新產業形態和經濟模式。它所帶來的不只是效率提升,更是從“算力驅動”邁向“理解驅動”的范式轉變,是智能機器人邁向“類人智能”乃至“通用人工智能”的關鍵。唯有秉持對未知世界的持續探索與思考,并在政策、倫理、法規及跨學科協同等多方面形成合力,方能在具身智能的宏大圖景中,與時代同行,迎接更加智慧與繁榮的新紀元。
蘭旭光,西安交通大學二級教授,博士生導師,國家杰出青年科學基金獲得者,國務院學位委員會學科評議組成員。現任西安交通大學人工智能學院黨委書記,中國自動化學會共融機器人專委會主任委員,中國認知科學學會理事、副秘書長,人工智能學會“認知系統與信息處理”專委會副主任委員,仿真學會“智能無人系統建模仿真”專委會副主任委員。主持國家自然科學基金重點、國家科技重大專項、科技創新2030人工智能重大項目、國家重點研發計劃項目等10余項國家項目。
摘自《自動化博覽》2025年8月刊






訪談頻道