近日,國際人工智能頂級會議AAAI 2026論文接收結果公布,中國科學院沈陽自動化研究所在機器視覺研究方面的多篇研究論文獲錄用。
在多模態大模型視覺生成方面,研究團隊提出了一種專家表征對齊的多模態大模型訓練框架ARRA,可有效促進大模型學習跨模態表征,實現多任務通用多模態生成。相關研究成果Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment被大會選為口頭匯報(Oral)論文,論文第一作者為博士生謝興,通訊作者為范慧杰研究員與屈靚瓊助理教授。

多模態大模型自回歸表征對齊訓練框架
在多模態大模型方面,研究團隊提出了創新的物體分詞框架ObjecTok,顯著提升了模型以物體為中心的感知與推理能力。相關成果論文為ObjecTok: Learning Holistic and Robust Object Tokens for MLLMs,第一作者為博士生王思翰,通訊作者為劉西瑤副研究員。

MLLM物體詞元學習示意圖
在具身智能操作方面,研究團隊提出了一種仿人知識總結與繼承的終身學習框架,賦予智能操作機器人持續演進、不斷適應新技能的終身學習能力。相關研究成果論文為Lifelong Language-Conditioned Robotic Manipulation Learning,第一作者為博士生王旭東與沈陽自動化所實習生韓澤斌,通訊作者為韓志研究員。

智能機器人多技能終身學習示意圖
在具身智能導航方面,研究團隊提出了一種基于分層規劃策略的導航智能體,可提升智能機器人在復雜大場景中具身導航的魯棒性。相關研究成果論文為SeqWalker: Sequential-Horizon Vision-and-Language Navigation with Hierarchical Planning,第一作者為沈陽自動化所實習生、中北大學本科生韓澤斌,通訊作者為博士生王旭東。

智能機器人大場景復雜指令順序導航示意圖
在視頻定制化生成方面,研究團隊提出了一種連續定制化視頻擴散模型,可在連續動態空間中實現任意概念的個性化視頻生成。相關研究成果論文為Bring Your Dreams to Life: Continual Text-to-Video Customization,第一作者為沈陽自動化所博士畢業生、穆罕默德·本·扎耶德人工智能大學博士后董家華和沈陽自動化所博士生王旭東,通訊作者為韓志研究員。

多概念持續定制化視頻生成示例
在生成式世界模型方面,研究團隊提出了首個可用自然語言控制的 4D LiDAR 生成模型,實現了高逼真、可編輯的動態點云場景生成,可用于多種下游感知模型的安全驗證和閉環仿真。該研究成果LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences被大會選為口頭匯報(Oral)論文,第一作者為博士生梁奧,通訊作者為趙懷慈研究員。

多階段 4D 點云生成和編輯框架
上述研究成果得到了國家自然科學基金、國家重點研發計劃、機器人與智能系統全國重點實驗室自主項目、沈陽自動化所基礎研究項目等支持。(機器人學研究室 光電信息技術研究室)
來源:中國科學院沈陽自動化研究所






資訊頻道