<b id="nqvhe"><source id="nqvhe"><menu id="nqvhe"></menu></source></b>

    1. <source id="nqvhe"></source><xmp id="nqvhe"></xmp>
      1. <b id="nqvhe"></b>
        <u id="nqvhe"></u>
      2. <b id="nqvhe"><address id="nqvhe"><ol id="nqvhe"></ol></address></b>
      3. <source id="nqvhe"></source>
        <xmp id="nqvhe"><video id="nqvhe"></video></xmp>
          <b id="nqvhe"></b>
          <u id="nqvhe"></u>
        1. ABB25年11月
          關注中國自動化產業發展的先行者!
          工業智能邊緣計算2025年會
          2025工業安全大會
          CAIAC 2025
          OICT公益講堂
          當前位置:首頁 >> 資訊 >> 行業資訊

          資訊頻道

          第39屆神經信息處理系統大會自動化所入選成果速覽
          • 點擊數:252     發布時間:2025-10-30 21:12:27
          • 分享到:
          神經信息處理系統大會(Conference on Neural Information Processing Systems,簡稱NeurIPS),是機器學習和計算神經科學領域的頂級國際會議。NeurIPS 2025將在美國圣地亞哥(12月2日至12月7日)和墨西哥城(11月30日至12月5日)兩地舉辦。本文章將介紹自動化所在本屆會議上的錄用論文成果。

          神經信息處理系統大會(Conference on Neural Information Processing Systems,簡稱NeurIPS),是機器學習和計算神經科學領域的頂級國際會議。NeurIPS 2025將在美國圣地亞哥(12月2日至12月7日)和墨西哥城(11月30日至12月5日)兩地舉辦。本文章將介紹自動化所在本屆會議上的錄用論文成果。

          01.?DiCo: 重振卷積網絡以實現可擴展且高效的擴散建模

          DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling

          ★Spotlight

          作者:艾雨昂,樊齊航,胡雪峰,楊振恒,赫然,黃懷波

          本研究圍繞擴散模型的高效生成展開。近年來,基于Transformer的擴散模型(DiT)在圖像生成領域表現突出,但其全局自注意力機制帶來了巨大的計算開銷。本文通過深入分析預訓練的DiT模型發現,自注意力在生成任務中多以局部建模為主,長距離依賴的作用有限,這提示我們有可能設計出更高效的替代架構。 為此,我們提出了 Diffusion ConvNet (DiCo),一種完全基于卷積的擴散模型骨干結構。DiCo利用輕量化的點卷積與深度卷積構建基礎模塊,并引入緊湊通道注意力,有效緩解了卷積網絡中通道冗余問題,提升了特征多樣性與表達能力。

          在ImageNet條件生成實驗中,DiCo-XL在256×256分辨率下實現了2.05的FID,并在512×512分辨率下取得2.53的FID,且相比DiT-XL/2實現2.7至3.1倍的加速。同時,在MS-COCO數據集上的實驗表明,純卷積的DiCo同樣具備較強的文本到圖像生成潛力。

          17619164121.png

          DiCo在保持高效率的同時實現了優異的圖像質量

          02.分區再適應:應對預測偏差以實現可靠的多模態測試時自適應

          Partition-Then-Adapt: Combating Prediction Bias for Reliable Multi-Modal Test-Time Adaptation

          ★Spotlight

          作者:王國威,呂凡,丁長興

          本文針對多模態任務在測試時遇到的多模態同時域偏移問題提出了Partition-Then-Adapt(PTA)方法。現有測試時自適應(TTA)技術多集中于單一模態的域偏移,當多模態同時受到干擾時,模型難以區分可靠樣本,容易出現預測偏差并導致誤差積累。PTA由兩部分組成:一是“分區與去偏重加權”(Partition and Debiased Reweighting,PDR),通過比較樣本預測標簽頻率與批次平均水平,量化預測偏差并將數據劃分為潛在可靠和不可靠兩類,再結合置信度用分位數方法重新加權。二是“多模態注意力引導對齊”(Attention-Guided Alignment,AGA),利用可靠樣本的注意力分布引導不可靠樣本,通過最大均值差異正則化使模型聚焦于語義相關線索。

          該方法在Kinetics50-C、VGGSound-C等多模態基準以及CMU-MOSI、CMU-MOSEI、CH-SIMS等真實數據集上均顯著優于現有方法,尤其在高噪聲、多模態同步域偏移場景下提升明顯,并在動態環境和小批量數據情況下表現出較強魯棒性。PTA不僅緩解了高置信但偏差大的“假可靠樣本”問題,還在保持效率的同時提高了模型在多模態測試時自適應任務中的穩定性和準確性。

          17619164321.png

          PTA方法設計

          03.?RepoMaster:面向復雜任務求解的 GitHub 倉庫自主探索與理解框架

          RepoMaster: Autonomous Exploration and Understanding of GitHub Repositories for Complex Task Solving

          ★Spotlight

          作者:汪華燦,倪子懿,張碩,盧碩,胡森,何子揚,胡晨,林嘉燁,郭毅芙,杜云濤,呂品

          代碼智能體的終極目標是自主解決復雜任務。盡管大語言模型(LLM)在代碼生成方面進步顯著,但從零構建完整代碼倉庫仍具挑戰,而現實任務往往需要完整倉庫而非簡單腳本。值得關注的是,GitHub上匯集海量開源項目,常被用作“輪子”復用于復雜任務,但現有框架如OpenHands和SWE-Agent對其仍難以有效利用:僅依賴README文件指導不足,深入探索則面臨信息過載與依賴關系復雜兩大核心障礙,且均受限于當前LLM的有限上下文長度。

          為此,我們提出RepoMaster——一個專注于探索和復用GitHub倉庫的自主智能體框架。在理解階段,通過構建函數調用圖、模塊依賴圖與層級化代碼樹,精準識別關鍵組件,僅向LLM提供核心要素而非完整倉庫內容。在自主執行過程中,依托探索工具逐步拓展關聯組件,并通過信息剪枝優化上下文使用效率。

          實驗結果顯示,在MLE-bench-R上RepoMaster的有效提交率較最強基線OpenHands提升110%;在GitTaskBench基準中,將任務通過率從40.7%提升至62.9%,同時顯著降低95%的token消耗。該框架為代碼智能體高效利用現有代碼資源提供了創新性解決方案。

          17619164451.png

          圖1. 所提RepoMaster總體流程,包括代碼庫搜索、代碼庫混合結構分析和自主探索與執行。

          17619164531.png

          圖2. RepoMaster 的自主探索–執行循環概覽及示例演示。

          該智能體首先對初始上下文進行分析(步驟 1),并指定需要檢查的文件(步驟 2)。為提高信息獲取效率,系統從該文件中提取關鍵信息(步驟 3),并將其附加至當前上下文(步驟 4)。在隨后的探索–執行迭代過程中(步驟 6→2,步驟 7→3),智能體利用探索工具識別更多相關文件,重復基于上下文的代碼探索。當收集到足夠的信息后,RepoMaster 在編寫與執行 “.py” 腳本之間交替進行,通過錯誤處理與基于反饋的調試,不斷優化執行過程,直至任務完成。

          04.?進步的幻象?視覺語言模型測試時自適應方法再審視

          The Illusion of Progress?A Critical Look at Test-Time Adaptation for Vision-Language Models

          作者:生力軍,梁堅,赫然,王子磊,譚鐵牛

          視覺語言模型(VLM)的測試時適應(TTA)方法能夠在無需額外標注數據的情況下提升模型在推理階段的性能,因此受到廣泛關注。然而,現有TTA研究普遍存在基準結果重復、評估指標單一、實驗設置不一致以及分析不夠深入等局限,這阻礙了方法間的公平比較,也掩蓋了其實際優缺點。

          為此,我們提出了一個面向視覺語言模型的測試時適應綜合評測基準——TTA-VLM。該基準在一個統一且可復現的框架中實現了8種片段式TTA方法和7種在線TTA方法,并在15個常用數據集上對其進行了系統評估。與以往僅關注CLIP的研究不同,我們將評估范圍擴展至SigLIP模型,并引入訓練時調優方法以檢驗TTA方法的通用性。除了分類準確率,TTA-VLM還整合了魯棒性、校準性、分布外檢測能力及穩定性等多種評估指標,從而能夠對TTA方法進行更全面的評估。通過大量實驗,我們發現現有TTA方法相比早期開創性工作帶來的性能提升有限、當前TTA方法與訓練時微調方法的協同效果不佳、準確率的提升常常以模型可信度的下降為代價。

          17619164651.png

          所提基準 TTA-VLM 的總體結構

          05.?思考與視覺繪圖交織強化視覺-語言模型中的空間推理能力

          Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

          作者:吳俊飛,關健,馮凱拓,劉強,吳書,王亮,武威,譚鐵牛

          傳統視覺語言模型(LVLMs)普遍采用“視覺轉文本”的推理范式:先將圖像壓縮為token序列并映射至語言空間,再交由大語言模型(LLM)進行純文本推理。然而,受限于視覺編碼器的能力與訓練數據,這一過程往往丟失大量關鍵的細節與時空信息;同時,在冗長的文本推理鏈中,模型對原始視覺信號的關注也逐漸減弱,制約了其空間推理能力。

          針對這一瓶頸,我們提出全新推理范式——“Drawing to Reason in Space”(空間繪圖推理),讓LVLMS能夠像人類一樣“邊畫邊想”:在視覺空間中動態選擇關鍵幀,并繪制參考線、標記框等輔助標注,引導視覺編碼器精準捕捉時空關系,顯著緩解信息損失問題。我們設計了三階段訓練框架——從冷啟動建立基礎繪圖能力,到通過反思拒絕采樣篩選高質量推理路徑,最終以強化學習端到端優化任務目標,并開源模型 ViLaSR-7B。實驗表明,該方法在多個空間推理基準上平均提升 18.4%;在李飛飛教授團隊提出的 VSI-Bench 上,性能達到 45.4%,與 Gemini-1.5-Pro 相當,全面超越現有方法,為視覺語言模型的空間推理開辟了新路徑。

          17619164761.png

          Drawing to reason in space推理范式

          06.?DAA:在測試時類發現中放大未知差異

          DAA: Amplifying Unknown Discrepancy for Test-Time Discovery

          作者:劉天樂,呂凡,倪成功,張彰,胡伏原,王亮

          在動態開放的真實環境中,人工智能系統不僅要保持對已知類別的識別,還必須具備在線發現新類別的能力。然而,現有測試時適應與記憶增強方法多依賴靜態特征與固定原型,難以應對未知類別的干擾,導致新類識別不穩定、邊界模糊和錯誤積累。

          針對這一挑戰,我們提出了面向測試時發現(Test-Time Discovery,TTD)任務,結合差異放大適配器(DAA, Discrepancy-Amplifying Adapter) 與短期記憶更新(STMR, Short-Term Memory Renewal)。DAA 在訓練階段通過模擬未知類并放大特征差異,使模型在面對未知數據時具備更強的區分力。STMR 在測試階段動態刷新短期記憶原型,有效降低錯誤傳播并保持已知類性能。在 CIFAR100-D、CUB-200-D 與 Tiny-ImageNet-D 等多個基準上,我們的方法在實時評估與后評估中均顯著優于現有最先進方法,能清晰分離未知類并提升穩定性。這項研究為開放世界和持續學習提供了全新思路,也為醫療、自動駕駛與智能機器人等需要在線新類發現的應用奠定了技術基礎。

          17619164861.png

          07.?視覺模型在圖結構理解中被低估的力量

          The Underappreciated Power of Vision Models for Graph Structural Understanding

          作者:趙鑫鑒, 龐威, 薛中凱, 簡相如,張磊, 胥瑤瑤, 宋曉壯,吳書,于天舒

          本研究探索了視覺模型在圖結構理解方面尚未充分開發的潛力。圖神經網絡(GNN)采用局部信息聚合機制,與人類視覺感知圖結構的方式存在根本差異,人類通常先把握全局結構,再關注局部細節。研究發現,將圖轉換為圖像后,純視覺模型在圖級別基準上能達到與GNNs相當的性能,但展現出完全不同的學習模式。然而,現有的基準往往將領域特征與拓撲理解混合在一起,難以深入分析這種差異的根源,也無法單純評估模型的結構理解能力。為此,我們提出GraphAbstract,專用于測試模型是否具備類似人類的圖結構理解與泛化能力。該基準通過系統性增加圖的規模來評估模型的跨尺度泛化能力,這是人類圖認知的一個重要特征。

          實驗結果顯示,視覺模型在需要全局結構理解的任務上明顯優于GNN,并保持了更好的跨尺度泛化性能。值得注意的是,與使用更強大的GNN架構相比,為GNN加入位置編碼等全局結構先驗后,其性能和泛化性的提升更為顯著。這一發現與視覺模型的天然優勢共同揭示了獲取全局拓撲信息是圖理解成功的核心要素。本研究為設計更強大的圖模型探索了新的路徑。

          17619164961.png

          GraphAbstract基準上不同模型的性能對比,顯示視覺模型在跨尺度泛化方面的優勢。

          08.?輸入輸出對齊的高效3D視覺-語言-動作模型

          BridgeVLA:Input-Output Alignment for Efficienct 3D Manipulation Learning with Vision-Language Models

          作者:李沛言,陳藝翔,吳弘濤,馬驍,吳祥楠,黃巖,王亮,孔濤,譚鐵牛

          近年來,利用預訓練的視覺-語言模型(VLM)構建視覺-語言-動作(VLA)模型已成為有效的機器人操作方法。然而,現有方法主要處理2D輸入,忽略了寶貴的3D信息。盡管一些最新研究提出將3D信號引入VLM以進行動作預測,但它們忽視了3D數據中固有的空間結構,導致樣本效率低下。

          本文提出了一種新穎的3D VLA模型——BridgeVLA,該模型具有以下特點:(1)將3D輸入投影為多個2D圖像,確保與VLM骨干網絡的輸入對齊;(2)利用2D熱圖進行動作預測,在輸入和輸出統一在一致的2D空間。此外,我們還提出了一種可擴展的預訓練方法,賦予VLM骨干網絡預測2D熱力圖的能力。大量實驗表明,所提出的方法能夠高效學習3D操作技能。BridgeVLA在多個基準測試中超越了現有的最先進的基線方法。在RLBench中,它的成功率顯著提高(88.2% vs. 81.4%)。在COLOSSEUM中,它在泛化場景中表現出更好的性能(64.0% vs. 56.7%)。在GemBench中,它是唯一在所有四個評估設置中達到50%平均成功率的方法。在實際機器人實驗中,BridgeVLA平均比最先進的基線方法提高了32%,并且能夠在多個分布外設置中進行魯棒的泛化,包括視覺干擾和未見過的語言指令。值得注意的是,在總共10多項任務中,BirdgeVLA能夠針對每項任務僅用3個軌跡就能達到96.8%的成功率,顯示出其卓越的樣本效率。

          17619165071.png

          BridgeVLA的網絡結構示意圖

          09.?DriveDPO:一種基于安全直接偏好優化的端到端自動駕駛策略學習方法

          DriveDPO: Policy Learning via Safety DPO For End-to-End Autonomous Driving

          作者:尚書堯,陳韞韜,王宇琪,李穎彥,張兆翔

          端到端自動駕駛近年來取得了顯著進展,其核心思路是直接從原始感知輸入中預測未來軌跡,從而繞過傳統的模塊化處理流程。然而,主流基于模仿學習的方法存在嚴重的安全隱患:它們難以區分那些“看似接近人類軌跡”但實際上存在潛在風險的軌跡。部分最新研究嘗試通過回歸多種基于規則的安全評分來緩解這一問題,但由于監督信號與策略優化相互割裂,最終導致性能不足。

          為解決上述挑戰,我們提出DriveDPO,一種基于安全直接偏好優化的策略學習框架。首先,我們將人類駕駛的相似度與基于規則的安全評分相融合,蒸餾為統一的策略分布,以實現預訓練階段的策略優化。接著,我們引入了一個迭代式的直接偏好優化(iterative DPO)階段,將其形式化為軌跡級的偏好對齊過程。在NAVSIM基準上的大量實驗證明,DriveDPO 取得了新的最先進成績。此外,在多種復雜場景下的定性結果進一步表明DriveDPO 能夠生成更加安全且可靠的駕駛行為。通過有效抑制不安全行為,我們的方法展現了在安全關鍵型端到端自動駕駛應用中的巨大潛力。

          17619165241.png

          DriveDPO 策略學習框架的整體流程

          10.?TC-Light: 時序一致的生成式視頻重渲染器

          TC-Light: Temporally Coherent Generative Rendering for Realistic World Transfer

          作者:劉洋,羅傳琛,湯子墨,李穎彥,楊雨然,寧遠勇,范略,張兆翔,彭君然

          光照和紋理編輯是世界到世界遷移的關鍵維度,這對于包括模擬到真實和真實到真實視覺數據的擴展以支持具身人工智能的應用來說具有重要價值。現有的技術通過生成式重新渲染輸入視頻來實現遷移,例如視頻重新光照模型和條件世界生成模型。然而,這些模型主要局限于訓練數據的領域(例如肖像),或者陷入時間一致性和計算效率的瓶頸,尤其是在輸入視頻涉及復雜動態和長時間的情況下。

          在本文中,我們提出了 TC-Light,這是一種新穎的生成式渲染器,旨在克服這些問題。它從一個由膨脹的視頻重新光照模型初步重新光照的視頻開始,在第一階段優化外觀嵌入以對齊全局光照。然后在第二階段優化所提出的規范視頻表示,即獨特視頻張量(UVT),以對齊細粒度的紋理和光照。為了全面評估性能,我們還建立了一個長且高度動態的視頻基準。大量實驗表明,我們的方法能夠實現物理上合理的重新渲染結果,具有出色的時序連貫性和較低的計算成本。

          17619165391.png

          ?TC-Light算法效果示意圖

          11.?可塑性的學習:脈沖神經網絡中的可塑性驅動學習框架

          Learning the Plasticity: Plasticity-Driven Learning Framework in Spiking Neural Networks

          作者:申國斌, 趙東城, 董一廷, 李楊, 趙菲菲, 曾毅

          本研究提出了一種創新性的脈沖神經網絡(SNN)學習框架,即可塑性驅動學習范式(Plasticity-Driven Learning Framework, PDLF)。傳統神經網絡主要關注直接訓練突觸權重,導致連接靜態且在動態環境中適應性有限。相比之下,PDLF將重點轉向學習可塑性規則本身,而非簡單的權重調整。

          該框架由兩個核心組件構成:突觸協作可塑性(SCP)和前突觸依賴可塑性(PDP)。SCP通過考慮前后突觸神經元活動動態調整突觸強度,PDP基于前突觸活動調整并引入偏置以保持穩定性。通過演化策略優化這些可塑性參數,網絡能夠形成獨特且適應性強的可塑性規則。

          實驗結果表明,PDLF顯著增強了SNN的工作記憶容量、多任務學習能力和泛化性能。在工作記憶任務中,PDLF使網絡能夠將記憶直接編碼到突觸權重中,無需依賴神經元活動維持記憶。在多任務強化學習中,PDLF展現出卓越的適應性,能夠處理不同甚至相互沖突的任務。該框架還表現出強大的魯棒性,能夠從臨時性神經損傷中恢復,并在永久性損傷情況下保持良好性能。

          17619165511.png

          圖1.PDLF框架示意圖

          17619165581.png

          ?圖2.工作記憶實驗設計及PDLF對工作記憶的影響

          12.?跬步:一個面向Spiking Transformer的統一基準框架

          STEP: A Unified Spiking Transformer Evaluation Platform for Fair and Reproducible Benchmarking

          作者:沈思成,趙東城,馮令昊,岳澤陽,李金東,李騰龍,申國斌,曾毅

          隨著類腦智能的快速發展,脈沖神經網絡憑借其稀疏性與事件驅動特性展現出突出的高能效優勢。近年來,研究者提出了一系列Spiking Transformer模型。然而,該領域目前仍缺乏統一的實現與評測平臺,導致實驗結果難以復現,不同模型間的比較亦缺乏公平性。

          為此,本文提出跬步(STEP,Spiking Transformer Evaluation Platform),一個面向Spiking Transformer 的統一基準框架。STEP支持分類、分割與檢測等多類視覺任務,覆蓋靜態圖像、事件驅動數據與序列數據集。平臺采用模塊化設計,使研究者能夠靈活替換神經元模型、編碼方式與注意力機制,并提供一致的訓練流程。在CIFAR、ImageNet、ADE20K與COCO等數據集上的系統復現與消融實驗表明,現有Spiking Transformer在很大程度上依賴卷積前端,而注意力機制貢獻有限;同時,實驗結果進一步凸顯了神經元模型與編碼策略對模型性能的顯著影響。與此同時,我們提出統一的能耗分析框架,考慮了之前的框架都沒有考慮的訪存開銷,并發現在此度量下,量化ANN在部分場景中甚至展現出優于脈沖模型的能效表現。綜上,STEP的發布不僅為該領域建立了公平、可復現的評測基線,也為未來探索真正的脈沖原生架構奠定了堅實基礎。

          17619165681.png

          圖1. Spiking Transformer基本結構示意圖

          17619165751.png

          圖2. STEP 框架總覽

          13.?SOLIDGEO:立體幾何中的多模態空間數學推理能力評估

          SOLIDGEO: Measuring Multimodal Spatial Math Reasoning in Solid Geometry

          作者:王培杰,楊超,李忠志,殷飛,冉德康,田密,冀志龍,白錦峰,劉成林

          幾何是數學的一個基礎分支,在評估多模態大語言模型 (MLLM) 的推理能力方面發揮著至關重要的作用。然而,現有的多模態數學基準測試主要側重于平面幾何,基本上都忽略了立體幾何。立體幾何需要空間推理能力,比平面幾何更具挑戰性。

          為了彌補這一關鍵缺陷,我們推出了SOLIDGEO,這是首個專門用于評估 MLLM立體幾何數學推理能力的大規模基準測試。SOLIDGEO包含3,113 個現實世界的 K-12 和競賽級問題,每個問題都配有視覺上下文,并標注了難度級別和細粒度的立體幾何類別。我們的基準測試涵蓋了投影、展開、空間測量和空間矢量等廣泛的空間推理主題,為評估立體幾何提供了嚴格的測試平臺。通過大量的實驗,我們觀察到 MLLM 在立體幾何數學任務中面臨著巨大的挑戰,其在SOLIDGEO上的性能與人類能力存在顯著差距。此外,我們分析了各種模型的性能、推理效率和錯誤模式,從而更深入地揭示了MLLM的立體幾何數學推理能力。我們希望 SOLIDGEO能夠推動MLLM邁向更深層次的幾何推理和空間智能。

          17619165841.png

          圖1.左圖為6個MLLM在SOLIDGEO基準上8個立體幾何主題的表現;右圖為25個 MLLM 的準確率與平均生成長度

          17619165901.png

          圖2. SOLIDGEO關鍵統計數據與分布

          14.?學習何時思考:多階段強化學習賦能R1風格大語言模型自適應推理

          Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL

          作者:凃崧峻,林佳豪,張啟超,田翔宇,李林靜,藍湘源,趙冬斌

          近年來,推理大模型在數學、邏輯等復雜任務中展現出卓越的推理能力。典型的推理模型通過 <think> </think>結構生成顯式推理鏈條,有助于提升準確率與可驗證性。 然而,這類模型往往在簡單問題上也進行冗長推理,造成過度思考,帶來額外計算開銷。

          針對這一挑戰,本文提出了AutoThink框架,通過將省略號提示(ellipsis prompt)與多階段強化學習(multi-stage RL)相結合,實現了自主思考。其中,省略號提示是一種極簡的提示改動,只需在 <think> 標簽后加入“...”,即可觸發模型在“思考模式”與“非思考模式”間隨機切換。基于這一潛在可控性,進一步設計了三階段強化學習過程:第一階段防止模式坍塌,第二階段強化正確推理,第三階段利用長度感知獎勵剪枝冗余步驟。實驗證明,AutoThink能夠根據任務難度動態調節推理深度,在五個數學基準上實現了準確率提升與推理開銷顯著下降(如在DeepSeek-R1-Distill-Qwen-1.5B上準確率提高 6.4%,token使用減少 52%),同時在GPQA、MML等非數學任務中也表現出良好的遷移性,建立了一種兼顧效率與性能的自適應推理新范式。

          17619166021.png

          左側: 標準提示與省略號提示下的準確率和 Token 使用量; 右側: 按難度劃分的無思考行為比例

          15.?均衡策略泛化:一種實現追逃博弈策略跨圖零樣本泛化的強化學習框架

          Equilibrium Policy Generalization: A Reinforcement Learning Framework for Cross-Graph Zero-Shot Generalization in Pursuit-Evasion Games

          作者:陸潤宇,張鵬,石若川,朱圓恒,趙冬斌,劉洋,王棟,Cesare Alippi

          追逃博弈(PEG)作為機器人與安防領域典型的現實博弈問題,其精確求解需要指數級時間。當博弈底層圖結構發生變化時,即便最先進的強化學習方法也需要微調而不能保證實時性。本文提出一種均衡策略泛化(EPG)框架,旨在學習具有跨圖零樣本性能的通用實時博弈策略。EPG框架同時適用于PEG問題的追捕者與逃逸者雙方,且兼容無出口與多出口兩種情形,是領域內首次實現跨圖博弈策略泛化的一般方法。

          EPG框架的核心思想是在不同圖結構下對抗各自的均衡對手策略進行強化學習,得到魯棒的圖網絡泛化策略。本文首先設計了一種理論高效的動態規劃算法作為均衡策略的生成器;為提升對追捕者數量的可擴展性,提出了分組機制與序貫模型以實現聯合策略分解。實驗表明,結合一種均衡引導機制以及適配跨圖追逃策略訓練的距離特征,EPG方法能在多種現實圖結構下得到理想的零樣本性能。對于多出口的追逃博弈,本文零樣本泛化的實時追捕策略甚至能夠達到或超越當前最優方法的微調策略性能。

          17619166121.png

          圖1.均衡策略泛化(EPG)框架的強化學習訓練過程

          17619166201.png

          圖2.多出口追捕場景下EPG方法的零樣本性能與已有方法的微調性能對比

          16.基于專家混合世界模型的多智能體多任務學習與規劃

          Learning and Planning Multi-Agent Tasks via a MoE-based World Model

          作者:趙子杰,趙中岳,徐凱旋,傅宇千,柴嘉駿,朱圓恒,趙冬斌

          多任務多智能體強化學習的目標是訓練一個統一模型來完成多種任務。然而,不同任務的最優策略之間顯著差異,導致單一模型難以勝任。本文發現,任務間在動力學層面往往存在“有界相似性”。例如開門與關門任務的最優策略截然相反,卻具有高度相似的動力學。

          基于這一觀察,本文提出了一種新的框架M3W(Mixture-of-Experts based Multi-task Multi-Agent World Model)。M3W首次將專家混合結構引入世界模型,而非策略網絡。具體而言,框架通過SoftMoE建模多智能體動力學,并利用SparseMoE預測獎勵,從而在相似任務間實現知識共享,同時隔離不相似任務,避免梯度沖突。在規劃階段,M3W直接基于世界模型生成的虛擬軌跡進行評估與優化,跳過顯式策略網絡,從根本上克服了策略中心方法的局限。通過在Bi-DexHands和MA-Mujoco兩大基準上的實驗驗證了M3W的有效性,結果顯示其在性能、樣本效率與任務適應性方面均顯著優于現有方法。本文不僅提升了多任務學習的可解釋性,還展示了模塊化世界模型在多智能體合作中的潛力。

          17619166301.png

          圖1.M3W的整體框架(左側)和性能對比(右側)

          17619166371.png

          圖2.基于SoftMoE的動力學預測器(左側)和基于SparseMoE的獎勵預測器(右側)

          17.?視頻是采樣高效的監督器:基于隱表示學習視頻的行為克隆

          Videos are Sample-Efficient Supervisions: Behavior Cloning from Videos via Latent Representations

          作者:劉鑫,李浩然,趙冬斌

          人類僅需少量試錯就能從演示視頻中提取知識并學習技能。然而,要讓智能體復現這一高效的學習過程卻面臨巨大挑戰,這源于視覺輸入的復雜性、動作與獎勵信號的缺失,以及受限的環境交互次數。

          本文提出了一種兩階段的、無監督且樣本高效的視頻模仿學習框架,BCV-LR。離線階段,BCV-LR從高維視頻輸入中提取與動作相關的自監督隱特征,隨后優化基于動力學的無監督目標,預測連續幀之間的隱動作。在線階段,通過收集真實交互數據,將隱動作對齊到真實動作空間,從而作為標簽以支持行為克隆。克隆的策略會豐富交互數據,以進一步微調對齊視頻隱動作,形成迭代式的高效策略提升。在包括離散與連續控制在內的一系列復雜視覺任務上的實驗結果表明,BCV-LR 僅需少量交互就能實現有效的策略模仿,甚至在部分任務中達到專家水平。具體地,在24/28項任務中,BCV-LR的樣本效率超過了當前最先進的視頻模仿學習基線以及視覺強化學習方法。本文表明:無需依賴任何其他專家監督,僅通過視頻即可實現高效視覺策略學習。

          17619166461.png

          BCV-LR方法框架。左半部分為離線預訓練階段,右半部分為在線微調階段

          18.?DRT-M3D:非增強胸部 CT 上的雙側乳腺病變檢測與分類

          Dual-Res Tandem Mamba-3D: Bilateral Breast Lesion Detection and Classification on Non-contrast Chest CT

          作者:周嘉恒,方偉,謝魯源,周巖峰,徐瀲滟,許敏豐,楊戈,唐禹行

          乳腺癌是全球女性疾病死亡的主要原因之一,早期篩查對于提高生存率至關重要。非增強胸部計算機斷層掃描(NCCT)在臨床常規檢查中應用廣泛,且常常包含乳腺區的影像,這為在不額外增加檢查成本和輻射暴露的前提下,實現乳腺病變的機會性篩查提供了新的可能。然而乳腺病變在NCCT影像中的特征并不明顯,并且如何在NCCT影像中同時實現高質量的病灶檢測與癌癥分類,也是現有方法面臨的重要技術挑戰。

          針對上述問題,本研究提出了一種創新性的多任務模型框架Dual-Res Tandem Mamba-3D(DRT-M3D)。通過將乳腺病灶分割與癌癥分類兩項任務分解到不同分辨率的子通路中,DRT-M3D實現了分割與分類任務間的互補學習;同時通過雙側乳腺的串聯輸入,模型能夠聯合建模并比較兩側乳腺的影像特征,從而提升病變檢出能力與分類準確性。在多中心NCCT數據集上的實驗結果顯示,DRT-M3D在各項任務上均顯著優于現有方法,具有良好的泛化性與魯棒性,充分展示了其在機會性乳腺癌分析方面的應用潛力。

          17619166581.png

          圖1.本研究提出的機會性乳腺癌雙側分析方法的整體流程

          17619166661.png

          圖2.雙分辨率串聯Mamba-3D塊結構

          19.?KTAE:數學推理中關鍵token優勢估計的無模型算法

          KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning

          作者:孫為,楊文,簡璞,杜倩龍,崔福偉,任爍,張家俊

          近年來的研究表明,將強化學習與基于規則的獎勵相結合,即使在沒有監督微調(SFT)的情況下,也能顯著提升大語言模型(LLMs)的推理能力。然而,現有的強化學習算法,如 GRPO 及其變體 DAPO,在計算優勢函數時存在粒度過粗的問題。具體而言,它們采用基于整段生成的優勢估計方式,使得序列中的每個 token 被賦予相同的優勢值,從而無法刻畫各個 token 對最終結果的具體貢獻。

          為解決這一局限,我們提出了一種新算法——關鍵 Token 優勢估計(KTAE, Key-token Advantage Estimation)。該方法無需額外引入模型,就能夠實現更細粒度的 token 級優勢估計。KTAE 基于采樣生成的正確性,并通過統計分析量化序列中各個 token 對最終結果的重要性。隨后,將這一 token 級的重要性與 rollout 級優勢相結合,從而得到更精細化的 token 級優勢估計。

          實驗結果表明,采用 GRPO+KTAE 與 DAPO+KTAE 訓練的模型在五個數學推理基準測試中均優于現有基線方法。值得注意的是,這些模型不僅在準確率上更高,而且生成的回答更簡潔,甚至在使用相同基座模型的條件下,超越了 R1-Distill-Qwen-1.5B。

          17619166731.png

          圖1. KTAE 是一種即插即用的方法,無需引入任何額外的模型。它為現有的強化學習算法(例如 GRPO 及其變體)提供token級的優勢估計。“GRPO+KTAE”和“DAPO+KTAE”分別表示 GRPO 和 DAPO 與 KTAE 的組合,兩者均基于 Qwen2.5-Math-7B 模型進行了強化學習訓練。

          17619167041.png

          圖2. KTAE 算法概要。該算法根據采樣 rollout 的正確性構建一個列聯表,然后計算 token 級優勢并將其添加到 GRPO 的 rollout 級優勢中。

          20.?SynCL:一種實例可感知對比學習增強的面向端到端環視三維物體跟蹤的協同訓練框架

          SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking

          作者:林述波,寇宇同,吳子蕤,王紹儒,李兵,胡衛明,高晉

          現有的端到端環視三維物體跟蹤算法通過實例查詢的時序傳播整合了檢測和跟蹤,但這樣的聯合訓練存在優化困難。我們發現這些困難源于自注意力機制的兩個固有限制,即對象查詢的過度去重和軌跡查詢的自我關注。相反,移除自注意力機制不僅對跟蹤算法的回歸預測影響較小,模型還傾向于生成更多潛在候選框。

          為此,本文提出了SynCL,一種協同訓練框架來促進多任務學習。具體而言,我們構建了一個基于Cross-attention的平行解碼器并引入了混合匹配模塊,該模塊將軌跡查詢的真值目標與多個對象查詢匹配,從而挖掘被自注意力機制忽視的高質量預測候選。為了尋找上述一對多匹配中的最優候選,我們還設計了一種由模型訓練狀態控制的動態查詢過濾模塊。此外,我們引入了實例可感知對比學習,以突破軌跡查詢的自我關注障礙,有效地增強了檢測和跟蹤之間的協同優化。在不增加額外推理成本的情況下,SynCL在各種基準測試中獲得了一致性提升,并在nuScenes數據集上達到了先進性能。

          17619167181.png

          SynCL的方法流程示意圖

          21.?任務復雜度驅動的視覺-語言模型函數化剪枝策略

          Each Complexity Deserves a Pruning Policy

          作者:王漢石,徐宇豪,徐澤坤,高晉,劉雨帆,胡衛明,王珂、張志鵬

          視覺-語言模型在推理過程中往往面臨巨大的計算資源開銷,主要原因在于用于表達視覺信息的大量視覺輸入 token。已有研究表明,相較于文本 token,視覺 token 在推理階段通常獲得更低的注意力權重,反映出其在整體推理中的相對重要性較低,從而具備顯著的剪枝潛力。此外,隨著解碼過程的逐步推進,文本 token 會逐漸整合來自視覺的關鍵信息,這為視覺 token 的分層剪枝提供了可能性,即從淺層到深層逐步降低保留的視覺 token 數量。

          在此背景下,我們提出利用函數化策略對各層保留的視覺 token 數量進行建模。然而,由于不同任務在視覺信息向文本 token 聚合的效率上存在差異,因此采用任務自適應的剪枝函數顯得尤為關鍵。具體而言,對于視覺與語言對應關系較弱的任務,建議在前期保留更多視覺 token,以提供更大的選擇空間;而對于語義對應性較強的任務,則可在早期進行更激進的剪枝,從而為后期推理保留更多計算資源和表達能力。我們在多種下游任務與數據集上驗證了方法 包括 OCR 與 VLA 并取得優越性能。

          17619167291.png

          圖1.對于不同問題的視覺與文本特征交互模式

          17619167351.png

          圖2. TextVQA 數據集上的token保留曲線

          22.?基于跨幀實例跟蹤融合策略的在線三維物體分割

          Online Segment Any 3D Thing as Instance Tracking

          作者:王漢石,蔡子健,高晉,張一偉,胡衛明,王珂,張志鵬

          具身任務要求智能體在探索環境的同時,具備對三維場景的全面理解能力,因此亟需一種具備在線性、實時性、精細性與強泛化能力的 3D 感知模型。然而,由于高質量 3D 數據的稀缺,直接在三維空間中訓練此類模型面臨顯著挑戰,難以實際可行。現有方法通常采用 SAM生成二維掩碼,再基于 mask queries 進行細化,最終得到三維分割結果。在融合階段,這些方法大多依賴手工設計的策略,如啟發式規則或固定參數設置。然而,此類方法存在泛化能力不足、參數敏感性高等問題,并且限制了對歷史幀中目標信息的充分利用,影響整體性能。

          為克服上述限制,我們摒棄了基于手工設計的融合機制,提出一種基于學習的跨幀融合策略,以實現不同時間幀之間目標信息的動態交互與聚合。此外,針對 SAM 常見的過分割問題,我們引入了學習驅動的聚合模塊,以更有效地合并冗余片段并恢復目標的完整結構,從而進一步提升模型的分割性能和泛化能力。

          17619167551.png

          圖1.與 ESAM的對比。我們引入兩個額外模塊 STM 與 LTM。STM 融合上一幀的實例特征;LTM 維護長期歷史信息。

          17619167651.png

          圖2. ScanNet200 數據集上的分割結果可視化

          23.?基于互信息的脈沖時序冗余特征量化與去除

          MI-TRQR: Mutual Information-Based Temporal Redundancy Quantification and Reduction for Energy-Efficient Spiking Neural Networks

          作者:薛登峰,李文娟,盧一帆,原春鋒,劉雨帆,劉偉,姚滿,楊力,李國齊,李兵,Stephen Maybank,胡衛明,李哲濤

          SNN 雖具有事件驅動的低能耗特性,但其在時序上共享權重會產生大量的冗余特征,在處理靜態圖像時尤為嚴重,這極大限制了其效率與性能。本文提出的MI-TRQR(結構見圖1)利用互信息(MI)從局部像素級和全局特征級兩個尺度量化時序特征冗余,并基于該量化結果采用概率掩碼策略去除冗余脈沖,最后通過權重再校準機制平衡信息分布,從而提升特征緊湊性。

          實驗表明, MI-TRQR 可提升脈沖神經網絡在神經形態數據分類、靜態圖像分類和時間序列預測等多種任務中的性能,且能大幅降低時序特征冗余,促使其進一步稀疏化。該研究首次將互信息引入SNN特征冗余量化中,為構建更高效、更緊湊的脈沖神經網絡提供了新思路。

          17619167771.png

          MI-TRQR 模塊結構示意圖

          24.?停止求和:最小形式的信用分配是過程獎勵模型的全部所需

          Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

          作者:程杰,喬汭熙,李力駿,郭超,王軍樂,熊剛,呂宜生,王飛躍

          過程獎勵模型(PRM)已被證實能有效提升大型語言模型在推理任務中的測試階段擴展性。然而,PRM引發的獎勵破解(reward hacking)問題阻礙了強化學習微調的成功應用。

          本研究中,我們發現PRM導致獎勵破解的主要原因在于:強化學習中典型的求和形式信用分配機制會誘使大型語言模型破解高獎勵步驟。為在訓練階段釋放PRM潛力,我們提出PURE(過程監督強化學習)方法。其核心在于采用最小形式信用分配,將價值函數定義為最小未來獎勵。該方法統一了測試與訓練階段對過程獎勵的優化目標,通過限制價值函數取值范圍及更合理的優勢分配機制,顯著緩解了獎勵破解問題。通過在多個基礎模型上的實驗,我們發現啟用最小形式信用分配時,基于PRM的方法實現與RLVR相當的推理性能:基于Qwen2.5-Math-7B模型微調在AMC23競賽中達到82.5%的準確率,并在5個基準測試中實現53.3%的平均準確率。而經典的求和形式信用分配甚至在訓練初期就導致訓練崩潰。此外,我們總結了訓練過程中遇到的獎勵破解案例,并分析了訓練崩潰的根源。

          17619168341.png

          求和形式與最小形式信用分配的比較。推理過程 (rollout) 中錯誤的步驟以紅色標出,PRM合理地為這些步驟分配了負分。箭頭指示采樣概率的變化,變化幅度較大的部分標注為帶輪廓的箭頭。求和形式信用分配導致破解高獎勵步驟,而最小形式信用分配給出了更合理的采樣概率變化幅度和方向。

          17619168411.png

          25.?基于強化學習的GUI操作前診斷模型與推理引導的數據采集鏈路

          Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation

          作者:完顏宇洋,張熙,徐海洋,劉昊偉,王君陽,葉加博,寇宇同,嚴明,黃非,楊小汕,董未名,徐常勝

          近年來,多模態大語言模型(MLLMs)在多模態推理任務中得到廣泛應用,包括圖形用戶界面(GUI)自動化。與常規離線多模態任務不同,GUI自動化在在線交互環境中執行,需要根據環境的實時狀態逐步進行決策。該任務對每一步的決策錯誤具有極低的容錯率,任何失誤可能累積性地破壞流程,并可能導致刪除或支付等不可逆的結果。

          為解決這些問題,我們引入了一種操作前反思機制,通過推理潛在結果和行為正確性,在實際執行前提供有效反饋。具體而言,我們提出了一種建議感知群組相對策略優化(S-GRPO)策略,以構建預操作評判模型GUI-Critic-R1,并整合了新穎的建議獎勵機制,以增強模型反饋的可靠性。此外,我們開發了一個基于推理引導的數據采集鏈路,創建了訓練集和測試集,填補了現有GUI評判數據的空白。在移動端和網頁端跨域的GUI-Critic-Test靜態實驗中,我們的GUI-Critic-R1在評判準確性方面展現出顯著優勢。在GUI自動化基準測試的動態評估中,我們的模型通過提高成功率和操作效率,進一步凸顯了其有效性和卓越性。

          17619168521.png

          圖1. (a)顯示了GUI自動化的一個示例。(b-c)中的案例研究演示了操作前反思機制如何防止GUI自動化中的錯誤和冗余操作。(d)說明了在AndroidWorld數據集上操作前反思方法與基線之間的定量性能比較。

          17619168591.png

          圖2. 左側顯示了基于推理引導的數據收集鏈路,包括GUI操作收集和GUI操作分析數據生成。漸進CoT范式和推理引導策略確保了推理數據的質量。右圖說明了GUI-Critic-R1模型的訓練策略。該過程首先在訓練集上進行RFT冷啟動,然后實施我們提出的S-GRPO。此外,采用新穎的建議獎勵來約束建議的正確性。

          26.?LiveStar:針對真實世界在線視頻理解的流式視頻助手

          LiveStar: Live Streaming Assistant for Real-World Online Video Understanding

          作者:楊振宇,張凱瑞,胡宇航,王兵,錢勝勝,文彬,楊帆,高婷婷,董未名,徐常勝

          盡管用于離線視頻理解的視頻大語言模型(Video-LLMs)取得了重大進展,但現有的在線視頻大語言模型通常很難同時處理連續的逐幀輸入并確定最佳響應時間,這往往會影響實時響應能力和敘事連貫性。

          為了解決這些局限性,我們推出了 LiveStar,這是一款開創性的直播流媒體助手,通過自適應流媒體解碼實現始終在線的主動響應。具體來說,LiveStar 包含:(1) 針對可變長度視頻流的增量視頻-語言對齊訓練策略,在動態變化的幀序列中保持時間一致性;(2) 響應-靜默解碼框架,通過單次前向傳遞驗證確定最佳主動響應時間;(3) 通過峰終(Peak-End)內存壓縮實現內存感知加速,用于 10 分鐘以上視頻的在線推理,結合流式鍵值緩存(KV Cache)實現 1.53 倍的推理速度。我們還構建了一個 OmniStar 數據集,這是一個用于訓練和基準測試的綜合數據集,包含 15 種不同的真實世界場景和 5 個在線視頻理解的評估任務。三個基準的廣泛實驗證明了 LiveStar 的一流性能,與現有的在線視頻-LLM 相比,語義正確性平均提高了 19.5%,時差減少了 18.1%,同時在所有基準中,FPS 提高了 12.0%。

          17619168691.png

          圖1. 在線視頻理解示例。(a) 以流式敘事任務為例,在線視頻理解需要Video-LLMs 處理連續流并在適當的時間輸出;(b) 現有方法過度依賴于學習 EOS 標記,導致推理性能低下;(c)-(e) LiveStar 通過 SCAM 和 SVeD 建立了有效的響應-靜默訓練和推理框架,同時不影響基本的視頻理解能力。

          17619168761.png

          圖2. 流式驗證解碼(SVeD)推理框架概述:一個動態響應-靜默解碼框架,旨在為在線視頻理解確定最佳響應時間。

          27.?揭示細粒度獎勵下的多模態大模型推理

          Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards

          作者:陳宏昊,婁行舟,豐效坤,黃凱奇,王鑫龍

          思維鏈推理在大型語言模型中取得了顯著的成功,但其對視覺語言推理的適應仍然是一個開放的挑戰,最佳實踐不明確。現有的嘗試通常在粗粒度級別使用推理鏈,這很難執行細粒度結構化推理,更重要的是,很難評估中間推理的回報和質量。

          在這項工作中,我們深入研究了視覺語言模型的步驟推理鏈,能夠準確地評估推理步驟質量,并導致有效的強化學習和細粒度獎勵的推理時間縮放。我們提出了一個簡單、有效和完全透明的框架,包括步驟級推理數據、過程獎勵模型(PRM)和強化學習訓練。通過提出的方法,我們的模型在具有挑戰性的視覺語言基準上設置了強大的基線,并不斷改進。更重要的是,我們進行了徹底的實證分析和消融研究,揭示了每個組成部分的影響以及推斷時間尺度的幾個有趣特性。我們相信這篇論文可以作為視覺語言模型的基線,并為更復雜的多模態推理提供見解。

          17619168861.png

          28.?RULE:強化遺忘實現遺忘-保留帕累托最優

          RULE: Reinforcement UnLEarning Achieves Forget–Retain Pareto Optimality

          作者:張晨龍,金卓然,苑紅榜,魏嘉珩,周桐,劉康,趙軍,陳玉博

          大模型遺忘旨在移除大語言模型的“有害非法知識”,是達成可信人工智能的重要手段。本文提出把遺忘學習建模一種“拒答策略優化”,提出了在線強化學習的拒答微調方法RULE。這種方式帶來的優勢有:

          1. 現有方法微調后的“非自然回復”: 通過合適的獎勵,在遺忘的數據上表現出拒答行為,可以讓模型表現出“自然”且“安全”的回復。

          2. 對遺忘集和保留集的依賴,無法泛化:本文設計了一種簡單有效的數據合成策略,利用強化學習在”邊界集“的探索機制,使得模型可以隱式的從獎勵中學習到“拒答策略”,泛化到域外分布。

          3. 遺忘-保留的帕累托平衡:強化學習對輸出的采樣來源于模型自身的分布,使得模型更好的在遺忘的同時保留內部知識。

          在多個數據集的實驗表明,RULE在只采用10%的遺忘集和保留集的設定下就能達到“遺忘-保留”的帕累托最優,且能保持“自然”的回復和通用性能,此外,我們補充實驗也證明了模型對黑白盒攻擊的魯棒性,以及對多種獎勵和強化學習算法的適配。

          17619168971.png

          強化遺忘的方法示意圖

          29.?多智能體的雙層知識遷移方法

          Bi-Level Knowledge Transfer for Multi-Task Multi-Agent Reinforcement Learning

          作者:張峻凱,何金岷,張一帆,臧一凡,徐寧,程健

          多智能體強化學習(MARL)在實際應用中取得了顯著進展,但高昂的在線訓練成本限制了其在新任務中的推廣。為實現策略復用,我們關注如何利用離線數據實現多任務 zero-shot 泛化。

          為此,我們提出了一種雙層知識遷移方法,在個體和團隊兩個層面進行知識傳遞:個體層面提取可遷移的 individual skill,團隊層面將Individual skill 組合映射為戰術并構建戰術 codebook。通過雙層決策機制,我們同時融合技能和戰術,引導智能體在新任務中做更優決策。我們設計了 Bi-level Decision Transformer 進行策略決策。大量在 SMAC 和 MPE 基準上的實驗結果表明,我們在未見過的任務上也展現出很強的泛化能力。

          17619169031.png

          圖1. 智能體個人技能和團隊戰術學習

          17619169101.png

          圖2. 智能體策略建模方法

          30.?DartQuant:高效旋轉分布校準的LLM 量化

          DartQuant: Efficient Rotational Distribution Calibration for LLM Quantization

          作者:邵遠天,陳遠騰,王培松,于鑒麟,林菁,姚益武,韋志輝,程健

          量化在大模型的加速推理中起著至關重要的作用,而旋轉矩陣已被證明可以通過平滑異常值來有效提升量化性能。然而,旋轉優化算法的端到端微調會產生高昂的計算成本,并且容易出現過擬合。

          為了應對這一挑戰,我們提出了一種高效的分布感知旋轉校準方法 DartQuant,它通過約束旋轉后激活的分布來降低旋轉優化的復雜度。該方法還有效地減少了對特定任務損失函數的依賴,從而降低了過擬合的風險。此外,我們引入了 QR-Orth 優化方案,用更高效的解決方案取代了昂貴的正交流形優化。在各種模型量化實驗中,DartQuant 展現了卓越的性能。與現有方法相比,它在 70B 模型上實現了 47 倍的加速和 10 倍的內存節省。此外,它首次在單個 3090 GPU 上成功完成 70B 模型的旋轉校準,使得在資源受限的環境中實現大型語言模型的量化成為可能。

          17619169191.png

          圖1.不同旋轉優化方法的計算成本比較。DartQuant在對不同大小模型的量化中,均以極短的時間獲得了最優的性能。

          17619169261.png

          圖2.左圖:DartQuant 實現過程,其中 Z 表示 QR-orth 中的潛在參數,R 表示應用的旋轉矩陣。右圖:校準前后旋轉矩陣的變化。

          31.?C-Nav: 基于對偶路徑防遺忘與自適應經驗選擇的連續物體導航

          C-Nav: Continual Object Navigation with Dual-Path Anti-Forgetting and Adaptive Experience Selection

          作者:于明明, 朱飛, 劉文卓, 楊易蓉,汪群博,吳文峻,劉靜

          具身智能體需在動態開放環境中完成目標導航任務。然而,現有方法在訓練過程中通常依賴靜態軌跡和固定的目標類別集合,忽略了現實世界中對動態場景持續適應的需求。為推進相關研究,我們提出了持續目標導航基準,要求智能體在學習新目標類別導航技能的同時,避免對已學知識的災難性遺忘。

          針對這一挑戰,我們設計了持續視覺導航框架C-Nav,該框架融合了兩項核心創新:(1)雙路徑抗遺忘機制:包含特征蒸餾與特征重放兩部分。其中,特征蒸餾將多模態輸入對齊到統一的表征空間,以確保表征一致性;特征重放在動作解碼器內保留時序特征,以確保策略一致性。(2)自適應采樣策略:通過篩選具有多樣性和信息價值的經驗,減少冗余信息并最小化內存開銷。 我們在多種模型架構上開展了大量實驗,結果表明:C-Nav 的性能持續優于現有方法,即便與保留完整軌跡的基準模型相比,仍能實現更優性能,同時顯著降低了內存需求。

          17619169371.png

          所提 C-Nav 持續目標導航框架總覽

          32.?端到端視覺分詞器優化

          End-to-End Vision Tokenizer Tuning

          作者:王文軒,張帆,崔玉峰,刁海文,羅卓彥,盧湖川,劉靜,王鑫龍

          本文致力于解決多模態大型模型中視覺分詞器的優化難題。目前,視覺分詞器大多獨立于低層次的圖像重建任務進行訓練,例如利用向量量化技術將圖像轉換為離散標記。然而,這種方法未能充分考慮分詞器表示與后續自回歸任務(如圖像生成和視覺問答)之間的語義一致性,從而限制了模型在處理復雜任務時的表現。

          為了克服這一挑戰,我們提出了一種端到端的視覺分詞器調優方法。該方法通過聯合優化視覺分詞器、輕量級投影器和大型語言模型,實現了從圖像輸入到文本輸出的完整可微分訓練流程。在訓練過程中,我們巧妙地結合了重建損失和多模態理解損失,這樣不僅保持了視覺分詞器在圖像重建方面的高質量表現,還顯著提升了其語義表達能力。此外,我們采用視覺碼本嵌入替代了傳統的離散索引,使得整個優化過程完全可微分,從而支持端到端的聯合訓練。實驗結果表明,我們的方法在多模態理解和生成任務上明顯優于使用凍結分詞器的基線方法。在保持原有圖像重建能力的基礎上,我們的方法實現了約2%至6%的性能提升。本文為多模態模型中視覺分詞器的聯合優化提供了有效方案,推動了圖像與文本聯合表示的發展。

          17619169461.png

          圖1.展示了我們對自回歸模型訓練流程的改進。左側是傳統方法,依賴于針對低層級重建優化的凍結視覺分詞器。中間是我們的ETT方法,它通過利用視覺碼本嵌入,實現了視覺分詞器與下游任務的聯合優化。右側圖表顯示,ETT在多模態理解和生成任務上取得了顯著的性能提升。

          17619169691.png

          圖2展示了我們采用ETT方法生成的視覺效果。這些圖像均為512×512分辨率,覆蓋了多種風格、主題和場景。圖中的提示信息為簡化版,用以概括圖像的主要概念。

          33.?聚焦:基于指代分割的交互式編輯統一視覺語言建模

          FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation

          作者:楊帆,朱優松,李鑫,詹宇飛,趙弘胤,鄭淑榮,王耀威,唐明,王金橋

          近期的大型視覺語言模型(LVLMs)在統一視覺理解與生成建模方面展現出令人矚目的能力,既能夠實現精準的內容理解,又支持靈活的編輯。然而,當前的方法往往將"看什么"和"如何編輯"分別對待:要么進行孤立的目標分割,要么僅將分割掩碼作為條件提示用于局部編輯生成任務,通常依賴多個相互分離的模型。為了彌補這些缺陷,我們提出了FOCUS,一個統一的大型視覺語言模型,在端到端框架內整合了分割感知的感知能力和可控的以目標為中心的生成能力。

          FOCUS采用雙分支視覺編碼器,同時捕獲全局語義上下文和細粒度空間細節。此外,我們利用基于MoVQGAN的視覺分詞器來生成離散視覺token,以提升生成質量。為了實現精確且可控的圖像編輯,我們提出了漸進式多階段訓練流程,其中分割掩碼經過聯合優化,并用作空間條件提示來指導擴散解碼器。這一策略將視覺編碼、分割和生成模塊進行對齊,有效地將分割感知的感知與細粒度視覺合成連接起來。

          在三個核心任務上的大量實驗,包括多模態理解、指代分割精度和可控圖像生成,證明了FOCUS通過聯合優化視覺感知和生成能力實現了出色的性能表現。

          17619169921.png

          17619170021.png

          34.?AVR: 面向物理環境中多模態大語言模型的主動視覺推理

          AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments

          作者:周偉杰,熊炫棠,彭毅,陶滿禮,趙朝陽,董宏輝,唐明,王金橋

          當前的多模態大語言模型(MLLM)大多在靜態、信息完整的環境中進行視覺推理,這限制了它們在充滿遮擋和視角局限的真實物理世界中的應用。與此不同,人類會通過移動、觀察、操縱物體等主動探索行為來獲取缺失信息,形成一個“感知-推理-行動”的閉環。

          受此啟發,本文提出了“主動視覺推理”(Active Visual Reasoning, AVR)這一新范式,將視覺推理擴展到部分可觀察的交互式環境中。AVR要求智能體能夠主動獲取信息、整合多步觀察并動態調整決策。

          為支持該研究,我們構建了三項核心貢獻:

          1. CLEVR-AVR基準:一個用于評估智能體推理正確性和信息獲取效率的仿真環境。

          2. AVR-152k數據集:一個大規模數據集,包含豐富的思想鏈(Chain-of-Thought)標注,用于訓練模型如何識別不確定性、預測行動收益并選擇最優動作。

          3. PhysVLM-AVR模型:一個在主動視覺推理任務上取得當前最佳性能,并能泛化到其他具身和靜態推理任務的MLLM。

          實驗結果表明,盡管現有模型能檢測到信息不完整,但在主動獲取和整合新信息方面存在明顯不足。我們的工作為開發能夠在物理世界中主動推理和智能交互的下一代MLLM奠定了堅實的基礎。

          17619170141.png

          上方:CLEVR-AVR 模擬器基準(CLEVR-AVR Simulator Benchmark),展示了問題類型、動作空間、場景及示例的分布情況。下方:用于主動視覺推理(Active Visual Reasoning, AVR)的高階馬爾可夫決策過程(Higher-order Markov Decision Process, MDP)范式。

          35.?EconGym:面向多樣化經濟任務的可擴展人工智能測試平臺

          EconGym: A Scalable AI Testbed with Diverse?Economic Tasks

          作者:米祈睿,楊企鵬,樊梓君,范文天,馬赫陽,馬成東,夏思宇,安波,汪軍,張海峰

          人工智能(AI)已成為經濟學研究的重要工具,使大規模仿真與政策優化成為可能。然而,要充分發揮 AI 的作用,需要具備可擴展訓練與評估能力的仿真平臺;現有環境大多局限于簡化或特定范圍的任務,難以覆蓋人口結構變化、多政府協同以及大規模主體交互等復雜經濟挑戰。

          為彌補這一空白,我們提出 EconGym——一個可擴展、模塊化的測試平臺,用于連接多樣化的經濟任務與 AI 算法。EconGym 基于嚴格的經濟建模方法,構建了 11 種異質化角色類型(如家庭、企業、銀行、政府)、對應交互機制,以及具備清晰觀測、動作和獎勵定義的智能體模型。用戶可靈活組合經濟角色與不同智能體算法,從而在 25+ 經濟任務中模擬豐富的多智能體軌跡,支持基于 AI 的政策學習與分析。實驗結果表明,EconGym 能夠支撐多樣化與跨領域的任務——例如財政、養老與貨幣政策的協同模擬——并實現 AI 方法、經濟學方法及其混合方法之間的對比評測。結果顯示,任務組合與算法多樣性能夠有效拓展政策空間,而在復雜環境中,結合經典經濟學方法的 AI 智能體表現最佳。此外,EconGym 可擴展至 1 萬個智能體規模,在保證高真實感的同時保持高效性。

          17619170251.png

          圖1. EconGym 概覽。用戶可通過選擇經濟角色與智能體算法來定義任務,從而生成動態的多智能體軌跡。這些軌跡既可用于經濟學界的經濟分析,也可用于人工智能領域的策略優化。EconGym 基于嚴謹的經濟學理論與模塊化的智能體建模,支持多樣化和跨領域的經濟任務。

          17619170321.png

          圖2. EconGym 的工作流程

          36.?MF-LLM:基于均值場大語言模型框架的人群決策動態模擬

          MF-LLM: Simulating Population Decision Dynamics?via a Mean-Field Large Language Model Framework

          作者:米祈睿,楊夢月,于湘凝,趙祉瑜,鄧程,安波,張海峰,陳旭,汪軍

          在集體決策建模中,群體行為并非個體行為的簡單疊加,而是源自個體之間復雜的動態交互。大語言模型(LLMs)為社會模擬提供了新的機遇,但如何實現與真實數據的精確對齊仍是亟待解決的核心挑戰。

          為此,我們提出 MF-LLM 框架,首次將均值場理論引入 LLM 驅動的社會模擬。該框架通過迭代建模個體與總體之間的雙向作用:總體信號引導個體決策,個體行為反過來更新總體信號,從而形成連貫的群體動態軌跡。同時,我們設計了 IB-Tune 方法。該方法受信息瓶頸原理啟發,能夠有效保留對未來最具預測力的總體信號,并過濾冗余歷史信息,從而顯著提升模型與真實社會數據的對齊度。實證結果顯示,MF-LLM 在真實社會數據集上相較于非均值場基線模型將 KL 散度降低 47%,顯著增強了趨勢預測與干預規劃的精度。跨 7 個應用領域與 4 種 LLM 框架的驗證進一步證明,MF-LLM 為社會模擬提供了一種 可擴展且高保真的新范式。

          17619170421.png

          圖 1. MF-LLM 框架在人群決策動態模擬中的應用。

          當外部事件(如謠言)發生時,個體會在群體行為(如輿論演化)的影響下依次做出決策(如“太離譜了!”)。早期決策塑造群體行為,而群體行為又反過來影響后續行動,形成反饋回路。MF-LLM 通過交替運行兩個LLM 驅動的模塊來刻畫這一過程:策略模型根據個體狀態與總體信號生成決策,均值場模型則根據新行動更新總體信號。該迭代過程能夠緊密對齊真實世界的人群動態(右上)。

          37.?梯度引導的在線持續學習ε約束方法

          Gradient-Guided Epsilon Constraint Method for Online Continual Learning

          作者:賴嵩,馬暢翼,朱飛,趙哲,林熙,孟高峰,張青富

          在線持續學習(OCL)旨在讓模型能從連續的數據流中學習,同時克服災難性遺忘問題。現有方法如經驗回放(ER)雖應用廣泛,但其隱式和固定的權衡策略常導致性能瓶頸。

          本文從ε約束優化的視角出發,揭示了ER方法的內在局限性。在此基礎上,我們提出了梯度引導的ε約束(GEC)方法。GEC將OCL更新過程顯式地構建為一個ε約束優化問題,通過動態調整梯度更新方向,在遺忘超過預設閾值時優先滿足約束以保持穩定性;在滿足約束時則聚焦于當前任務,以提升模型的可塑性。實驗證明,GEC能更好地平衡學習新舊知識,實現更優的穩定性-可塑性權衡,并在多個OCL基準測試中取得了領先的性能。

          17619170521.png

          圖1. GEC方法與傳統ER方法的區別:ER使用固定權重策略,GEC采取自適應權重策略

          38.?DevFD: 基于可增長共享和正交LoRA子空間學習的持續人臉偽造檢測方法

          DevFD: Developmental Face Forgery Detection by?Learning Shared and Orthogonal LoRA Subspaces

          作者:張田碩,高麗,彭思然,朱翔昱,雷震

          人臉篡改和生成技術的快速發展,威脅了互聯網認證和流媒體新聞的安全性。因此,對人臉偽造圖像進行有效檢測成為了一項緊迫任務。然而人臉偽造方法日新月異,而防御技術不可避免地具有滯后性。在固定數據集訓練的靜態模型由于有限的泛化性,面對新的偽造樣本將很快失效。而相比于偽造人臉數據,真實人臉數據由于數量充足且采集方式較為單一(相機成像),并不會隨著假人臉的迭代而發生較大波動。充足且非偏的真實人臉在跨數據集場景具有常常被忽略的共性。

          因此,我們將人臉偽造檢測學習建模為了一個持續學習任務,讓模型在動態的偽造數據中進行學習,設計了可以動態增長的混合專家架構:DevFD。該架構使用矩陣低秩分解模塊(LoRA)作為專家,并維持一個共享專家用于建模真實人臉的共性,一個正交專家序列建模來互補地建模來自不同偽造方式的信息并避免相互干擾。對于新出現的偽造方式,DevFD對該正交序列進行擴增。在每個數據集獲得高準確率的同時,通過融合正交梯度的新正交損失,賦予了模型全訓練流程的抗遺忘能力。在兩個標準測試協議上的大量實驗表明,我們的方法在每個數據集上獲得最佳準確率的同時,實現了最低的遺忘率。

          17619170651.png

          左:可增長的混合專家模型框架,使用一個共享專家和一個正交專家序列,互補地建模偽造類型知識并保留真是人臉的共性。右上:標簽引導的局部平衡策略,動態分配專家完成不同建模任務。右下:融合正交梯度的正交損失。

          熱點新聞

          推薦產品

          x
          • 在線反饋
          1.我有以下需求:



          2.詳細的需求:
          姓名:
          單位:
          電話:
          郵件:

            <b id="nqvhe"><source id="nqvhe"><menu id="nqvhe"></menu></source></b>

            1. <source id="nqvhe"></source><xmp id="nqvhe"></xmp>
              1. <b id="nqvhe"></b>
                <u id="nqvhe"></u>
              2. <b id="nqvhe"><address id="nqvhe"><ol id="nqvhe"></ol></address></b>
              3. <source id="nqvhe"></source>
                <xmp id="nqvhe"><video id="nqvhe"></video></xmp>
                  <b id="nqvhe"></b>
                  <u id="nqvhe"></u>
                1. 国产精品高清视亚洲精品