<b id="nqvhe"><source id="nqvhe"><menu id="nqvhe"></menu></source></b>

    1. <source id="nqvhe"></source><xmp id="nqvhe"></xmp>
      1. <b id="nqvhe"></b>
        <u id="nqvhe"></u>
      2. <b id="nqvhe"><address id="nqvhe"><ol id="nqvhe"></ol></address></b>
      3. <source id="nqvhe"></source>
        <xmp id="nqvhe"><video id="nqvhe"></video></xmp>
          <b id="nqvhe"></b>
          <u id="nqvhe"></u>
        1. ABB25年12月
          關注中國自動化產業發展的先行者!
          2026中國自動化產業年會
          工業智能邊緣計算2025年會
          2025工業安全大會
          OICT公益講堂
          當前位置:首頁 >> 資訊 >> 行業資訊

          資訊頻道

          第40屆AAAI人工智能年度會議自動化所入選成果速覽
          • 點擊數:382     發布時間:2025-11-27 18:05:38
          • 分享到:
          AAAI人工智能會議(AAAI Conference on Artificial Intelligence)由國際先進人工智能協會主辦,是人工智能領域的頂級國際學術會議之一。第40屆AAAI人工智能會議(AAAI?2026)將于2026年1月20日至1月27日在新加坡召開。

          AAAI人工智能會議(AAAI Conference on Artificial Intelligence)由國際先進人工智能協會主辦,是人工智能領域的頂級國際學術會議之一。第40屆AAAI人工智能會議(AAAI?2026)將于2026年1月20日至1月27日在新加坡召開。

          01.?虛幻樂園-基于虛幻引擎的多智能體強化學習通用平臺(※oral)

          Unreal-MAP: Unreal-Engine-Based General Platform for Multi-agent Reinforcement Learning

          論文作者:扈天翼,付清旭,蒲志強,王元,丘騰海

          本工作推出了多智能體強化學習(MARL)領域中第一個通用平臺Unreal-MAP。該平臺基于虛幻引擎(UE)打造,允許用戶利用UE社區豐富的視覺與物理資源創建定制化MARL任務,并在開發的任務中署最前沿MARL算法。該平臺在部署、修改和可視化方面均用戶友好,且所有組件開源。此外,本工作還推出了MARL領域中第一個支持多隊伍多算法訓練的訓練框架HMAP,支持從規則驅動到學習驅動的多種算法,并兼容第三方框架算法。團隊通過Unreal-MAP搭建了一系列MARL示例任務,包括大規模、異構、多隊伍博弈、稀疏團隊獎勵等特征,并在這些示例任務中充分測試了SOTA算法。最后,團隊完成了sim2real的系統性實驗驗證。我們認為,通過將現有算法與用戶自定義真實任務深度整合,Unreal-MAP將在MARL領域發揮重要推動作用,促進該領域的研究與應用發展。

          17643244511.png

          圖1.?Unreal-MAP的研究工作流程:針對新手用戶,該平臺提供對內置任務的直接訪問權限,并配備完善的算法部署功能及可視化能力;針對高級用戶,Unreal-MAP支持用戶修改現有內置任務或自主開發新任務框架,從而驗證其研究設想。平臺兼容各種算法和算力設備,可實現虛幻端渲染、打包文件渲染以及跨設備訓練+實時渲染。

          17643244711.png

          圖2.?Unreal-MAP的架構設計: 該平臺采用層次化五層架構設計,全部功能模塊均開源。用戶可僅通過Python接口層配置參數,對POMG框架內的所有要素進行編輯修改;對于更復雜的開發需求,用戶可借助高級模塊層的藍圖系統(Blueprint)靈活調整場景要素。

          02.?TinyChemVL:通過高效視覺令牌縮減與復雜反應任務推進化學視覺語言模型

          TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks

          論文作者:趙烜樂,曾舒心,蔡新元,程翔,徐波

          盡管視覺語言模型(VLM)在通用視覺理解上能力卓越,但在化學領域的應用卻因忽視分子結構等關鍵視覺信息而受限。現有的化學VLM模型普遍存在兩大問題:一是處理完整化學圖像導致計算效率低下,二是任務局限于分子層面,導致化學推理能力不足。為此,我們提出了 TinyChemVL,一個高效且強大的化學VLM。它通過視覺令牌縮減技術提升效率,并引入反應層面任務來增強模型的推理能力。此外,我們還構建了首個反應級基準 ChemRxn-V,用于評估模型的視覺反應識別與預測能力,這對模型的綜合識別與推理能力提出了重大挑戰。實驗結果表明,僅有4B參數的 TinyChemVL 在分子和反應任務上均取得了頂尖性能,且訓練與推理速度更快。

          17643244811.png

          圖1.TinyChemVL模型算法與結構圖

          17643244941.png

          圖2.ChemRxn-V任務

          03.?面向情境化語音識別的語音感知長上下文剪枝與集成

          Speech-Aware Long Context Pruning and Integration for Contextualized Automatic Speech Recognition

          論文作者:戎奕名,張逸昕,王子翼,江德揚,趙云龍,吳浩然,周世玉,徐波

          自動語音識別(Automatic Speech Recognition,ASR)系統在常規條件下已取得顯著性能,但在需要領域特定知識的情境化場景(如會議報告)中,往往難以有效利用長時上下文信息。其主要原因在于模型可用的上下文窗口受限,以及大量上下文噪聲中有效信息的稀疏性。為解決這一問題,我們提出了SAP2方法,這一全新框架能夠通過兩階段動態剪枝與整合相關的上下文關鍵詞。具體而言,每個階段均采用我們提出的基于語音驅動的注意力池化機制,從而在保留與語音高度相關信息的同時,高效壓縮上下文嵌入。實驗結果表明,SAP2在SlideSpeech 與LibriSpeech數據集上均取得了當前最優性能,其字錯誤率(WER)分別達到 7.71%與1.12%。在 SlideSpeech上,我們的方法相較于無上下文基線,在有偏關鍵詞錯誤率(B-WER)上實現了 41.1% 的顯著下降。此外,SAP2還展現出良好的可擴展性,在面對大規模上下文輸入時依然能夠在兩項數據集上穩定保持優異表現。

          17643245131.png

          圖1. SAP2整體框架示意圖

          17643245281.png

          圖2. 識別結果對比示例

          04.?基于預訓練嵌入的不完美信息博弈無遺憾策略求解

          No-Regret Strategy Solving in Imperfect-Information Games via Pre-trained Embedding

          論文作者:付延昌,劉圣達,徐沛,黃凱奇

          高質量信息集約簡仍是求解大規模不完美信息擴展型博弈(如無限制德州撲克)的核心挑戰 —— 此類博弈中,空間計算資源的有限性阻礙了全博弈層面的策略求解。當前主流人工智能方法依賴預訓練離散聚類實現約簡,但這種硬分類會不可逆地丟失關鍵信息:具體而言,信息集之間可量化的細微差異(這對策略求解至關重要),進而影響求解質量。受自然語言處理中詞嵌入范式的啟發,本文提出嵌入 CFR 算法(Embedding CFR),一種在嵌入空間中求解不完美信息擴展型博弈策略的新方法。該算法通過預訓練將孤立信息集的特征嵌入到相互關聯的低維連續空間中,生成的向量能更精準地捕捉信息集之間的差異與關聯。嵌入 CFR 在該嵌入空間內,以遺憾累積和策略更新為核心驅動策略求解過程,相關理論分析驗證了其降低累積遺憾的能力。在德州撲克的變體實驗環境中的驗證表明,在相同空間開銷下,與基于聚類的約簡算法相比,經嵌入 CFR 求解的策略可利用度下降速度顯著更快,證實了算法的有效性。嵌入CFR是首個在撲克人工智能中通過低維嵌入預訓練信息集約簡以實現策略求解的算法。

          17643245361.png

          圖 1 德州撲克中手牌■、●、◆(表征信息集)在Embedding CFR與傳統信息集約簡下的表征行為對比:(a)Embedding CFR將信息集映射為嵌入坐標,該坐標構成m維概率分布,且所有維度的數值之和為1;(b)嵌入坐標的二維投影展示了手牌間的幾何拓撲關系,既突出了相似性(■與●之間的近距離),也體現了差異性(與◆的遠距離);(c)傳統約簡方法將信息集映射固定數量(如m個)的約簡等價類中,迫使信息集在分類時面臨二元選擇:以■、●為例,要么將二者細分到不同等價類,要么將二者合并到同一類。這種缺乏中間狀態的特性,阻礙了利用信息集間的相似性輔助策略求解的可能。

          17643245611.png

          圖 2Embedding CFR與基礎CFR算法的運行流程對比:Embedding CFR(左)需要將原空間中的遺憾值在嵌入空間中積累并誘導計算出嵌入空間中的輔助策略并映射回原空間,基礎CFR只需要在原空間內積累遺憾并誘導計算策略。

          05.?元認知參考模型引導的大模型智能體策略優化算法

          RefRea: Reference-Guided Reasoning with Meta-Cognition for Accurate Language Model Agents

          論文作者:麥宇翔,尹奇躍,倪晚成,郭建威,歐陽小剛,徐沛,黃凱奇

          近年來,隨著大語言模型(LLMs)的快速發展,基于 LLM 的智能體在廣泛的任務中取得了顯著進展。然而, LLMs 的推理不一致性仍然嚴重限制了智能體在復雜決策場景中的表現。認知科學研究表明,個體通過觀察他人的顯性思維過程,可以改善自身的策略制定。受這一機制啟發,本章提出了一種新的方法基于參考引導與元認知的推理(RefRea),通過引入參考語言模型來指導和校準推理模型的行為,從而增強決策能力。 RefRea 通過整合參考模型與元認知模塊提升了推理的準確性與穩定性。參考模型僅依賴經過驗證的元認知進行一致性指導,而推理模型則利用經過驗證和探索性的元認知與環境交互。兩者之間的指導是通過比較參考模型與推理模型的動作相似性實現的。元認知模塊在這一過程中發揮支持作用,它通過反思動作歷史和環境反饋生成總結性知識,從而促使行為更加適應性和可靠。實驗結果表明, RefRea 優于當前最先進的方法。全面的消融實驗進一步凸顯了參考模型和元認知模塊的有效性。

          17643245801.png

          RefRea算法框架,包括推理模型、參考模型和元認知模塊。該方法利用參考模型通過元認知對推理模型的動作進行校正,從而實現更高的推理準確性與穩定性。

          06.?意象搜索:面向視頻生成的突破語義依賴約束的自適應測試時搜索方法

          ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

          論文作者:武美奇,朱家樹,豐效坤,陳楚彬,朱琛,宋秉澤,毛方圓,吳佳洪,初祥祥,黃凱奇

          隨著生成模型的飛速發展,視頻生成在真實場景中的表現已趨近人類視覺感知,但在需要跨越常識與長語義距離的“想象場景”中仍顯乏力。針對這一瓶頸,我們團隊提出了全新的推理時動態自適應策略——ImagerySearch,以突破現有視頻生成模型在創造性視頻生成中的局限。

          與傳統方法固定搜索空間和靜態獎勵不同,ImagerySearch 受“心象(mental imagery)”啟發,能夠在推理階段動態調整生成搜索空間與獎勵設計,使模型根據輸入文本提示自適應優化生成策略,從而顯著提升在想象性與非共現概念場景下的視頻生成質量。

          為系統評測生成模型的創造性能力,團隊還構建了首個面向長語義距離提示的基準數據集——LDT-Bench(Long-Distance Text Benchmark)。該基準包含 2,839 組來自多領域具有挑戰性的長距離語義概念對,并配套自動化評估指標體系,用于量化模型在跨長語義距離生成任務中的表現。

          實驗結果表明,ImagerySearch 在 LDT-Bench 上超越現有通用視頻生成模型與靜態Test-Time Scaling Law的方法,并在 VBench 等通用基準上同樣表現優異,驗證了其在多樣條件下提升視頻生成質量的有效性。團隊將開源代碼,以推動生成模型在創造性與認知一致性方向的進一步研究。

          17643245991.png

          ImagerySearch 的動機。該圖展示了兩個與駱駝相關的語義依賴場景。左:距離表示在去噪過程中提示詞元的相應作用強度。LDT-Bench 由具有長距離語義的想象場景構成,其語義依賴通常較弱。右:Wan2.1 在短距離語義下表現良好,但在長距離語義下失效。測試時縮放方法(如 Video T1(Liu et al.,2025a)、Evosearch(He et al.,2025a))同樣表現乏力。然而,ImagerySearch 能生成連貫且具備上下文感知的動作(橙色框)。

          07.?輔助數學推理的偏差約束前綴表示微調

          Bias-Restrained Prefix Representation Finetuning for Mathematical Reasoning

          論文作者:梁思睿,曹鵬飛,趙鑒,黃聰,趙軍,劉康

          本研究在解決表示微調方法在應用于大型語言模型進行數學推理時性能顯著下降的問題。作為一種比參數高效微調更高效的技術,表示微調通過直接優化模型內部表征而非調整權重來適應新任務,但在數學領域表現不佳。通過診斷分析發現,其性能瓶頸主要源于兩大原因:一是模型在推理初期難以生成有效的“推理前綴”,導致解題思路存在誤導;二是表示微調的干預向量會干擾模型對數字的基礎編碼,這種錯誤會在后續的“思維鏈”生成中不斷累積,最終導致計算失敗。為應對這些挑戰,本文提出了一種名為“偏差約束前綴表示微調”的新方法。該方法通過前綴訓練與早期干預策略,使模型專注于學習生成高質量的初始推理步驟,并僅在早期進行干預以避免誤差擴散。同時,通過“偏差約束訓練”對干預向量的幅度進行約束,確保在有效引導推理的同時不破壞底層的數值表征。在多種模型架構上的大量實驗證明該方法的有效性和通用性,顯著提升了大型語言模型在數學推理任務上的表現。

          17643246081.png

          ReFT和BREP的方法對比

          08.?RetroLM:面向長上下文處理的檢索增強鍵值緩存

          RetroLM: Retrieval-Augmented KVs For Long-Context Processing

          論文作者:羅坤,劉政,肖詩濤,陳佳倍,錢泓錦,張配天,江珊珊,董斌,趙軍,劉康

          該研究針對大語言模型(LLM)在處理長上下文時面臨的計算成本高昂和信息檢索不準確等挑戰,提出了一個名為RetroLM的新穎檢索增強框架。

          與在原始文本層面進行檢索的傳統RAG方法不同,RetroLM創新地在模型的鍵值(Key-Value,KV)緩存層面進行操作。它將KV緩存劃分為連續的“頁面”,并設計了一個專門的可訓練“頁面檢索器”,以在推理過程中精確、動態地識別并檢索出最關鍵的KV頁面用于注意力計算。該框架通過高效的兩階段訓練策略進行優化:首先訓練檢索器,然后對模型進行后訓練以適應稀疏的KV上下文。

          這種方法有效克服了傳統RAG導致的文本碎片化和對檢索錯誤敏感的問題,提升了模型對零散信息的利用效率,并節省了重復編碼上下文的開銷。在多個長文本基準測試上的實驗結果表明,RetroLM的性能顯著優于現有的長上下文模型和RAG方法,尤其在需要深度推理或處理超長文本的任務上優勢更為明顯。

          17643246201.png

          提出的retrolm實現架構創新,有效處理長文本問題

          09.?EPO:基于能量偏好優化的蛋白質系綜生成

          EPO: Diverse and Realistic Protein Ensemble Generation via Energy Preference Optimization

          論文作者:孫園成,任宇軒,陳釗銘,韓旭,劉康,葉啟威

          探索蛋白質構象系綜對理解其功能至關重要。傳統分子動力學(MD)計算昂貴且易陷入能壘。我們提出能量偏好優化(Energy Preference Optimization,EPO),在無需額外MD軌跡數據的前提下,將預訓練生成模型轉化為具備能量感知的采樣器。EPO首先通過基于SDE的在線采樣拓展構象空間覆蓋,然后引入基于列表式偏好優化的能量排序機制,用更具物理能量-采樣概率一致性的樣本引導模型自我改進。為解決連續時間生成模型中長軌跡概率難以計算的問題,EPO提出了一個實用的上界近似,實現了在現有生成模型上的即插即用。在Tetrapeptides、ATLAS與Fast-Folding等基準上,EPO在九項指標上刷新SOTA,提升了蛋白質系綜生成的幾何多樣性與物理合理性。

          17643246331.png

          (a)EPO流程示意圖。(b) 序列ASRE的勢能面示意圖。通過SDE在線采樣實現對構象空間的多樣性探索,通過基于能量偏好的微調實現與熱力學分布的對齊。

          10.?SR-KI:通過監督注意力實現面向大語言模型的可擴展與實時知識注入

          SR-KI: Scalable and Real-Time Knowledge Integration into LLMs via Supervised Attention

          論文作者:俞博瀚,黃偉,劉康

          本文提出了一種名為SR-KI的創新方法,用于將實時、大規模的結構化知識庫(KBs)高效地融入大語言模型(LLMs)中。SR-KI首先通過預訓練編碼器將知識庫編碼為鍵值對(key-value pairs),并注入模型的KV 緩存(KV cache)。在此基礎上,SR-KI采用了兩階段訓練范式:第一階段定位模型內部的專屬“檢索層”(retrieval layer),第二階段在該層施加基于注意力的監督損失,顯式引導模型聚焦于相關知識條目。與傳統依賴外部檢索器和多階段工作流的檢索增強生成方法不同,SR-KI實現了端到端推理,在模型的潛在空間中直接完成知識檢索。這一設計不僅提升了知識壓縮與利用效率,還支持動態知識更新。實驗結果顯示,SR-KI可在單張A100 40GB GPU上為7B參數模型注入多達4萬條知識庫條目,在最佳任務上實現超過98% Recall@10,平均性能超過88%。在問答和知識標識生成任務中,SR-KI 同樣保持了卓越表現,同時實現了高達 99.75% 的知識壓縮率。

          17643246421.png

          圖1 SR-KI在訓練階段于檢索層應用監督注意力的示意圖

          17643246491.png

          圖2 SR-KI推理階段示意圖

          11.?思考、交流與決策:經濟環境中的語言增強多智能體策略學習

          Think,Speak,Decide: Language-Augmented Multi-Agent Policy Learning in Economic Environments

          論文作者:馬赫陽,米祈睿,楊企鵬,樊梓君,李博,張海峰

          經濟決策不僅依賴于價格、稅收等結構化信號,也依賴于同伴對話、媒體敘事等非結構化語言信息。雖然多智能體強化學習(MARL)在優化經濟決策方面已經展現出潛力,但在處理語言的語義歧義與豐富的上下文時仍然存在困難。為此,我們提出LAMP(語言增強多智能體策略),這是第一個將語言融入經濟決策過程的框架,從而縮小與真實世界場景之間的差距。LAMP 采用“思考–表達–決策”的流程:思考:對數值觀測進行解釋,提取短期沖擊和長期趨勢,并緩存高價值的推理軌跡。表達:基于推理結果生成并交換具有策略性的消息,同時通過解析同伴的交流內容來更新自身信念。決策:將數值數據、推理過程和反思結果融合到多智能體強化學習策略中,以優化經語言增強的決策過程。在經濟仿真實驗中,LAMP 在累計收益(提升 63.5% 和 34.0%)、穩健性(提升 18.8% 和 59.4%)以及可解釋性方面,都優于傳統 MARL 和僅使用大語言模型的基線方法。結果表明,語言增強策略有望帶來更高效且更具魯棒性的經濟決策方案。

          17643246571.png

          LAMP 的工作流程:(a)雙路徑的思考模塊將長期趨勢和短期沖擊提取為緊湊的推理嵌入;(b)表達模塊通過自注意力機制抽樣并廣播一條消息,并通過反思步驟來更新信念;(c)決策模塊的策略網絡將數值觀測與語言嵌入和反思嵌入拼接起來,從而選擇動作。

          12.?SAGE:面向廣義零樣本學習的結構化屬性引導框架

          SAGE: Structured Attribute-Guided Enhancement for GZSL

          論文作者:張早,孫立國,呂品

          基于嵌入的廣義零樣本學習模型通常首先在視覺特征與屬性特征之間建立穩健的潛在語義關聯,以使知識能夠遷移至未見類別。盡管現有方法以屬性為先驗并學習共享嵌入空間,但它們存在兩個關鍵缺陷:首先,模型對異質粒度的屬性進行統一處理,導致語義模糊;其次,類別級誤判的根源常與屬性級錯誤不匹配,阻礙模型定位導致錯誤的特定屬性。為克服這些局限,我們提出結構化屬性引導框架(SAGE)。該框架首先通過共識感知的雙向注意力機制,以互蒸餾方式同步視覺與語義的關注區域;接著,我們將所有屬性劃分為兩兩互斥的子集——全局屬性、上下文屬性與局部屬性,并將其與對應空間尺度提取的視覺特征耦合;最后,設計一種跨樣本、子集感知的蒸餾機制——當樣本被誤分類時,SAGE定位責任屬性子集,從記憶庫中檢索高置信度原型,并對相應特征分支施加KL散度約束,幫助模型正確理解誤判來源,從而有效提升模型表現。

          17643246621.png

          圖1. 零樣本學習中的屬性被劃分為全局屬性、上下文屬性與局部屬性三個子集(左)。其中,勾號表示預測屬性與真實標簽匹配,叉號表示不匹配。三個多尺度視覺分支分別與相應的屬性子集對齊,它們的融合結果用于預測完整的屬性向量(右)。此處的勾號代表施加KL散度懲罰,叉號則代表不施加。

          17643246681.png

          圖2. SAGE的模型框架

          13?MR-COSMO:面向查詢驅動三維分割的視覺-文本記憶檢索與跨模態直接對齊方法

          MR-COSMO: Visual-Text Memory Recall and Direct CrOSs-MOdal Alignment Method for Query-Driven 3D Segmentation

          論文作者:李查德,張朋舉,吳毅紅

          近年來,視覺-語言模型在三維領域的快速發展顯著推動了基于文本查詢的點云處理研究。然而,現有方法在點級分割任務中表現受限,主要原因在于三維與文本特征對齊不足,導致局部幾何特征難以與本文語義建立有效聯系。為此,我們提出MR-COSMO,即“視覺文本記憶召回與直接跨模態對齊方法”。該方法通過專門設計的跨模態直接對齊模塊,在三維點云與文本及二維圖像數據間建立顯式對應關系;同時引入視覺-文本記憶模塊,構建多源特征庫,用于存放文本特征、視覺特征及其映射關系,并在注意力機制下實現動態知識召回,增強場景感知與語義理解能力。該機制使幾何與語義特征實現精確融合,有效提升三維場景理解的細粒度表現。我們在多種三維任務基準上進行了實驗,包括指令式分割、參照式分割和語義分割,結果表明我們的方法在各項評測中均取得領先性能,驗證了其有效性與泛化能力。

          17643246741.png

          提出網絡的總體結構示意圖。給定點云、圖像和文本輸入后,點云首先被體素化。隨后,我們分別通過 MLP、體素編碼器、圖像編碼器和大型語言模型(LLM)編碼器提取四種不同的特征表示。這些異構特征經由我們提出的直接跨模態對齊模塊進行統一,生成對齊特征。接著,對齊特征通過多層 Transformer 編碼-解碼結構進行進一步特征細化。隨后,檢測頭生成候選框預測,并在每個檢測區域內提取點級特征。將其與文本查詢特征共同輸入到所提出的記憶模塊中,該模塊利用存儲的跨模態映射作為先驗知識進行特征增強。最后,額外的分類器對融合后的特征進行處理,輸出基于查詢驅動的三維分割結果。

          14.?Sparse3DPR: 基于稀疏RGB視圖的免訓練三維場景分層解析與任務自適應子圖推理

          Sparse3DPR: Training-Free 3D Hierarchical Scene Parsing and Task-Adaptive Subgraph Reasoning from Sparse RGB Views

          論文作者:馮海達,衛浩,徐澤文,王浩霖,李查德,吳毅紅

          近年來,大型語言模型(LLMs)在三維場景理解領域展現出巨大的應用潛力。特別地,免訓練的三維場景理解方法因其靈活性和泛化能力而備受關注,但實際應用中往往面臨精度與效率的雙重挑戰。針對這些問題,我們提出了一種新穎的免訓練框架Sparse3DPR,其僅需稀疏RGB視圖輸入,便可有效利用預訓練LLMs強大的推理能力,實現開放式(open-ended)場景理解。具體而言,我們創新性地構建了一種分層平面增強場景圖(HPSG),其支持開放詞匯,并采用主導平面結構作為空間錨點,從而實現更清晰的推理鏈路和更可靠的高層語義推斷。此外,我們設計了任務自適應子圖提取方法,可動態過濾與任務無關的信息,有效降低場景上下文噪聲,顯著提升三維場景推理的效率與精度。Sparse3DPR在Space3DBench測試中較ConceptGraphs方法實現了28.7%的EM@1指標提升和78.2%的推理加速。在ScanQA和SQA3D基準上,其性能與訓練方法不相上下,更多的真實世界場景實驗進一步驗證了該框架的魯棒性和泛化能力。

          17643246821.png

          Sparse3DPR總體框架概覽

          15.?AdaField: 基于物理信息預訓練和流場條件自適應的可泛化表面壓力場建模

          AdaField: Generalizable Surface Pressure Modeling with Physics-Informed Pre-training and Flow-Conditioned Adaptation

          論文作者:鄒俊泓,仇偉,孫振旭,張小梅,張兆翔,朱翔昱

          本文提出了一種名為 AdaField 的自適應場學習框架,旨在解決空氣動力學子領域中數據稀缺的難題。深度學習模型在數據充足的空氣動力學領域,如汽車,表現良好,但在數據稀缺的領域(如列車、飛機)泛化能力差,且不同數據在幾何尺度和流動條件上存在顯著差異,進一步阻礙了模型通用性。AdaField 在大規模公共數據集上進行預訓練,并能有效地遷移到數據受限的子領域。其包含三個關鍵組件:

          1. Semantic Aggregation Point Transformer (SAPT):高性能骨干網絡,它集成了向量自注意力和語義聚合模塊,用于處理點云并提取幾何特征。

          2. Flow-Conditioned Adapter (FCA):參數量較少的adapter模塊,通過流場條件調制將流場信息注入特征中,通過微調該模塊來實現不同流場條件的適應。

          3. Physics-Informed Data Augmentation (PIDA):基于NS方程,系統地對現有數據進行尺度和速度上的縮放,擴大訓練數據分布,增強模型對未見幾何和速度的泛化能力。

          AdaField在汽車數據集DrivAerNet++上取得了SOTA性能。更重要的是,通過在DrivAerNet++上預訓練并在列車和飛機場景上進行微調,AdaField顯著降低了預測誤差,展現出強大的跨域泛化能力。

          17643246941.png

          圖1. AdaField整體框架示意圖

          17643247031.png

          圖2. AdaField網絡結構圖

          16.?基于細粒度表征的車道拓撲推理

          Fine-Grained Representation for Lane Topology Reasoning

          論文作者:徐國慶、李毅恒、楊陽

          本研究針對自動駕駛場景中車道拓撲推理(Lane Topology Reasoning)這一關鍵問題展開,旨在提升車輛對復雜道路場景的拓撲推理能力。車道拓撲推理需要檢測車道中心線與交通要素,并推斷它們之間的拓撲關系,如車道連通性及與交通要素的關聯。傳統方法依賴繁瑣的手工規則與后處理步驟,難以在復雜環境中保持穩定性能和泛化能力。近年來,端到端的統一框架逐漸成為主流,通過將車道與交通要素的檢測及其關系推理整合為單一任務,實現整體優化。現有研究如 TopoNet 與 TopoLogic 等通常將每條車道視為一個整體實例(instance-level)進行建模,用單一查詢(query)預測整條車道的關鍵點及其與其他車道的關系。然而,這種實例級表征難以較好地表達形狀復雜、局部變化顯著的車道。為此,本文提出 TopoFG,從細粒度層面建模車道結構。TopoFG 將每條車道表示為一系列細粒度查詢(fine-grained queries),精準捕捉局部幾何變化和結構細節。在此細粒度表征的基礎上,進一步引入層次先驗提取器、區域聚焦解碼器及魯棒邊界點拓撲推理模塊,以聯合實現車道拓撲關系的推斷。其中,邊界點推理模塊通過對車道起止點查詢建模確定連通關系,并采用去噪機制增強結果的穩健性。

          17643247141.png

          方法框架圖,包括:層次先驗提取器、區域聚焦解碼器和魯棒邊界點拓撲推理模塊

          17.?融合KAN局部性與特征漂移補償投影的無數據回放連續人臉偽造檢測

          Unifying Locality of KANs and Feature Drift Compensation Projection for Data-free Replay based Continual Face Forgery Detection

          論文作者:張田碩,彭思然,高麗,張浩源,朱翔昱,雷震

          隨著人臉偽造技術的快速迭代,偽造檢測器必須能持續學習新的攻擊手段,這使其成為一個連續學習問題。然而,傳統模型在學習新任務時,往往會嚴重“災難性遺忘”舊知識。

          Kolmogorov-Arnold網絡(KANs)因其激活函數具有“局部性” ,理論上允許模型通過修改局部函數來學習新任務,而不影響其他區域,因此天然適合連續學習 。但是,KANs在實際應用中面臨兩大挑戰:1)其樣條函數不適用于高維圖像數據,而其他適用圖像的激活函數又缺乏局部性 ;2)在連續學習中,不同任務的特征分布重疊,會導致KANs重復修改相同區域,最終同樣導致遺忘 。為解決上述問題,本文提出了一種基于KAN的連續人臉偽造檢測框架(KAN-CFD) 。該框架由兩大核心組件構成:

          (1)域增量分組KAN檢測器 (DG-KD):該檢測器創新地使用域特定的徑向基函數(RBFs)組合來構建激活函數。這使其在能夠擬合高維圖像輸入的同時,保留了連續學習所必需的局部性和局部可塑性。

          17643247261.png

          圖5. 域增量分組KAN檢測器

          (2)基于KAN漂移補償投影的無數據特征分離策略 (FS-KDCP):為避免特征重疊,該策略在不存儲(Replay)舊任務原始數據的前提下,僅保留舊特征。它引入了一個KAN投影(KDCP)模塊,用于建模和補償因模型迭代(Backbone演進)而產生的“特征漂移。通過將存儲的舊特征投影到當前特征空間,該策略成功地分離了新舊任務的特征分布,確保了DG-KD不同域的輸入互不重疊。

          17643247361.png

          圖6. 基于KAN漂移補償投影的無數據特征分離策略和KAN-CFD完整框架

          大量的實驗結果證明,本文提出的KAN-CFD框架取得了SOTA性能,在各項指標上均優于現有方法,并顯著降低了模型的遺忘率。

          18.?WorldRFT: 強化學習微調世界模型的端到端自動駕駛方法

          WorldRFT: Latent World Model Planning with Reinforcement Fine-Tuning for Autonomous Driving

          論文作者:楊鵬軒、盧奔、夏中譜、韓超、高胤峰、張騰、詹錕、郎咸朋、鄭宇鵬、張啟超

          本文提出一種面向端到端自動駕駛的隱空間世界模型和強化學習微調框架,旨在解決現有自監督隱空間世界模型中重建導向表征與自動駕駛規劃需求錯位的問題。框架包含三大核心模塊:空間感知世界編碼器(SWE,Spatial-aware World Encoder)融合基礎模型提升感知能力;分層規劃細化(HPR,Hierarchical Planning Refinement)將規劃分解為目標區域定位等子任務,通過局部感知迭代優化提取規劃關鍵特征,顯著提升規劃質量;基于GRPO方法和碰撞感知獎勵的強化學習微調,實現主動避撞,為端到端自動駕駛提供了更安全高效的解決方案。該工作在nuScenes和NavSim基準上表現優異,nuScenes 碰撞率僅為0.05%,和LAW相比降低 83%,在NavSim上僅用相機輸入達到87.8分,接近引入激光雷達的SOTA方法(88.1),并且已經成功應用于理想汽車的端到端自動駕駛AD Max系統。

          17643247461.png

          WorldRFT方法框架圖

          19.?HDGS:面向城市駕駛場景的分層動態高斯濺射(※Oral)

          HDGS: Hierarchical Dynamic Gaussian Splatting for Urban Driving Scenes

          論文作者:戈福東,高晉,王漢石,張一偉,王珂,胡衛明,張志鵬

          本文針對大規模動態3DGS中實現高保真且存儲高效的運動表示這一關鍵挑戰展開研究。動機源于一個事實:現有城市級場景建模方法依賴數量龐大且無結構的獨立高斯基元,面臨嚴重的可擴展性瓶頸。受近期壓縮研究的啟發,我們嘗試利用錨點驅動方法來解決這一問題。然而,這一過程并非易事。探索性實驗表明,將該范式直接應用于動態城市場景會導致性能退化。我們將原因歸結為層次化錨點設計造成的動態信息丟失。為此,我們提出了分層動態高斯濺射(HDGS)框架,以適配基于錨點的高斯表示于四維空間。具體而言,首先構建局部支撐網絡以增強錨點間一致性,從而緩解深層結構中監督衰減引發的幾何與外觀斷裂;其次,通過自粗到細的運動分解機制,高層錨點負責建模全局運動,而低層錨點對其進行殘差細化;最后,引入結合全局幾何約束與局部像素線索的混合監督機制,以緩解稀疏激光雷達下的幾何不一致問題。大量實驗結果表明,HDGS在保持甚至提升渲染質量的同時,存儲需求得以降低。

          17643247561.png

          HDGS的方法流程示意圖

          20.?MMhops-R1:多模態多跳推理

          MMhops-R1: Multimodal Multi-hop Reasoning

          論文作者:張濤,張子琦,馬宗揚,陳禹昕,李兵,原春鋒,王光庭,饒峰云,單瀛,胡衛明

          現實世界的復雜挑戰需要模型具備多模態多跳推理能力,即迭代地整合跨模態信息與外部知識。然而,現有的多模態大語言模型(MLLMs)主要局限于單步推理,同時現有的基準數據集也不足以評估和推動更復雜的多跳能力。為了彌合這一差距,我們首先提出了一個全新的、大規模的基準數據集MMhops。該數據集包含“橋接”和“比較”兩種挑戰性任務,迫使模型必須通過整合外部知識來動態構建復雜的推理鏈。針對MMhops帶來的挑戰,我們進一步提出了MMhops-R1框架。這是一個新穎的多模態檢索增強生成(mRAG)框架,它創新性地利用強化學習來優化模型。這使得模型能夠自主規劃推理路徑、制定針對性查詢并綜合多層次信息,從而克服了傳統mRAG框架中固定流程的限制,實現了動態推理。

          17643247661.png

          圖1.不同推理類型對比:(A) 早期知識型視覺問答:單步視覺識別后進行知識檢索。 (B1) 橋接推理:基于單張圖像的多步順序推理。 (B2) 比較推理:跨圖像實體識別和對比分析。

          17643247751.png

          圖2.MMHops 數據集的多階段構建過程。

          21.?融合多樣化分配策略的 DETR 框架

          Integrating Diverse Assignment Strategies into DETRs

          論文作者:張一偉,高晉,王漢石,戈福東,羅冠,胡衛明,張志鵬

          標簽分配是目標檢測器的重要組成部分,尤其在 DETR 框架中,一對一匹配雖具端到端的優雅性,但因監督稀疏導致收斂緩慢。現有一對多方法雖能增強監督,卻往往依賴復雜的特定結構且缺乏統一設計。本文系統研究了“一對多”監督,發現性能提升源于分配策略的多樣性而非數量。基于此,我們提出LoRA-DETR:一種靈活輕量的框架,可在任意 DETR 檢測器中無縫集成多樣化的一對多策略。該方法在訓練時為主干網絡插入多個低秩適應(LoRA)分支,每個分支采用不同匹配規則,注入并調控多樣監督梯度;推理時移除分支,不增加計算開銷。該設計在保持結構簡潔的同時實現魯棒聯合優化。實驗表明,LoRA-DETR 能以高效方式融合多種監督策略,在不犧牲模型優雅性的前提下顯著提升檢測性能。

          image.png

          圖1. 模型結構

          17643247901.png

          圖2. Query同時參與多種標簽分配策略

          22.?VAGU & GtS:用于視頻異常聯合定位與理解的基于大語言模型的基準數據集與框架

          VAGU & GtS: LLM-Based Benchmark and Framework for Joint Video Anomaly Grounding and Understanding

          論文作者:高詩博,楊沛沛,劉揚揚,陳懿,朱涵,張煦堯,黃琳琳

          視頻異常檢測(VAD)旨在識別視頻中的異常事件并確定其發生的時間區間。當前主流的VAD方法主要分為兩類:一類是基于DNN的傳統方法,側重于時間定位;另一類是基于LLM的新興方法,更強調語義理解。異常理解和定位對于全面的視頻異常檢測都至關重要,并且可以相互補充。然而,現有的模型或數據集都無法同時支持這兩項任務。為了解決這一問題,我們引入了VAGU(視頻異常定位與理解),這是首個整合這兩項任務的基準數據集。每個VAGU實例都包含異常類別、語義解釋、精確時間定位和視頻問答的標注。我們還提供了多項選擇題形式的視頻問答在一定程度上消除了主流方法使用LLM打分的偏見。基于該數據集,我們提出了“粗看后細察”(GtS)框架,這是一個由文本提示引導的免訓練框架,它首先實現對高概率異常區域的快速粗略定位,然后針對這些候選區域進行詳細的異常解釋和時間邊界優化。此外,我們還提出了能夠聯合評估語義可解釋性和時間精度的JeAUG指標,該指標聯合評估語義可解釋性和時間精度,克服了傳統指標只能針對異常時序或異常理解其中一方面進行評估的局限性。

          17643247971.png

          圖1. GtS框架流程圖

          17643248021.png

          圖2.主流開源模型在使用GtS框架前后的推理速度和檢測性能變化

          23.?CACMI:基于上下文感知的跨模態交互實現顯式時序-語義建模的密集視頻字幕生成

          CACMI: Explicit Temporal-Semantic Modeling for Dense Video Captioning via Context-Aware Cross-Modal Interaction

          論文作者:賈明達,孟維亮,傅增煌,李毅恒,曾琪,張軼凡,鞠昕,許镕濤,張吉光,張曉鵬

          密集視頻字幕生成用于聯合定位和描述未剪輯視頻中的顯著事件。近年來的方法主要集中在利用額外的先驗知識和先進的多任務架構以實現競爭性的性能。然而,這些流程依賴于隱式建模,使用幀級或碎片化的視頻特征,無法捕捉事件序列之間的時間連貫性和視覺上下文中的全面語義。為了解決這一問題,我們提出了一種顯式時間-語義建模框架,稱為上下文感知的跨模態交互(CACMI),它同時利用視頻中的潛在時間特征和文本語料庫中的語言語義。具體而言,我們的模型由兩個核心組件組成:跨模態幀匯聚通過跨模態檢索聚合相關幀,以提取時間上連貫的、與事件對齊的文本特征;上下文感知特征增強利用查詢引導的注意力,集成視覺特征與偽事件語義。我們在 ActivityNet Captions 和 YouCook2 數據集上進行了充分的實驗,結果表明 CACMI 在密集視頻字幕生成任務上達到了最先進的性能。

          17643248101.png

          圖1.我們的CACMI框架。CACMI采用了一種通過檢索增強生成的范式用于密集視頻字幕生成(DVC)任務。該模型使用預訓練好的CLIP圖像編碼器提取幀級特征。(a) 跨模態幀聚合(CFA)模塊由兩個協同組件組成:事件上下文聚類通過聚合時間和語義一致的幀率級特征生成聚類事件表示,事件語義檢索通過余弦相似度從語料庫匹配相關的語義信息,產生檢索到的語義特征。(b) 上下文感知特征增強(CFE)。該模塊促進檢索到的文本特征與視覺表示之間的跨模態交互,彌合模態間的差距以生成增強的幀率級特征。最后,我們使用一個多任務的Transformer生成事件定位和字幕生成的聯合輸出。

          17643248201.png

          圖2.CACMI與目前先進的方法對比,在事件定位和字幕生成質量上都表現更加出色

          24.?HGATSolver: 面向流固耦合的異構圖注意力求解器(※Oral)

          HGATSolver: A Heterogeneous Graph Attention Solver for Fluid–Structure Interaction

          論文作者:張欽奕、王泓、劉思耀、林海川、曹林穎、周小虎、陳晨、王雙翌、侯增廣

          流固耦合是心血管模擬領域的核心問題,其數值模擬通常計算成本高昂。現有神經算子難以精確學習流、固兩種物理域中截然不同的動力學規律,且在耦合界面處易出現數值不穩定。

          為此,團隊提出了HGATSolver。受啟發于分塊積分算子思想,創新地將系統建模為異構圖,為流體、固體及界面區域分別定義不同的節點和邊類型,從而將物理結構直接編碼為模型的結構化先驗。這使得模型通過類型感知的消息傳遞機制,分別學習域內動力學和跨域耦合關系。

          為進一步提升求解的穩定性和精度,設計物理條件門控機制(PCGM)作為可學習的自適應松弛因子,有效抑制顯式時間積分中的誤差累積;并引入域間梯度平衡損失(IGBL),使模型能夠根據預測不確定性動態調整流體與固體區域的優化權重。

          在兩個新構建的FSI基準數據集和一個公開數據集上進行驗證,結果表明HGATSolver均達到了最優性能,尤其在流體-固體界面附近表現出更高的精度。該工作有望為AI4S中多物理場耦合系統的智能求解提供有效且通用的學習框架。

          17643248291.png

          HGATSolver的主要框架

          25.?VasoMIM:?面向血管分割的血管解剖感知掩碼圖像建模

          VasoMIM: Vascular Anatomy-Aware Masked Image Modeling for Vessel Segmentation

          論文作者:黃德興,周小虎,桂美將,謝曉亮,劉市祺,王雙翌,項天宇,馬瑞澤,肖怒放,侯增廣

          從X射線血管造影圖像中準確分割出血管,對于輔助醫生進行高效的臨床診斷與治療決策至關重要。然而,標注數據的稀缺為訓練分割模型帶來了巨大挑戰。自監督學習,特別是掩碼圖像建模(Masked Image Modeling,MIM),能夠有效利用大規模未標注數據學習可遷移的表征,從而顯著降低對下游分割任務的標簽依賴。但受限于血管像素與背景像素間嚴重的類別不平衡,現有的MIM方法往往難以有效捕捉細微的血管解剖結構,導致所學到的血管表征不佳。

          為解決這一難題,本研究提出了“血管解剖感知掩碼圖像建模”(VasoMIM),其核心思想是將解剖學先驗知識引入到預訓練過程中。具體而言,VasoMIM包含兩個互補的模塊:解剖引導掩碼策略和解剖一致性損失。前者優先對富含血管信息的patch進行掩碼操作,迫使模型專注于重建血管相關區域;后者則強制要求原始圖像與重建圖像在血管語義層面保持一致,從而顯著增強了血管特征表示的判別能力。實驗結果表明,VasoMIM在三個基準數據集上均取得了當前最佳的性能。

          17643248371.png

          圖1. VasoMIM的結構示意圖

          17643248431.png

          圖2. 左:預訓練期間,在被掩碼的patch中,包含血管的patch所占的比例;右:預訓練過程中的每個patch的掩碼率。

          26.?大模型驅動社交媒體智能體的真實基準測試

          SoMe: A Realistic Benchmark for LLM-based Social Media Agents

          論文作者:薛迪展,崔靜,錢勝勝,胡傳銳,徐常勝

          由大語言模型(LLMs)驅動的智能體近期展現出令人印象深刻的能力,并在社交媒體平臺上日益受到關注與歡迎。盡管LLM智能體正在重塑社交媒體的生態格局,目前仍缺乏對其在媒體內容理解、用戶行為洞察以及復雜決策制定等核心能力方面的系統性評估。為應對這一挑戰,我們提出了SoMe——一個開創性的基準測試平臺,專為評估配備多種工具(用于訪問與分析社交媒體數據)的社交媒體智能體而設計。SoMe 包含多樣化的8類社交媒體智能體任務、來自多個社交媒體平臺及外部網站的 9,164,284 條帖子、6,591 個用戶檔案、25,686 份報告,以及經過精細標注的 17,869 個任務查詢。相較現有面向社交媒體任務的數據集與基準,SoMe 首次提供了一個兼具多樣性與真實性的評測平臺,支持基于LLM的智能體執行各類實際社交媒體任務。通過廣泛的定量與定性分析,我們首次系統性揭示了主流具備智能體能力的LLM在真實社交媒體環境中的表現,并識別出若干關鍵局限:評估結果表明,當前無論是閉源還是開源的LLM,尚無法令人滿意地完成社交媒體智能體任務。SoMe 為未來社交媒體智能體的研究與發展,提供了一個兼具挑戰性與重要意義的試驗場。

          17643248491.png

          SoMe中社交智能體的工作流程圖:社交媒體智能體通過調用數據獲取、管理與分析等工具進行交互,從而生成針對用戶查詢的答案;該答案隨后在大語言模型(LLM)評分器的輔助下進行評估。

          27.?基于雙工獎勵優化的測試時組合式圖像檢索

          Duplex Rewards Optimization for Test-Time Composed Image Retrieval

          論文作者:周浩樑,張飛飛,徐常勝

          組合式圖像檢索(Composed Image Retrieval,CIR)通過將參考圖像與修改文本相結合,以檢索目標圖像。近年來,零樣本(Zero-Shot)CIR因無需人工標記的三元組數據而備受關注。然而,這種范式不可避免地需要額外的訓練語料庫、存儲和計算資源,限制了其實際應用。受測試時自適應(TTA)進展的啟發,本研究提出了測試時CIR(TT-CIR)范式,旨在在減少計算資源消耗的同時,使模型有效適應并精準檢索測試樣本。本研究發現,當前主流的基于獎勵機制的TTA技術面臨兩個關鍵挑戰:一是修改受限的獎勵池,阻礙了模型對語義相關候選獎勵的探索;二是保守的知識反饋,抑制了獎勵信號對當前數據分布的適應性。針對上述挑戰,本研究提出了一種基于雙工獎勵優化的測試時強化學習(TT-RLDR)框架,結合反事實引導的多項式采樣(CMS)策略和雙工獎勵建模(DRM)模塊。CMS通過探索與查詢視覺語義相關的候選獎勵池,精準發掘有效獎勵信號;DRM則生成穩定且適應性強的雙工獎勵,指導模型適應當前測試數據。在主流CIR基準測試中,該方法在檢索準確率和效率上均優于現有方案。

          17643248561.png

          TT-RLDR整體架構圖,包括兩個關鍵組件:一個反事實引導多項式采樣(CMS)策略和一個雙工獎勵建模(DRM)模塊。

          28.?I2CD:面向組合零樣本學習的基于解構-組合-再解構的可逆因果框架

          I2CD: An Invertible Causal Framework for Compositional Zero-Shot Learning via Disentangle-Compose-Disentangle

          論文作者:袁召全,王子寧,潘圓康,羅驁,李威,吳曉,徐常勝

          組合零樣本學習(CZSL)是人工智能領域的一個關鍵挑戰,旨在識別圖像中未見過的狀態-對象組合。現有方法在狀態-對象解耦和學習因果干預不變性表征方面存在局限,導致對未見組合的泛化能力不足。論文針對CZSL任務中的解耦問題,提出了一種新的可逆因果架構,通過解耦-組合-再解耦機制,采用可逆神經網絡、因果干預和反事實生成技術,在圖像的隱式解耦表空間中對狀態/對象進行因果干預,從而生成反事實的新的組合,并對該新組合進行重新解耦,最后在解耦表征、組合表征空間中分別與文本的對齊,實現圖像的狀態-對象解耦,從而增強組合零樣本識別的魯棒性。實驗結果表明,該框架在封閉世界和開世界設置下均達到了最先進的性能,尤其在未見組合上表現突出,驗證了所提方法的泛化能力與因果解耦的有效性。

          17643248621.png

          用于組合零樣本學習的可逆因果架構圖

          29.?MPI-Mamba:用于磁性粒子成像各向異性圖像校準與去模糊的隱空間特征融合Mamba模型

          MPI-Mamba: Latent Feature Fusion Mamba for Anisotropic Image Calibration and Deblurring in Magnetic Particle Imaging

          論文作者:張利文,苗肇基,申鈺松,衛澤琛,惠輝,田捷

          磁性粒子成像(Magnetic Particle Imaging,MPI)是一種新興的醫學成像技術,具有納摩爾級體內靈敏度和無輻射的動態實時檢測能力,在精準醫療領域展現出巨大潛力。然而,MPI在實際應用中面臨著圖像各向異性的問題,進而引發圖像畸變和邊界模糊。現有深度學習方法主要依賴于仿真數據,缺乏真實世界MPI數據集的支持,限制了其在實際場景中的應用效果。

          為解決這一難題,本研究歷時三年,設計并構建了一個真實世界MPI各向異性圖像數據集,涵蓋多種靈敏度、分辨率、血管及形狀的數據。在此基礎上,提出了一種基于Mamba架構的新方法—MPI-Mamba(如圖1所示),用于各向異性圖像校準。該方法創新性地設計了潛特征融合狀態空間模型模塊,實現多尺度特征的充分融合,并引入條件潛擴散模型分支,在高度壓縮的潛空間中提取圖像特征,有效指導校準和去模糊過程。實驗結果顯示,MPI-Mamba在模擬數據和真實世界MPI數據集上的表現均優于現有方法,顯著提升了各向異性圖像的校準與去模糊效果。

          17643248701.png

          網絡結構圖

          30.?通過魯棒時域自集成提升脈沖神經網絡的魯棒性–準確率權衡

          Boosting the Robustness-Accuracy Trade-off of SNNs by Robust Temporal Self-Ensemble

          論文作者:王紀航,趙東城,陳若霖,張倩,曾毅

          脈沖神經網絡(Spiking Neural Networks,SNNs)作為一種兼具能效與類腦特性的計算模型,其對抗擾動的脆弱性缺乏系統理解。本文從時域集成的視角重新審視SNN的對抗魯棒性,將網絡視為由離散時間步上不斷演化的子網絡集合。該視角揭示了兩個關鍵但尚未被充分研究的問題:其一,單個時間子網絡的易損性;其二,對抗脆弱性在時間維度上的可遷移性。為解決上述問題,本文提出了一種名為“魯棒時域自集成(Robust Temporal self-Ensemble,RTE)”的訓練框架。RTE在提升各時間子網絡魯棒性的同時,有效抑制了對抗擾動在時間上的遷移。該方法通過統一的損失函數將兩類目標融合,并引入隨機采樣策略以實現高效優化。大量基準實驗結果表明,RTE在魯棒性–準確率權衡方面顯著優于現有訓練方法。進一步分析顯示,RTE能夠重塑SNN的內部魯棒性分布,使其決策邊界更加穩健且具有時間多樣性。

          17643248791.png

          (a)子網絡的脆弱性由其對最敏感輸入擾動的反應所刻畫。(b)最小化脆弱性在時間維度上的可遷移性,可以減少子網絡間的共同弱點,從而提升整體集成魯棒性。(c)不同訓練方法得到的魯棒性-準確率權衡效果,RTE在更困難的數據集上表現顯著更好。

          31.?基于正交表征的多維神經解碼腦機接口

          Multi-dimensional Neural Decoding with Orthogonal Representations for Brain-Computer Interfaces

          論文作者:田凱茜,趙圣嘉,張予涵,余山

          傳統腦機接口系統主要專注于單一運動變量的解碼,難以支持需要同時提取多個相關運動維度的自然、高帶寬神經控制。本文提出了多維神經解碼(MND)任務,能夠從單一神經群體記錄中同時提取多個運動變量(方向、位置、速度、加速度)。MND面臨兩個核心挑戰:從共享皮層表征解碼相關運動維度時的跨任務干擾,以及跨會話、被試和范式的泛化問題。

          為解決這些挑戰,研究團隊提出了OrthoSchema框架,這是一個受皮層正交子空間組織和認知模式重用啟發的多任務框架。OrthoSchema通過強制表征正交性來消除跨任務干擾,并采用選擇性特征重用遷移來實現少樣本跨會話、被試和范式適應。在獼猴運動皮層數據集上的實驗表明,OrthoSchema在跨會話、跨被試和具有挑戰性的跨范式泛化任務中顯著提高了解碼精度,在微調樣本有限時性能提升更為顯著。消融研究證實了所有組件的協同效應至關重要,OrthoSchema能夠有效建模跨任務特征并捕獲會話關系以實現魯棒遷移。

          17643248841.png

          圖1.多維神經解碼中的關鍵挑戰。(A) 對多樣化神經信號并行解碼的需求不斷增長。(B) 在跨會話、被試和任務的分布偏移下泛化能力有限。

          17643248901.png

          圖2.OrthoSchema框架概述。尖峰數據通過全局卷積層處理,然后通過LSTM塊(可替換)獲得潛在表征。在潛在空間中應用正交性約束。模型包括用于方向分類和手部位置、速度、加速度回歸的多個解碼頭。訓練期間使用會話/被試分類頭來建模分布偏移。推理時移除會話分類組件,選擇性重用參數進行少樣本微調。

          32.?基于能量的神經群體動力學自回歸生成

          Energy-based Autoregressive Generation for Neural Population Dynamics

          論文作者:葛寧凌,戴思誠,朱宇,余山

          計算神經編碼模型是深入理解大腦機制、建模復雜神經群體動態的核心途徑。然而,該領域長期受限于高保真度建模與計算效率的雙重瓶頸。具體來說,預測模型雖然高效,卻難以充分捕捉神經活動固有的試驗間變異性;基于VAE的方法雖能通過潛空間靈活采樣,卻無法精確再現復雜的群體和單神經元統計特性;而近期備受關注的擴散模型(如LDNS)盡管能有效建模統計特性,卻因其迭代去噪機制導致計算成本高昂,嚴重影響生成效率。

          為有效解決這些問題,本文提出Energy-based Autoregressive Generation (EAG) 框架,基于energy score僅通過單次前向傳播即可實現高效高質的神經生成。研究結果表明,EAG不僅取得SOTA的生成質量,高度還原真實神經活動;還顯著提升生成效率,相較于擴散模型達到96.9%的效率提升。此外,EAG還具有強大的泛化能力,對未曾見過的行為上下文生成神經數據;其生成的數據可幫助提升運動腦機接口的解碼準確率,提升最高可達54.7%。本工作為兼具計算效率和生物真實性的神經群體建模奠定基礎,具有重要的神經科學研究和神經工程應用潛力。

          17643248981.png

          圖1. EAG相較于LDNS取得了質量和效率上的雙重提升

          17643249031.png

          圖2. EAG具有強大的泛化能力,對未見過的行為上下文生成神經動態

          33.?基于多模態大語言模型的廣義多圖像視覺定位

          GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models

          論文作者:鄭姝榕,朱優松,趙弘胤,楊帆,詹宇飛,唐明,王金橋

          多模態大語言模型在單圖像定位和通用多圖像理解方面取得了顯著進展。近年來,一些方法開始探索多圖像定位,但受限于單目標定位和任務類型的局限,缺乏廣義定位的統一建模。為此,我們提出 GeM-VG,一種具備廣義多圖像視覺定位能力的多模態大語言模型。我們根據跨圖像線索依賴和推理需求對現有任務進行分類整理,并構建 MG-Data-240K 數據集,以彌補現有數據在目標數量和圖像關聯性上的不足。針對多樣化任務的魯棒性挑戰,我們提出混合強化微調策略,結合鏈式思維推理與直接回答,利用其互補優勢,并通過規則獎勵引導優化,有效提升模型感知與推理能力。實驗表明,GeM-VG 在廣義定位任務中具備優秀性能:在多圖像定位任務上,MIG-Bench 和 MC-Bench 分別超越先前領先 MLLMs 2.0% 和 9.7%;在單圖像 ODINW 上提升 9.1%。此外,模型在通用多圖像理解任務上也保持了先進性能。

          17643249101.png

          圖1. GeM-VG模型整體架構

          17643249161.png

          圖2.強化微調策略框架

          34.?基于功能感知神經元分組的 LLM 結構化剪枝泛化能力提升方法

          Improving Generalization in LLM Structured Pruning via Function-Aware Neuron Grouping

          論文作者:于濤,安永琪,朱寬,朱貴波,唐明,王金橋

          后訓練結構化剪枝是壓縮大語言模型(LLM)的重要技術路徑。然而,當少樣本校準集無法充分覆蓋預訓練數據分布時,現有方法在下游任務上往往泛化能力受限。針對這一問題,我們提出 FANG(Function-Aware Neuron Grouping),一種功能感知的后訓練剪枝框架,通過識別并保留對特定功能關鍵的神經元,減輕由校準集偏差帶來的性能退化。

          FANG 首先根據神經元所處理的語義上下文類型,將具有類似功能的神經元分組,并對各組分別進行剪枝;在組內重要性評估時,對與該功能高度相關的 token 賦予更高權重。同時,FANG 顯式保留在多類上下文中均有貢獻的多功能神經元。為在稀疏率與性能之間取得更佳權衡,FANG 還依據不同模塊的功能復雜度自適應分配稀疏率。實驗結果表明,FANG 在基本保持語言建模能力的前提下顯著提升了下游任務表現。結合 FLAP 與 OBC 兩種代表性剪枝方法使用時,FANG 取得當前最優結果,在 30% 和 40% 稀疏率下,平均準確率較原方法提升 1.5%–8.5%。

          17643249251.png

          功能感知神經元分組(FANG)方法框架

          35.?基于質量感知的語言條件局部自回歸異常合成與檢測

          Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection

          論文作者:錢隆,朱炳科,陳盈盈,唐明,王金橋

          工業異常檢測普遍受制于異常樣本稀缺與分布差異,現有擴散/粗修補管線在低分辨去噪、語義可控性與生成成本上存在低分辨率瓶頸/邊界縫隙、語義可控性差、訓練等權導致劣質合成干擾優化等問題。為此,我們提出了一套“可控合成 × 質量自適應學習”的閉環解決方案:其一,ARAS(語言條件、掩碼局部的自回歸編輯器)在VQ-VAE離散token空間施加Hard-Gate算子,僅重寫掩碼內token、凍結上下文,從而保持材質微結構與相位連續,并以自然語言精確控制缺陷的類型/形狀/尺度/位置;其二,QAW(質量感知重加權)將CLIP圖文一致性映射為樣本級連續權重,在不丟棄數據多樣性的前提下降低訓練方差、抑制低質合成對優化的干擾。

          在 MVTec AD、VisA、BTAD 三個基準上,QARAD在圖像級/像素級AUROC均實現一致領先,數據集均值分別達到 99.7/99.8、98.9/99.8、96.7/98.0;同時,ARAS避免迭代去噪,在 1024×1024 分辨率下合成速度較擴散式管線約快 5×,且檢測階段推理時延不增加,體現出準確性與效率兼優的工程價值。代碼已在https://github.com/neymarql/QARAD 開源。

          17643249311.png

          圖1. ARAS與Quality-Aware Weighting 的設計動機

          17643249381.png

          圖2. ARAS-QARAD 端到端框架圖

          36.?AnomalyMoE: 無需語言的通用異常檢測通才模型

          AnomalyMoE: Towards a Language-free Generalist Model for Unified Visual Anomaly Detection

          論文作者:古兆鵬,朱炳科,朱貴波,陳盈盈,葛衛,唐明,王金橋

          異常檢測是跨越眾多領域和模態的一項關鍵任務,但現有方法通常高度特化,僅為特定領域或特定異常類型設計,難以檢測其設計領域之外的異常,這極大地限制了現有異常檢測方法的通用性。而現有的統一異常檢測方向的嘗試要么局限于局部結構缺陷,要么依賴于復雜的組件分割和大型語言模型,計算開銷大且仍然無法處理組件缺失等復雜情況。為解決這些問題,我們提出了一種名為AnomalyMoE的無需語言的通用視覺異常檢測框架。該方法的核心思想是利用混合專家架構,將復雜的異常檢測問題分解為三個獨立的語義層級:局部結構異常、組件級語義異常和全局邏輯異常。AnomalyMoE為每個層級配備了專門的基于特征重建的專家網絡,使其能夠在一個統一模型內協同理解和檢測多種類型的異常。此外,我們還引入了專家信息排斥(EIR)模塊以促進專家的多樣性,并引入了專家選擇平衡(ESB)模塊以確保所有專家得到充分利用。

          在涵蓋工業、3D點云、醫療影像、視頻監控和邏輯異常等領域的8個具有挑戰性的數據集上進行的大量實驗表明,AnomalyMoE的性能不僅全面超越了現有的通用模型,還顯著優于各自領域中的專用方法。

          17643249451.png

          圖1. AnomalyMoE 與現有異常方法在不同領域數據集上的性能對比

          17643249521.png

          圖2. AnomalyMoE 整體結構圖

          37.?從大規模網絡數據的人類軌跡中學習城市環境下語言引導的具身導航

          UrbanNav: Learning Language-Guided Embodied Urban Navigation from Web-Scale Human Trajectories

          論文作者:梅陽鴻,楊易蓉,郭龍騰,汪群博,于明明,何興建,吳文峻,劉靜

          在復雜城市環境中,如何讓智能體僅憑自然語言指令準確導航,一直是具身智能領域的難題。現有方法多局限于仿真或非街道場景,且依賴精確目標(如坐標或圖像),難以應對真實城市中嘈雜的語言、模糊的空間指代、多樣地標與動態街景等挑戰。

          為此,研究團隊提出 UrbanNav,一個大規模的的語言引導城市導航框架。該方法利用網絡規模的城市步行視頻,構建了一套高效的自動化導航數據標注流程,將人類真實行走軌跡與基于現實地標的自然語言指令對齊。UrbanNav 數據集涵蓋超過1500小時的導航視頻和300萬組“指令-軌跡-地標”三元組,覆蓋豐富多樣的城市場景。

          基于該數據集,UrbanNav 模型學會了強大的導航策略,在空間推理、抗噪能力和跨城市泛化方面表現卓越。實驗表明,其性能顯著優于現有方法,首次實現了在真實、開放城市環境中基于自由形式語言指令的穩健導航。這項工作表明,利用大規模網絡視頻數據有望為具身智能在城市環境中的實際應用提供有效支持,為未來自主機器人在復雜城市場景中實現語言引導導航提供了一種可行路徑。

          17643249581.png

          圖1. UrbanNav總覽。從海量網絡步行視頻中構建大規模語言-軌跡數據集,訓練出能理解復雜自然語言指令的導航策略,僅需少量真實場景數據微調即可實現在未知城市環境中的視覺語言導航。

          17643249651.png

          圖2. UrbanNav數據構建流程。包括三個關鍵步驟:1)相機位姿估計;2)機器人兼容性過濾;3)語言指令生成。

          38.?SAQ-SAM:面向分割一切模型的語義對齊量化

          SAQ-SAM: Semantically-Aligned Quantization for Segment Anything Model

          論文作者:張靜,李志凱,胡誠智,劉學文,顧慶毅

          分割一切模型(Segment Anything Model,SAM) 展現了卓越的零樣本分割能力,但其高昂的計算成本使得在邊緣設備上的部署面臨挑戰。盡管后訓練量化(Post-Training Quantization,PTQ)提供了一種有前景的壓縮方案,但現有方法在SAM上效果不佳,具體表現為:

          (i) 掩碼解碼器中存在極端的激活異常值。實驗發現,激進的剪裁(甚至縮放100倍)不影響性能而有利于量化。然而,傳統的基于分布的量化誤差度量并不鼓勵這種剪裁。(ii) 通用的量化重建方法忽略了SAM的語義交互性,損害了圖像特征與提示意圖之間的對齊。

          為了解決上述問題,本文提出了SAQ-SAM,從語義對齊的角度提升SAM的PTQ性能。具體來說,提出了感知一致性剪裁,通過度量注意力焦點重疊度誤差來支持語義對齊剪裁。此外,提出提示感知重建,利用掩碼解碼器中的交叉注意力整合圖像與提示的交互,從而促進分布和語義的雙重對齊。

          實驗涵蓋了不同規模的 SAM 模型及多種任務(包括實例分割、定向目標檢測和語義分割),結果表明SAQ-SAM具有顯著優勢。

          17643249711.png

          圖1.掩碼解碼器中極端激活分布的可視化及不同剪裁方法的性能對比。掩碼解碼器中的 QK 激活值呈現出高度偏斜的分布,大部分數據集中在一個狹窄的范圍內,而異常值可能超出正常范圍的180倍。MSE 提供了一個過于寬泛的剪裁范圍,而本文提出的感知一致性剪裁(PCC)方法能夠更精確地識別異常值。

          17643249771.png

          圖2. SAQ-SAM框架。感知一致性剪裁(Perceptual-Consistency Clipping,PCC) 通過最小化注意力焦點相對于全精度模型的偏差,指導 QK 激活值的量化剪裁,從而在語義上保留感知對齊性。提示感知重建(Prompt-Aware Reconstruction,PAR)利用掩碼解碼器中的現成模塊,將圖像與提示的交互融入到逐Stage重建中。通過在全精度模型的監督下最小化交互響應誤差,量化模型學習到視覺特征與提示意圖之間的對應關系,從而在分布和語義層面實現雙重對齊。

          39.?重新審視基于多模態大語言模型的圖像質量評估:錯誤與改進

          Revisiting MLLM Based Image Quality Assessment: Errors and Remedy

          論文作者:唐榛辰、楊嵩林、彭勃、王梓川、董晶

          多模態大語言模型(MLLM)的迅速發展極大地推動了圖像質量評估(IQA)任務的進步。然而,一個關鍵挑戰在于:MLLM 的離散 token 輸出與 IQA 任務所需的連續質量分數之間存在內在的不匹配。這種差異顯著限制了基于 MLLM 的 IQA 方法的性能。以往將離散 token 預測結果轉換為連續分數的做法常常會引入轉換誤差。此外,由于等級類 token(如 “good”)所帶來的語義混淆,MLLM 在 IQA 任務中的表現進一步受限,其在相關任務中的原生能力也因此受到削弱。

          為解決上述問題,我們首先對以往方法中固有的誤差進行了理論分析,并基于此提出了一個簡單而高效的框架——Q-Scorer。該框架在 MLLM 流程中引入了輕量級回歸模塊與專為 IQA 設計的評分 token。大量實驗證明,Q-Scorer 在多個 IQA 基準上均取得了最新的性能表現,能夠良好地泛化到混合數據集上,并且在與其他方法結合時能進一步提升效果。

          17643249841.png

          圖1.?基于 MLLM 的 IQA 方法概覽與誤差分析。該圖展示了 MLLM 在標簽轉換與分數預測中的適配過程,并重點標出了導致轉換誤差與語義混淆的關鍵步驟。

          17643249971.png

          圖2.?Q-Scorer 概覽。該方法通過損失函數 

           學習輸出特定區間的評分 token。隨后,將該評分 token 的嵌入向量輸入至一個 MLP 中,以回歸得到連續的質量分數,并利用 

           進行優化,從而保證與主觀意見分數(MOS)的一致性與無損性。

          40.?CoGrad3D:一種基于正交梯度融合與空間耦合時間步優化的 3D 生成方法

          CoGrad3D: Spatially-Coupled Timestep Optimization with Orthogonal Gradient Fusion for 3D Generation

          論文作者:童昊陽,王宏博,劉進,王琦,曹杰,赫然

          分數蒸餾采樣推動了文本到3D生成的進展,但現有方法常難以生成細節豐富且多視圖一致的3D資產。這些局限性源于對精細細節的引導不均、對單視圖優化的過度依賴,以及擴散時間步和相機選擇的過度隨機性等問題,導致紋理模糊和視圖不一致,降低了真實感。為了應對這些挑戰,我們提出了CoGrad3D,這是一個統一的生成式精煉框架,它采用了一種持續自適應的優化策略。CoGrad3D 通過根據實時收斂信號動態調整優化焦點,確保了在幾何完整性和高保真細節兩方面都能取得均衡進展。具體而言,我們提出了一種自適應區域采樣策略,該策略重點關注欠收斂的視圖區域,從而促進穩定和均勻的優化。為了促進從粗糙幾何到精細重建的過渡,我們開發了一種區域感知的時間調度方案,該方案將全局訓練動態與局部收斂反饋相結合。此外,我們引入了一種梯度融合機制,該機制整合了來自相鄰視角的歷史梯度,從而減輕了特定視圖的偽影,并促進了連貫3D結構的生成。

          17643250041.png

          CoGrad3D的流程框架

          41.?UniAlignment:基于語義對齊的統一圖像生成、理解、編輯和感知

          UniAlignment: Semantic Alignment for Unified Image Generation,Understanding,Manipulation and Perception

          論文作者:宋昕洋,王立彬,王衛寧,柳紹楨,鄭丹丹,陳景東,李琦,孫哲南

          擴散模型在文本生成圖像任務上的顯著成功,激發了將其能力擴展至多模態任務(包括圖像理解、編輯和感知等)的廣泛興趣。這類任務要求模型具備跨視覺與文本模態的高級語義理解能力,尤其是在涉及復雜語義指令的場景中。然而,現有方法往往高度依賴視覺-語言模型(VLMs)或模塊化設計進行語義引導,導致架構碎片化和計算效率低下。為應對這些挑戰,我們提出了UniAlignment——一種基于單一擴散Transformer的統一多模態生成框架。UniAlignment采用雙流擴散訓練策略,融合了模態內及跨模態的語義對齊,有效提升了模型的跨模態一致性和指令遵循的魯棒性。此外,我們還提出了SemGen-Bench,這是一項專為評估復雜文本指令下多模態語義一致性而設計的新基準。大規模多任務和多基準測試結果表明,UniAlignment顯著優于現有方法,彰顯了擴散模型在統一多模態生成領域的巨大潛力。

          17643250101.png

          UniAlignment模型框架

          42.?稀疏調優提升預訓練模型的持續學習可塑性

          Sparse Tuning Enhances Plasticity in PTM-based Continual Learning

          論文作者:張桓,樊勝華,董姝妤,鄭昱津,汪鼎文,呂凡

          在預訓練模型上進行持續學習為跨任務的高效適應提供了巨大潛力。然而,現有的大多數方法往往凍結預訓練模型參數,并依賴于提示或適配器等輔助模塊,從而限制了模型的可塑性。當面對顯著的分布變化時,這種策略會導致泛化能力不足。盡管完全微調可以提高適應性,但它同時也可能破壞的預訓練知識。本文提出了一種互信息引導的稀疏微調方法,該方法是一種即插即用的策略,通過互信息目標的敏感性選擇性地更新少量PTM參數(少于5%)。MIST能夠在保持泛化能力的同時實現有效的任務特定適應。為進一步減少任務間干擾,在微調過程中引入了強稀疏正則化機制,通過隨機丟棄梯度,使每步更新的參數比例低于0.5%。在標準凍結式方法之前應用MIST,可以持續提升多種持續學習基線的性能。實驗結果表明,將MIST集成到多種基線方法中均能顯著提高性能。

          17643250171.png

          MIST方法思想

          43.?TRACE: 變化感知驅動的圖結構優化反應條件預測

          TRACE: Transformation-Aware Graph Refinement for Reaction Condition Prediction

          論文作者:陳雨潔,馬騰飛,劉元盛,魏樂義,吳書,曹東升,劉益萍,曾湘祥

          化學反應條件的精準預測(如催化劑、溶劑、試劑),是實現智能合成的關鍵。現有方法通常將反應物與產物獨立編碼,難以捕捉與條件相關的化學結構變化。為此,本研究提出變化感知的TRACE框架。該框架從原子層面聯合建模反應物與產物,然后通過構建動態交互圖來直接服務條件預測。其核心包含兩大模塊:結構感知編碼器用于整合原子局部環境信息;動態交互優化模塊則自適應推斷關鍵分子間作用,并利用反應中心正則化聚焦化學活性區域。實驗表明,TRACE在基準數據集上達到領先水平,尤其在溶劑與試劑預測中優勢明顯,并在時間遷移、少樣本及真實合成場景中展現出卓越的泛化能力與穩健性,為其實際應用奠定了堅實基礎。

          17643250281.png

          TRACE框架圖


          來源:中國科學院自動化研究所

          熱點新聞

          推薦產品

          x
          • 在線反饋
          1.我有以下需求:



          2.詳細的需求:
          姓名:
          單位:
          電話:
          郵件:

            <b id="nqvhe"><source id="nqvhe"><menu id="nqvhe"></menu></source></b>

            1. <source id="nqvhe"></source><xmp id="nqvhe"></xmp>
              1. <b id="nqvhe"></b>
                <u id="nqvhe"></u>
              2. <b id="nqvhe"><address id="nqvhe"><ol id="nqvhe"></ol></address></b>
              3. <source id="nqvhe"></source>
                <xmp id="nqvhe"><video id="nqvhe"></video></xmp>
                  <b id="nqvhe"></b>
                  <u id="nqvhe"></u>
                1. 国产精品高清视亚洲精品