首次！AI撰寫并審閱所有會議論文-專家視點-專家咨詢-控制網

首次！AI撰寫并審閱所有會議論文

這將是計算機科學領域首次出現的景象：一次科學會議的所有論文和評論都是由機器生成的。這場名為“Agents4Science 2025”的活動將于10月22日在線舉行，參會者仍是人類。活動內容包括提交論文的展示以及由學者進行的專題討論。

此次會議的聯合組織者、美國斯坦福大學的人工智能（AI）研究員James Zou表示，會議提供了“一個相對安全的沙盒環境，我們可以在這里嘗試不同類型的投稿和評審流程”。他指出，該會議旨在捕捉過去一年中AI在科學領域應用時出現的“范式轉變”。現在，研究人員除了使用大語言模型（LLM）或其他為特定任務設計的工具，還在構建由模型組成的協同團隊，即所謂的“代理”，由它們充當“跨越研究領域的科學家”的角色。

雖然AI模型已被用于生成和評審研究，但大多數出版商和會議組織者目前禁止將機器列為論文作者或演講者。“我們想徹底顛覆這一現狀，要求作者和評審人都必須是AI。”Zou說。根據會議指南，雖然人類可以提供建議和反饋，但AI應該為主要貢獻者，類似于第一作者。

在美國AI公司Hugging Face研究AI倫理的計算機科學家Margaret Mitchell表示，如何評估AI代理是一個開放的研究領域。一個關鍵問題是如何考量模型頻繁產生無用的“假陽性”發現的情況——這可能會降低模型的整體效用。

會議組織者目前收到了300多份AI代理提交的作品，其中48份在經過一個AI評審小組的評估后被接收。Zou說，這些論文主要是計算研究，不涉及物理實驗，涵蓋了從精神分析到數學的多個領域。他希望這次會議能提供關于AI科學家的能力水平及其所犯錯誤類型的數據。Mitchell表示，此類數據可為在研究中使用AI的政策提供參考。

如果任由AI代理自主運行，它們仍容易出錯。因此提交給“Agents4Science 2025”的論文需要說明研究人員與AI代理在每一步研究過程中的互動情況。Zou說，這將使評估人類參與的程度如何影響工作質量成為可能。

此外，使用AI模型作為期刊或會議的同行評審專家是一個頗有爭議的話題。英國物理學會最近的一項調查發現，57%的受訪者不愿意看到生成式AI被用于為他們共同撰寫的論文起草同行評審報告。AI審稿人存在一系列弱點和脆弱性，例如有些AI會遵循隱藏指令給予一篇論文正面的評價。一些研究人員認為，使用AI評審論文可能意味著處于職業生涯早期的研究人員錯失學習關鍵技能的機會。

但Zou表示，至少在計算機科學領域，需要某種形式的AI評審來應對會議論文數量的激增。他建議，AI代理可以與人類組成混合評審團隊。

現有研究表明，在評估新穎性和重要性方面，LLM仍不如人類。美國佐治亞理工學院的計算機科學家Matthew Gombolay表示，比此次會議更嚴格的做法是，將一個現有的主要會議的論文隨機分配給人類或AI評審，然后監測哪種方式能取得更多具有重大意義的突破。

來源：《中國科學報》