【時快訊】施一公的西湖大學,發了個AI科學家!首超人類SOTA
智東西
作者 | 李水青
(相關資料圖)
編輯 | 心緣
智東西10月13日報道,近日,西湖大學研究團隊推出一款“AI科學家”智能體系統——DeepScientist,首次大規模實證AI能夠在前沿科學任務上逐步超越人類的SOTA(行業最佳)。
▲DeepScientist開源界面
DeepScientist僅用兩周就取得了相當于人類研究者三年研究成果的進展。研發團隊通過三個前沿AI任務——智能體故障歸因、大語言模型推理加速和AI文本檢測,對此進行了驗證。
▲DeepScientist用兩周就取得相當于人類三年研究成果的進展
結果非常亮眼:DeepScientist僅用16塊H800 GPU,花了一個月,最后在三個任務上都超過了人類的最先進方法——分別提升了183.7%、1.9%和7.9%。截至2025年9月,這一成績也超越了DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder等前沿模型。
▲DeepScientist在三個任務上都超過了人類的最先進方法
在這個過程中,DeepScientist就像人類科學家一樣,明確目標、提假設、做驗證、分析結果,還會一邊記憶一邊探索新方向。它總共想出約5000個科研點子,驗證了1100個,最終有21個帶來了科學創新。團隊強調,這些點子都是通過自主重新設計核心方法,而非簡單組合現有技術。
在使用DeepReviewer與其他AI科學家系統的28篇公開論文進行基準測試時,DeepScientist是唯一能產出接受率達60%的論文的AI科學家系統。
▲DeepScientist接受率達60%
背后,DeepScientist的創新之處在于將科學發現形式化為一個貝葉斯優化問題,其架構通過一個配備開放知識系統和持續積累的發現記憶(Findings Memory)的多智能體系統,平衡對新假設的探索與利用,從而在預算受限的情況下最大限度地提高發現效率。
DeepScientist將采取四階段漸進式開源。其目前已開源了前端和后端代碼,并邀請小部分用戶試用;計劃在10月15日之前開源基礎組件,支持用戶構建自己的DeepScientist,11月之后還將發布實驗數據以及開源DeepScientist的源代碼。
▲DeepScientist論文截圖
GitHub地址:
https://github.com/ResearAI/DeepScientist
論文地址:
https://arxiv.org/abs/2509.26603
體驗申請地址:
http://ai-researcher.net/
一、3個AI任務驗證:兩周取得人類三年研究成果,超越人類183.7%
盡管此前的AI科研系統已能想出一些新點子,但它們往往缺乏針對性,無法解決緊迫的人類定義挑戰,難以產出具有科學價值的成果。
西湖大學研究團隊推出的DeepScientist系統,試圖通過在長達數月的時間里進行目標導向的、完全自主的科學發現,來克服這一局限。
首先來看看三個AI任務,DeepScientist是如何取得科研成果的。
第一個AI任務是具有較高復雜度的“智能體故障歸因”,即找出多AI系統里哪個AI導致任務失敗。
DeepScientist發現當前方法缺乏歸因所必需的反事實推理能力。通過反復試驗、不斷糾錯以及綜合新發現,最終提出了一種名為A2P(Abduction-Action-Prediction,溯因-行動-預測)的全新方法。
其核心創新在于將任務從簡單的模式識別提升到結構化的因果推理,通過預測某個提議的解決方案是否本可帶來成功,填補了反事實能力方面的關鍵空白。
這種新方法在Who&When基準測試的“算法生成”設置中獲得了47.46分,比人類的SOTA基準提高了183.7%。截至2025年9月,無需訓練的A2P方法仍保持著最先進水平的地位,也高于DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder、Gemini 2.5 Pro、GPT-OSS-120B的成績。
▲DeepScientist完成的研究論文截圖
論文地址:
https://github.com/ResearAI/DeepScientist/blob/main/case/DS_A2P.pdf
二是大語言模型的推理加速任務,即讓大語言模型運算更快。
此過程中,系統進行了許多不同的嘗試,例如使用卡爾曼濾波器動態調整鄰接矩陣,以解決原始方法缺乏記憶功能的問題。盡管這些嘗試大多失敗了,但系統生成的ACRA方法最終通過識別穩定的后綴模式,如圖3所示,將MPBB從人類的最優水平190.25 tokens/秒提升到了193.90 tokens/秒。
從科學角度而言,這項創新意義重大,因為它利用這些額外的上下文信息動態調整解碼猜測,有效地為該過程植入了長期記憶,打破了標準解碼器的上下文坍縮問題。這一發現凸顯了該系統的主要目標:創造人類未知的新知識,而非僅僅進行工程優化。
▲DeepScientist將MPBB提升到了193.90 tokens/秒
(該論文暫未上傳GitHub)
三是AI文本檢測,即讓它判斷一段文字是人類寫的還是AI寫的。
DeepScientist僅用兩周就取得了相當于人類三年研究成果的進展。它通過在無需人類干預的情況下,實現目標導向、持續且迭代式的科學發現,克服了傳統研究效率低的難題。
DeepScientist自主生成了2472個獨特的研究思路,實現了600個最有前景的假設,并最終開發出在RAID數據集上將AUROC得分提高7.9%的方法,同時降低了推理延遲。
該系統產生了三種截然不同、且性能逐步提升的方法:T-Detect、TDT和PA-Detect。
首先,T-Detect通過穩健的t分布修正了核心統計數據,隨后,TDT和PA-Detect在概念上進行了演進,它們將文本視為一種信號,并使用小波和相位一致性分析來精確定位異常。從科學角度來看,這種轉變揭示了AI生成文本的“非平穩性”,緩解了先前范式中因平均化局部證據而產生的信息瓶頸。
如下圖所示,這一完整的發現軌跡展示了DeepScientist在逐步推進前沿科學發現方面的能力,它建立了新的SOTA,AUROC提高了7.9%,同時推理速度也提升了一倍。
▲DeepScientist在AUROC得分提高了7.9%
▲DeepScientist完成的研究論文截圖
論文地址:
https://github.com/ResearAI/DeepScientist/blob/main/case/DS_TDT.pdf
▲DeepScientist完成的研究論文截圖
論文地址:
https://github.com/ResearAI/DeepScientist/blob/main/case/DS_T_Detect.pdf
二、僅用8塊英偉達H800 GPU完成AI課題,DeepScientist架構解讀
三項AI任務背后,團隊僅為DeepScientist配備了兩臺服務器,每臺服務器帶有8塊英偉達H800 GPU。
背后,DeepScientist的創新之處在于將科學發現形式化為一個貝葉斯優化問題,并通過“提出假設、驗證和分析”的分層評估流程加以實現。在這種分層方案中,只有展現出潛力的研究思路才會進入成本更高的評估階段,從而在預算受限的情況下最大限度地提高發現效率。
DeepScientist的架構通過一個配備開放知識系統和持續積累的發現記憶(Findings Memory)的多智能體系統,實現了貝葉斯優化循環。其在探索新假設與挖掘最有前景的發現之間實現智能平衡,并將最具潛力的成果推進到更高保真度的驗證階段。
DeepScientist基于西湖大學此前已有研發成果,僅用兩個月、花費約10萬美元(約合71.3萬元人民幣)就搭建完成。來自西湖大學團隊的文章第一作者Yixuan Weng最新采訪記錄公開,記錄如下:
1、問:你之前的項目是CycleResearcher。為什么將這個新項目命名DeepScientist為而不是DeepResearcher?
答:早在2024年9月,我就計劃將我現在的工作命名為“DeepResearcher”,類似于DeepReviewer。然而,OpenAI后來用了這個名字。所以我決定將我的項目命名為DeepScientist。
2、問:什么時候開源?
答:我會在確保足夠安全的情況下才會開源,因為我還不能完全確定它DeepScientist給學術界帶來的益處是否大于其潛在的風險。因此,我必須采取謹慎的態度。
(問:為什么要采取分階段開源策略?)
因為社區熱情高漲——幾乎每個人都迫不及待地想讓我開源它!我計劃利用國慶節和中秋節假期來修改代碼,以便社區能夠盡早體驗該系統,并探索它如何加速不同領域的科學發現。
感謝中關村研究院的支持,我們將能夠免費向社區提供完整的DeepScientist系統。
3、問:我有機會重現或改進DeepScientist嗎?
答:當然!我們只用了兩個月就基于ResearStudio構建了它。我相信你可以輕松創建類似“Open-DeepScientist”或“nano-DeepScientist”的項目。我們強烈鼓勵社區開展此類項目。
(ResearStudio是首個用于構建可人工干預的深度研究智能體的開源框架。它實現了人機實時協作,允許用戶在執行過程中暫停、編輯和引導AI智能體,而非傳統的“發射后不管”模式。其Agent核心層采用了規劃器(GPT-4)和執行器(GPT-4o-mini/o3)。)
GitHub地址:
https://github.com/ResearAI/ResearStudio?tab=readme-ov-file
4、問:您是否認為AI驅動的科學發現存在縮放定律?
答:我堅信AI驅動的科學發現遵循其自身的“縮放定律”。但這并非孤立現象——它是人類不斷加速的科學發現的自然延伸和放大。縱觀歷史,科學進步的速度一直在不斷加快,在現代,這種加速尤為明顯。從中學開始,我就喜歡玩《席德·梅爾的文明》,游戲中知識和技術的積累會更快地帶來“尤里卡時刻”。我相信,我們現在正在進入一個由AI驅動的現實世界的“尤里卡時代”。
5、問:目前,所謂的“AI科學家”看起來更像是“高通量試錯機器”,而不是真正具有深刻洞察力的“發現者”。我們如何才能提升他們的科學直覺?
答:首先,隨著模型能力的提升,我已經感受到它們識別科學問題局限性的能力在提升。早期的DeepSeek-R1版本,它的觀察結果非常膚淺。但Qwen-3-235B-Thinking-2507發布后,它的洞察力和假設生成能力明顯提升。在我看來,只有比Qwen-3-235B版本更強大的模型才能產生真正有價值的發現。
RLVR(基于可驗證獎勵的強化學習)是一個很有前景的方向,但它也面臨挑戰:成本高昂、訓練效率低,大約需要1000個GPU小時才能生成一個有用的樣本。
6、問:這項研究的總成本約為10萬美元(約合71.3萬元人民幣)。與資助一名人類博士生進行類似研究周期相比,您認為目前這筆費用是否劃算?
答:我認為兩者各有優勢。失敗是成功之母,而AI最大的優勢在于它能夠持續探索而不疲倦。
一方面,我們可以依靠AI嘗試許多不同的策略——即使發現某種方法在某個領域失敗了,本身也是一個有意義的發現。另一方面,這僅僅是個開始。未來幾年,由于能力的提升和推理成本的降低,AI的成本將大幅下降。
7、問:您論文中最令人興奮的發現之一是計算資源與研究產出之間的“近線性關系”。您預測這種趨勢會隨著GPU數量的增加而無限期地持續下去嗎?還是很快就會遇到瓶頸?下一個瓶頸可能是什么?
答:我認為這種情況不會無限期地持續下去。我們即將遇到瓶頸。下一個瓶頸將是“探索效率”,而不是“探索規模”。目前,大多數計算資源都浪費在低價值的探索上。未來的挑戰是如何避免這種低價值的工作。
雖然DeepScientist偶爾會通過反復試驗發現新的方法來提高性能,但收益往往微乎其微。只有當我們能夠進行大規模、高價值的探索時,真正的突破才會到來。
8、問:還有其他驚喜嗎?
答:是的!10月初,我們雙方將全面開源一款工具。我相信每位研究人員都會對此感興趣——它顯著增強了DeepScientist的演示能力。
三、4步漸進式開源:10月中用戶可構建自己的AI科學家
DeepScientist的整個開源計劃會分為四個階段。
階段0:通用智能體框架
西湖大學已經在ResearAI/ResearStudio開源了前端和后端代碼。用戶可以以此為基礎,使用自己的自定義工具構建各種專業的Agent。
GitHub地址:
https://github.com/ResearAI/ResearStudio
第一階段:基于應用程序的訪問(預計在10月1日之前)
為了確保安全,西湖大學團隊將邀請一小部分用戶試用DeepScientist,共同完善該框架。如果用戶有準備探索的任務,可以填寫其等候名單表格。
申請地址:
https://forms.gle/8FnGgqgBVEKv3q6a7
第二階段:基礎組件發布(預計10月15日之前)
在確保安全之后,西湖大學團隊將開源基礎組件。在此階段,用戶可以立即開始構建自己的DeepScientist,或者復制西湖大學團隊的工作。
第三階段:實驗數據發布(預計11月之后)
西湖大學團隊將開源所有約5000條假設和約1100條實驗日志。這將是首次公開如此大規模的AI實驗結果數據集。
第四階段:DeepScientist源代碼發布
西湖大學團隊將進行長期測試和調整,以防止對人類研究造成任何潛在危害。之后,團隊將發布DeepScientist代碼的核心架構,以促進社區發展。
結語:AI科學家賦能科研,進入規模化實證階段
西湖大學研發團隊首次通過實證展示了一個自動化全周期科學發現系統,該系統能夠產生新穎且超越現有最佳水平的方法,并以大幅超過人類研究人員的速度不斷推進科學前沿。AI有望真正推動多個不同領域的前沿發展,產生具有持久影響的發現,并系統地推進多個領域的技術前沿。
不過,團隊也坦言AI科研的成功率還可以繼續提升,5000個點子里最終僅21個能真正帶來科學突破,約60%的失敗是因為代碼實現出錯。但好在它效率高,而且給它更多計算資源,它出成果的數量也會差不多成比例增加。
為了讓AI成為更得力的合作伙伴,西湖大學研發團隊認為,未來的工作應聚焦于幾項關鍵改進:開發模擬發現環境,通過強化學習加速學習進程;構建整合科學界反饋的框架;最終通過機器人技術彌合與物理科學之間的差距。
圖片
-
第五屆中國國際消費品博覽會
中國香港組合奪羽毛球亞錦賽
四川:15000余名跑友參加202
-
女超聯賽:武漢車谷江大隊戰
“韓紅愛心·鄉村急救十周年
2025廣東省定向公開賽(廣州
浙江(麗水)生態產品交易平 比利時陶瓷愛好者走進“青瓷
首次發現!九寨溝箭竹海發現 -
喜人之夜笑慶盛典在澳門舉行
第五屆中國國際消費品博覽會
2025年國際冰聯女子冰球世錦
751家企業攜3.5萬個優質崗位
7國來華留學生赴庫布其沙漠
2025年女子冰球世錦賽(甲級 -
賡續千年茶禮 杭州淳安舉行
平陸運河動物通道橋建設加速
四川:電力部門利用科技手段
廣西東興口岸一季度貨車通關
2025世界牡丹大會在山東菏澤
貴州:可信AI數據空間創新探
精彩推送
- 【時快訊】施一公的西湖大學,發了個AI科學家!首超人類SOTA
- 長城汽車啟動2026屆校招會暨興冀車隊“長城-E5”賽車發布會,以長期主義戰略構筑人才高地
- 每日精選:Evercore ISI上調特斯拉目標價至300美元
- PriceSeek提醒:四川玉龍三聚氰胺報價下調 焦點熱文
- 蘋果供應商在中國啟動10億元人民幣新能源基金 動態
- 10月14日生意社尿素基準價為1572.50元/噸-速遞
- 【評論員觀察】為秋收提供全鏈服務
- 焦點速讀:動態優化:GEO如何響應AI搜索算法的實時迭代?
- ETF新玩家漸次入場 創新產品線持續推進_新視野
- 攻防兩端都有些力不從心!快船鋒線老將的狀態真的出現下滑了?
- 最高10000元獎金!即將截止!_重點聚焦
- 美股三大指數集體高開 熱門看點
- 當前關注:追風防城港!每一幀都是與山海的浪漫對話
- 世貿通EB5投資移民:美國再推“限招令”,赴美留學如何突圍身份規劃?
- 寶鼎科技:河西金礦不生產銅銀等副產品
- 天天資訊:微信一下瘦身10G,實測有效!
- 東岳硅材:前三季度凈利潤同比預降96.27%—97.40%
- 對話“孩子考61分全家歡呼下館子”當事人:本身不是百分父母,干嘛非要孩子百分|每日熱議
- 禹洲集團:9月合同銷售金額3.61億元-每日速讀
- 北方華創:公司2024年40-45歲的研發人員數量略有下降,但40歲及以上的研發人員總數由2023年的335人增加至2024年的383人 最資訊
- 蘋果CEO庫克現身上海Labubu主題巡展現場,與泡泡瑪特CEO王寧、Labubu設計師龍家升親密互動!獲贈拿著iPhone的Labubu玩偶_天天快報
- 我在現場·光影流年丨當這份愛默默流淌了37年,如今的他們,還好嗎?
- 最新消息:大行評級丨花旗:重申亞馬遜“買入”評級 第三季業績很可能超市場預期
- 昆山民用無人機基地正式揭牌啟用 每日信息
- 【新華500】新華500指數(989001)13日跌0.45%_每日速訊
- 快資訊:PriceSeek重點提醒:湖南銻市節后弱勢 供應寬松需求不足
- 每日速看!生意社:10月13日山東地區MTBE生產企業報價持穩
- 10月13日海安中山錦綸DTY小幅下調-新消息
- 實時焦點:馬祖拉:籃板球的爭搶囊括了意志力、技術在內的所有因素
- 江蘇農墾乳業科技公司注冊成立|每日視訊
- 國際研究視野下的富里酸:從細胞代謝到免疫調節的多重潛力
- 中國海誠:公司使用人工智能技術自主研發在線智能知識管理平臺,提升工作效率 每日熱訊
- 今日快訊:費城交響樂團首訪青島 與青島樂團共奏經典曲目
- 青春華章|漫評:水脈映山河,青春譜新篇
- 生意社:10月13日上饒市朗青礦業碳酸鈣價格穩定 即時看
- 全運會蹦床決賽:胡譯乘奪兩金 嚴浪宇實現衛冕 今日熱文
- 生豬市場旺季不旺 周期磨底或將持續 報資訊
- 物流業景氣指數跑出“加速度”釋放三大信號 觀點
- 快消息!宜賓2:0戰勝瀘州!宜賓隊主教練鄒侑根:打了一場漂亮的反擊戰
- “祁廳長”空降武漢 現場人氣太火爆! 每日觀察
- 當前熱點廣州未序商貿有限公司成立 注冊資本1萬人民幣
- 今日熱文:中持股份:第一大股東擬協議轉讓其所有公司股份
- 煤炭開采行業跟蹤周報:節日期間需求較弱,港口煤價略有上漲|即時焦點
- 腦洞科技(02203.HK)以總代價約190萬美元出售1.27萬股羅賓漢股份|每日訊息
- 科技股暴跌,無需找利空-焦點熱議
- 比亞迪中標新加坡首個L4級智駕巴士試點項目
- 當前焦點!投資基金時如何利用風險管理工具?
- 【獨家焦點】Guangdong Meets Akihabara: Chinese IPs Spark a New Creative Wave|SFC Markets and Finance
- 費蘭社媒曬罰點照片:國家隊50場里程碑,離世界杯更進一步
- 察哈爾右翼前旗匠心建材經銷部(個體工商戶)成立 注冊資本3萬人民幣
- 繼續引援?斯洛特想在冬窗買下后衛+邊鋒,針對解決困擾難題 今日報
- 顛覆性證據!山東淄博發現45粒9000年前炭化小豆,比秦始皇早近7000年!“使中國小豆利用史與日本繩文早期證據并駕齊驅”_通訊
- 上海玖浩的遷貿易有限公司成立 注冊資本100萬人民幣
- 山東沂南:多措并舉搶收玉米
- 廊坊開發區:積極應對持續降雨 全力做好排水清淤工作_快播報
- 達州市達川區堡子鎮久勝建材門市部(個體工商戶)成立 注冊資本5萬人民幣
- 【時快訊】自貢市自流井區繆氏包子店(個體工商戶)成立 注冊資本7萬人民幣
- 晶采觀察丨讀懂“假日經濟”里的消費新趨勢|每日消息
- 焦點快報!長安汽車公布整車空氣動力學性能優化專利
- 動態:永定vlog|桑干河、洋河交匯處,永定河之稱從這里開始!
- 如何評估銀行的資產配置建議是否合理?-今熱點
- 武漢市洪山區秋石慢原創珠寶店(個體工商戶)成立 注冊資本1萬人民幣
- 每日快訊!倫納德:對陣廣州的比賽我會出戰;球隊在進攻端要加快節奏
- 吉寶數據中心房地產信托收購日本大東京圈印西市超大規模數據中心
- 期貨交易的止損止盈設置有何技巧?_每日消息
- 和訊投顧魏玉根:別慌!下周一操作思路來了! 時訊
- 富國基金申請啟動頁生成方法等相關專利,顯著提高設計和開發效率 即時
- 牧原股份2025年半年度利潤分配:分紅總額50億元!
- 保誠于10月9日斥資288.98萬英鎊回購28.03萬股
- 明冠新材:將拓展鋁塑膜及特種防護膜的產品市場
- 每日熱門:南通和創健身器材有限公司成立 注冊資本50萬人民幣
- 焦點信息:貴州省:國慶中秋假期新能源汽車流量顯著增長
- 每日資訊:百年光影 對話故宮今昔
- 焦點要聞:生意社:10月10日LME基本金屬庫存統計
- 辛納奪中網男單冠軍
- 載人登月“進度條”持續刷新|每日快看
- 觀焦點:秦安股份:融資凈買入412.83萬元,融資余額1.72億元(10-10)
- 重藥控股(000950.SZ)發預增,預計前三季度歸母凈利潤3.58億元至4億元 增長22.51%—36.88%
- 上海調整2025年汽車以舊換新補貼活動規則
- 南宮市玖越汽車配件有限公司成立 注冊資本5萬人民幣 通訊
- 鄒學校院士率領團隊攻關 我國鹽堿地辣椒種植實現重要突破
- 從“活下來”到“火起來” 非遺工坊的傳承與突圍 速看
- 招商積余(001914.SZ):累計回購0.134%股份
- 久之洋:截至2025年9月30日收盤公司股東人數為16784戶 焦點短訊
- 又是點球大戰!泰州隊晉級“蘇超”四強_熱資訊
- 每日速讀!東芯股份:東方恒信集團和蘇州東芯科創擬詢價轉讓1326.75萬股 占總股本3.00%
- 北京越野迎雙里程碑:累計生產320萬輛,月生產首破萬輛
- 溯源常山山野:山茶花沐浴液體皂,開啟自然洗護新體驗
- 中科云出海啟示錄——深港金融科技聚合力,讓小微企業敢接海外訂單
- 運鴻集團旗下【世界金融資產交易中心】獲兩項高含金量許可證
- 達成歷史最佳9月銷量表現 長城汽車9月銷售新車13.36萬輛 同比增長23.29%
- 超凡守護 為愛前行|金領冠50°超凡守護公益行動走進云南怒江
- BJ30旅行家上市,北京越野加速啟動“人民越野”時代
- 猛士M817 Max+版新款上市,如何用“超200km純電續航+頂級智駕”構建代差級領先?
- 微眾銀行與粵西順豐并肩護航,以“暖實力”助粵西中小企業穩迎中秋旺季
- 民生銀行北京分行構建“大消保”格局 守護大眾資金安全防線
- 鳳凰金翼“游獵隼R500”以508公里/小時的速度、刷新極速中國紀錄
- 香港塔羅學會:在眾聲喧嘩中,定義真正的塔羅專業與權威
- 微眾銀行千萬“活水”到賬,撐起融粵汽車出海突圍路
- 森森火山泥,開辟專業賽道,四大功能引領新型環保裝修涂料風向!
















營業執照公示信息