高清中国一级毛片免费_色哟哟亚洲精品一区二区_日本高清一道精品久久_亚洲狼人香蕉香蕉在线28

您的位置:金融 > 正文

【時快訊】施一公的西湖大學,發了個AI科學家!首超人類SOTA

來源: 時間:2025-10-14 12:04:39

智東西

作者 | 李水青


(相關資料圖)

編輯 | 心緣

智東西10月13日報道,近日,西湖大學研究團隊推出一款“AI科學家”智能體系統——DeepScientist,首次大規模實證AI能夠在前沿科學任務上逐步超越人類的SOTA(行業最佳)。

▲DeepScientist開源界面

DeepScientist僅用兩周就取得了相當于人類研究者三年研究成果的進展。研發團隊通過三個前沿AI任務——智能體故障歸因、大語言模型推理加速和AI文本檢測,對此進行了驗證。

▲DeepScientist用兩周就取得相當于人類三年研究成果的進展

結果非常亮眼:DeepScientist僅用16塊H800 GPU,花了一個月,最后在三個任務上都超過了人類的最先進方法——分別提升了183.7%、1.9%和7.9%。截至2025年9月,這一成績也超越了DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder等前沿模型。

▲DeepScientist在三個任務上都超過了人類的最先進方法

在這個過程中,DeepScientist就像人類科學家一樣,明確目標、提假設、做驗證、分析結果,還會一邊記憶一邊探索新方向。它總共想出約5000個科研點子,驗證了1100個,最終有21個帶來了科學創新。團隊強調,這些點子都是通過自主重新設計核心方法,而非簡單組合現有技術。

在使用DeepReviewer與其他AI科學家系統的28篇公開論文進行基準測試時,DeepScientist是唯一能產出接受率達60%的論文的AI科學家系統。

▲DeepScientist接受率達60%

背后,DeepScientist的創新之處在于將科學發現形式化為一個貝葉斯優化問題,其架構通過一個配備開放知識系統和持續積累的發現記憶(Findings Memory)的多智能體系統,平衡對新假設的探索與利用,從而在預算受限的情況下最大限度地提高發現效率。

DeepScientist將采取四階段漸進式開源。其目前已開源了前端和后端代碼,并邀請小部分用戶試用;計劃在10月15日之前開源基礎組件,支持用戶構建自己的DeepScientist,11月之后還將發布實驗數據以及開源DeepScientist的源代碼。

▲DeepScientist論文截圖

GitHub地址:

https://github.com/ResearAI/DeepScientist

論文地址:

https://arxiv.org/abs/2509.26603

體驗申請地址:

http://ai-researcher.net/

一、3個AI任務驗證:兩周取得人類三年研究成果,超越人類183.7%

盡管此前的AI科研系統已能想出一些新點子,但它們往往缺乏針對性,無法解決緊迫的人類定義挑戰,難以產出具有科學價值的成果。

西湖大學研究團隊推出的DeepScientist系統,試圖通過在長達數月的時間里進行目標導向的、完全自主的科學發現,來克服這一局限。

首先來看看三個AI任務,DeepScientist是如何取得科研成果的。

第一個AI任務是具有較高復雜度的“智能體故障歸因”,即找出多AI系統里哪個AI導致任務失敗。

DeepScientist發現當前方法缺乏歸因所必需的反事實推理能力。通過反復試驗、不斷糾錯以及綜合新發現,最終提出了一種名為A2P(Abduction-Action-Prediction,溯因-行動-預測)的全新方法。

其核心創新在于將任務從簡單的模式識別提升到結構化的因果推理,通過預測某個提議的解決方案是否本可帶來成功,填補了反事實能力方面的關鍵空白。

這種新方法在Who&When基準測試的“算法生成”設置中獲得了47.46分,比人類的SOTA基準提高了183.7%。截至2025年9月,無需訓練的A2P方法仍保持著最先進水平的地位,也高于DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder、Gemini 2.5 Pro、GPT-OSS-120B的成績。

▲DeepScientist完成的研究論文截圖

論文地址:

https://github.com/ResearAI/DeepScientist/blob/main/case/DS_A2P.pdf

二是大語言模型的推理加速任務,即讓大語言模型運算更快。

此過程中,系統進行了許多不同的嘗試,例如使用卡爾曼濾波器動態調整鄰接矩陣,以解決原始方法缺乏記憶功能的問題。盡管這些嘗試大多失敗了,但系統生成的ACRA方法最終通過識別穩定的后綴模式,如圖3所示,將MPBB從人類的最優水平190.25 tokens/秒提升到了193.90 tokens/秒。

從科學角度而言,這項創新意義重大,因為它利用這些額外的上下文信息動態調整解碼猜測,有效地為該過程植入了長期記憶,打破了標準解碼器的上下文坍縮問題。這一發現凸顯了該系統的主要目標:創造人類未知的新知識,而非僅僅進行工程優化。

▲DeepScientist將MPBB提升到了193.90 tokens/秒

(該論文暫未上傳GitHub)

三是AI文本檢測,即讓它判斷一段文字是人類寫的還是AI寫的。

DeepScientist僅用兩周就取得了相當于人類三年研究成果的進展。它通過在無需人類干預的情況下,實現目標導向、持續且迭代式的科學發現,克服了傳統研究效率低的難題。

DeepScientist自主生成了2472個獨特的研究思路,實現了600個最有前景的假設,并最終開發出在RAID數據集上將AUROC得分提高7.9%的方法,同時降低了推理延遲。

該系統產生了三種截然不同、且性能逐步提升的方法:T-Detect、TDT和PA-Detect。

首先,T-Detect通過穩健的t分布修正了核心統計數據,隨后,TDT和PA-Detect在概念上進行了演進,它們將文本視為一種信號,并使用小波和相位一致性分析來精確定位異常。從科學角度來看,這種轉變揭示了AI生成文本的“非平穩性”,緩解了先前范式中因平均化局部證據而產生的信息瓶頸。

如下圖所示,這一完整的發現軌跡展示了DeepScientist在逐步推進前沿科學發現方面的能力,它建立了新的SOTA,AUROC提高了7.9%,同時推理速度也提升了一倍。

▲DeepScientist在AUROC得分提高了7.9%

▲DeepScientist完成的研究論文截圖

論文地址:

https://github.com/ResearAI/DeepScientist/blob/main/case/DS_TDT.pdf

▲DeepScientist完成的研究論文截圖

論文地址:

https://github.com/ResearAI/DeepScientist/blob/main/case/DS_T_Detect.pdf

二、僅用8塊英偉達H800 GPU完成AI課題,DeepScientist架構解讀

三項AI任務背后,團隊僅為DeepScientist配備了兩臺服務器,每臺服務器帶有8塊英偉達H800 GPU。

背后,DeepScientist的創新之處在于將科學發現形式化為一個貝葉斯優化問題,并通過“提出假設、驗證和分析”的分層評估流程加以實現。在這種分層方案中,只有展現出潛力的研究思路才會進入成本更高的評估階段,從而在預算受限的情況下最大限度地提高發現效率。

DeepScientist的架構通過一個配備開放知識系統和持續積累的發現記憶(Findings Memory)的多智能體系統,實現了貝葉斯優化循環。其在探索新假設與挖掘最有前景的發現之間實現智能平衡,并將最具潛力的成果推進到更高保真度的驗證階段。

DeepScientist基于西湖大學此前已有研發成果,僅用兩個月、花費約10萬美元(約合71.3萬元人民幣)就搭建完成。來自西湖大學團隊的文章第一作者Yixuan Weng最新采訪記錄公開,記錄如下:

1、問:你之前的項目是CycleResearcher。為什么將這個新項目命名DeepScientist為而不是DeepResearcher?

答:早在2024年9月,我就計劃將我現在的工作命名為“DeepResearcher”,類似于DeepReviewer。然而,OpenAI后來用了這個名字。所以我決定將我的項目命名為DeepScientist。

2、問:什么時候開源?

答:我會在確保足夠安全的情況下才會開源,因為我還不能完全確定它DeepScientist給學術界帶來的益處是否大于其潛在的風險。因此,我必須采取謹慎的態度。

(問:為什么要采取分階段開源策略?)

因為社區熱情高漲——幾乎每個人都迫不及待地想讓我開源它!我計劃利用國慶節和中秋節假期來修改代碼,以便社區能夠盡早體驗該系統,并探索它如何加速不同領域的科學發現。

感謝中關村研究院的支持,我們將能夠免費向社區提供完整的DeepScientist系統。

3、問:我有機會重現或改進DeepScientist嗎?

答:當然!我們只用了兩個月就基于ResearStudio構建了它。我相信你可以輕松創建類似“Open-DeepScientist”或“nano-DeepScientist”的項目。我們強烈鼓勵社區開展此類項目。

(ResearStudio是首個用于構建可人工干預的深度研究智能體的開源框架。它實現了人機實時協作,允許用戶在執行過程中暫停、編輯和引導AI智能體,而非傳統的“發射后不管”模式。其Agent核心層采用了規劃器(GPT-4)和執行器(GPT-4o-mini/o3)。)

GitHub地址:

https://github.com/ResearAI/ResearStudio?tab=readme-ov-file

4、問:您是否認為AI驅動的科學發現存在縮放定律?

答:我堅信AI驅動的科學發現遵循其自身的“縮放定律”。但這并非孤立現象——它是人類不斷加速的科學發現的自然延伸和放大。縱觀歷史,科學進步的速度一直在不斷加快,在現代,這種加速尤為明顯。從中學開始,我就喜歡玩《席德·梅爾的文明》,游戲中知識和技術的積累會更快地帶來“尤里卡時刻”。我相信,我們現在正在進入一個由AI驅動的現實世界的“尤里卡時代”。

5、問:目前,所謂的“AI科學家”看起來更像是“高通量試錯機器”,而不是真正具有深刻洞察力的“發現者”。我們如何才能提升他們的科學直覺?

答:首先,隨著模型能力的提升,我已經感受到它們識別科學問題局限性的能力在提升。早期的DeepSeek-R1版本,它的觀察結果非常膚淺。但Qwen-3-235B-Thinking-2507發布后,它的洞察力和假設生成能力明顯提升。在我看來,只有比Qwen-3-235B版本更強大的模型才能產生真正有價值的發現。

RLVR(基于可驗證獎勵的強化學習)是一個很有前景的方向,但它也面臨挑戰:成本高昂、訓練效率低,大約需要1000個GPU小時才能生成一個有用的樣本。

6、問:這項研究的總成本約為10萬美元(約合71.3萬元人民幣)。與資助一名人類博士生進行類似研究周期相比,您認為目前這筆費用是否劃算?

答:我認為兩者各有優勢。失敗是成功之母,而AI最大的優勢在于它能夠持續探索而不疲倦。

一方面,我們可以依靠AI嘗試許多不同的策略——即使發現某種方法在某個領域失敗了,本身也是一個有意義的發現。另一方面,這僅僅是個開始。未來幾年,由于能力的提升和推理成本的降低,AI的成本將大幅下降。

7、問:您論文中最令人興奮的發現之一是計算資源與研究產出之間的“近線性關系”。您預測這種趨勢會隨著GPU數量的增加而無限期地持續下去嗎?還是很快就會遇到瓶頸?下一個瓶頸可能是什么?

答:我認為這種情況不會無限期地持續下去。我們即將遇到瓶頸。下一個瓶頸將是“探索效率”,而不是“探索規模”。目前,大多數計算資源都浪費在低價值的探索上。未來的挑戰是如何避免這種低價值的工作。

雖然DeepScientist偶爾會通過反復試驗發現新的方法來提高性能,但收益往往微乎其微。只有當我們能夠進行大規模、高價值的探索時,真正的突破才會到來。

8、問:還有其他驚喜嗎?

答:是的!10月初,我們雙方將全面開源一款工具。我相信每位研究人員都會對此感興趣——它顯著增強了DeepScientist的演示能力。

三、4步漸進式開源:10月中用戶可構建自己的AI科學家

DeepScientist的整個開源計劃會分為四個階段。

階段0:通用智能體框架

西湖大學已經在ResearAI/ResearStudio開源了前端和后端代碼。用戶可以以此為基礎,使用自己的自定義工具構建各種專業的Agent。

GitHub地址:

https://github.com/ResearAI/ResearStudio

第一階段:基于應用程序的訪問(預計在10月1日之前)

為了確保安全,西湖大學團隊將邀請一小部分用戶試用DeepScientist,共同完善該框架。如果用戶有準備探索的任務,可以填寫其等候名單表格。

申請地址:

https://forms.gle/8FnGgqgBVEKv3q6a7

第二階段:基礎組件發布(預計10月15日之前)

在確保安全之后,西湖大學團隊將開源基礎組件。在此階段,用戶可以立即開始構建自己的DeepScientist,或者復制西湖大學團隊的工作。

第三階段:實驗數據發布(預計11月之后)

西湖大學團隊將開源所有約5000條假設和約1100條實驗日志。這將是首次公開如此大規模的AI實驗結果數據集。

第四階段:DeepScientist源代碼發布

西湖大學團隊將進行長期測試和調整,以防止對人類研究造成任何潛在危害。之后,團隊將發布DeepScientist代碼的核心架構,以促進社區發展。

結語:AI科學家賦能科研,進入規模化實證階段

西湖大學研發團隊首次通過實證展示了一個自動化全周期科學發現系統,該系統能夠產生新穎且超越現有最佳水平的方法,并以大幅超過人類研究人員的速度不斷推進科學前沿。AI有望真正推動多個不同領域的前沿發展,產生具有持久影響的發現,并系統地推進多個領域的技術前沿。

不過,團隊也坦言AI科研的成功率還可以繼續提升,5000個點子里最終僅21個能真正帶來科學突破,約60%的失敗是因為代碼實現出錯。但好在它效率高,而且給它更多計算資源,它出成果的數量也會差不多成比例增加。

為了讓AI成為更得力的合作伙伴,西湖大學研發團隊認為,未來的工作應聚焦于幾項關鍵改進:開發模擬發現環境,通過強化學習加速學習進程;構建整合科學界反饋的框架;最終通過機器人技術彌合與物理科學之間的差距。

精彩推送

公司

一系列金融支持民營經濟、民營企業發展的政策舉措正密集出臺加速落地。

詳細>>

9月份以來,人民幣匯率持續走低。9月8日,離岸人民幣對美元匯率盤中最

詳細>>

國家統計局發布的數據顯示,8月份,全國居民消費價格指數(CPI)同比上

詳細>>

國家統計局9月9日發布的數據顯示,8月全國居民消費價格指數(CPI)同比

詳細>>

今年前8個月,鄭州商品交易所累計成交量約25億手,同比增長64%。這是記

詳細>>

中國電影觀眾滿意度調查2023年暑期檔調查結果顯示,暑期檔電影觀眾滿意

詳細>>
高清中国一级毛片免费_色哟哟亚洲精品一区二区_日本高清一道精品久久_亚洲狼人香蕉香蕉在线28
  • <strike id="800qq"></strike>
    <ul id="800qq"></ul>
    
    
    <ul id="800qq"><tbody id="800qq"></tbody></ul>
  • 亚洲免费在线看| 成人小视频在线| 久久蜜桃香蕉精品一区二区三区| 亚洲女人****多毛耸耸8| 欧美美女一区二区| 中文字幕一区二区在线播放| 久久99在线观看| 欧美极品美女视频| 欧美三级视频在线| 综合色天天鬼久久鬼色| 国产美女在线精品| 亚洲三级电影网站| 日韩欧美国产一区二区三区| 亚洲永久免费av| 成人免费视频一区| 亚洲综合免费观看高清完整版在线| 日韩欧美电影一二三| 亚洲一区免费观看| 99久久综合狠狠综合久久| 午夜影院久久久| 亚洲国产精品av| 国产一区二区精品久久91| 综合欧美亚洲日本| 欧美大片在线观看一区二区| 无吗不卡中文字幕| 久久久久国产免费免费| 91久久免费观看| 亚洲欧美日韩小说| 99国内精品久久| 欧美丝袜丝nylons| 亚洲激情第一区| 91尤物视频在线观看| 一本一道久久a久久精品| 国产精品无遮挡| 国产成人免费视频一区| 亚洲成人自拍偷拍| 中文字幕一区二区日韩精品绯色| 成人少妇影院yyyy| 午夜久久久久久电影| 亚洲欧美在线高清| 94-欧美-setu| 欧美日韩国产免费| 亚洲国产视频在线| 国产欧美日韩视频一区二区| 日韩一区二区影院| 日韩精品乱码av一区二区| 国产精品久久夜| 久久久久久麻豆| 国产精品一二三四五| 亚洲aaa精品| 亚洲欧美日韩中文字幕一区二区三区| 成人a区在线观看| 欧美午夜理伦三级在线观看| 亚洲一区二区三区中文字幕 | 蜜桃视频免费观看一区| 亚洲欧洲制服丝袜| 国产欧美一区二区精品性| 粉嫩蜜臀av国产精品网站| 91传媒视频在线播放| 亚洲一区二区三区影院| 中文一区在线播放| 久久精品视频网| 成人午夜在线播放| 欧美日高清视频| 美腿丝袜亚洲色图| 亚洲国产日韩精品| 夜夜嗨av一区二区三区中文字幕| 国产日韩成人精品| www激情久久| 成人精品国产一区二区4080| 欧美精品视频www在线观看| 日本欧美大码aⅴ在线播放| 夜夜嗨av一区二区三区中文字幕| 国产精品理论片在线观看| 2020日本不卡一区二区视频| 精品久久一二三区| 国产成人高清视频| 777午夜精品免费视频| 麻豆国产精品官网| 日本精品裸体写真集在线观看| 午夜成人在线视频| 亚洲国产成人高清精品| 亚洲高清免费在线| 一卡二卡欧美日韩| 亚洲午夜激情网页| 亚洲激情男女视频| 亚洲综合在线第一页| 亚洲人成网站在线| 一级女性全黄久久生活片免费| 亚洲天堂a在线| 玉米视频成人免费看| 亚洲日韩欧美一区二区在线| 亚洲精品欧美二区三区中文字幕| 中文字幕日韩精品一区| 亚洲精品日产精品乱码不卡| 1024成人网| 一级精品视频在线观看宜春院| 一区二区三区视频在线观看| 亚洲国产综合91精品麻豆| 一卡二卡三卡日韩欧美| 丝袜a∨在线一区二区三区不卡| 亚洲一区二区在线免费观看视频| 午夜精品一区在线观看| 天天影视网天天综合色在线播放| 蜜桃视频一区二区| 欧美偷拍一区二区| 国产美女精品在线| 欧美不卡在线视频| 久久亚洲综合av| 国产精品女同互慰在线看| 综合中文字幕亚洲| 亚洲国产精品一区二区久久| 五月综合激情网| 久久成人羞羞网站| 91精品国产麻豆| 99视频一区二区三区| 欧美高清一级片在线观看| 中文字幕日韩精品一区| 亚洲小少妇裸体bbw| 91成人免费在线视频| 国产大陆a不卡| 久久久精品影视| 亚洲欧洲性图库| 五月天丁香久久| 欧美男生操女生| 99re这里只有精品6| 国产精品久久久久国产精品日日 | 国产调教视频一区| 亚洲裸体xxx| 色综合网色综合| 国产.欧美.日韩| 国产女人水真多18毛片18精品视频| 国产精品美日韩| 亚洲成人三级小说| 欧美色图免费看| 91小视频免费看| 亚洲老司机在线| 欧美综合视频在线观看| 成人ar影院免费观看视频| 国产精品久久久久精k8| 亚洲成a人在线观看| 国产麻豆一精品一av一免费| 国产亚洲精品超碰| 亚洲精品中文在线| 国内精品免费**视频| 久久精品无码一区二区三区| 亚洲日穴在线视频| 久久www免费人成看片高清| 26uuuu精品一区二区| 亚洲欧美激情插| 狠狠色狠狠色综合日日91app| 久久久综合精品| 亚洲一区免费视频| 国产成人精品综合在线观看 | 91在线一区二区三区| 亚洲欧美一区二区三区孕妇| 在线观看91视频| 91片在线免费观看| 亚洲电影激情视频网站| 91精品国产全国免费观看 | 亚洲精选在线视频| 欧美日韩精品一区二区| 久久精品欧美日韩| 日韩vs国产vs欧美| 久久美女艺术照精彩视频福利播放| 一区二区三区久久久| 粉嫩一区二区三区性色av| 亚洲人成在线观看一区二区| 欧美欧美欧美欧美首页| 国产精品色噜噜| 精品一区二区三区在线观看国产 | 在线一区二区视频| 久久蜜桃香蕉精品一区二区三区| 亚洲va中文字幕| 精品久久一区二区| 亚洲国产精品综合小说图片区| 成人激情视频网站| 亚洲国产精品一区二区www在线| 欧美白人最猛性xxxxx69交| 自拍偷拍亚洲综合| 风流少妇一区二区| 亚洲国产精品久久久男人的天堂| 欧美本精品男人aⅴ天堂| 亚洲综合久久久久| 26uuu亚洲综合色欧美| 蜜桃精品视频在线| 国产精品网站在线| 8x8x8国产精品| 一二三四社区欧美黄| 99re这里只有精品视频首页| 日韩成人一级片| 中文字幕不卡在线观看| 欧美日韩高清影院| 亚洲欧美另类小说视频| 国产高清不卡二三区| 夜夜亚洲天天久久| 久久久影院官网| 欧美日韩精品一区二区三区蜜桃 | 成人黄色小视频在线观看| 偷拍日韩校园综合在线|