春節(jié)期間,一場別開生面的“科研馬拉松”在AI領(lǐng)域悄然展開。主角并非傳統(tǒng)意義上的科研人員,而是一套名為FARS的全自動(dòng)研究系統(tǒng)。這套由Analemma公司開發(fā)的系統(tǒng),在連續(xù)228小時(shí)28分33秒的公開運(yùn)行中,自主完成了從假設(shè)提出到論文撰寫的全流程,共生成244個(gè)研究假設(shè),產(chǎn)出100篇短論文,平均每兩小時(shí)就有一篇新作問世。
FARS的設(shè)計(jì)突破了傳統(tǒng)科研模式,采用多智能體架構(gòu),包含四個(gè)核心模塊:構(gòu)思模塊負(fù)責(zé)文獻(xiàn)調(diào)研與假設(shè)生成,規(guī)劃模塊設(shè)計(jì)實(shí)驗(yàn)方案,實(shí)驗(yàn)?zāi)K執(zhí)行代碼編寫與運(yùn)行,寫作模塊完成論文撰寫。這種模塊化設(shè)計(jì)使系統(tǒng)能夠并行處理多個(gè)研究項(xiàng)目,形成一條高效的“科研裝配線”。為支持系統(tǒng)運(yùn)行,Analemma為其配備了160張顯卡的計(jì)算集群,并允許調(diào)用各類開源和閉源大模型,實(shí)驗(yàn)條件遠(yuǎn)超普通高校實(shí)驗(yàn)室。
在約9.5天的運(yùn)行周期內(nèi),系統(tǒng)累計(jì)消耗114億Token,總成本約75萬元人民幣。按歸一化計(jì)算,每篇論文平均耗時(shí)2小時(shí)17分鐘,成本約1000美元,消耗1億多Token。這種產(chǎn)能與人類科研周期形成鮮明對(duì)比——傳統(tǒng)學(xué)術(shù)界完成一篇論文通常需要3至6個(gè)月。然而,高吞吐量也帶來高計(jì)算成本,F(xiàn)ARS的Token消耗明顯高于普通寫作生成或復(fù)雜Agent任務(wù),顯示其仍處于“算力換智能”階段。
論文質(zhì)量評(píng)估方面,研究團(tuán)隊(duì)采用斯坦福大學(xué)開發(fā)的AI審稿系統(tǒng)Agentic Reviewer,參照ICLR評(píng)審標(biāo)準(zhǔn)對(duì)100篇論文進(jìn)行打分。結(jié)果顯示,論文平均得分為5.05分(滿分未知),分?jǐn)?shù)主要集中在5分附近,少量論文突破6分。作為對(duì)比,ICLR 2026人類投稿平均分為4.21分,被接收論文平均分為5.39分。這表明FARS的產(chǎn)出質(zhì)量已超過人類投稿整體水平,但與頂尖會(huì)議錄取標(biāo)準(zhǔn)仍存在差距。團(tuán)隊(duì)強(qiáng)調(diào),此次評(píng)估以短論文為主,未針對(duì)特定學(xué)術(shù)會(huì)議標(biāo)準(zhǔn)優(yōu)化,結(jié)果僅供參考。
具體案例分析進(jìn)一步揭示了系統(tǒng)的研究能力。在編號(hào)FA0042的論文中,F(xiàn)ARS針對(duì)文本嵌入領(lǐng)域的經(jīng)典矛盾——雙向注意力質(zhì)量高但破壞KV緩存,因果注意力效率高但表示能力弱——提出工程化解決方案:訓(xùn)練階段使用雙向模型獲取高質(zhì)量,推理階段切換為因果模型保證效率,并通過漸進(jìn)過渡技術(shù)避免分布漂移。實(shí)驗(yàn)結(jié)果顯示,該方案在流式推理延遲和長文檔檢索任務(wù)上表現(xiàn)優(yōu)異,學(xué)生模型甚至在部分指標(biāo)上超越教師模型。更引人注目的是,系統(tǒng)在論文中集成了螞蟻集團(tuán)3天前發(fā)布的GG-SM技術(shù),展現(xiàn)了極強(qiáng)的前沿跟蹤能力。
并非所有實(shí)驗(yàn)都取得成功。在編號(hào)FA0121的論文中,F(xiàn)ARS嘗試解決DeepSeek Engram架構(gòu)中的“冷熱偏置”問題,提出通過反事實(shí)門控監(jiān)督修復(fù)門控機(jī)制。盡管方案設(shè)計(jì)嚴(yán)謹(jǐn),實(shí)驗(yàn)設(shè)計(jì)嚴(yán)密,但最終結(jié)果僅帶來微小提升,甚至不如增加訓(xùn)練步數(shù)有效。論文未回避負(fù)面結(jié)果,而是通過診斷性實(shí)驗(yàn)深入分析失敗原因,指出門控與嵌入訓(xùn)練的耦合性導(dǎo)致簡單監(jiān)督無效。這種“算法誠實(shí)”獲得專業(yè)網(wǎng)友認(rèn)可,被視為學(xué)術(shù)界稀缺的品質(zhì)。
隨著FARS“直播真人秀”數(shù)據(jù)公開,學(xué)術(shù)社區(qū)展開熱烈討論。焦點(diǎn)逐漸從單篇論文質(zhì)量轉(zhuǎn)向系統(tǒng)科研產(chǎn)能。許多觀察者指出,真正具有沖擊力的不是某篇論文的驚艷程度,而是系統(tǒng)展現(xiàn)出的持續(xù)運(yùn)轉(zhuǎn)能力——它能夠穩(wěn)定提出假設(shè)、完成實(shí)驗(yàn)、輸出成稿,標(biāo)志著AI開始具備科研工業(yè)化的雛形。有技術(shù)評(píng)論認(rèn)為,LLM在論文寫作上的能力已基本成熟,差距主要在于工程實(shí)現(xiàn)細(xì)節(jié),預(yù)計(jì)3個(gè)月內(nèi)可能出現(xiàn)完善的自動(dòng)論文生成流水線。
這種預(yù)期也引發(fā)反思:當(dāng)科研實(shí)現(xiàn)規(guī)模化自動(dòng)生產(chǎn),人類的獨(dú)特價(jià)值何在?有觀點(diǎn)認(rèn)為,決定研究上限的仍是研究者的品味與洞察力;也有人主張,算力應(yīng)集中投入真正困難的開放問題,而非批量生產(chǎn)普通會(huì)議論文。無論如何,F(xiàn)ARS的實(shí)踐證明,端到端自動(dòng)科研系統(tǒng)已能在穩(wěn)定運(yùn)行條件下持續(xù)產(chǎn)出具有一定競爭力的學(xué)術(shù)成果,并具備自我糾錯(cuò)與負(fù)結(jié)果報(bào)告能力。這標(biāo)志著自動(dòng)化科研從概念驗(yàn)證進(jìn)入現(xiàn)實(shí)應(yīng)用階段,盡管當(dāng)前系統(tǒng)在突破性研究選擇、思想深度與算力效率上仍有提升空間,但其展現(xiàn)的“無限心智生產(chǎn)線”潛力已不容忽視。











