新智元報道
編輯:犀牛
ah yes, this is what post-agi feels like :) i didn't touch anything. brb sauna
啊對,這就是后AGI的感覺 :) 我什么都沒碰。先去蒸桑拿了。
什么樣的技術突破,能讓這位AI大神如此淡定地撂下一句話就去蒸桑拿?
答案是:他的AI Agent,在他睡覺的12個小時里,自主提交了110次代碼變更,把一個語言模型的驗證損失(val loss)從0.862415一路壓到了0.858039——而且沒有增加一秒鐘的訓練時間。
上線剛幾個小時,就已沖到了3k星標!
這兩件事疊在一起,構成了一幅前所未有的畫面:AI不再只是人類的工具,它開始自己優化自己了。
而人類研究員的新工作,變成了——寫一份提示詞,然后去蒸桑拿。
nanochat
100美元訓一個ChatGPT
它用大約8000行干凈的PyTorch代碼,實現了一個完整的、從零開始的語言模型訓練流水線:分詞、預訓練、微調、強化學習、推理、Web UI,一條龍全包。
在一個8塊H100 GPU的節點上,花4個小時左右,你就能訓出一個可以跟你聊天的小型ChatGPT。
但nanochat真正讓人興奮的地方,不在于它有多便宜,而在于它有多「可迭代」。
整個項目圍繞一個核心參數——Transformer的深度(depth)。
你只要擰這一個旋鈕,其他所有超參數(寬度、頭數、學習率、訓練時長、權重衰減……)都會自動調整到計算最優。
換句話說,這是一個極簡但極其精密的訓練系統,天然適合用來做實驗。
昨天,nanochat取得了一個里程碑式的進展:在單個8×H100節點上,僅用2小時就能訓出GPT-2級別能力的模型。
一個月前這個數字還是3小時。
具體怎么玩的?
他給AI代理寫了一份大約120行的Markdown文檔,相當于一份「任務說明書」,告訴AI:這個項目是干什么的,什么樣的改進算好的(驗證損失更低),什么樣的改進不能接受(訓練時間變長、內存爆炸、代碼變得太臃腫)。
然后,AI Agent就開始在一個Git特性分支上自主工作:讀代碼、想主意、改代碼、跑訓練、看結果。
如果效果變好,就合并到主分支;如果效果變差或者訓練變慢,就丟棄,重新來過。
結果呢?
12個小時,110次代碼提交,d12模型的驗證損失從0.862降到了0.858,降了0.004——對于語言模型來說,這是一個實實在在的進步,而且是在不增加任何訓練時間的前提下取得的。
有一個特別有意思的細節:其中有一次提交,AI代理確實把val loss降下來了,但訓練時間變長了,于是被系統自動拒絕了。
他說,在過去兩周里,他花在「調優AI代理的工作流程」上的時間,幾乎比他直接改nanochat代碼的時間還多。
他迭代的不是代碼本身,而是「讓AI更好地迭代代碼的那套系統」——一個「元優化」的過程。
這意味著人類研究員的角色正在發生質變:從「親手寫代碼做實驗」,變成了「設計一個能讓AI自動做實驗的系統」。
當然,他自己也說這個說法半開玩笑——今天的AI代理在實現想法方面已經相當厲害,但在提出創造性的新想法方面還差得遠,目前更接近于一個自動化的超參數調優工具,而不是一個真正的研究員。
但他緊接著說了一句意味深長的話:「隨著AI能力的提升,這條路的方向是清楚的——AI在自主改進下一代自己。」
autoresearch
630行代碼,一塊GPU,5分鐘一輪實驗
他給這個項目寫了一段極具科幻感的序言:
曾幾何時,前沿AI研究還靠著一群碳水化合物計算機——他們在吃飯睡覺摸魚的間隙,偶爾通過組會儀式用聲波互相吼兩嗓子,就這么推進著人類的技術邊界。
那個年代已經一去不返。如今,研究完全被AI智能體接管……據說代碼已經迭代到了第10205代,但這數字真偽已無從考證——那些代碼早已進化為能自我修改的二進制生命,遠遠超出了人類的認知范疇。
這個代碼倉庫,正是這一切故事的起點。
雖然這段話寫的是「未來愿景」,但autoresearch項目本身的設計,已經在認真地朝著這個方向邁步。
autoresearch本質上是nanochat的「精簡單機版」。
整個項目只有三個核心文件:
prepare.py —— 數據準備:下載訓練數據、訓練BPE分詞器,還有運行時需要的數據加載器和評估工具。這個文件是固定的,AI不會碰它。
train.py —— 訓練代碼:包含完整的GPT模型定義、優化器(Muon + AdamW)和訓練循環。從模型架構、超參數、優化器到批量大小,AI代理可以修改這里的一切。
program.md —— 人類寫給AI的「指令書」:用自然語言描述研究目標和約束條件,人類研究員通過編輯這個文件來引導AI的工作方向。
項目的核心機制堪稱精妙——固定5分鐘訓練時長。
不管你用的是什么GPU,不管AI代理怎么改模型大小、批量大小、架構設計,每一輪訓練都精確控制在5分鐘。
這個設計有兩個好處:第一,所有實驗結果直接可比,因為計算預算是固定的;第二,AI代理會自動為你的特定硬件找到最優配置。
你一晚上睡8個小時,AI代理大約能跑100輪實驗。第二天早上起來,你面前擺著的是一份詳細的實驗日志,和一個(大概率)比昨晚更好的模型。
人類負責迭代提示詞(.md文件)
AI代理負責迭代訓練代碼(.py文件)
AI代理在一個Git特性分支上自主循環運行:改代碼→訓練5分鐘→檢查分數→如果更好就提交→如果更差就回滾→繼續改。
每個提交都是一次經過驗證的改進,像搭積木一樣一層層往上壘。
一塊GPU,一個文件,一個指標——這就是整個實驗環境。
從「人做實驗」
到「人設計做實驗的AI」
傳統的AI研究是這樣的:一個博士生(或者一群博士生)想到一個idea,寫代碼實現,跑實驗,看結果,改參數,再跑,再看,周而復始。
一個idea從提出到驗證,可能要花幾天甚至幾周——因為人要吃飯,要睡覺,要開組會,要跟導師battle,要修bug修到懷疑人生。
現在呢?
AI代理不吃飯不睡覺不摸魚不抱怨,它24小時不停地跑實驗,5分鐘一輪,一晚上100輪。
它不會因為連續跑了20次實驗都失敗了就心態崩了去刷社交媒體——它只會冷靜地分析結果,調整策略,繼續下一輪。
autoresearch目前的工作方式,更像是一個極其勤奮且不知疲倦的「超參數調優工程師」,而不是一個能提出變革性理論的研究員。
但關鍵在于——趨勢是清晰的。
AI在自主改進下一代的自己,人類研究員偶爾往里面扔幾個想法就行了。
這不是科幻,這是今天正在GitHub上開源運行的代碼。
而autoresearch的開源,讓這件事的門檻降到了令人瞠目的程度。
現在,一個獨立開發者,一塊GPU,一份精心寫好的提示詞,就能在一夜之間跑完一個小型研究實驗室一周的工作量。
這對整個AI開發生態的潛在影響是深遠的。
中小團隊甚至個人開發者,也能參與到模型訓練和優化的競技場中。
AI研發的民主化,正在從獲取模型(開源權重)推進到優化模型(自動化實驗)。
更深層次地看,autoresearch代表的是一種新的「人機協作范式」:人類負責定義問題、設定約束、提供方向性的直覺;AI負責在巨大的搜索空間里不知疲倦地試錯和優化。
人類的創造力和AI的執行力,第一次以一種系統化的方式結合在了一起。
去蒸桑拿吧
世界正在被改寫
這句話的妙處在于,它既是一句玩笑,也是一個真實的信號。
當一個AI領域最頂尖的研究者,能夠放心地把模型優化的工作交給AI代理,自己去蒸桑拿而不是在電腦前盯著訓練日志——這本身就說明了一些深刻的東西。
AI自主工作的能力已經跨過了一個臨界點:它不僅能執行明確的指令,還能在一個真實的、開放的研究環境中,自主地發現改進空間并付諸行動。
這不是終點,這只是結束的開始。
AI代理在今天還只是一個不知疲倦的調參高手。
到那時候,也許我們所有人都該去桑拿了。








