前谷歌DeepMind首席科學家、AlphaGo項目核心負責人戴維·席爾瓦(David Silver)近日宣布在倫敦創立人工智能公司"Ineffable Intelligence",并啟動規模達10億美元的種子輪融資。這一融資規模與OpenAI前首席科學家伊利亞·蘇茨克維(Ilya Sutskever)2024年創立Safe Superintelligence(SSI)時持平,標志著AI領域新一輪技術路線競爭的開啟。
與當前主流的大語言模型(LLM)技術路徑不同,席爾瓦提出要"回歸強化學習本質"。他主張構建完全自主的智能系統,通過與環境交互積累經驗,而非依賴人類標注的文本數據。這一理念源于其2025年4月與導師查理·薩頓(Charlie Sutton)聯合發表的論文《歡迎來到經驗時代》,論文強調智能體應通過持續試錯實現自我進化。
作為強化學習領域的標志性人物,席爾瓦的學術影響力顯著。其論文被引用超28萬次,2019年獲得的ACM計算獎印證了他在該領域的技術權威性。更引人注目的是,他主導開發的AlphaGo、AlphaZero和MuZero等系統,已驗證強化學習在規則明確環境中的突破性潛力——AlphaZero僅用三天自我對弈就超越人類千年圍棋經驗,MuZero更在完全不知規則的情況下掌握多類游戲策略。
技術路線的分歧正在重塑AI產業格局。當前主流模型如GPT系列和Gemini系列,均采用"預訓練+微調"范式,通過海量文本數據學習語言規律。但席爾瓦指出,這種路徑存在根本性局限:AI的能力上限被人類標注數據的質量和數量所束縛。他特別批評了依賴人類反饋強化學習(RLHF)的后訓練方式,認為這導致模型認知水平無法超越人類評估員。
Ineffable Intelligence的愿景是打造"持續學習的超級智能"。知情人士透露,該公司計劃開發能通過模擬環境自我博弈的系統,從基礎原理推導問題解決方案。這種技術路線在AlphaGo與李世石對決中已現端倪——第37手看似違背所有已知定式,實則是AI通過計算發現的人類未知規律,這種"不可言說"的智慧正是公司名稱的由來。
資本市場對席爾瓦的押注反映了對"后大模型時代"的技術期待。接近交易的投資人表示,10億美元融資主要基于兩點:席爾瓦在DeepMind期間證明的技術轉化能力,以及強化學習在復雜決策場景中的潛在突破。但質疑聲同樣存在:現實世界存在規則模糊、反饋稀疏等挑戰,強化學習在此類環境中的有效性尚未得到充分驗證。
AI領域正經歷路線分化。除席爾瓦外,參與AlphaGo項目的部分科學家近期創立了Reflection AI,meta則在楊立昆帶領下重組"超級智能實驗室"探索新架構。這種局面被行業觀察家比作2010年代深度學習爆發前的技術探索期——當時主流方法尚未收斂,不同學派在競爭中推動技術躍遷。
目前,Ineffable Intelligence已在倫敦組建核心團隊,并啟動全球強化學習專家的招募計劃。盡管尚未公布產品路線圖,但該公司對算力資源的巨額投入,預示其可能構建超大規模的數字孿生系統進行AI訓練。這場由技術理念差異引發的產業變革,或將重新定義通用人工智能(AGI)的發展路徑。












