岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

Gemini 3預訓練負責人揭秘Gemini 3巨大飛躍的關鍵

   時間:2026-02-21 16:02:37 來源:Z Potentials編輯:快訊 IP:北京 發表評論無障礙通道
 

Z Highlights

Gemini 3的巨大提升是龐大團隊通力協作、融合無數改進與創新的成果,其基于Transformer的混合專家架構,核心是將計算量使用與參數規模分離開來。

規模是預訓練中提升模型性能的重要因素,但并非唯一,架構和數據創新的重要性如今可能更甚,且預訓練領域在長上下文能力、注意力機制等方面有諸多值得關注的發展方向。

行業正從“數據無限”向“數據有限”范式轉變,合成數據需謹慎使用,模型架構改進能助力模型用更少數據實現更好效果,同時評估在預訓練中至關重要且極具難度。

Sebastian Borgeaud是Google DeepMind的Gemini 3預訓練負責人,同時也是開創性論文RETRO的合著者,在AI前沿模型研發與系統構建領域具備深厚專業積淀。2025年12月18日,他在首次播客訪談中揭秘了這款今年AI領域里程碑式前沿模型的研發邏輯,分享了模型背后并非單純依賴算力提升的系統構建思路。

Gemini 3成功密碼:團隊協作與多維度改進的合力

Matt Turck:大家好,我是Matt Turck。歡迎收聽《MAD播客》。今天的嘉賓是Sebastian Bourgeaud,他是谷歌DeepMind Gemini 3項目的預訓練負責人。Sebastian是全球頂尖的人工智能研究者之一,同時也是Metis名單成員。這一期播客尤為特別,因為這是他首次參與播客錄制。我們將探討Gemini 3的底層構建邏輯、從數據無限時代到數據有限模式的轉變、DeepMind研究團隊的組織架構以及人工智能的未來發展方向。請大家盡情收聽這場精彩的對話。Sebastian,歡迎你。

Sebastian Bourgeaud:謝謝。你好,Matt。

Matt Turck:我想從谷歌DeepMind研究與深度學習副總裁、Gemini聯合負責人Aurel Vinyals的一條推特開始我們的對話。他在Gemini 3發布時表示,該模型的成功秘訣其實非常簡單,就是更優質的預訓練和后訓練。考慮到Gemini 3相較于以往的頂尖模型所實現的巨大飛躍,這個秘訣聽起來確實有些出人意料的樸素。所以我很好奇你的看法,從某種程度上來說,事情真的這么簡單嗎?

Sebastian Bourgeaud:是的,我并不認為這是什么重大秘密。至少在我看來,這是很正常的情況。人們有時會期待,從一個Gemini版本到下一個版本,會有某個關鍵突破帶來質的飛躍。但根據我的經驗,可能確實存在一兩個影響較為顯著的因素,但Gemini 3之所以能比前幾代產品有如此大的提升,實際上是一個龐大團隊共同努力的結果——融合了無數的改進和創新。這一點之后可能還會提到,像Gemini 3這樣的產品發布,離不開整個團隊的通力協作。

Matt Turck:每個人都關心的核心問題是,這一現象對于我們理解人工智能的發展進程有何啟示?從表面上看,似乎只是調整了一些關鍵參數就實現了巨大突破,這對我們未來的預期又意味著什么?我們不必深入探討通用人工智能這個概念,因為沒人能說清它具體指什么。但我們是否應該將這種模型的進步視為通往真正智能的道路,而非僅僅是為了在某個基準測試中取得優異成績?是什么讓你相信核心模型正在變得越來越智能?

Sebastian Bourgeaud:基準測試的結果無疑在持續提升。而且從測試提示和測試設置來看,其難度也在不斷增加。即便我擁有計算機科學背景,有些問題也需要花費大量時間才能解答。這只是其中一個視角,也就是基準測試的視角。我們會定期進行這類評估,并且非常謹慎地保留測試集以避免數據泄露。不過,人們確實擔心模型會過度擬合這些測試集,也就是所謂的“基準測試優化”。但我認為這種擔憂并沒有充分的依據。另一個讓我充滿信心的方面是,內部員工使用該模型提升工作效率的時間在不斷增加。每一代新模型都能展現出前所未有的能力,在研究和日常工程工作中為我們提供比前代模型更多的幫助。這一實際應用層面的表現,也讓我們有理由相信模型的能力正在不斷增強,并且能夠真正發揮實用價值。

Matt Turck:作為一名深入人工智能核心領域的研究者,當你跳出具體工作回望時,是否仍會對當前的發展水平感到驚訝?與幾年前的預期相比,我們是遠超預期、符合預期,還是有所落后?

Sebastian Bourgeaud:說符合預期其實很容易,但坦白說,我們的進展已經超出了我當初的預期。2019年或2020年我剛開始從事大語言模型相關工作時,無論是我們如今所開展工作的規模,還是模型當前具備的能力,都是當時難以想象的。雖然當時的縮放定律確實指向了這一發展方向,也有一些人對此深信不疑,但我當時其實并不敢篤定我們能走到今天這一步。由此引申出一個有趣的問題:未來我們將走向何方?如果假設未來五年的發展速度與過去五年相當,那么未來幾年的發展前景將會非常令人振奮。

Matt Turck:你對此有何看法?這是否意味著人工智能將實現全新的科學發現,甚至贏得諾貝爾獎?在未來兩到三年的短期內,你認為人工智能會有哪些發展?

Sebastian Bourgeaud:我認為這是有可能的。在科學領域,DeepMind歷史上已經開展了大量相關工作,未來也必將在這一方向持續發力。我相信未來幾年我們將見證一些重大的科學突破。另一方面,在我日常的研究和工程工作中,我對如何利用這些模型推動進一步發展、更好地理解我們所構建的系統并深化自身研究充滿期待。

Matt Turck:行業內有一個重要的趨勢是人工智能研究與工程的自動化。如果進一步推演,就會出現“2027年人工智能”這樣的場景,屆時可能會出現發展的不連續性。從實際應用角度來看,如今在工作中使用人工智能意味著什么?幾年后又會帶來怎樣的變化?

Sebastian Bourgeaud:我認為這更多的不是自動化,而是讓我們的工作效率更高,能夠將更多時間投入到更高層次的研究中。在語言模型的日常研究工作中,我們需要處理基礎設施層面非常復雜且龐大的系統。因此,大量時間都用于運行實驗、監控實驗進程、分析數據和收集結果,而真正有趣的部分是提出假設和設計新實驗。對于后兩項工作,我們人類仍將發揮核心作用。而對于前幾項工作,隨著未來一年多智能化工作流程的不斷完善,有望實現顯著的效率提升。

行業發展現狀:技術趨同與差異化探索并存

Matt Turck:你是否認為各個前沿人工智能實驗室實際上都在朝著相同的方向發展,做著類似的事情?作為行業參與者和觀察者,我們都有這樣一種奇妙又令人困惑的感受:似乎每周、每兩周或每個月都會有新的頂尖模型問世,我們對此已經習以為常。就在我們錄制這期播客的兩小時前,Gemini 3剛剛發布,而GPT-5.2也同步推出。從你的角度來看,你如何看待這一現象?未來的發展趨勢會是怎樣?是否會有某家實驗室脫穎而出,還是行業將繼續由少數頂尖實驗室以及一些新興實驗室主導?

Sebastian Bourgeaud:關于第一個問題,不同實驗室的研究確實存在相似之處。基礎技術層面大體相近,例如,在架構方面,我們幾乎都在訓練類Transformer模型,這一點并不令人意外。但在此基礎上,各個公司也在進行差異化的深耕,探索研究領域的不同分支。例如,DeepMind在視覺和多模態領域一直保持著強勁的實力,這一點不僅體現在用戶對模型的使用體驗中,也反映在基準測試結果上。在推理等領域,OpenAI率先推出了相關模型,但我們也有自己的研究分支。因此,雖然存在相似之處,但并非完全一致。

關于第二個問題,我并沒有確切的答案。可以肯定的是,如今要開發出像Gemini這樣的模型,需要龐大的團隊和大量的資源。但這并不意味著我們當前的做法是最優的,未來可能會出現具有顛覆性的研究成果,使小型團隊有機會實現彎道超車。這也是我喜歡在谷歌工作的原因之一。谷歌有著探索性研究的傳統,研究領域廣泛,這些研究大多與Gemini項目并行開展,但我們也能夠將其中的一些成果應用到Gemini中。

Matt Turck:在DeepMind或行業內其他地方,是否存在一些團隊在秘密研究后Transformer時代的架構,有望在未來某一天推出令人震驚的成果?行業內是否有這樣的團隊?

Sebastian Bourgeaud:我相信是存在的。谷歌和DeepMind內部肯定有團隊在從事模型架構方面的研究。但這些研究能否取得成功,還很難說。畢竟研究本身就充滿不確定性,很少有研究想法能夠最終落地。

Matt Turck:那么在現階段,一家公司相對于另一家公司的核心優勢是否在于人才質量?以谷歌為例,是否得益于垂直整合?我之前提到的Aurel的那條推特,被Demis Hassabis轉發并評論,他表示真正的秘訣在于研究、工程和基礎設施的結合。谷歌的核心競爭力是否就在于能夠覆蓋整個技術棧?

Sebastian Bourgeaud:這無疑是一個重要的優勢。研究與工程之間的界限也變得越來越模糊,因為我們現在正在構建的是非常龐大的系統。研究工作越來越像工程工作,反之亦然。這種思維模式在DeepMind過去幾年發生了很大的轉變,之前更多的是傳統的研究思維,而現在圍繞Gemini項目,更強調的是“研究型工程”。基礎設施也同樣重要,我們正在構建的系統極為復雜,因此擁有可靠、高效且可擴展的基礎設施至關重要,這能確保研究型工程工作不會受到阻礙。

Matt Turck:Gemini 3是基于TPU訓練的,而不是NVIDIA的芯片,對嗎?我想深入了解一下Gemini 3,但在這之前,先聊聊你個人。你是Gemini 3的預訓練負責人,這具體意味著什么?請再分享一下你的個人背景和經歷。

Sebastian Bourgeaud:我是Gemini預訓練的負責人之一。我的工作內容比較多元,一部分是實際的研究工作,致力于提升模型性能。不過現在我自己親自運行實驗的次數減少了,更多的是幫助設計實驗,并與團隊成員一起審核結果。另一部分工作是協調與整合,這部分也很有趣。目前預訓練團隊規模相當大,具體人數難以精確統計,但大約有150到200人每天在預訓練相關領域工作,涵蓋數據、模型、基礎設施和評估等多個方面。協調這么多人的工作,將大家的努力整合起來,是一項相當復雜且耗時的任務,尤其是要做好這項工作。對我而言,這一點至關重要,因為讓每個人都能發揮所長、取得進展,才是我們實現最大突破的關鍵,而不是讓一兩個人或一小群人(比如10人)獨自領先。短期內,少數人的領先可能會有一定效果,但從長遠來看,成功的關鍵在于整合眾多人的工作成果。

個人經歷分享:從多元成長背景到DeepMind職業深耕

Matt Turck:關于你的個人背景,我很好奇你是在哪里長大的?小時候和青少年時期是什么樣的?我一直想探尋頂尖人工智能研究者的成長軌跡,他們來自哪里?是什么讓他們成為了今天的自己?

Sebastian Bourgeaud:我在歐洲多個地方長大,經常搬家。我出生在荷蘭,7歲時搬到瑞士。我的父親是瑞士人,母親是德國人。我在瑞士完成了大部分學業和高中初期的課程,主要使用法語,部分課程使用德語。15歲時,我搬到了意大利,在那里完成了高中學業,直到19歲左右。當時我本來打算去蘇黎世聯邦理工學院深造,但有一天早上,我偶然看到一份大學排名,發現劍橋大學位居榜首。于是我想,不如申請試試,反正也沒什么損失。幾個月后,我收到了錄取通知書,便決定前往劍橋,在計算機實驗室完成了本科和碩士學業。

Matt Turck:你小時候是不是數學特別好,屬于計算機科學方面的神童?

Sebastian Bourgeaud:我的父親有技術背景。我記得10歲或11歲時就開始和他一起學習編程,并且一直很喜歡這項技能。在學校里,我在數學和科學方面也一直表現得很輕松,數學考試從來不用特意復習就能取得不錯的成績。但上了大學之后,情況就完全不同了。這就是我的高中經歷。

Matt Turck:非常棒。那么你從學校畢業后是如何一步步走到今天這個位置的?

Sebastian Bourgeaud:這可以說是一個幸運的契機。我碩士期間的一位講師同時也是DeepMind的研究員。記得在最后一堂課結束時,我正在收拾東西,突然想,不如向他請求推薦,反正最壞的結果也只是被拒絕。于是我鼓起勇氣,上前詢問他是否愿意為我推薦。他很爽快地答應了,讓我把簡歷發給她,他會盡力幫忙。就這樣,我獲得了DeepMind的面試機會。那是在2018年,當時DeepMind還沒有并入谷歌,我大學畢業后以研究工程師的身份加入了DeepMind。

Matt Turck:你最初的工作是什么?后來又是如何成為預訓練負責人之一的?

Sebastian Bourgeaud:剛開始加入DeepMind時,由于DeepMind以強化學習聞名,我最初參與的項目也與強化學習相關。具體來說,我們訓練了一個無監督網絡來學習Atari游戲環境中的關鍵點,并嘗試讓Agent玩Atari游戲。我從事這項工作大約六個月,但我并不喜歡其合成性質。我一直想從事與真實世界數據相關的工作,希望能產生實際的影響。總的來說,我喜歡構建有用的東西,不太喜歡純粹的學術研究。這促使我開始轉向表征學習領域,訓練能夠很好地進行表征的神經網絡來完成各種任務。

這里有一個有趣的小插曲,我經常和團隊成員提起:我參與的第一個相關項目名為“基于真實世界數據的表征學習”。當時之所以要在項目名稱中加上“基于真實世界數據”這一限定,是因為人們否則會默認項目使用的是合成環境或合成數據。但從那以后,情況發生了徹底的改變。這就是我在該領域的第一個項目,具體涉及大語言模型和Transformer。我們研究了Transformer等架構以及BERT、XLNet等模型,致力于學習和改進這些表征。

Matt Turck:后來你參與了Retro項目,對嗎?能和我們聊聊這個項目嗎?

Sebastian Bourgeaud:是的。在那之后,我們開始致力于大語言模型的規模化發展。我們首先開展了Gopher項目,這是DeepMind發表的第一篇關于大語言模型的論文。當時團隊大約有10到12人,從那時起就可以明顯看出,這類研究需要團隊協作,單靠個人是無法完成的。也就是從那時起,我開始從事預訓練工作,進行大規模的預訓練,這不僅培養了我的研究興趣,也讓我找到了自己熱愛的領域。我們訓練了第一個稠密Transformer模型,當時它有2800億個參數,使用了3000億個Token。現在我們肯定不會再用當時的方法來做這類工作了,但那是一次非常棒且有趣的學習經歷。

在那之后,出現了兩個分支項目:Chinchilla和Retro。在Chinchilla項目中,我們重新研究了如何調整模型規模和數據規模,特別是從訓練計算最優的角度出發。核心問題是:在固定的訓練計算資源下,如何訓練出性能最佳的模型?是應該增加模型規模,還是增加數據規模?OpenAI之前在這一領域已經開展了一些相關工作。我們發現,與之前的認知相比,數據規模的擴展速度應該更快,而不是一味地擴大模型規模。有趣的是,這一點在我們如今的日常工作中仍然非常重要,尤其是它對模型訓練完成后的部署成本和使用成本有著重要影響。另一個分支項目是Retro,這更多地側重于架構創新。在這個項目中,我們探索了如何通過讓模型能夠從大型文本語料庫中檢索信息來提升模型性能。也就是說,不要求模型將所有知識都存儲在參數中,而是讓模型在訓練和推理過程中都能夠查找特定信息。

研究核心素養與團隊管理:研究品味、目標平衡與組織架構

Matt Turck:你提到了“研究品味”,這個詞非常有意思。你如何定義它?對于一名研究者來說,它有多重要?

Sebastian Bourgeaud:如今,研究品味非常重要,而且很難量化。但有幾個關鍵要素:首先,你的研究不能是孤立的,必須能夠與其他人的研究相互配合、相互整合。比如,我對模型做了一項改進,但這使得其他人使用該模型的難度增加了5%,這很可能不是一個好的權衡。因為這會拖慢其他人的研究進度,進而影響整體的研究進展。其次,要對復雜性保持警惕。不過,復雜性是相對的,取決于人們的熟悉程度。但我們在研究中能夠承受的復雜性是有限度的,同時也需要控制研究風險。因此,意識到這一點并加以管理至關重要。通常情況下,我們并不一定非要使用性能最優的研究方案,而是會在性能上做一些讓步,選擇復雜度稍低的版本,因為我們認為這將有助于未來取得更多的進展。這就是我認為構成研究品味的兩個主要方面。

Matt Turck:這非常有趣。想必研究品味還包括一種直覺,能夠判斷哪些研究方向可能可行,哪些可能不可行,尤其是在計算資源有限的情況下。你覺得是這樣嗎?

Sebastian Bourgeaud:是的,這當然也是一個重要的方面。有些人在這方面的直覺確實比其他人更強,而豐富的經驗對此大有幫助。但可以肯定的是,計算資源是研究工作的一個瓶頸。如果我們有更多的計算資源,我相信我們能夠更快地取得更多的進展。因此,在一定程度上,你需要判斷研究樹的哪個分支值得探索,以及在該分支下應該進行哪些實驗。但同時也要明白,大多數研究想法都不會成功。因此,你需要判斷在某個方向上投入多少精力后應該轉向其他方向,或者是否應該繼續堅持。另外一個有趣的點是,尤其是在深度學習領域,一個負面結果并不意味著某個方法行不通,而往往意味著你還沒有找到讓它可行的方法。因此,意識到這一點也非常關鍵。

Matt Turck:既然我們談到了研究以及如何組織研究團隊取得成功,我們再深入探討一下。你提到了權衡,其中一種權衡可能是短期目標與長期目標之間的平衡。這方面是如何運作的?你是如何看待的?

Sebastian Bourgeaud:這也是我經常思考的問題。總會有一些關鍵路徑上的事情需要完成,比如模型的某個部分需要改進,或者我們知道模型的某個部分不夠優化。因此,我們會投入大量精力來解決這些眼前的問題。這樣做有幾個原因:首先,我們知道這些改進肯定會提升模型性能,這是一個相對安全的賭注。其次,那些看起來不夠完善的部分,在未來模型規模擴大或能力增強時,往往會引發更多問題。因此,認真對待并解決這些問題至關重要。這是一方面。另一方面是更具探索性的研究,這些想法可能會應用于下一個版本或再下一個版本的Gemini,它們可能會對模型性能產生更大的影響,但目前還沒有得到充分驗證。我并沒有一個非常明確的答案來平衡這兩者,這也具有一定的周期性。例如,在模型規模擴張階段,探索性研究通常會多一些,因為此時沒有太多需要并行解決的緊急問題。但在即將推出新架構或新模型之前,工作重點就會轉向降低風險,更多地關注執行層面。

Matt Turck:與此相關的另一個問題是研究與產品之間的張力。正如我們之前所討論的,你們處于與其他實驗室的持續競爭中。那么,是否存在這樣的壓力:比如“我們需要取得更好的分數,或者在某個比賽中獲勝”等非常實際的短期產品目標,與我們知道的能夠長期提升模型性能的工作之間的沖突?這和我們之前討論的短期與長期目標的權衡是類似的。

Sebastian Bourgeaud:這也是我喜歡谷歌的原因之一。我認為這種壓力其實很小,因為所有的領導層都有研究背景。他們非常清楚,雖然在一定程度上可以強制加速特定基準測試和某些目標的實現,但最終,研究工作的進展才是最為關鍵的。至少在我日常工作中,我從未真正感受到過這種壓力。

Matt Turck:DeepMind的團隊是如何組織的?你提到預訓練團隊有幾百人,對嗎?是否有專門的后訓練團隊、對齊團隊?大家是如何協作的?

Sebastian Bourgeaud:從最高層面來看,我們有預訓練團隊和后訓練團隊。在預訓練團隊中,有專門負責模型、數據、基礎設施和評估的人員,評估工作非常重要,我認為人們往往低估了評估研究的重要性,而做好評估其實是一件非常困難的事情。還有后訓練團隊,當然,也有龐大的團隊負責基礎設施和部署工作。

Gemini 3深度解析:架構、多模態特性與預訓練關鍵問題

Matt Turck:感謝你的介紹。現在我們換個話題,按照之前的約定,深入了解一下Gemini 3。包括它的底層架構、深度思考能力、預訓練過程、數據縮放等方面。首先從架構的宏觀層面來看,作為一名忠實用戶,我感覺Gemini 3與2.5版本有很大的不同。是否有某個重大的架構決策導致了這種差異?你如何描述它的架構?

Sebastian Bourgeaud:從宏觀層面來看,與前一個版本相比,架構并沒有發生太大的變化。正如我之前所說,是多個方面的改進共同促成了巨大的提升。不過,從整體架構來看,它是一個基于Transformer的混合專家架構。因此,如果你仔細觀察,會發現其中包含了許多原始Transformer論文中的核心元素。

Matt Turck:你能為聽眾科普一下什么是混合專家架構嗎?

Sebastian Bourgeaud:從宏觀層面來看,Transformer主要由兩個模塊組成:一個是注意力模塊,負責跨時間、跨不同Token混合信息;另一個是前饋網絡模塊,主要負責提供記憶功能和計算能力,以便模型進行推理,并且前饋網絡模塊是對單個Token進行并行處理的。在原始的Transformer架構中,前饋網絡模塊是單一的,屬于稠密計算:輸入經過線性變換得到隱藏層維度,然后應用激活函數,再通過線性變換得到稠密模塊的輸出。這是原始論文中的設計。而在Transformer出現之前,就已經有很多關于混合專家架構的研究。混合專家架構的核心思想是將計算量的使用與參數規模分離開來。通過動態路由,將計算能力分配到特定的專家模塊,而不是將兩者綁定在一起。

Matt Turck:Gemini是原生多模態模型。從實際應用角度來看,這對模型處理文本、圖像或視頻意味著什么?

Sebastian Bourgeaud:這意味著并不存在專門處理圖像、音頻或文本的獨立模型,而是由同一個神經網絡同時處理所有這些不同的模態。

Matt Turck:想必這也涉及到成本問題。原生多模態是否意味著從Token的角度來看,成本更高?

Sebastian Bourgeaud:這是一個非常好的問題。這涉及到兩方面的成本。不過,我認為其帶來的收益在很大程度上超過了成本,這也是我們訓練這類模型的原因。第一個成本可能不太容易被人們察覺,那就是我之前提到的復雜性成本和研究成本。因為要處理更多的任務,尤其是不同模態之間的相互作用,這會影響到研究的多個方面,增加復雜性,因此我們需要花費更多的時間進行思考和研究。第二個成本是,與純文本相比,圖像的輸入規模通常更大。因此,如果采用簡單直接的處理方式,實際的計算成本會更高。但當然,我們也可以通過相關研究來提高這些處理過程的效率。

Matt Turck:好的,我們來談談預訓練,這是你主要負責的領域。首先,我們在對話一開始就提到了縮放定律,幾分鐘前也談到了Chinchilla。2025年,行業內有一個廣泛討論的話題是“縮放定律的終結”,尤其是在預訓練領域。Gemini 3的成功是否表明這種說法并不正確,縮放定律仍然在發揮作用?

Sebastian Bourgeaud:在我看來,這些討論總是有些奇怪,因為我的實際經驗與這些說法并不相符。我認為,規模是預訓練中一個非常重要的方面,對提升模型性能至關重要。但實際情況是,人們之前可能高估了規模的作用。規模確實很重要,但它并不是唯一的因素。規模的擴大能夠以相對可預測的方式提升模型性能,這正是縮放定律所告訴我們的:隨著模型規模的擴大,模型性能會提升多少。但這只是其中一部分。其他因素還包括架構和數據創新,這些對于預訓練性能也起著至關重要的作用,如今其重要性可能甚至超過了單純的規模。但規模仍然是一個重要的因素。

Matt Turck:沒錯。我們這里專門討論的是預訓練,對嗎?因為今年我們在強化學習后訓練、測試和計算等方面都實現了規模化。但對于預訓練來說,你是否認為不僅縮放定律沒有失效,反而由于數據和不同架構的推動,出現了加速的趨勢?我的理解是否正確?

Sebastian Bourgeaud:我認為應該這樣說,這些因素是相互疊加的。規模是一個維度,但模型和數據的改進也會提升實際性能。有時,創新帶來的收益會超過規模擴大帶來的收益,而有時,單純的規模擴大是提升模型性能的正確選擇。這是預訓練方面的情況。在強化學習及其規模化方面,我認為我們看到的很多現象與預訓練領域類似,或者說與我們在預訓練領域所經歷的情況相似。有趣的是,由于我們在預訓練方面積累了豐富的經驗,很多經驗教訓都可以應用到強化學習的規模化中。

Matt Turck:說到數據,Gemini 3的預訓練數據構成是怎樣的?我記得你們之前發布過一份模型卡片,其中提到了一些相關信息。預訓練數據都包含哪些內容?

Matt Turck:這個領域的另一個經典問題是:我們是否即將面臨數據枯竭?人們總是在討論,是計算資源不足,還是數據不足。顯然,今年合成數據的使用呈上升趨勢。在你的日常工作中,或者從整體來看,你認為合成數據在哪些方面有用,在哪些方面沒有用?

Sebastian Bourgeaud:合成數據是一個有趣的領域。使用合成數據時必須非常謹慎,因為很容易誤用。通常情況下,人們會使用一個性能強勁的模型來生成合成數據,然后通過小規模的消融實驗來驗證合成數據的效果。但一個非常有趣的問題是:你能否生成合成數據來訓練一個未來的模型,并且讓這個新模型的性能優于生成合成數據的原始模型?我們在這方面投入了大量的時間進行思考和研究。

關于你提到的另一個問題,我們是否即將面臨數據枯竭?我認為不會。我們當然也在為此做準備,但更重要的是,正如我之前提到的,行業正經歷一場范式轉變:之前我們處于數據無限的發展階段,數據可以按需擴展;而現在我們更多地轉向了數據有限的模式,這一轉變切實改變了諸多研究方向以及我們思考問題的方式。一個很好的類比是,在大語言模型出現之前,很多人都在基于ImageNet等基準測試開展研究,當時也處于一個數據非常有限的階段,因此誕生了很多適用于該階段的技術。

Matt Turck:這可能涉及到一個行業內的普遍概念——基于推理軌跡訓練模型。也就是說,迫使模型展示其得出某個結果的過程,然后利用這些軌跡來訓練下一個模型。你們是否在這樣做?你認為這是一個有趣的方向還是未來的發展趨勢?你的看法是什么?

Sebastian Bourgeaud:很遺憾,我無法對此類具體問題發表評論。

Matt Turck:看來我問對了問題。但或許從總體來看,行業內是否有很多人在這樣做?

Sebastian Bourgeaud:我認為是這樣的。這也與你之前問到的合成數據問題相關,我們在這方面的方法是相似的。

Matt Turck:或許我們不必將話題引向未來,但另一個重要的問題和趨勢是,模型如何能夠用更少的數據進行學習,這也是你在談到數據有限模式時所暗示的。無論是在DeepMind內部還是在行業內,你是否看到了一些有趣的方法,就像那個著名的類比所說的,模型能夠像人類一樣高效學習?

Sebastian Bourgeaud:我想先澄清一下我之前所說的“數據有限模式”。我并不是指數據量減少了,而是指數據量是有限的。這種范式轉變是從“數據無限”到“數據有限”。其次,模型架構研究在某種意義上正是為了解決這個問題。當你在模型架構方面取得改進時,通常意味著使用相同數量的數據訓練模型可以獲得更好的結果;或者說,要達到與之前模型相同的結果,所需的訓練數據量更少。這是其中一個方面。但不可否認的是,如今模型訓練所需的數據量仍然遠遠超過了人類所能接觸到的數據量。當然,這其中還涉及到進化過程等因素。我覺得這類宏觀討論很難理解和跟進,因為要將人類的學習數據量與如今的預訓練數據量進行對比,需要做出很多假設。但至少從表面上看,我們使用的數據量確實比人類多得多。

Matt Turck:在整個行業中,預訓練領域還有哪些發展方向讓你感到興奮?

Sebastian Bourgeaud:我認為其中一個方向是長上下文能力。在Gemini1.5中,我們在長上下文能力方面取得了巨大的飛躍。這使得如今的模型和Agent能夠處理諸如代碼庫之類的大型任務,因為它們的上下文長度顯著增加。我認為未來一兩年內,在這方面將會有更多的創新,不僅會提高長上下文處理的效率,還會進一步擴展模型的上下文長度。這是從能力層面來看,預訓練在這方面有很大的潛力,非常值得關注。

相關地,至少在注意力機制方面,我們最近取得了一些非常有趣的發現,我認為這些發現將在未來幾個月內塑造我們的許多研究方向,我個人對此非常興奮。我想再次強調我之前提到的一點:事情的進展往往是多種因素共同作用的結果。有很多小型和中型的改進正在逐步推進,比如修復某個問題、解決某個漏洞,或者某項研究顯示出了良好的前景。所有這些因素結合在一起,將再次推動行業取得重大進展。

Matt Turck:回想我們之前談到的Retro項目,你是該項目的合著者,該項目側重于效率,讓小型模型能夠發揮更大的作用。而現在你身處Gemini 3的世界,這里涉及海量數據和超長上下文窗口的訓練。你認為這種大型模型、超長上下文窗口的范式是否會使得檢索增強生成和搜索變得不再必要,所有功能都將被整合到模型中?當然,企業數據方面可能是一個例外,但從總體來看是這樣嗎?

Sebastian Bourgeaud:這是一個很有趣的問題。首先,我認為Retro項目的核心是檢索信息而非存儲信息,并不一定是為了讓模型更小。它關注的是如何讓模型在預訓練階段就能夠進行更多的推理,而不僅僅是存儲知識。這一點在今天仍然非常重要。有趣的是,直到最近,預訓練的迭代周期一直比后訓練慢得多。因此,在預訓練方面做出這些重大改變,在風險和時間成本方面都相當高昂。而后訓練階段的檢索增強生成或搜索等方法,迭代速度要快得多,也能帶來非常出色的性能。在我看來,從長遠來看,最終的解決方案應該是通過可微分的端到端方式來實現這一目標,這意味著可能需要在預訓練階段(或者未來類似的訓練階段)就學習檢索能力,并將搜索功能整合到大規模訓練中。我認為強化學習的規模化可能已經開啟了這一進程,但在架構方面還有很多工作要做。這一點我們將在未來幾年內看到。

我想強調的是,人們經常談論模型架構,這確實是提升預訓練性能的一個重要方面,但還有其他方面也同樣重要,比如基礎設施、數據和評估,這些方面往往沒有得到同等程度的關注。評估尤其困難,在預訓練中更是如此,因為它需要彌合兩個差距。一方面,我們日常訓練和評估所使用的模型通常比最終規模化后的模型更小、性能更弱。因此,評估方法必須能夠預測大規模模型的性能,仍然能夠為大規模模型指明正確的方向,也就是說,它必須是一個良好的代理指標。

另一方面,還存在后訓練差距。模型在預訓練后并不會直接投入使用,還會進行后續的訓練。因此,我們在預訓練階段或對預訓練模型進行的評估,必須能夠很好地反映模型在后續訓練后的表現。因此,在評估方面取得進展至關重要,這也非常困難。評估方面的進步在很大程度上推動了我們在模型和數據改進方面的進展,因為它讓我們能夠準確衡量模型或數據的實際改進效果。

Matt Turck:DeepMind的評估都是內部構建的嗎?你們有自己的評估體系?

Sebastian Bourgeaud:是的,在很大程度上是這樣,而且越來越傾向于內部構建。因為我們發現,外部基準測試雖然可以在短期內使用,但很快就會受到污染。也就是說,這些基準測試的內容會以不同的形式在網絡上傳播,如果我們的訓練數據中包含了這些內容,就很難檢測出來。因此,要避免自欺欺人,真正了解模型的實際性能,唯一的方法就是創建獨立的評估集,并嚴格保密。

Matt Turck:與此相關的一個問題是,對齊是你們在預訓練階段重點考慮的問題,還是更多地屬于后訓練階段的范疇,或者兩者都有?

Sebastian Bourgeaud:我認為大部分對齊工作是在后續訓練階段進行的,但預訓練階段也有一些相關的工作。我不能在這里透露太多細節,但確實有一些方面與預訓練相關,我們也會對此進行考量。

Matt Turck:從一個非常簡單的層面來看,我一直很好奇,以Gemini為例,如果核心數據集來自互聯網,而互聯網上有很多不良信息。那么對齊的首要原則是不是將這些不良信息排除在模型訓練之外?

Sebastian Bourgeaud:這是一個有趣的問題,我并沒有一個確定的答案。但我們不希望模型產生這些不良內容。從根本上來說,模型需要了解這些不良信息,這樣才能知道要遠離它們。因此,我們至少需要讓模型接觸一部分這類信息,以便它能夠識別這些不良內容并避免產生相關輸出。否則,當用戶提到某些不良信息時,模型可能根本不知道用戶在說什么,也就無法判斷這是不良信息。

Matt Turck:我們來談談DeepThink,這是在Gemini 3發布幾天后推出的思考型模型。首先,它是一個獨立的模型,還是Gemini 3的一部分?我們應該如何看待它?

Sebastian Bourgeaud:我不能對此發表太多具體評論。

Matt Turck:當模型進行思考,用戶需要等待10秒、20秒或更長時間時,后臺發生了什么?

Sebastian Bourgeaud:是的,我想在你之前的一些播客中已經詳細討論過這個問題。這本質上是一個生成思考過程的過程。與僅在模型內部進行計算不同,我們還會在序列長度層面進行計算,讓模型有更多的思考空間。因此,模型會開始提出假設、測試假設、調用一些工具來驗證假設、進行搜索等。最后,模型可能會回顧整個思考過程,為用戶提供一個明確的答案。

Matt Turck:行業已經逐漸接受了這種通用思考范式。

Sebastian Bourgeaud:是的。

Matt Turck:你能談談這其中的智能體部分以及谷歌的“反重力”項目嗎?你覺得它有趣的地方在哪里?人們應該了解些什么?

Sebastian Bourgeaud:這大概就是我之前提到的與我自己工作相關的內容。

Matt Turck:我覺得這很有趣。

Sebastian Bourgeaud:我們日常的很多工作都是執行層面的,比如監控實驗進程等。我認為智能體在這方面能夠帶來最大的影響。回到預訓練的話題,我認為視覺感知方面對于智能體來說非常重要,因為現在我們要求模型能夠與計算機屏幕進行交互。因此,具備出色的屏幕理解能力至關重要,這也是預訓練階段的一個重要方面。

Matt Turck:在“反重力”項目中,有一個非常有趣的“氛圍編程”概念——當你提出需求時,你甚至不需要清楚地說明具體要求,模型就能理解你的意圖。這種“氛圍”是預訓練階段的成果,還是后訓練階段的產物?如何將“氛圍”融入模型中?

Sebastian Bourgeaud:這是一個有趣的問題。我想如果你問五個不同的研究者,可能會得到五個不同的答案。人們還會提到“大型模型的質感”,比如GPT-4.5在這方面就有很明顯的表現,大概大型模型在感覺上會有所不同。我不會用這些具體的術語來描述,但我認為“氛圍”本質上與此相關。如今,在很大程度上,預訓練可能在模型的“感覺”方面發揮著更大的作用,而不僅僅是后訓練。對于“氛圍編程”來說,我認為這可能更多地與強化學習規模化和后訓練相關,因為通過大量的數據訓練,模型能夠很好地完成這類任務。

行業趨勢與未來展望:技術方向、應用挑戰與人才建議

Matt Turck:我們來稍微宏觀地看待這個問題,作為對話的最后一部分。我很好奇行業的整體發展趨勢。今年神經信息處理系統大會上討論的一個核心主題是持續學習。我想了解你的看法,尤其是從預訓練的角度來看。因為目前我們的范式是每隔幾個月或幾年,就會訓練一個全新的大型基礎模型。首先,什么是持續學習?其次,如果持續學習成為主流,這將對重新訓練產生什么影響?

Sebastian Bourgeaud:持續學習本質上是指隨著新知識的發現,不斷用這些知識更新模型。比如,明天出現了一項新的科學突破,而我們昨天訓練的基礎模型并不知道這項突破。在預訓練方面,我認為過去幾年已經取得了很大的進展,這主要體現在后訓練和搜索方面。通過使用搜索工具進行搜索調用,模型可以獲取這些新信息。從某種意義上說,這也正是我們之前談到的Retro項目所做的事情——通過檢索數據,嘗試將知識語料庫與推理部分分離開來。這是一方面。

另一方面,在預訓練方面,這也與我之前提到的長上下文能力相關。一種實現持續學習的方式是不斷擴展用戶的上下文,讓模型在上下文中獲取更多的信息,從而具備持續學習的能力。但當然,這可能還需要一場更大的范式轉變。也許這就是人們所討論的:能否改變訓練算法,讓模型能夠持續地從來自現實世界的數據流中進行學習。

Matt Turck:除了持續學習,你認為當前研究中還有哪些熱門、有趣或令人關注的方向?

Sebastian Bourgeaud:正如我之前提到的,目前有很多小型的改進正在積累,這是推動行業進步的一個重要因素。歷史上,這種方式一直是推動進展的主要動力,我相信未來也會繼續如此。我之前提到的長上下文架構和長上下文研究是其中一個方面。在預訓練方面,注意力機制也是一個重要的研究方向。從無限數據到有限數據或數據有限模式的范式轉變,也將帶來很多變化和有趣的研究。這只是預訓練領域的情況。

另一方面,如今使用這些模型的人數正在迅速增長。因此,我們在預訓練階段也需要更多地考慮模型的部署成本——模型的使用成本有多高,能否大規模部署。在預訓練階段,我們可以采取哪些措施來提升模型質量,同時降低部署成本、減少資源消耗,這也是一個非常有趣的方向。

Matt Turck:對于正在收聽這期播客的學生或博士生來說,如果他們希望在幾年后成為像你這樣的人,你認為他們應該思考或關注哪些問題?這些問題不是一兩年內就能解決的,而是更具長遠意義、更有趣的問題?

Sebastian Bourgeaud:有一點變得越來越重要,那就是在進行研究的同時,要了解系統層面的知識。我們現在構建的系統非常復雜。因此,能夠理解從TPU到研究層面的整個技術棧是一種非常重要的能力。因為這樣你就能發現不同層級之間的差距,而這些差距可能是其他人沒有注意到的。同時,你也能夠全面地思考你的研究想法對整個TPU技術棧的影響。我認為,能夠做到這一點的人通常會產生很大的影響力。因此,在專業方向上,應該關注研究型工程和系統方面的內容。我是模型研究的負責人,而不僅僅是純粹的模型架構研究。這是一個方面。我個人仍然對我們在Retro項目中開始的檢索研究非常感興趣。我認為這個領域之前還不夠成熟,但現在情況正在發生變化。我有理由相信,在未來幾年內,類似Retro的技術可能會應用于像Gemini這樣的頂尖模型中。

Matt Turck:為什么之前這個領域不夠成熟,而現在情況可能會發生變化?

Sebastian Bourgeaud:我認為這與我之前提到的復雜性有關,同時也因為后訓練階段的迭代速度更快,能夠更快地實現相關功能。正如我之前所說,通過后訓練階段的搜索和數據處理,我們可以以更簡單的方式讓模型獲得類似的能力。隨著后訓練和強化學習規模化的發展,這種情況可能會再次發生轉變,使更多的功能回歸到預訓練階段。

Matt Turck:你認為目前人工智能領域是否存在過度投資的領域?也就是那些在邏輯上并不合理,但行業卻投入了大量資金的領域?

Sebastian Bourgeaud:我認為現在情況已經好多了。大約兩年前,我看到很多人還在試圖創建專門的模型來解決那些通用模型在半年或一年內就能夠解決的任務。但現在人們已經逐漸意識到,對于通用任務或不需要極端專業模型的任務,使用通用模型(可能不是當前版本,而是下一個版本)可能就能夠完成。這意味著,關于如何使用模型、如何構建模型的應用框架等方面的研究變得越來越重要。同時,如何提高模型和這些應用框架的穩健性,使其能夠減少錯誤并從錯誤中恢復,也是一個重要的研究方向。

Matt Turck:與此相關的一個問題是,對于初創公司,你有什么建議或推薦?從創始人或風投的角度來看,基礎模型的能力越來越強,并且訓練數據越來越多樣化。以前,模型只能進行對話,而現在已經能夠處理金融工作、股權表等專業任務,這似乎縮小了初創公司的發展空間。你對此有何看法?

Sebastian Bourgeaud:我認為初創公司可以回顧一下一年前或一年半前模型的能力,再看看現在模型的能力,然后進行合理的推斷。模型正在不斷進步的領域,未來可能會繼續保持進步的趨勢。而那些進展不大的領域,可能是更值得研究的方向。我現在沒有具體的例子,但這是一個總體的建議。

Matt Turck:在未來一兩年內,你個人的職業發展中有什么讓你感到興奮的事情?

Sebastian Bourgeaud:我非常喜歡日常工作中與眾多優秀的人合作,并從他們身上學習。這在很大程度上驅動著我。每天上班,我都會與非常聰明的人交流,他們會教給我很多新的知識。這是我非常喜歡的一點。正如我多次提到的,有很多不同的因素正在共同作用,還有很多方面有提升的空間。我真的非常好奇,因為目前來看,這類工作的進展似乎看不到盡頭。能夠見證這一過程,看看我們能夠走多遠,這真的非常有趣。至少在未來一年左右,我認為這種快速發展的趨勢不會放緩。

Matt Turck:非常好。這是一個非常棒的收尾。Sebastian,非常感謝你參加這期播客。我們非常感激,這是一場非常精彩的對話。謝謝。

Sebastian Bourgeaud:謝謝,Matt。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 国产精品2018 | 狠狠操天天干 | 日本aⅴ视频 | 撕开她情趣内裤让她呻吟视频 | www.精品| 欧美无限看 | 狠狠操天天操 | 日韩一区二区中文字幕 | 国产精品99久久久久久久久 | 免费毛片播放 | 99热这里| 天堂av免费在线 | 亚洲精品www久久久久久 | 欧美第七页 | 日本不卡一区二区三区 | 亚州男人的天堂 | 午夜草草| 免费看成年人视频 | 国产免费视频一区二区三区 | 性瑜伽xxxtⅴ | 四虎影院永久地址 | 国产福利第一页 | 国产淫语 | 国产精品久久久精品四季影院 | 色婷婷小说 | 人人艹视频 | 香蕉视频在线视频 | 九色视频91| 欧美日韩综合在线观看 | 国产精品美女久久久久久久久 | 超碰在线人 | 五月婷综合网 | 欧美日韩高清在线 | 国产情侣久久 | 久久久久久久久久一区二区三区 | 日本精品久久久久 | 91网站免费 | 麻豆精品免费 | 国产永久免费观看 | av免费播放| 国产成人三级在线播放 |