在人工智能與生命科學(xué)交叉領(lǐng)域,一項名為Gengram的創(chuàng)新技術(shù)引發(fā)廣泛關(guān)注。這項由杭州科研團(tuán)隊開發(fā)的基因組模型插件,通過引入"外掛記憶庫"機制,為基因數(shù)據(jù)分析開辟了全新路徑。其核心突破在于將傳統(tǒng)模型中需要反復(fù)計算的基因片段識別過程,轉(zhuǎn)化為高效的哈希表查詢操作。
傳統(tǒng)基因組基礎(chǔ)模型普遍采用單堿基分詞策略,將DNA序列拆解為單個堿基進(jìn)行處理。這種模式雖符合生物學(xué)基本邏輯,卻面臨雙重困境:在識別啟動子等關(guān)鍵功能片段時,模型需通過多層注意力機制從零構(gòu)建序列模式;面對長達(dá)30億堿基的人類基因組,這種逐堿基分析方式極易陷入局部細(xì)節(jié)而忽略整體結(jié)構(gòu)。研究團(tuán)隊形象地比喻:傳統(tǒng)模型分析基因序列如同逐字解讀"魑魅魎魍",而人類認(rèn)知能直接識別整個成語。
Gengram的技術(shù)架構(gòu)包含三大創(chuàng)新模塊。首先構(gòu)建了可微分的哈希表,存儲長度1-6的DNA片段(k-mer)對應(yīng)的語義向量,這些片段涵蓋已知的轉(zhuǎn)錄因子結(jié)合位點等生物學(xué)功能單元。其次引入動態(tài)門控機制,使模型能根據(jù)上下文自主決定是否查詢記憶庫——在關(guān)鍵功能區(qū)域激活檢索,在非編碼區(qū)域則依賴推理。最后通過局部聚合窗口設(shè)計,使模型自發(fā)捕捉到DNA雙螺旋的物理特性。
性能測試數(shù)據(jù)顯示顯著優(yōu)勢:在8k和32k上下文版本中,集成Gengram的模型在剪接位點預(yù)測任務(wù)中AUC提升16.1%,表觀遺傳預(yù)測任務(wù)AUC提升22.6%。更引人注目的是其數(shù)據(jù)效率——僅需極小規(guī)模訓(xùn)練數(shù)據(jù),就能在核心任務(wù)上媲美數(shù)據(jù)量數(shù)十倍的公開模型。該技術(shù)展現(xiàn)出強大的架構(gòu)適應(yīng)性,在Dense和MoE等不同模型架構(gòu)中均能降低訓(xùn)練損失并加速收斂,特別在MoE架構(gòu)中有效解決了專家負(fù)載失衡問題。
實驗過程中發(fā)現(xiàn)令人驚喜的生物學(xué)洞察:當(dāng)測試不同窗口大小時,模型在21bp設(shè)置下性能達(dá)到峰值。這一數(shù)值恰好對應(yīng)DNA雙螺旋兩個完整旋轉(zhuǎn)周期(每10.5堿基旋轉(zhuǎn)一圈)的物理特性。這意味著模型在未接受任何結(jié)構(gòu)生物學(xué)訓(xùn)練的情況下,通過計算自行發(fā)現(xiàn)了DNA序列的空間相位規(guī)律。研究團(tuán)隊強調(diào),這種對物理本質(zhì)的理解源于模型對局部生化環(huán)境的敏感性,而非簡單的統(tǒng)計擬合。
該技術(shù)的開發(fā)團(tuán)隊由之江實驗室與杭州華大生命科學(xué)研究院聯(lián)合組成,這種"AI+生命科學(xué)"的交叉背景構(gòu)成獨特優(yōu)勢。其基于的Genos基因組基礎(chǔ)模型在多項指標(biāo)上已超越當(dāng)前業(yè)界領(lǐng)先的Evo-2模型。研究團(tuán)隊已公開代碼庫和模型參數(shù),提供完整的工具鏈支持,包括可微分哈希表構(gòu)建、動態(tài)門控訓(xùn)練和局部窗口優(yōu)化等模塊。
這項突破為科學(xué)基礎(chǔ)模型開發(fā)提供了新范式。傳統(tǒng)方法通過擴(kuò)大參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)量來提升性能,而Gengram將領(lǐng)域知識轉(zhuǎn)化為結(jié)構(gòu)化外部記憶庫,使核心模型能專注于高級推理。其設(shè)計理念包含三個關(guān)鍵方向:將確鑿的生物學(xué)知識轉(zhuǎn)化為可查詢的外部資源;將物理規(guī)律顯式編碼為模型架構(gòu)約束;通過可解釋的查詢機制使推理過程透明化。這種模式為解決基因調(diào)控元件預(yù)測、表觀遺傳分析等長序列問題提供了新思路。










