近期,國產(chǎn)大模型領(lǐng)域動態(tài)不斷,此前備受矚目的DeepSeek V4雖多次傳出發(fā)布消息卻均未成真,而如今又有兩款新大模型在OpenRuter平臺引發(fā)廣泛關(guān)注與熱議。
此次出現(xiàn)在OpenRuter平臺的是兩個不同型號的大模型。其中一個代號為Hunter Alpha,擁有高達(dá)1萬億的參數(shù)量,支持1M上下文,并且具備多模態(tài)輸出能力;另一個代號Healer Alpha,其上下文為262k,同樣支持多模態(tài),不過參數(shù)量未對外公布,但輸出速度相對更快。
對于Hunter Alpha,不少人猜測它就是即將發(fā)布的DeepSeek V4。然而,AI大模型評測領(lǐng)域的知名人士@karminski - 牙醫(yī)卻表示,Hunter Alpha并非DeepSeek V4,而是智譜的新模型,極有可能是智譜新一代的旗艦大模型。從DeepSeek過往發(fā)布新品的風(fēng)格來看,這種猜測似乎也有一定道理。DeepSeek在發(fā)布新品前,通常不會在Openruter這樣的平臺進(jìn)行測試,而是習(xí)慣低調(diào)上線,之后僅在群里發(fā)布一條簡短消息來確認(rèn)新品發(fā)布。
盡管DeepSeek V4尚未正式發(fā)布,但網(wǎng)絡(luò)上關(guān)于它的各種傳聞卻層出不窮。有傳聞稱,DeepSeek V4擁有1萬億參數(shù)量,MOE激活320億參數(shù),支持1M上下文,具備原生多模態(tài)能力,并且針對昇騰910C平臺進(jìn)行了優(yōu)化,并非僅局限于為NVIDIA或者AMD等國外芯片優(yōu)化。不過,這些爆料的可信度有待考量。
相比之下,有一條爆料顯得更具可信度。知名量化專家@bdsqlsz被發(fā)現(xiàn)在HuggingFace上傳了DeepSeek - V4 - INT8權(quán)重,這一舉動暗示了DeepSeek V4支持INT8算法,更重要的是,這似乎意味著DeepSeek V4的發(fā)布已經(jīng)進(jìn)入倒計時。
還有消息透露,DeepSeek要求供應(yīng)商在6 - 20號期間保持穩(wěn)定,并且最近兩天還在進(jìn)行最后的壓力測試。種種跡象表明,DeepSeek V4或許很快就會與大家見面,大家不妨耐心等待。











