近年來(lái),宣稱要挑戰(zhàn)英偉達(dá)在AI芯片領(lǐng)域霸主地位的公司層出不窮。近日,一家名為Taalas的加拿大初創(chuàng)芯片企業(yè)進(jìn)入AI行業(yè)視野,其推出的首款產(chǎn)品HC1芯片引發(fā)了廣泛關(guān)注,被認(rèn)為有可能對(duì)英偉達(dá)主導(dǎo)多年的AI芯片市場(chǎng)格局產(chǎn)生影響。
Taalas成立于2023年,總部位于加拿大多倫多。當(dāng)?shù)貢r(shí)間2月20日,該公司發(fā)布了專為L(zhǎng)lama 3.1 8B模型優(yōu)化的HC1芯片。在采用30芯片集群時(shí),該芯片可實(shí)現(xiàn)每秒12000 tokens的推理速度,相較于傳統(tǒng)GPU方案,能效提升了50倍。Taalas宣稱,通過(guò)結(jié)構(gòu)化ASIC技術(shù),公司將芯片定制周期大幅縮短至兩個(gè)月,且已累計(jì)融資2.19億美元。在24名員工的努力下,投入3000萬(wàn)美元打造出了這款具備“極致專業(yè)化、速度和能源效率”的產(chǎn)品。值得一提的是,Taalas的創(chuàng)始人兼CEO柳比沙·巴伊奇(Ljubi?a Baji?)是曾任AMD架構(gòu)師的業(yè)界知名人物。
在Taalas官網(wǎng)的介紹中,巴伊奇表示,這款芯片以meta公司2024年7月推出的開(kāi)源大模型Llama 3.1 8B為運(yùn)行平臺(tái),峰值推理速度接近17000 tokens/秒,比當(dāng)前市場(chǎng)中最先進(jìn)的技術(shù)快近10倍,構(gòu)建成本降低至原來(lái)的1/20,功耗降低至原來(lái)的1/10。Taalas給出的測(cè)試數(shù)據(jù)顯示,在Llama 3.1 8B模型上,英偉達(dá)的主力產(chǎn)品H200和B200的推理速度分別為230 tokens/秒和353 tokens/秒,而HC1的性能是它們的48倍。此前,獨(dú)立分析平臺(tái)Artificial Analysis測(cè)出最高值來(lái)自估值230億美元、剛完成H輪融資的Cerebras,其推理速度為1981 tokens/秒,僅為HC1的11%。在實(shí)際演示中,大模型對(duì)用戶問(wèn)題的解答速度極快,甚至達(dá)到了“秒回”的水平,不過(guò)這種快速回復(fù)也讓人產(chǎn)生了壓迫感。
Taalas的驚艷表現(xiàn)引發(fā)了大量討論,有人認(rèn)為“顛覆將至”,也有人質(zhì)疑其言過(guò)其實(shí)、過(guò)度營(yíng)銷。那么,Taalas的技術(shù)和產(chǎn)品究竟有何特別之處,是否真能擔(dān)得起“世界上速度最快、成本和功耗最低的推理平臺(tái)”這一自稱呢?
深入研究HC1的相關(guān)公開(kāi)信息后發(fā)現(xiàn),Taalas的技術(shù)路線與目前市場(chǎng)主流的ASIC路線相比極具顛覆性。與英偉達(dá)和AMD代表的GPU通用計(jì)算技術(shù)路線不同,Taalas更接近ASIC路線。ASIC技術(shù)通過(guò)為特定應(yīng)用場(chǎng)景定制硬件設(shè)計(jì),追求極致的能效和成本效益。雖然其適用性、功能豐富度和可互換性遠(yuǎn)低于能覆蓋多場(chǎng)景的GPU,但自去年以來(lái),以谷歌TPU為首的ASIC技術(shù)憑借成本(TCO)低、打造大模型能力不遜色等特點(diǎn),得到了市場(chǎng)認(rèn)可,出貨量大幅提升。野村證券預(yù)測(cè),2026年ASIC芯片的總出貨量可能會(huì)首次超過(guò)GPU。在GPU市場(chǎng)被兩巨頭壟斷的情況下,大多數(shù)芯片初創(chuàng)公司都選擇了ASIC路線,如市場(chǎng)知名度較高的Cerebras、SambaNova,以及核心團(tuán)隊(duì)被英偉達(dá)納入囊中的Groq。
巴伊奇在AMD和英偉達(dá)都有任職經(jīng)歷,此前還創(chuàng)立了專注于AI芯片研發(fā)的獨(dú)角獸企業(yè)Tenstorrent,該公司通過(guò)開(kāi)源RISC - V架構(gòu)和軟硬件協(xié)同設(shè)計(jì)降低AI計(jì)算成本。“挑戰(zhàn)英偉達(dá)壟斷地位”一直是巴伊奇宣揚(yáng)的核心理念,也是Tenstorrent備受關(guān)注的標(biāo)簽。然而,英偉達(dá)的發(fā)展遠(yuǎn)好于AMD及各類AI芯片初創(chuàng)公司,巴伊奇在探索中有了更“極端”的想法。2022年至2023年間,他逐漸脫離此前工作,開(kāi)始籌劃創(chuàng)辦Taalas。Taalas的聯(lián)合創(chuàng)始人還包括他的妻子萊拉·巴伊奇(Lejla Bajic,曾在AMD任系統(tǒng)工程高級(jí)經(jīng)理)以及曾任AMD高級(jí)設(shè)計(jì)工程師并在Tenstorrent擔(dān)任過(guò)ASIC設(shè)計(jì)總監(jiān)的德拉貢·伊格納托維奇(Drago Ignjatovic)。Taalas公司20余人的核心工程師團(tuán)隊(duì)多數(shù)來(lái)自AMD、蘋果、谷歌、英偉達(dá)和Tenstorrent。2024年,Taalas完成5000萬(wàn)美元首輪融資后正式進(jìn)入公眾視野,截至目前已完成三輪融資,總額超過(guò)2億美元。
巴伊奇強(qiáng)調(diào),Taalas致力于解決AI發(fā)展面臨的“高延遲”和“天文數(shù)字般的算力成本”兩大障礙,并提出“單芯片性能超越小型GPU數(shù)據(jù)中心”這一極具野心的目標(biāo)。Taalas奉行“The Model is The Computer”(模型即計(jì)算機(jī),也是公司口號(hào))的理念,即將傳統(tǒng)“在計(jì)算設(shè)備上運(yùn)行模型”的范式轉(zhuǎn)變?yōu)椤澳P捅旧沓蔀橛?jì)算設(shè)備”。在技術(shù)實(shí)現(xiàn)路徑上,Taalas提出“無(wú)需軟件,直接將模型刻在芯片上”,這與傳統(tǒng)ASIC芯片仍需使用軟件通過(guò)編譯過(guò)程將軟件代碼轉(zhuǎn)化為芯片指令不同。Taalas通過(guò)EDA(電子設(shè)計(jì)自動(dòng)化)流程,將特定大模型直接轉(zhuǎn)化為定制芯片,這意味著每款使用Taalas的大模型都會(huì)擁有專屬定制芯片,實(shí)現(xiàn)“完全專業(yè)化”。同時(shí),算力擺脫了軟件束縛和編譯過(guò)程,數(shù)據(jù)幾乎無(wú)需在內(nèi)存和計(jì)算單元之間移動(dòng),“內(nèi)存墻”消失,推理成本大幅降低,推理速度顯著提升。目前,Taalas的主要業(yè)務(wù)操作流程較為簡(jiǎn)單,客戶向其提供所需模型,Taalas在一周內(nèi)將其轉(zhuǎn)化為電路設(shè)計(jì),通過(guò)臺(tái)積電代工在兩個(gè)月內(nèi)交付專屬芯片。
盡管Taalas前景看似美好,但在輿論熱度轉(zhuǎn)化為商用市場(chǎng)成果之前,仍有許多問(wèn)題亟待解決。首先,其產(chǎn)品能否適用于更先進(jìn)、大規(guī)模的模型是關(guān)鍵。2024年meta推出Llama 3.1時(shí),有8B、70B和405B三種參數(shù)規(guī)模版本,Taalas選用的是最小的8B版本。在當(dāng)前大模型進(jìn)化速度快、規(guī)模越來(lái)越大的背景下,Taalas產(chǎn)品能否匹配以及是否面臨明顯“天花板”都是必須解決的問(wèn)題。巴伊奇稱公司將在今年春季推出一款適用中等規(guī)模推理模型的產(chǎn)品,其表現(xiàn)值得關(guān)注。其次,在測(cè)評(píng)體驗(yàn)中,不少質(zhì)疑聲音指出Taalas讓本就不算聰明的Llama變得更“笨”了。一些用戶發(fā)帖稱,HC1“幻覺(jué)嚴(yán)重”“答案明顯錯(cuò)誤,質(zhì)量遠(yuǎn)低于同參數(shù)GPU版”,“回答速度快但錯(cuò)得也快”,實(shí)用性不佳。對(duì)于Taalas給出的測(cè)試數(shù)據(jù),也有較多質(zhì)疑。有芯片產(chǎn)業(yè)愛(ài)好者認(rèn)為,Taalas相當(dāng)于內(nèi)置了問(wèn)題的答案,所以計(jì)算速度“秒殺”英偉達(dá)等業(yè)界翹楚,但若問(wèn)題更換,其表現(xiàn)可能就會(huì)“掉鏈子”,即Taalas能在特定場(chǎng)景下“秒殺”英偉達(dá),但目前英偉達(dá)能做的事對(duì)Taalas來(lái)說(shuō)可能更難。更為關(guān)鍵的是,Taalas能否跟上大模型的迭代周期。半導(dǎo)體行業(yè)從業(yè)者表示,Taalas的芯片“表現(xiàn)很牛,但目前可能沒(méi)啥大的用處”,因?yàn)榇竽P瓦€在不停迭代,而Taalas的迭代能力和速度存疑,要等大模型達(dá)到某個(gè)層級(jí)不再大規(guī)模、快速迭代了,這種芯片才可能有更大舞臺(tái)。社交平臺(tái)上的討論中,不少質(zhì)疑集中在HC1“模型鎖定”的“只讀”模式導(dǎo)致的“過(guò)時(shí)”和“廢棄”風(fēng)險(xiǎn),認(rèn)為這是其商業(yè)化、規(guī)模化的重大阻礙。目前,一款頂尖大模型能保持領(lǐng)先優(yōu)勢(shì)的時(shí)間窗口不過(guò)月余,而Taalas交付芯片(而非量產(chǎn))至少需要兩個(gè)月。
不過(guò),支持HC1進(jìn)步性的聲音也不少。在知乎的相關(guān)討論中,中國(guó)科學(xué)院計(jì)算技術(shù)研究所副研究員趙永威指出,雖然Taalas“目前的狀況還沒(méi)有應(yīng)用價(jià)值”,但不妨礙它會(huì)成為“一顆有歷史意義的芯片”。他認(rèn)為這種“硬連線”的模式是未來(lái)芯片發(fā)展的一大趨勢(shì),目前的質(zhì)疑由Taalas來(lái)扛,后來(lái)者在推廣相關(guān)概念時(shí)就會(huì)更加輕松,他還透露自己所在單位也在研究類似技術(shù)路線,并提到降低經(jīng)濟(jì)成本既是研究目標(biāo),也應(yīng)該是宣傳發(fā)力點(diǎn)。知名科技記者蒂莫西·普里克特·摩根(Timothy Prickett Morgan)在文章中提到,Taalas確實(shí)需要在模型的每一次更新中重新設(shè)計(jì)芯片,但其在推理引擎上蝕刻新模型只需更改設(shè)計(jì)中的兩層金屬,而非完全廢棄。考慮到訓(xùn)練模型的成本高達(dá)數(shù)十億美元,Taalas芯片的更新成本微不足道。摩根認(rèn)為,在主要模型發(fā)布間隔時(shí)間延長(zhǎng),人們對(duì)成熟模型依賴度增加時(shí),Taalas芯片有望贏得更廣泛的市場(chǎng)認(rèn)可。也有分析稱,得益于低延遲、低功耗的特性,Taalas真正的用武之地可能在于邊緣推理場(chǎng)景,如機(jī)器人、自動(dòng)駕駛汽車甚至高端智能手機(jī)等設(shè)備。這些設(shè)備不需要運(yùn)行所有模型,只需穩(wěn)定運(yùn)行定制化模型,更快的速度和更低的消耗更有利于產(chǎn)業(yè)普及AI大模型。然而,即便相關(guān)產(chǎn)品能真正規(guī)模化進(jìn)入市場(chǎng)并發(fā)揮作用,新的狀況和問(wèn)題也會(huì)隨之出現(xiàn),比如大模型的底層架構(gòu)(Transformer)是否會(huì)遭遇另一場(chǎng)“革命”,這似乎決定著“模型即芯片”技術(shù)路線的命運(yùn),還有生態(tài)系統(tǒng)建設(shè)問(wèn)題,英偉達(dá)雖是硬件公司,但CUDA軟件生態(tài)和開(kāi)發(fā)者的重度依賴才是其真正的護(hù)城河,這也是Taalas看中且有意顛覆的。目前,Taalas距離英偉達(dá)還很遙遠(yuǎn),更不用說(shuō)“顛覆英偉達(dá)”了,但巴伊奇仍在這條路上不斷前行,Taalas宣布計(jì)劃在今年冬季推出第二代HC2產(chǎn)品,將具備更快的執(zhí)行速度和更強(qiáng)的性能,屆時(shí)一代產(chǎn)品的市場(chǎng)反饋和二代產(chǎn)品的迭代效果將進(jìn)一步驗(yàn)證各方對(duì)這股新勢(shì)力的判斷。









