當(dāng)全球科技巨頭仍在為英偉達(dá)高端GPU的供應(yīng)爭(zhēng)得頭破血流時(shí),一家成立不足三年的多倫多芯片公司Taalas突然向行業(yè)投下一枚震撼彈——他們摒棄液冷技術(shù)、放棄昂貴的HBM顯存,甚至徹底拋棄“通用計(jì)算”理念,轉(zhuǎn)而采用一種近乎野蠻的物理設(shè)計(jì):將AI大模型直接固化在芯片內(nèi)部。
這家名為Taalas的企業(yè)推出的HC1芯片,在運(yùn)行Llama 3.1 8B模型時(shí)展現(xiàn)出驚人的性能:每秒可處理17,000個(gè)token。這一速度是當(dāng)前業(yè)界最快方案Cerebras的近10倍,較英偉達(dá)最先進(jìn)的B200芯片更是提升50倍。更令人震驚的是,這種性能飛躍并非通過(guò)堆砌算力實(shí)現(xiàn)——HC1通過(guò)徹底消除存儲(chǔ)層級(jí),將成本壓縮至傳統(tǒng)方案的二十分之一,功耗更是降低至十分之一。十張HC1卡組成的系統(tǒng)僅需2.5千瓦空氣冷卻即可穩(wěn)定運(yùn)行。
技術(shù)實(shí)現(xiàn)路徑上,Taalas選擇了與主流完全相反的方向。傳統(tǒng)芯片設(shè)計(jì)追求通用性,如同建造可容納各類演出的舞臺(tái);而HC1則將特定模型的每個(gè)權(quán)重直接映射到晶體管,相當(dāng)于把《羅密歐與朱麗葉》的布景永久澆筑在舞臺(tái)上。這種設(shè)計(jì)使得矩陣運(yùn)算不再依賴軟件調(diào)度,而是通過(guò)物理電路的電流直接完成,如同將交響樂(lè)演奏刻錄成黑膠唱片,插電即播且速度驚人。
該方案引發(fā)的爭(zhēng)議同樣劇烈。支持者認(rèn)為,在需要毫秒級(jí)響應(yīng)的語(yǔ)音助手、自動(dòng)化數(shù)據(jù)標(biāo)注等垂直場(chǎng)景中,這種“電子牛馬”式芯片能以極低成本提供極致性能。反對(duì)者則指出,將模型固化在物理芯片上的做法風(fēng)險(xiǎn)巨大——當(dāng)meta明年發(fā)布Llama 4時(shí),這些耗資流片的高端芯片可能瞬間淪為電子垃圾。更關(guān)鍵的是,小模型存在的幻覺(jué)問(wèn)題和計(jì)算錯(cuò)誤率,在如此高速輸出下可能被進(jìn)一步放大。
這場(chǎng)爭(zhēng)論背后,折射出AI硬件領(lǐng)域的根本性分歧。Taalas創(chuàng)始人Ljubisa Bajic曾是AMD、英偉達(dá)的核心架構(gòu)師,也是明星AI芯片公司Tenstorrent的締造者。其前合作伙伴、“芯片之神”Jim Keller始終堅(jiān)信通用計(jì)算平臺(tái)的未來(lái),而Ljubisa則選擇走向極端專用化。這種理念分裂令人聯(lián)想到人類大腦的運(yùn)作機(jī)制——哈佛與谷歌耗時(shí)十年繪制的人腦圖譜顯示,這種生物硬件通過(guò)高度固化實(shí)現(xiàn)了驚人的能效比,與HC1的設(shè)計(jì)哲學(xué)形成奇妙呼應(yīng)。
社交媒體上的討論呈現(xiàn)兩極分化。技術(shù)極客驚嘆于“答案如預(yù)謀般撲面而來(lái)”的響應(yīng)速度,行業(yè)觀察者則質(zhì)疑這種“用今日技術(shù)鎖定明日需求”的商業(yè)模式可持續(xù)性。有網(wǎng)友尖銳指出:“當(dāng)大多數(shù)人類終生只使用一種語(yǔ)言、從事一份職業(yè)時(shí),這種腦內(nèi)固化模型的設(shè)計(jì),與人類大腦的運(yùn)作方式何其相似。”
目前,Taalas已上線體驗(yàn)網(wǎng)站chatjimmy.ai,用戶可親身感受這種顛覆性速度。盡管爭(zhēng)議不斷,但17,000 tokens/秒的性能指標(biāo)已打破傳統(tǒng)AI硬件的物理極限。當(dāng)行業(yè)還在討論如何優(yōu)化內(nèi)存墻時(shí),這家加拿大初創(chuàng)公司用最粗暴的方式證明:在特定場(chǎng)景下,徹底拋棄通用性可能才是突破瓶頸的關(guān)鍵。這場(chǎng)實(shí)驗(yàn)最終將引領(lǐng)技術(shù)革命,還是淪為昂貴的技術(shù)注腳,或許只有時(shí)間能給出答案。










