2 月 21 日消息,科技媒體 Wccftech 昨日(2 月 20 日)發(fā)布博文,報(bào)道稱(chēng) AI 芯片初創(chuàng)公司 Taalas 為解決大模型的延遲與成本難題,推出“硬連線(xiàn)”(Hard-wiring)技術(shù),直接將 AI 模型固化在硅片中。
在 AI 算力競(jìng)爭(zhēng)日益激烈的當(dāng)下,延遲已成為制約智能體(Agentic)應(yīng)用的核心瓶頸。不同于 Cerebras 或 Groq 試圖通過(guò)集成 SRAM 來(lái)加速的路徑,成立僅 2.5 年的初創(chuàng)公司 Taalas 選擇了更為激進(jìn)的 ASIC(專(zhuān)用集成電路)路線(xiàn)。
援引博文介紹,該公司研發(fā)出一種能將任意 AI 模型轉(zhuǎn)化為定制硅片的平臺(tái),其核心邏輯在于“融合計(jì)算與存儲(chǔ)”,直接將特定 LLM 的神經(jīng)網(wǎng)絡(luò)映射到硅片電路中,在 DRAM 級(jí)密度下完成所有計(jì)算。
這種設(shè)計(jì)徹底摒棄了 HBM(高帶寬內(nèi)存)、復(fù)雜封裝及昂貴的散熱系統(tǒng),從物理層面消除了數(shù)據(jù)傳輸?shù)摹皟?nèi)存墻”障礙。
Taalas 已展示其首款產(chǎn)品 HC1,該芯片專(zhuān)為 meta 的 Llama 3.1 8B 模型設(shè)計(jì)。從技術(shù)規(guī)格來(lái)看,HC1 采用臺(tái)積電 6nm 工藝制造,芯片面積高達(dá) 815 mm²,這一尺寸幾乎與 NVIDIA 的 H100 相當(dāng)。
Taalas 的在線(xiàn)聊天機(jī)器人演示在 EE Times 試用時(shí)達(dá)到了每秒 15,000+ tokens,但公司表示,在某些條件下內(nèi)部測(cè)試已接近 17000 tokens(Taalas 承認(rèn)其版本的 Llama3.1-8B 被“激進(jìn)”量化)。
然而,巨大的芯片面積僅容納了 80 億參數(shù)的模型,這與當(dāng)前萬(wàn)億參數(shù)的前沿模型相比顯得“容量有限”。這表明,為了實(shí)現(xiàn)極致的硬連線(xiàn)速度,Taalas 在單位面積的參數(shù)密度上做出了巨大妥協(xié),這也是該技術(shù)路線(xiàn)面臨的主要物理限制之一。
盡管參數(shù)密度不高,但 HC1 的性能表現(xiàn)極具顛覆性。官方數(shù)據(jù)顯示,相比現(xiàn)有的高端算力基礎(chǔ)設(shè)施,Taalas 方案的每秒 Token 生成數(shù)(TPS)提升了 10 倍,同時(shí)生產(chǎn)成本降低至 20 分之一。
為了解決單芯片容量不足的問(wèn)題,Taalas 采用了集群化擴(kuò)展策略。在針對(duì) DeepSeek R1 模型的測(cè)試中,通過(guò) 30 芯片的集群配置,實(shí)現(xiàn)了高達(dá) 12000 TPS / User 的吞吐速度(據(jù)公司稱(chēng),GPU 目前的技術(shù)約為每人每秒 200 個(gè) tokens)。這一數(shù)據(jù)意味著在實(shí)時(shí)交互和復(fù)雜推理任務(wù)中,用戶(hù)將獲得近乎零延遲的體驗(yàn)。
TPS 是衡量大語(yǔ)言模型生成速度的關(guān)鍵指標(biāo),代表模型每秒能輸出多少個(gè)文本單位(Token)。相當(dāng)于打字員的打字速度,TPS 越高,AI 回復(fù)得越快,用戶(hù)等待時(shí)間越短。
該媒體指出 Taalas 的技術(shù)路線(xiàn)雖然誘人,但商業(yè)模式面臨獨(dú)特挑戰(zhàn)。由于模型權(quán)重被“硬連線(xiàn)”在硅片中,芯片一旦制造完成便無(wú)法更改模型參數(shù)。
這意味著客戶(hù)必須為特定的模型版本(如 Llama 3.1 或 DeepSeek R1)購(gòu)買(mǎi)專(zhuān)用硬件,一旦算法迭代,硬件可能面臨淘汰風(fēng)險(xiǎn)。











