2 月 21 日消息,科技媒體 Wccftech 昨日(2 月 20 日)發布博文,報道稱 AI 芯片初創公司 Taalas 為解決大模型的延遲與成本難題,推出“硬連線”(Hard-wiring)技術,直接將 AI 模型固化在硅片中。
在 AI 算力競爭日益激烈的當下,延遲已成為制約智能體(Agentic)應用的核心瓶頸。不同于 Cerebras 或 Groq 試圖通過集成 SRAM 來加速的路徑,成立僅 2.5 年的初創公司 Taalas 選擇了更為激進的 ASIC(專用集成電路)路線。
援引博文介紹,該公司研發出一種能將任意 AI 模型轉化為定制硅片的平臺,其核心邏輯在于“融合計算與存儲”,直接將特定 LLM 的神經網絡映射到硅片電路中,在 DRAM 級密度下完成所有計算。
這種設計徹底摒棄了 HBM(高帶寬內存)、復雜封裝及昂貴的散熱系統,從物理層面消除了數據傳輸的“內存墻”障礙。
Taalas 已展示其首款產品 HC1,該芯片專為 meta 的 Llama 3.1 8B 模型設計。從技術規格來看,HC1 采用臺積電 6nm 工藝制造,芯片面積高達 815 mm²,這一尺寸幾乎與 NVIDIA 的 H100 相當。
Taalas 的在線聊天機器人演示在 EE Times 試用時達到了每秒 15,000+ tokens,但公司表示,在某些條件下內部測試已接近 17000 tokens(Taalas 承認其版本的 Llama3.1-8B 被“激進”量化)。
然而,巨大的芯片面積僅容納了 80 億參數的模型,這與當前萬億參數的前沿模型相比顯得“容量有限”。這表明,為了實現極致的硬連線速度,Taalas 在單位面積的參數密度上做出了巨大妥協,這也是該技術路線面臨的主要物理限制之一。
盡管參數密度不高,但 HC1 的性能表現極具顛覆性。官方數據顯示,相比現有的高端算力基礎設施,Taalas 方案的每秒 Token 生成數(TPS)提升了 10 倍,同時生產成本降低至 20 分之一。
為了解決單芯片容量不足的問題,Taalas 采用了集群化擴展策略。在針對 DeepSeek R1 模型的測試中,通過 30 芯片的集群配置,實現了高達 12000 TPS / User 的吞吐速度(據公司稱,GPU 目前的技術約為每人每秒 200 個 tokens)。這一數據意味著在實時交互和復雜推理任務中,用戶將獲得近乎零延遲的體驗。
TPS 是衡量大語言模型生成速度的關鍵指標,代表模型每秒能輸出多少個文本單位(Token)。相當于打字員的打字速度,TPS 越高,AI 回復得越快,用戶等待時間越短。
該媒體指出 Taalas 的技術路線雖然誘人,但商業模式面臨獨特挑戰。由于模型權重被“硬連線”在硅片中,芯片一旦制造完成便無法更改模型參數。
這意味著客戶必須為特定的模型版本(如 Llama 3.1 或 DeepSeek R1)購買專用硬件,一旦算法迭代,硬件可能面臨淘汰風險。












