在AI芯片領域,一場顛覆性的變革正在悄然發生。一家名為Taalas的初創公司,以一種近乎“激進”的方式,將專用化芯片設計推向了新的高度。該公司推出的首款推理芯片HC1,將meta的Llama 3.1 8B大語言模型幾乎完整地“刻入”了硅片,實現了單用戶場景下高達17,000 tokens/s的輸出速度,這一性能是當前市場上最快競品Cerebras的近9倍,更是Nvidia Blackwell架構GPU的近50倍。與此同時,HC1的構建成本僅為同等GPU方案的二十分之一,功耗更是低了一個數量級。
HC1的突破性設計,源于其對傳統GPU架構的徹底顛覆。在GPU中,計算單元與存儲單元是分離的,模型參數存儲在HBM中,計算核心每次運算都需要從HBM搬運數據,這一過程不僅消耗大量能量,還增加了時間成本。而Taalas則采用了全面專用化、存算合一的設計思路,通過Mask ROM工藝將模型權重直接編碼在芯片的金屬互連層中,與計算邏輯共存于同一塊硅片上,從而徹底消除了數據搬運的瓶頸。
這種設計雖然帶來了極高的性能提升,但也意味著芯片的靈活性幾乎為零。HC1只能運行Llama 3.1 8B模型,若要更換模型,則需重新設計并制造芯片。這種極端專用化的策略,無疑是對AI芯片行業傳統設計思路的一次大膽挑戰。然而,Taalas的CEO Ljubisa Bajic卻對此充滿信心。他認為,隨著AI模型的成熟和穩定,總有一些模型會在實際業務中被長期使用,對于這些模型,專用化芯片將具有無可比擬的優勢。
Bajic的信心并非空穴來風。HC1基于臺積電N6工藝制造,芯片面積815 mm2,單顆芯片即可容納完整的8B參數模型。其功耗約250W,10塊HC1板卡裝進一臺服務器總功耗約2.5 kW,可在標準風冷機架中運行,這與動輒數十千瓦、必須依賴液冷的GPU服務器形成了鮮明對比。Taalas還借鑒了結構化ASIC的設計思路,通過固化門陣列和硬化IP模塊,只修改互連層來適配不同模型,從而大大縮短了芯片定制周期。據Bajic透露,從拿到一個新模型到生成RTL,大約只需要一周的工程工作量,整個從模型到芯片的周期目標為兩個月。
這種快速周轉的能力,使得Taalas能夠在模型被驗證有效且用戶粘性足夠高時,迅速為其制造專用硅片,以遠低于GPU的成本和功耗提供推理服務。然而,這種模式也要求客戶對某個特定模型做出至少一年的承諾。對于這一要求,Bajic認為,雖然會有很多人不愿意,但總會有一些人愿意為了性能和成本的優勢而接受。
除了Llama 3.1 8B模型外,Taalas還展示了其對更大模型的支持能力。據模擬數據顯示,671B參數的DeepSeek R1模型需要大約30顆HC1芯片協同工作,每顆芯片承載約20B參數。這套30芯片系統在DeepSeek R1上可以達到約12,000 tokens/s/user的輸出速度,而當前GPU的最優水平大約在200 tokens/s/user。同時,推理成本約7.6美分/百萬token,不到GPU吞吐優化方案的一半。
然而,這些數字目前還停留在模擬階段。實際多芯片系統面臨的互聯、同步、良率等工程挑戰不容小覷。HC1使用了自定義的3-bit基礎數據類型進行激進量化,這可能會帶來相對于標準量化模型的質量損失。對此,Taalas并未回避,并表示其第二代硅平臺HC2將采用標準4-bit浮點格式以改善這一問題。
在商業模式上,Taalas仍在摸索之中。公司副總裁Paresh Kharya透露了幾種可能的方向:自建基礎設施運行開源模型并提供API推理服務;直接向客戶出售芯片;或者與模型開發者合作,為他們的模型定制專用芯片供其自有推理基礎設施使用。哪種模式最終能跑通,將取決于市場對這種極端專用化方案的接受程度。
盡管面臨諸多挑戰和不確定性,但Taalas的方案無疑觸及了一個被主流路線忽略的設計空間。通過將權重以Mask ROM形式與計算邏輯同層集成,Taalas從根本上消除了存算分離帶來的帶寬墻問題。雖然這種設計以靈活性的徹底喪失為代價,但在允許這種剛性的應用場景中,其換來的性能和成本優勢卻是實打實的。硬接線芯片還帶來了軟件棧的極度簡化,進一步降低了系統的復雜性和成本。










