由開源推理引擎vLLM核心團隊創立的AI基礎設施企業Inferact,近日宣布完成1.5億美元種子輪融資,投后估值達8億美元。本輪融資由a16z與Lightspeed聯合領投,真格基金、紅杉資本、Altimeter Capital及Redpoint Ventures等機構參與跟投。
作為全球最具影響力的開源推理引擎之一,vLLM已支持超過500種模型架構,適配200余類硬件加速器,meta、谷歌、Character.ai等科技企業均已將其應用于生產環境。該項目在GitHub社區擁有超2000名貢獻者,長期保持同類項目活躍度前列,為Inferact的成立奠定了堅實基礎。
Inferact核心團隊均來自vLLM核心開發陣營。首席執行官Simon Mo作為vLLM原始維護者,畢業于加州大學伯克利分校電氣工程與計算機科學系,專注于機器學習系統設計,此前在AI基礎設施公司Anyscale積累了豐富的工程落地經驗。
聯合創始人Woosuk Kwon是vLLM項目發起人,擁有伯克利計算機科學博士學位,師從Databricks聯合創始人Ion Stoica教授。他提出的Paged Attention算法通過優化KV Cache顯存效率,成為提升vLLM吞吐性能的關鍵技術突破。
首席科學家游凱超曾獲清華大學特等獎學金,并在伯克利EECS系擔任訪問學者。他主導開發的分布式推理功能,通過優化張量并行與PyTorch生態接口,顯著降低了多卡環境下大模型推理的開發門檻,使系統穩定性得到質的提升。
團隊技術陣容還包括前Roblox高級機器學習工程師Roger Wang,以及以深度顧問形式參與項目的Ion Stoica教授與伯克利計算機科學教授Joseph Gonzalez。這種產學研結合的架構,為技術突破與商業落地提供了雙重保障。
據Inferact官方聲明,公司將繼續以獨立開源項目形式維護vLLM,所有技術改進均會回饋社區。同時,團隊將重點構建跨硬件平臺的推理基礎設施,通過優化資源調度與能耗管理,幫助企業降低AI模型部署與運營成本。目前,其技術方案已實現單服務器每秒處理數萬token的推理能力,在長文本生成場景中表現尤為突出。







