在數(shù)字化浪潮中,企業(yè)每天產(chǎn)生的視頻數(shù)據(jù)呈爆炸式增長,但這些海量視頻中,真正被有效利用的卻少之又少。大量未被處理的視頻數(shù)據(jù)如同沉睡的寶藏,被業(yè)界稱為“暗數(shù)據(jù)”。如何將這些PB級的視頻數(shù)據(jù)轉(zhuǎn)化為有價值的數(shù)字資產(chǎn),成為視頻AI領域亟待攻克的新課題。
近日,一家專注于視頻AI的初創(chuàng)公司InfiniMind宣布完成580萬美元種子輪融資,為這一難題提供了新的解決方案。這家總部位于日本東京的公司由兩位前谷歌員工創(chuàng)立,旨在通過構建創(chuàng)新基礎設施,幫助企業(yè)無需編寫代碼即可將PB級閑置視頻和音頻資產(chǎn)轉(zhuǎn)化為結構化數(shù)據(jù),支持快速查詢和分析,應用于監(jiān)控、安全及內(nèi)容深度分析等領域。
本輪融資由亞洲知名深度科技風投公司UTEC領投,CX2(Cox Exponential)、Headline Asia Ventures、Chiba Dojo以及一位來自a16z Scout的人工智能研究員參與跟投。這筆資金將用于加速Deepframe模型的開發(fā)、擴展PB級視頻處理的工程基礎設施、招聘工程師以及拓展日本和美國市場。
在互聯(lián)網(wǎng)數(shù)據(jù)中,視頻數(shù)據(jù)占比超過80%,但現(xiàn)有工具難以有效分析和利用這些數(shù)據(jù)。企業(yè)積累的視頻素材包括數(shù)十年歷史的廣播節(jié)目存檔、工廠全天候監(jiān)控錄像、零售監(jiān)控視頻以及無人機和衛(wèi)星圖像等。盡管云服務廠商能檢測到人或車輛等目標,但僅限于簡單標記,缺乏對上下文的理解。新一代視頻AI模型雖能處理視頻內(nèi)容,但處理時長有限,開源方案也僅能應對數(shù)小時的視頻,無法滿足企業(yè)數(shù)天、數(shù)周甚至數(shù)年的視頻分析需求。
InfiniMind聯(lián)合創(chuàng)始人兼CEO Aza Kai表示:“在谷歌工作時,我們發(fā)現(xiàn)客戶擁有PB級視頻數(shù)據(jù),卻無法從中獲取有效信息。他們提出的問題看似簡單,卻找不到答案。這促使我們思考如何整合視覺、音頻和語音理解功能,將視頻轉(zhuǎn)化為結構化數(shù)據(jù)。”
InfiniMind的解決方案是通過構建視頻理解基礎設施,將視頻轉(zhuǎn)化為結構化企業(yè)數(shù)據(jù)。其技術能夠關聯(lián)不同事件,理解垂直行業(yè)中長視頻內(nèi)容的事件因果關系,將目標素材轉(zhuǎn)化為可搜索、可操作的數(shù)據(jù),形成可查詢的知識庫,支持企業(yè)商業(yè)智能工具的直接集成。
2025年4月,InfiniMind推出了首款AI引擎產(chǎn)品TVPulse。該產(chǎn)品利用AI分析技術,實現(xiàn)對海量電視廣播數(shù)據(jù)的精確逐秒搜索,幫助媒體和零售公司追蹤產(chǎn)品曝光度、品牌影響力、市場分析、競品活動監(jiān)測及風險管理等。目前,TVPulse已為批發(fā)商和媒體行業(yè)的付費企業(yè)客戶提供服務,累計分析內(nèi)容超過10萬小時。
InfiniMind的旗艦產(chǎn)品Deepframe則專注于長視頻理解,能夠處理200小時的視頻和音頻素材,精確定位特定場景、演講者或事件。該產(chǎn)品計劃于今年3月進行測試,4月正式發(fā)布。與現(xiàn)有方法孤立分析片段不同,Deepframe以統(tǒng)一數(shù)據(jù)流方式處理視頻、語音和環(huán)境音頻,追蹤長視頻中的因果關系。例如,在安全事件場景中,它能檢測完整敘事:誰進入現(xiàn)場、接觸了什么、去了哪里以及最終發(fā)生了什么。
與TwelveLabs等提供通用視頻分析API的公司不同,InfiniMind專注于企業(yè)部署,通過虛擬私有云(VPC)和本地部署滿足數(shù)據(jù)主權要求,解決許多組織采用云端AI時的障礙。Deepframe還包含微調(diào)工廠,可生產(chǎn)多種行業(yè)專用模型,幫助客戶在成本、精度和速度之間實現(xiàn)最優(yōu)平衡。
InfiniMind的兩位聯(lián)合創(chuàng)始人Aza Kai和Hiraku Yanagita在谷歌有近10年的合作經(jīng)驗。Aza Kai擁有9年以上工程經(jīng)驗,曾從事數(shù)據(jù)科學、機器學習和云基礎設施工作,設計大規(guī)模機器學習解決方案并領導亞太地區(qū)數(shù)據(jù)科學團隊。Hiraku Yanagita則在谷歌日本擁有10年以上數(shù)字營銷經(jīng)驗,專注于品牌和數(shù)據(jù)解決方案,為企業(yè)客戶提供深入分析服務。
他們早在谷歌工作時便注意到技術發(fā)展的可能性。2021年至2023年,隨著視覺語言模型的進步,視頻AI開始超越簡單物體標記。“過去10年,GPU成本下降和性能提升固然重要,但模型能力的提升才是關鍵。”Aza Kai表示。2024年,技術成熟且市場需求明確,兩人決定創(chuàng)立InfiniMind(曾用名SDio),分別擔任CEO和COO。目前,公司在東京有10余名員工,并與東京大學的研究合作者共同推進模型評估和視頻理解基準測試。
憑借技術創(chuàng)新,InfiniMind入選了多個知名項目,包括AWS生成式人工智能加速器(GAIA 2025)、日本經(jīng)濟產(chǎn)業(yè)省的生成式人工智能挑戰(zhàn)計劃(GENIAC)、NVIDIA Inception計劃以及Google for Startups云計劃。公司計劃將總部遷至美國,同時保留日本辦公室,以進一步拓展全球市場。










