在數字化浪潮中,企業每日生成的視頻數據量呈爆炸式增長,然而這些海量視頻中真正被有效利用的部分卻少之又少。如何將服務器中堆積如山的“暗數據”轉化為有價值的數字資產,已成為視頻人工智能領域亟待攻克的新課題。近日,一家名為InfiniMind的日本初創公司憑借其創新技術,為這一難題提供了全新解決方案。
InfiniMind由兩位前谷歌資深員工聯合創立,總部位于東京,專注于構建視頻理解基礎設施。該公司宣布完成580萬美元種子輪融資,由亞洲知名深度科技風投機構UTEC領投,CX2、Headline Asia Ventures、Chiba Dojo及一位來自a16z Scout的人工智能研究員參與跟投。這筆資金將用于深化核心技術研發、擴展工程基礎設施、招募頂尖人才以及開拓日美市場。
企業視頻數據面臨的核心挑戰在于,現有工具僅能處理片段化信息,無法捕捉長視頻中的完整敘事。例如,云服務廠商雖能識別視頻中的人或車輛,但無法理解事件間的因果關系;新一代視頻AI模型雖能處理內容,卻受限于時長,難以應對企業數天、數周甚至數年的監控錄像需求。InfiniMind聯合創始人兼CEO Aza Kai指出:“客戶擁有PB級視頻數據,卻無法從中獲取簡單問題的答案,這促使我們開發能整合視覺、音頻及語音信息的解決方案。”
InfiniMind的核心技術通過統一數據流處理視頻、語音和環境音頻,構建結構化企業數據庫。其首款產品TVPulse已于2025年4月發布,專注于電視廣播數據分析,可實現逐秒搜索,幫助媒體和零售企業追蹤產品曝光、品牌影響力及競品動態。目前,該產品已服務多家批發商和媒體機構,累計分析內容超10萬小時。另一旗艦產品Deepframe則瞄準長視頻處理,支持200小時素材的深度分析,能精確定位特定場景、演講者或事件,并追蹤事件因果鏈。例如,在安全場景中,系統不僅檢測人員或車輛,還能還原“誰進入現場、接觸了什么、去了哪里及最終結果”的完整敘事。
與通用型視頻分析API不同,InfiniMind專注企業級部署,提供虛擬私有云(VPC)和本地化解決方案,滿足數據主權要求,消除企業采用云端AI的顧慮。Deepframe內置微調工廠,可根據行業需求生成定制化模型,幫助客戶在成本、精度和速度間找到最優平衡。這一特性使其在媒體、零售、制造及安防等領域具有廣泛適用性。
兩位創始人Aza Kai與Hiraku Yanagita在谷歌共事近十年,積累了深厚的技術與商業經驗。Aza Kai曾領導亞太地區數據科學團隊,設計大規模機器學習解決方案;Hiraku Yanagita則專注于品牌與數據解決方案,為企業客戶提供深度分析服務。他們觀察到,2021年至2023年間,視覺語言模型的進步使視頻AI超越簡單物體標記,而GPU成本下降和性能提升進一步推動了技術落地。2024年,技術成熟與市場需求明確化促使他們創立InfiniMind,致力于將視頻轉化為可查詢的知識庫。
目前,InfiniMind團隊規模超10人,并與東京大學研究團隊展開合作,共同推進模型評估與視頻理解基準測試。公司已入選AWS生成式人工智能加速器、日本經濟產業省生成式AI挑戰計劃、NVIDIA Inception計劃及Google for Startups云計劃,技術實力獲行業廣泛認可。為加速全球化布局,InfiniMind計劃將總部遷至美國,同時保留日本辦公室,持續拓展日美客戶群體。











