硅谷的AI創(chuàng)業(yè)版圖迎來新變量:兩位分別來自谷歌與蘋果的頂尖科學(xué)家正聯(lián)手打造一家名為Elorian的初創(chuàng)企業(yè),其種子輪融資目標(biāo)直指5000萬美元,核心攻關(guān)方向直指下一代大模型的關(guān)鍵技術(shù)——視覺推理。
這家尚未正式亮相的公司,已因創(chuàng)始團(tuán)隊的背景引發(fā)資本圈高度關(guān)注。聯(lián)合創(chuàng)始人Andrew Dai在谷歌DeepMind效力14年,曾主導(dǎo)Gemini模型預(yù)訓(xùn)練數(shù)據(jù)工作,其學(xué)術(shù)履歷中與Jeff Dean、Quoc V. Le等AI泰斗合著的多篇論文,被視為GPT系列模型的重要理論基石。另一位聯(lián)合創(chuàng)始人Yinfei Yang則剛從蘋果離職,此前作為首席研究科學(xué)家參與自研AI模型開發(fā),在圖像-文本共嵌入領(lǐng)域擁有多項專利技術(shù)。
視覺推理技術(shù)被業(yè)界視為通向通用人工智能(AGI)的關(guān)鍵跳板。不同于當(dāng)前主流模型通過文本標(biāo)簽理解圖像的"補(bǔ)丁式"方案,Elorian計劃構(gòu)建原生多模態(tài)架構(gòu),使模型能直接通過視覺感知物理世界的邏輯關(guān)系。Andrew Dai在內(nèi)部研討中舉例:"未來機(jī)器人不應(yīng)僅識別'紅色按鈕',更要理解按下按鈕將引發(fā)何種機(jī)械連鎖反應(yīng)。"
資本對"谷歌系+蘋果系"的組合表現(xiàn)出極大熱情。據(jù)知情人士透露,前CRV合伙人Max Gazor創(chuàng)立的Striker Venture Partners正領(lǐng)投本輪融資,該基金去年10月成立后尚未有重大投資披露。投資界普遍認(rèn)為,這種技術(shù)基因的混合可能催生獨(dú)特優(yōu)勢:谷歌背景提供大規(guī)模訓(xùn)練基礎(chǔ)設(shè)施經(jīng)驗,蘋果背景則帶來產(chǎn)品化落地思維。
當(dāng)前大模型競爭已進(jìn)入新階段。OpenAI憑借ChatGPT贏得文本生成先機(jī)后,谷歌Gemini、Anthropic Claude等模型正加速補(bǔ)足多模態(tài)能力。Elorian選擇從視覺推理切入,試圖在垂直場景建立技術(shù)壁壘。其潛在應(yīng)用場景包括:自主操作復(fù)雜軟件系統(tǒng)的AI智能體、能理解三維空間的工業(yè)機(jī)器人、可處理多模態(tài)法律文件的智能助理等。
技術(shù)實現(xiàn)路徑上,團(tuán)隊正攻關(guān)三大挑戰(zhàn):如何構(gòu)建跨模態(tài)的統(tǒng)一表征空間、如何設(shè)計符合人類認(rèn)知的推理架構(gòu)、如何解決視覺數(shù)據(jù)中的長尾問題。Yinfei Yang在學(xué)術(shù)會議中透露,其團(tuán)隊已開發(fā)出新型注意力機(jī)制,可使模型在視覺問答任務(wù)中減少37%的錯誤率。
這場創(chuàng)業(yè)潮折射出硅谷人才流動的新趨勢。據(jù)LinkedIn數(shù)據(jù),2023年已有超過200名谷歌AI研究員離職創(chuàng)業(yè),其中15%選擇多模態(tài)方向。投資人開始將"團(tuán)隊血統(tǒng)"作為重要評估指標(biāo),認(rèn)為經(jīng)歷過完整技術(shù)周期的資深研究者更具突破可能性。正如某風(fēng)投機(jī)構(gòu)合伙人所言:"在算力軍備競賽中,真正稀缺的是能定義下一代技術(shù)范式的洞察力。"









