近日,播客應(yīng)用 Overcast 的開發(fā)者 Marco Arment 選擇自建一個由 48 臺 Mac mini 組成的服務(wù)器集群,來應(yīng)對云端 AI 服務(wù)所帶來的高昂成本。Arment 指出,使用云端 AI 服務(wù)進(jìn)行播客轉(zhuǎn)錄的費(fèi)用按次計(jì)費(fèi),隨著業(yè)務(wù)量的增加,每日支出可能高達(dá)數(shù)千美元,這讓他不得不尋求更加經(jīng)濟(jì)實(shí)惠的解決方案。
在這 48 臺 Mac mini 中,Arment 利用 Apple Silicon 芯片的能效和統(tǒng)一內(nèi)存的優(yōu)勢,運(yùn)行本地的語音識別模型,從而繞過了云端服務(wù)的高昂費(fèi)用。他認(rèn)為,盡管前期硬件投入較大,但后續(xù)的運(yùn)營成本更加可控且可預(yù)測,這樣一來就有效解決了隨著業(yè)務(wù)量線性增長而帶來的成本壓力。
從技術(shù)實(shí)現(xiàn)上來看,整個轉(zhuǎn)錄過程依靠后端的 Mac mini 集群,通過分布式架構(gòu)進(jìn)一步提升處理效率。Arment 還特別強(qiáng)調(diào)了蘋果芯片在執(zhí)行語音識別等推理任務(wù)中的優(yōu)越性能,尤其是在能效比和統(tǒng)一內(nèi)存方面的優(yōu)勢。
在播客分發(fā)過程中,動態(tài)廣告插入技術(shù)使得不同聽眾接收到的音頻存在差異,這增加了轉(zhuǎn)錄對齊的難度。為了克服這一挑戰(zhàn),Arment 采用了音頻指紋識別和去重技術(shù),系統(tǒng)能夠生成一份基準(zhǔn)轉(zhuǎn)錄文本并將其映射到多個版本上。這種方法不僅保證了轉(zhuǎn)錄的一致性,還避免了重復(fù)計(jì)算,進(jìn)一步提高了工作效率。
這一創(chuàng)新性的舉措不僅展示了開發(fā)者的技術(shù)能力,同時(shí)也為其他類似業(yè)務(wù)提供了新的思路,讓他們在面對高昂的云端服務(wù)費(fèi)用時(shí)找到更加可行的解決方案。
劃重點(diǎn):











