近日,科技領(lǐng)域傳來一項(xiàng)突破性進(jìn)展:開發(fā)者丹·伍茲在一臺(tái)配備M3 Max芯片和48GB統(tǒng)一內(nèi)存的MacBook Pro上,成功運(yùn)行了規(guī)模達(dá)209GB的Qwen3.5-397B人工智能模型。這一模型通常僅能在數(shù)據(jù)中心部署,而此次在消費(fèi)級(jí)設(shè)備上的運(yùn)行速度超過每秒5.5個(gè)Token,標(biāo)志著移動(dòng)端AI計(jì)算能力的新里程碑。
該模型原始文件占用磁盤空間約209GB,經(jīng)壓縮后仍需120GB存儲(chǔ)空間。傳統(tǒng)方案需將數(shù)百億參數(shù)完全加載至高速內(nèi)存,這對(duì)普通筆記本電腦而言幾乎不可能實(shí)現(xiàn)。伍茲通過創(chuàng)新技術(shù)突破了這一物理限制,其核心思路源于蘋果2023年發(fā)表的《閃存中的大語言模型》研究論文。該方案創(chuàng)造性地將模型參數(shù)存儲(chǔ)在NVMe固態(tài)硬盤中,通過推理成本模型動(dòng)態(tài)調(diào)度數(shù)據(jù),以更高效的數(shù)據(jù)塊形式按需傳輸至內(nèi)存。
蘋果芯片的統(tǒng)一內(nèi)存架構(gòu)在此過程中發(fā)揮關(guān)鍵作用。這種設(shè)計(jì)消除了CPU、GPU與內(nèi)存之間的傳統(tǒng)壁壘,使三者能夠深度協(xié)同工作。伍茲特別指出,M3 Max芯片的硬件特性為數(shù)據(jù)傳輸和計(jì)算任務(wù)分配提供了理想基礎(chǔ),這是方案得以落地的技術(shù)前提。
模型架構(gòu)優(yōu)化同樣功不可沒。Qwen3.5-397B采用的混合專家(MoE)機(jī)制,在生成每個(gè)Token時(shí)僅激活部分參數(shù)。伍茲將每次激活的"專家"數(shù)量從10個(gè)減少至4個(gè),這一調(diào)整顯著降低了內(nèi)存需求。開發(fā)者西蒙·威利森分析認(rèn)為,這種取舍策略在保持模型核心性能的同時(shí),使活躍權(quán)重可直接從閃存讀取,實(shí)現(xiàn)了計(jì)算效率與資源占用的平衡。
在代碼實(shí)現(xiàn)環(huán)節(jié),伍茲采用自動(dòng)化研究模式,將蘋果論文輸入AI編程助手Claude Code,經(jīng)過90次實(shí)驗(yàn)迭代,最終生成針對(duì)蘋果芯片優(yōu)化的MLX Objective-C和metal代碼。這些底層計(jì)算語言直接運(yùn)行在硬件層面,充分釋放了設(shè)備潛能。目前,該項(xiàng)目的技術(shù)細(xì)節(jié)與測(cè)試數(shù)據(jù)已在開源平臺(tái)GitHub完整公開,供全球開發(fā)者參考研究。








