香港中文大學(xué)與字節(jié)跳動聯(lián)合研發(fā)的UniGRPO框架在人工智能圖像生成領(lǐng)域引發(fā)廣泛關(guān)注。這項(xiàng)突破性技術(shù)通過模擬人類藝術(shù)家的創(chuàng)作思維,使AI系統(tǒng)能夠先進(jìn)行創(chuàng)意構(gòu)思再生成圖像,徹底改變了傳統(tǒng)AI圖像生成"機(jī)械執(zhí)行指令"的模式。研究團(tuán)隊(duì)在arXiv平臺發(fā)布的論文顯示,該框架在復(fù)雜構(gòu)圖理解、創(chuàng)意表達(dá)等關(guān)鍵指標(biāo)上達(dá)到人類水平,為AI輔助創(chuàng)作開辟了全新路徑。
傳統(tǒng)圖像生成AI如同流水線工人,當(dāng)用戶輸入"畫一只貓"時(shí),系統(tǒng)會直接調(diào)用訓(xùn)練數(shù)據(jù)生成圖像,缺乏對創(chuàng)作背景、風(fēng)格、情感等要素的思考。而UniGRPO框架通過構(gòu)建"思考-創(chuàng)作"雙階段模型,使AI能夠像專業(yè)畫家一樣進(jìn)行創(chuàng)意推演。例如面對"戴帽子的貓"這一指令,系統(tǒng)會自主分析帽子款式、貓咪姿態(tài)、畫面構(gòu)圖等要素,最終生成具有獨(dú)特風(fēng)格的完整作品。這種思維模式的引入,使AI生成的圖像在創(chuàng)意性和藝術(shù)性上實(shí)現(xiàn)質(zhì)的飛躍。
研究團(tuán)隊(duì)設(shè)計(jì)的群體相對策略優(yōu)化(GRPO)訓(xùn)練機(jī)制是該框架的核心創(chuàng)新。通過組織24個(gè)AI模型同時(shí)進(jìn)行創(chuàng)作競賽,系統(tǒng)根據(jù)作品在群體中的相對表現(xiàn)進(jìn)行獎懲。這種訓(xùn)練方式模擬了人類藝術(shù)評價(jià)中的比較思維,促使AI不斷優(yōu)化創(chuàng)作策略。實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過GRPO訓(xùn)練的模型在文本對齊測試中取得0.8381分,在復(fù)雜構(gòu)圖測試中達(dá)到0.90分,顯著優(yōu)于傳統(tǒng)強(qiáng)化學(xué)習(xí)方法。
針對AI訓(xùn)練中的"獎勵欺騙"難題,研究團(tuán)隊(duì)提出兩項(xiàng)關(guān)鍵技術(shù)改進(jìn)。首先取消分類器自由引導(dǎo)機(jī)制,采用線性訓(xùn)練流程減少計(jì)算復(fù)雜度,防止AI通過復(fù)雜分支路徑尋找作弊策略。其次引入速度場均方誤差懲罰機(jī)制,通過實(shí)時(shí)監(jiān)測創(chuàng)作動作的規(guī)范性,確保AI始終沿著正確方向優(yōu)化。這些改進(jìn)使訓(xùn)練效率提升40%,同時(shí)將異常圖像生成率降低至3%以下。
在實(shí)戰(zhàn)測試中,UniGRPO框架展現(xiàn)出強(qiáng)大的場景理解能力。面對"草地上老虎追趕兩只羊"的復(fù)雜指令,系統(tǒng)不僅準(zhǔn)確呈現(xiàn)動態(tài)關(guān)系,還通過大小對比突出主體層次。在"云朵形狀茶壺"等抽象創(chuàng)意測試中,AI能夠自主分解設(shè)計(jì)要素,生成兼具實(shí)用性與藝術(shù)性的作品。更令人驚喜的是,系統(tǒng)在失敗案例中仍能保持部分正確性,如將"六只茶杯排成三角形"誤繪為矩形時(shí),仍能確保數(shù)量準(zhǔn)確和排列整齊。
該技術(shù)的突破性在于構(gòu)建了可解釋的創(chuàng)作思維鏈。通過分析AI的中間思考過程,研究團(tuán)隊(duì)發(fā)現(xiàn)系統(tǒng)會自主進(jìn)行問題分解、要素分析和方案選擇。例如處理"蒙娜麗莎素描版"指令時(shí),AI會先理解原作特征,再分析素描技法要求,最后整合創(chuàng)作方案。這種邏輯推演能力使AI創(chuàng)作從模式匹配升級為真正的創(chuàng)意生成。
目前,研究團(tuán)隊(duì)正在探索多輪對話創(chuàng)作模式,計(jì)劃讓AI能夠根據(jù)用戶反饋持續(xù)優(yōu)化作品。在技術(shù)擴(kuò)展方面,該框架已初步應(yīng)用于視頻生成領(lǐng)域,通過將思維鏈分解為關(guān)鍵幀序列,實(shí)現(xiàn)故事性內(nèi)容的自動創(chuàng)作。這項(xiàng)成果不僅為專業(yè)設(shè)計(jì)師提供智能輔助工具,更可能重塑普通用戶的數(shù)字創(chuàng)作方式,開啟人機(jī)協(xié)同創(chuàng)作的新紀(jì)元。









