滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

阿里智能引擎團隊突破AI生圖速度極限：2步生成2K高清圖，5秒即現(xiàn)四張佳作

時間：2026-01-30 22:25:44 來源：天脈網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

在AI圖像生成領(lǐng)域，擴散模型因其出色的生成效果備受關(guān)注，但傳統(tǒng)模型生成速度慢的問題一直困擾著用戶。如今，阿里智能引擎團隊帶來了一項重大突破——僅需5秒，就能生成4張2K級高清大圖，將圖像生成效率提升到了全新高度。

針對Qwen最新開源模型，該團隊實現(xiàn)了SOTA壓縮水平的巨大飛躍，將原本需要80 - 100步前向計算才能完成的圖像生成，驟降至僅需2步，速度整整提升了40倍。以往像Qwen - Image生成一張圖片需要近一分鐘，現(xiàn)在眨眼間就能完成，大大節(jié)省了用戶的時間。

這一成果的背后，是團隊對傳統(tǒng)蒸餾方案的深入研究和創(chuàng)新改進(jìn)。早期的軌跡蒸餾方案，如Progressive Distillation和Consistency Distillation，主要思想是讓蒸餾后的學(xué)生模型（student model）模仿原模型（teacher model）在多步生成的路徑。但在實踐中，這類方法在低迭代步數(shù)下難以實現(xiàn)高質(zhì)量生成，生成的圖像模糊，尤其是對于一些細(xì)節(jié)部分，如文字、人物五官等，因占比低而學(xué)習(xí)不充分，導(dǎo)致學(xué)生模型的細(xì)節(jié)出現(xiàn)明顯扭曲。這是因為軌跡蒸餾直接對學(xué)生模型的生成樣本做約束，對所有圖像patch一視同仁，沒有突出細(xì)節(jié)部分的重要性。

為了解決這一問題，團隊將目光投向了基于概率空間的蒸餾方案。近期，這類方案在較少步數(shù)場景（4 - 8步）取得了巨大成功，其中DMD2算法最具影響力。DMD2將約束從樣本空間轉(zhuǎn)換到了概率空間，其Loss設(shè)計為典型的Reverse - KL蒸餾Loss。這種設(shè)計有一個顯著特性：當(dāng)學(xué)生模型生成的圖片不符合真實圖片分布時，Loss會爆炸。因此，DMD2算法的本質(zhì)是讓學(xué)生模型自己生成圖片，然后由教師模型指導(dǎo)哪里不對，而不是直接告訴學(xué)生模型應(yīng)該模仿什么。這種設(shè)計顯著提升了生成圖片的細(xì)節(jié)性和合理性，成為當(dāng)下擴散步數(shù)蒸餾的主要策略。

然而，Reverse - KL也存在一些問題，如mode - collapse和分布過于銳化，具體表現(xiàn)為多樣性降低、飽和度增加、形體增加等，在2步蒸餾的設(shè)定下這些問題尤為突出。為了緩解分布退化問題，團隊使用PCM蒸餾進(jìn)行模型熱啟動，給模型一個更合理的初始化。實驗表明，熱啟動后的模型的形體扭曲問題得到明顯改善。

雖然DMD2極大提升了方案的普適性，但它也有局限，即學(xué)生模型永遠(yuǎn)學(xué)習(xí)教師模型的生成分布，無法超越教師模型。同時，由于loss設(shè)計的問題，DMD2蒸餾在高質(zhì)量細(xì)節(jié)紋理（如苔蘚、動物毛發(fā)等）上生成的效果往往不盡如人意。為了增強2步學(xué)生模型在細(xì)節(jié)上的表現(xiàn)能力，團隊引入了對抗學(xué)習(xí)（GAN）來進(jìn)一步提升監(jiān)督效果。

GAN的Loss包括生成Loss和判別Loss，生成Loss是讓生成圖騙過判別器，判別Loss是區(qū)分真假圖。簡單來說，對抗訓(xùn)練一方面需要判別器盡可能判定學(xué)生模型生成的圖片為假，另一方面需要學(xué)生模型盡可能欺騙判別器。為了提升對抗訓(xùn)練的穩(wěn)定性和效果，團隊做了多項改進(jìn)，如采用真實數(shù)據(jù)混合策略，按固定比例混合高質(zhì)量真實數(shù)據(jù)和教師生成圖，提升泛化度和訓(xùn)練穩(wěn)定性；引入額外的DINO模型作為特征提取器，提供更魯棒的特征表示；增加對抗訓(xùn)練在loss中的占比。經(jīng)實驗驗證，增加對抗訓(xùn)練后，學(xué)生模型的畫面質(zhì)感和細(xì)節(jié)表現(xiàn)發(fā)生顯著提升。

目前，團隊已將相應(yīng)的Checkpoint發(fā)布至HuggingFace和ModelScope平臺，開發(fā)者可下載體驗。同時，該模型已經(jīng)集成到嗚哩AI平臺上，支持調(diào)用。盡管在大多數(shù)場景下Wuli - Qwen - Image - Turbo能夠和原模型比肩，但在一些復(fù)雜場景下，受限于去噪步數(shù)，仍存在可改進(jìn)空間。團隊表示，在后續(xù)的版本中將會持續(xù)發(fā)布速度更快、效果更好的生成模型，并迭代更多擴散加速技術(shù)，開源模型權(quán)重。

新聞稿寫道，Meta將構(gòu)建針對訓(xùn)練和推理進(jìn)行優(yōu)化的超大規(guī)模數(shù)據(jù)中心，以支持公司長期的AI基礎(chǔ)設(shè)施路線圖。兩家公司還在合作部署英偉達(dá)的Vera CPU，有望在2027年實現(xiàn)大規(guī)模部署，進(jìn)一步擴大Meta的節(jié)…

02-18

Meta深化與英偉達(dá)合作部署數(shù)百萬顆芯片推進(jìn)AI數(shù)據(jù)中心建設(shè)新進(jìn)程

當(dāng)?shù)貢r間周二公布的一份大規(guī)模新協(xié)議顯示，Meta 將在其人工智能數(shù)據(jù)中心中采用數(shù)百萬顆英偉達(dá)芯片，包括英偉達(dá)全新獨立 CPU 及下一代Vera Rubin 系統(tǒng)。獨立 CPU 是本次合作最大亮點：Met…

02-18

從訂票到政務(wù)查詢：人工智能“懂你所需”加速融入生活日常

02-18

蘋果加速布局AI可穿戴領(lǐng)域，智能眼鏡、胸針及AirPods新品蓄勢待發(fā)

02-18

谷歌跨平臺文件共享再升級：Pixel 9系列機型支持與蘋果設(shè)備隔空投送互傳

02-18

巴克萊報告：AI與機器人融合催生萬億市場中國引領(lǐng)部署潮流

02-18

蘋果今春更新播客應(yīng)用：支持原生視頻，創(chuàng)作者迎視頻廣告新機遇

02-18

馬斯克官宣Grok 4.2公開測試版上線，每周迭代更新迎新提升

02-18

抖音集團副總裁李亮發(fā)聲：字節(jié)并非恒指最大空頭，澄清市場誤解

02-18

阿里千問春節(jié)活動火爆：超1.3億人參與，AI訂單助力消費熱潮

02-18

禾賽科技“牽手”春晚宇樹機器人，JT128激光雷達(dá)助力機器人精準(zhǔn)感知

02-18

春晚“科技盛宴”：機器人與AI齊舞，豆包引領(lǐng)AI新潮流

02-18

馬年春晚機器人成焦點！從武術(shù)到互動，AI深度融入，多款產(chǎn)品被搶空

宇樹科技創(chuàng)始人王興興告訴央視新聞記者，今年機器人在快速奔跑中完成了穿插變陣和武術(shù)動作，這種高動態(tài)、高協(xié)同的集群控制技術(shù)是全球首次亮相，“這個動作非常實用，為后續(xù)機器人在其他場景集群或單臺機器人調(diào)度做好了鋪墊…

02-18

蘋果加速布局AI可穿戴領(lǐng)域，智能眼鏡等多款新品或2026年起陸續(xù)登場

IT之家 2 月 18 日消息，據(jù)彭博社報道，蘋果正在加速研發(fā)三款 AI 可穿戴設(shè)備，包括 AI 智能眼鏡、AI 穿戴式胸針 / 吊墜，以及AI 版 AirPods。盡管 Siri 相關(guān)功能有所延期，Ap…

02-18

谷歌發(fā)力跨平臺文件分享：Pixel 9系列將支持與iPhone隔空投送互傳文件

IT之家 2 月 18 日消息，谷歌正在將其跨平臺文件分享功能擴展到更多安卓設(shè)備，允許這些設(shè)備通過隔空投送（AirDrop）協(xié)議向 iPhone傳輸文件。借助隔空投送互通能力，Pixel 9 和 Pixe…

02-18

點擊查看更多 +

全站最新

2026款豐田RAV4部分版本支持蘋果數(shù)字車鑰匙，需訂閱服務(wù)且月費15美元起

2026款豐田RAV4適配蘋果錢包數(shù)字車鑰匙需訂閱服務(wù)且每月15美元起

突破1億用戶的韓束，用23年"長期主義"構(gòu)筑世界級美妝品牌

寶華韋健Px7S2e、Apple Watch 10、科大訊飛Air 2：哪款智能設(shè)備才是你的心頭好？

科大訊飛2025年成績亮眼：經(jīng)營回款超270億，多領(lǐng)域突破，2026年戰(zhàn)略明確

新質(zhì)生產(chǎn)力崛起：AI、算力、國產(chǎn)芯片三大科技賽道龍頭公司風(fēng)采盡顯

熱門內(nèi)容

本欄最新

寶華韋健Px7S2e、Apple Watch 10、科大訊飛Air 2：哪款智能設(shè)備才是你的心頭好？

科大訊飛2025年成績亮眼：經(jīng)營回款超270億，多領(lǐng)域突破，2026年戰(zhàn)略明確

新質(zhì)生產(chǎn)力崛起：AI、算力、國產(chǎn)芯片三大科技賽道龍頭公司風(fēng)采盡顯

職場與學(xué)術(shù)會議新搭檔！科大訊飛AI耳機智能降噪翻譯，高效溝通就選它

春晚機器人“轉(zhuǎn)場”京東MALL！大年初一與市民共慶新春引熱潮

北京AI競技場：光景、百度、第四范式如何筑牢“可靠”護(hù)城河？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

阿里智能引擎團隊突破AI生圖速度極限：2步生成2K高清圖，5秒即現(xiàn)四張佳作