岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear科技資訊
手機版
二維碼
內容搜索
無障礙通道
語言：中文 EN

ITBear旗下自媒體矩陣：

滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

阿里千問發布DeepPlanning基準測試，頂尖AI模型規劃能力尚存提升空間

時間：2026-01-31 04:35:02 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

阿里千問團隊近日宣布推出一項名為DeepPlanning的新型AI基準測試，旨在評估智能體在復雜現實場景中的全局規劃能力。該測試突破傳統推理任務的局限，要求AI系統在制定計劃時必須統籌兼顧多個約束條件，而非僅關注局部最優解。

以多日旅行規劃為例，AI需在時間、預算等硬性限制下，精確安排每項活動的時間節點，誤差需控制在分鐘級別。在電商購物場景中，系統要能自動組合商品、疊加優惠券，并動態調整方案以達到滿減條件，實現總價最低。這些約束條件需貫穿整個規劃過程，而非僅在特定步驟滿足要求。

基準測試結果顯示，當前主流大模型在處理復雜規劃任務時仍存在明顯不足。包括GPT-5.2、Claude 4.5、Gemini和Qwen 3在內的頂尖模型，在全局優化和長周期一致性方面表現欠佳，距離實現完全自主決策仍有差距。測試數據表明，這些模型在處理需要多維度權衡的復雜場景時，往往難以保持計劃的整體連貫性。

為推動該領域研究發展，阿里千問團隊已將DeepPlanning基準測試完全開源。研究人員可通過Hugging Face平臺（https://huggingface.co/datasets/Qwen/DeepPlanning）和魔搭社區（https://www.modelscope.cn/datasets/Qwen/DeepPlanning）獲取完整數據集，包含多種復雜規劃場景的測試用例及評估標準。這一舉措將為AI規劃能力的研究提供標準化評估框架，促進相關技術的迭代升級。

更多>同類資訊

字節Seedance 2.0內測引爭議緊急調整暫禁真人人臉視頻輸入

北京航空航天大學人工智能研究院教授沙磊評價說，現在Seedance 2.0還在小范圍內測階段，字節也限制了一部分模型功能，比如只有在進行活體認證的情況下可以生成真人視頻，不支持輸入真人圖片或視頻做主體參考等…

02-11

阿里達摩院發布RynnBrain并開源全系列模型助力機器人邁向通用具身智能新階段

RynnBrain首次讓機器人擁有時空記憶和空間推理能力，智能水平實現大幅躍升，在16項具身開源評測榜單上刷新紀錄（SOTA），超越谷歌GeminiRobotics ER 1.5等行業頂尖模型。達摩院具身…

02-11

字節Seedream 5.0 Preview上線：能力升級，實用導向下技術瓶頸待突破

智東西實際體驗并對比了Seedream 5.0 Preview與Nano Banana Pro、Seedream4.5，發現新模型可以理解“靜謐科技感”等抽象提示詞，但最后的生成效果相比Seedream …

02-11

阿里達摩院發布RynnBrain模型：機器人具備時空記憶，具身智能邁關鍵一步

鳳凰網科技訊 2月10日，阿里巴巴達摩院發布具身智能大腦基礎模型RynnBrain，并一次性開源了包括30B MoE在內的7個全系列模型。該模型首次為機器人引入時空記憶與物理空間推理能力，使其能夠在執行任務過…

02-11

阿里達摩院發布RynnBrain模型，為具身智能產業化落地按下“加速鍵”

達摩院具身智能實驗室負責人趙德麗指出，RynnBrain首次實現了大腦對物理世界的深度理解與可靠規劃，為大小腦分層架構下的通用具身智能邁出關鍵一步。雖然當前這一領域仍面臨著真實物理反饋數據稀缺、非結構化環…

02-11

阿里千問Qwen-Image-2.0來襲：文字渲染精準，真實質感細膩，編輯生圖二合一

這是一幅中國風手繪風格的杭州兩日禪意人文之旅行程導覽雙語海報，整體采用淡雅米黃色仿古宣紙背景，四角飾有傳統回紋邊框；畫面中央以一條飄逸的云紋卷軸絲帶貫穿連接兩天行程，上方大標題為“杭州· 兩日禪意人文之…

02-11

阿里Qwen-Image-2.0圖像模型發布：支持千字輸出，與字節Seedream5.0正面對決

新京報貝殼財經訊（記者羅亦丹）2月10日，阿里巴巴正式發布新一代圖像生成及編輯模型Qwen-Image-2.0。在模型評分方面，作為千問大模型的圖像生成模型底座，Qwen-Image-2.0集生圖和編輯于一…

02-11

百度深夜“不熄燈”：“O計劃”底層架構重組，AI化升級引領行業新跨越

不跟風營銷、不浮躁造勢，而是把資源和精力投在最核心的技術創新上，這正是大廠該有的戰略定力。百度在AI領域的布局一直非常靠前，這一次同樣不例外。百度這一次用行動證明，真正的大廠競爭力，從來不在營銷聲勢里，而在…

02-11

阿里Qwen-Image 2.0強勢登場，圖像生成領域再掀創新浪潮

千問視覺生成負責人吳晨飛在采訪中談道，Qwen-Image項目2025年5月份項目才立項，去年8月份發布首款模型，此后主要圍繞生圖和編輯兩個支線迭代模型，而Qwen-Image 2.0則把生圖和編輯兩個能力…

02-11

字節跳動Seedance2.0來襲：AI視頻創作門檻大降，行業底層邏輯將被改寫？

一方面，這個模型的能力太能打了：不用再費勁拆解工作流，普通人一句話、一張圖就能直接出片，生成成功率90%以上，根本不需要Agent來做流程優化；另一方面，所有人都想搶著用Seedance 2.0，短期之內根…

02-11

千問“接管”生活：阿里AI戰略如何引領消費變革與產業升級新潮

當幾十上百萬用戶，同時讓千問幫忙點一杯奶茶，AI需要同時進行海量的需求理解、比價、支付等復雜推演，算力消耗指數級增長，哪怕是扛住了多年雙十一流量暴擊的阿里，也開始感到吃力。具體看阿里，千問完成越多送奶茶、…

02-11

AI視頻賽道激戰正酣：小紅書OpenStoryline與字節Seedance2.0誰將領跑？

當前，AI視頻生成與剪輯賽道正成為國內外科技公司競逐的新熱點，谷歌、Meta、字節跳動等大廠，均在積極布局，小紅書作為以圖文和短視頻內容為主的社區平臺，切入AI剪輯工具是為創作者賦能的重要一步；而字節跳動則…

02-11

京東無錫智能機器人產業基地揭牌政企攜手共繪機器人產業生態新藍圖

依托無錫的制造業根基，鏈接北京、上海、深圳等地的人工智能創新資源，導入京東的生態戰投資源與內采需求，這座總用地約1000畝的產業基地，將逐步打造成為長三角機器人智造產業高地、國家級應用場景示范基地和全球性人工…

02-11

阿里云通過ICANN技術評估國內首家獲頂級域名全鏈路服務能力認證

IT之家 2 月 10日消息，阿里云今日發布公告，宣布通過互聯網名稱與數字地址分配機構（ICANN）全面技術評估，成為中國首家具備頂級域名全鏈路服務能力的云服務商。阿里云介紹稱，該認證使阿里云可為用戶提供…

02-11

字節Seedance 2.0開啟內測，多舉措限制真人素材防AI技術濫用

北京航空航天大學人工智能研究院教授沙磊評價稱，現在Seedance 2.0還在小范圍內測階段，字節也限制了一部分模型功能，比如只有在進行活體認證的情況下可以生成真人視頻，不支持輸入真人圖片或視頻做主體參考…

02-11

點擊查看更多 +

全站最新

公告精選︱東阿阿膠：擬14.85億元投資建設健康消費品產業園項目；協鑫集成：尚不具備“太空光伏”領域相關產品的生產能力

蘇州齊力電子科技：以創新專利與全場景方案引領充電槍測試設備新發展

中廣核電力(01816.HK)獲中信證券資管增持1700.6萬股

2月11日A股投資避雷針︱ST新華錦：資金占用整改期限臨近或面臨停牌風險

美蘭空港(00357.HK)獲M&G Investment Funds (1)增持54.7萬股

大族數控(03200.HK)獲Schroders PLC增持691.92萬股

熱門內容

本欄最新

阿里Qwen-Image 2.0來襲：文字渲染升級，圖像生成邁向生產力新階段

新款小米SU7上市在即：三種電池包可選，CLTC續航最高達902km

雷軍直播預熱！小米YU7 GT千匹馬力SUV亮相，紐北刷圈引熱議

科大訊飛兩款學習機對比：T30 Lite與LUMIE10 Pro，誰更適合孩子學習？

選對學習機，孩子學習更輕松——科大訊飛多款學習機深度評測與推薦

科大訊飛智能辦公本深度測評：五款熱銷機型對比，助你精準選對高效搭子

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.