滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

千問發布法律大模型評測基準PLaw Bench

時間：2026-02-07 00:18:39 來源：鞭牛士編輯：快訊 IP：北京 發表評論無障礙通道

AIPress.com.cn報道

2月6日，千問Qwen團隊聯合阿里巴巴AIData團隊、曉天衡宇評測社區正式發布PLaw Bench，這是一個專門針對法律實務場景設計的大模型評測基準。與市面上常見的法律知識問答測試不同，PLaw Bench的核心目標是檢驗大模型在真實法律工作場景中的表現。

PLaw Bench的做法是全流程還原法律工作場景。研究團隊收集了用戶咨詢記錄、律所實務案例和法院公開裁判文書，經過脫敏和改編處理后，設計了13類場景、850道題目和12500條評分細則。

評測分為三大任務模塊。

第一個是用戶理解。研究團隊設計了大量經過改編的當事人陳述，其中充滿情緒化表達、事實誤導和關鍵信息缺失。測試要求模型從這些混亂的陳述中識別關鍵問題，并通過提問來澄清事實。從結果來看，頂尖模型得分接近80分，能有效過濾情感干擾，但也有部分模型出現關鍵細節遺漏和核心問題誤判的情況。

第二個是案例分析。這個模塊涵蓋個人生活糾紛、公司治理、法律與科技、跨國法律實務等11個類別。研究團隊不僅關注模型判斷的對錯，更聚焦其推理路徑是否正確。結果顯示各主流大模型得分趨于接近，但最高分未突破70分，表明當前模型在推理嚴謹性和邏輯閉環性上與專業法律從業者仍有差距。

第三個是文書生成。與用戶理解類似，題目以當事人陳述形式展開，其中植入了不合理訴求、錯誤法律用語和模糊表述。模型需要站在律師視角，從混亂陳述中歸納核心事實，制定訴訟策略，最終生成起訴狀或答辯狀等文書。最高得分剛過70分，部分模型雖然格式規范，但存在核心事實遺漏和法律關系誤判問題。

在總排名中，GPT-5系列表現強勢，Gemini 3.0和Claude-sonnet-4-5緊隨其后，千問Qwen3-max位居第五。但整體來看，參與測試的模型得分都在60%左右，并未出現具有碾壓優勢的選手。

研究團隊還發現了幾個有意思的現象。同一公司訓練的模型往往具備相似的特長，比如Gemini系列擅長需要嚴謹推理的案例分析，GPT系列更擅長總結歸納但在查找法條上存在短板。在涉及中國法律咨詢和文書實務時，以Qwen3-Max和DeepSeek-V3.2為代表的國產模型表現更優，對本土法律術語和咨詢場景有更精準的語境感知能力。

研究團隊表示，PLaw Bench的價值不僅在于提供模型排名，更希望回答一個現實問題：當把真實法律糾紛交給AI處理時，它能有效發揮作用的邊界在哪里，哪些環節仍需專業法律從業者介入。

目前相關論文和項目已在arXiv和GitHub公開。

更多>同類資訊

阿里除夕夜甩出王炸！千問Qwen3.5重磅發布登頂全球最強開源模型

02-17

馬斯克重申：特斯拉Cybercab今年4月投產

02-17

特斯拉開始在歐洲車輛推廣Grok人工智能助手

02-17

阿里發布新一代基模千問3.5，登頂全球最強開源大模型

02-17

宇樹王興興發文：為科技的夢想干杯

02-17

馬年春晚兩小時：京東機器人搜索量飆升，多款“春晚同款”遭搶購

02-17

OpenClaw創始人投身OpenAI：智能體AI新賽道，行業變革序幕拉開

OpenClaw 周圍的社區有一種神奇的魔力，OpenAI 已做出強有力的承諾，支持我投入時間維護它，并已開始贊助這個項目。而OpenClaw的技術，恰恰切中了這個方向最核心的問題：多個AI智能體之間，如…

02-17

春晚機器人驚艷亮相：中國科技實力引外國網友“愛恨交織”

有媒體采訪這段武術對打的幕后故事時從塔溝武術學校王教練處得知，這些機器人此前經過大量訓練，而且是把“武林高手”的代表招式，都由人類在影棚里先做一遍，按步驟拆解，再通過動作捕捉技術，轉化為機器人能識別的程序，…

02-17

小米Tag追蹤器或推國行版海外售價近148元兼容多平臺定位

IT之家 2 月 13 日消息，博主 @智慧皮卡丘發文，透露小米昨天在歐洲市場推出的 Xiaomi Tag追蹤器也將推出國行版本，還有“陶瓷手環在路上”。作為比較，海外 Xiaomi Tag 追蹤器單個…

02-17

2026手機廠商大變革：“華米OV耀”跨界出擊相機市場格局生變

但MWC 2026開幕在即，手機廠商們的槍口不再只是對準彼此，而是齊刷刷地調轉方向，瞄準了那個曾經被認為“神圣不可侵犯”的領地——專業相機與手持影像設備市場。經過數月的供應鏈摸排與信息匯總，不客觀實驗室拼…

02-17

Murena Volla隱私平板登場：搭載安卓14系統，硬件配置強勁且注重隱私保護

Murena Volla 搭載了基于 Android 14 的 /e/OS 系統，而不是 Volla OS 或 Ubuntu Touch。Murena Volla 平板電腦日前以 798 美元（IT之家注…

02-17

春節AI購物熱潮涌動，千問助力超1.3億人嘗鮮，日活飆升成新寵

如果說去年春節是深度思考出圈的DeepSeek時刻，今年春節就是AI辦事出圈的千問時刻，“千問幫我”已成為AI時代的用戶新習慣。除夕當天，阿里巴巴還開源全新一代大模型千問Qwen3.5-Plus，性能媲美…

02-17

Murena Volla隱私平板來襲：搭載安卓系統，開源應用助力隱私保護

02-17

馬斯克三度確認：特斯拉Cybercab 4月投產自動駕駛網約車新篇將啟

02-17

馬年春晚機器人表演引熱潮：京東機器人搜索訂單量雙雙激增

02-17

點擊查看更多 +

全站最新

松延動力與魔法原子人形機器人閃耀2026年春晚舞臺展現科技魅力

春節AI購物熱潮涌動，千問助力超1.3億人嘗鮮，日活飆升成新寵

全新馬自達CX-30來襲！動力足油耗低，都市通勤的省心“搭子”

高端踏板終極對決！吳老臭實測揭秘：XADV750與TMAX560誰更值得入手？

凱美瑞雙擎通勤一年：油費省出手機錢，但這些槽點實在難忍！

中年人偏愛奔馳GLC：底盤扎實動力穩，選對配置省8萬冤枉錢

熱門內容

本欄最新

春節AI購物熱潮涌動，千問助力超1.3億人嘗鮮，日活飆升成新寵

千問3.5：以第一性原理破局，重塑大模型性能、開源與性價比新格局

2026央視春晚科技味濃：超20家企業合作，4家機器人企業攜新品驚艷亮相

小米YU7 GT純電性能猛獸來襲！超千匹馬力配超寬胎，4月上市劍指Model Y高性能版

雷軍微博換新頭像引熱議！網友：健身后氣場足，配SU7 Ultra似賽車手

奧迪E7X量產版亮相：大五座設計配751km長續航，上半年上市引期待

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

千問發布法律大模型評測基準PLaw Bench