阿里雲開源更小尺寸推理模型QwQ-32B 性能表現全球領先

阿里雲發佈並開源其最新自研推理模型QwQ-32B,這款擁有320億參數的模型,其性能可媲美參數大於其數十倍的大型頂尖模型。

QwQ-32B是阿里雲探索推理模型的最新成果。基於阿里雲最新大語言模型Qwen2.5-32B,QwQ-32B在多項權威基準測試中表現出色,包括AIME 24(數學推理)、Live CodeBench(代碼能力)、LiveBench(測試集污染和客觀評估)、IFEval(指令跟隨能力)和 BFCL(工具與函數調用能力)。

QwQ-32B與其它領先模型的對比表現,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和 DeepSeek-R1。

QwQ-32B與其它領先模型的對比表現,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和 DeepSeek-R1。

大規模強化學習提升推理能力

QwQ-32B的卓越性能突顯了強化學習 (Reinforcement Learning, RL) 的強大威力,當應用於像 Qwen2.5-32B 這種強大基礎模型時,強化學習的威力就會顯現出來。Qwen2.5-32B是根據廣泛的世界知識進行預先訓練的,通過大規模強化學習(RL scaling),QwQ-32B在數學推理和編碼能力上都有持續的提升。

此外,該模型使用通用獎勵模型和一些基於規則的驗證器進行訓練,增強了其通用能力的表現,例如指令跟隨、與人類偏好對齊,以及智能體性能。

集成智能體相關能力

研究團隊還將智能體(agent)相關的能力集成到了QwQ-32B中,使其在能夠使用工具的同時進行批判性思考,並根據環境反饋調整推理過程。研究團隊也在探索將智能體與強化學習集成,以實現長時推理,目標是透過推理時間擴展來釋放更高的智能。

QwQ-32B已在Hugging FaceModelScope開源,採用了Apache 2.0開源協議,供免費下載。用戶也可以透過Qwen Chat直接體驗。

QwQ-32B憑藉其強大的推理能力和更低的資源消耗需求,可以在消費級硬件上進行有效部署,服務全球開發者和企業用戶。

立即訂閱阿里足跡,緊貼阿里巴巴集團最新發展動向,通過新聞故事及專題文章了解創新科技、電子商務及智能物流等新興議題的嶄新趨勢

開源 阿里雲