阿里雲推出首個通義開源推理大模型QwQ 科學推理能力相當於研究生水平

阿里雲發佈首個通義開源推理大模型QwQ(Qwen with Questions),在數學和編程領域表現出色,展現出相當於研究生水平的科學推理能力和強大的數學問題解決能力。作为預覽版本,模型已经在多項專業評測集結果表现优异,顯示QwQ-32B-Preview的水平比肩国际顶尖SOTA模型。目前該模型已在開源平台魔搭社區Huggingface, Github等上線。

此次推出的QwQ-32B-Preview是由 Qwen 團隊開發的實驗性研究模型,專注於增強 AI 推理能力。作為預覽版本,它經過多項評測集評估,在分析和問題解決能力方面的表現優異,尤其是在需要深度推理的技術領域。

QwQ-32B-Preview經過多項評測集評估,在分析和問題解決能力方面的表現優異,

QwQ-32B-Preview經過多項評測集評估,在分析和問題解決能力方面的表現優異,

在考察科學問題解決能力的GPQA評測集上,QwQ獲得65.2%的準確率,具備研究生水平的科學推理能力;在涵蓋綜合數學主題的AIME評測中,QwQ以50%的勝率證明其擁有解決數學問題的豐富技能;在全面考察數學解題能力的MATH-500評測中,QwQ斬獲90.6%的高分,比肩国际顶尖SOTA模型;在評估高難度代碼生成的LiveCodeBench評測中,QwQ答對一半的題,在編程競賽題場景中也有出色表現。

面對複雜問題,QwQ展現了深度自省的能力,會質疑自身假設,進行深思熟慮的自我對話,並仔細審視其推理過程的每一步。比如,在經典智力題「猜牌問題」中,QwQ通過梳理各方對話並推演現實情況,像個擅長思考的人一樣,揣摩「這句話有點tricky」,反思「等一下,也許我需要更仔細地思考」,最終分析得出正確答案。

立即訂閱阿里足跡,緊貼阿里巴巴集團最新發展動向,通過新聞故事及專題文章了解創新科技、電子商務及智能物流等新興議題的嶄新趨勢

通義 阿里雲