阿里雲開源代碼模型Qwen2.5-Coder全系列多項基準測試表現突出

阿里雲近日開源通義千問代碼模型Qwen2.5-Coder系列0.5B、3B、14B和32B四款模型尺寸，這是繼9月雲棲大會上發佈的1.5B和7B兩款代碼模型之外，新增的模型尺寸。豐富的模型尺寸不僅更好地滿足開發者的多樣化需求，還能夠探索更廣泛的應用場景，如代碼助手和可視化工具。

編程語言高度邏輯化和結構化，代碼模型要求理解、生成和處理這些複雜的邏輯關係和結構，通常也被認為是大模型邏輯能力的基礎來源之一，對於整體提升大模型推理能力至關重要。Qwen2.5-Coder基於Qwen2.5基礎大模型進行初始化，使用源代碼、文本代碼混合數據、合成數據等5.5T tokens的數據持續訓練，實現了代碼生成、代碼推理、代碼修復等核心任務性能的顯著提升。

本次新發佈Qwen2.5-Coder系列的旗艦模型Qwen2.5-Coder-32B-Instruct在多個主流代碼生成基準測試中表現突出，包括EvalPlus、LiveCodeBench和BigCodeBench，超越了多款先進的開源代碼生成模型。該模型不僅有助於用戶糾正代碼錯誤，提升編程效率，還在四十多種編程語言中展現出色性能。這一成就得益於其在預訓練階段獨特的數據清理與平衡策略。除了強大的編碼能力，Qwen2.5-Coder-32B-Instruct還展現出良好的通用和數學技能，並與人類偏好高度契合。