阿里雲開源萬相2.1視頻生成模型 VBench總分奪冠

阿里雲宣佈開源旗下視頻生成大模型萬相2.1（Wan2.1）系列四款模型，作為公司對全球開源社群的又一重要貢獻，向全球學術界、研究人員和商業機構開放使用，進一步推動人工智能(AI)技術創新和普惠。

此次開源的是14B和1.3B兩個參數規格的四款Wan2.1模型T2V-14B、T2V-1.3B、I2V-14B-720P和I2V-14B-480P，其全部推理代碼和權重全部開源，並分別支持文生視頻和圖生視頻任務，全球開發者可在Github、Hugging Face、魔搭社區下載體驗。

今年早些時候發佈的Wan2.1系列是首款支持中英文文字效果的視頻生成模型。它能準確處理複雜動作，提高像素質量，遵循物理原理，優化指令執行精度，從而出色地生成逼真的視覺效果。對指令的精確執行使Wan2.1在視頻生成領域權威測評集Vbench排行榜上位居榜首，並且是排行前五的視頻生成模型中唯一一個開源模型。VBench數據顯示，Wan2.1系列總分為86.22%，在動態程度、空間關係、色彩和多物體交互等關鍵維度上均處於領先地位。

Wan2.1在視頻生成領域權威測評集Vbench排行榜上位居榜首

訓練視頻基礎模型需要巨大的計算資源和大量高質量的訓練數據。開源有助於降低更多企業利用AI的門檻，使其能以經濟高效的方式創建符合自身需求的高質量可視化內容。

其中T2V-14B模型更適合生成具有豐富運動動態的高質量視覺效果，而T2V-1.3B模型則在生成質量和計算能力之間取得了平衡，使其成為廣大開發者進行二次開發和學術研究的理想選擇。例如，T2V-1.3B模型可以讓用戶只需要一台普通筆記本電腦，最快能在4分鐘左右生成一段5秒長、480p分辨率的視頻。

除了支持文本生成視頻，I2V-14B-720P模型和I2V-14B-480P模型還提供圖像生成視頻功能。用戶只需輸入一張圖片和一段簡短的文字說明，即可生成動態視頻內容。平台支持任何標準尺寸的圖像輸入。

（文字提示詞：一名男子在跳台上做專業跳水動作。全景平拍鏡頭中，他穿著紅色泳褲，身體呈倒立狀態，雙臂伸展，雙腿併攏。鏡頭下移，他跳入水中，濺起水花。背景中是藍色的泳池。）

阿里雲是全球首批開源自研大規模AI模型的全球科技公司之一，早在2023年8月就推出了首款開源模型Qwen（Qwen-7B）。Qwen開源模型在HuggingFace Open LLM排行榜上一直名列前茅，在各種基準測試中的表現與全球領先的AI模型不相上下。

截至目前，基於Qwen模型系列的衍生模型，Hugging Face平台上已開發出超過10萬個衍生模型，成為全球規模最大的AI模型系列之一。

立即訂閱阿里足跡，緊貼阿里巴巴集團最新發展動向，通過新聞故事及專題文章了解創新科技、電子商務及智能物流等新興議題的嶄新趨勢

萬相阿里雲

2025年02月05日 |
科技創新

阿里雲通義千問發佈多款AI大模型多模態、長文本能力全面升級

2025年02月26日 |
科技創新

阿里雲PolarDB憑藉創新的「三層解耦」架構刷新TPC-C基準測試世界紀錄