阿里雲開源萬相2.1視頻生成模型 VBench總分奪冠
阿里雲宣佈開源旗下視頻生成大模型萬相2.1(Wan2.1)系列四款模型,作為公司對全球開源社群的又一重要貢獻,向全球學術界、研究人員和商業機構開放使用,進一步推動人工智能(AI)技術創新和普惠。
此次開源的是14B和1.3B兩個參數規格的四款Wan2.1模型T2V-14B、T2V-1.3B、I2V-14B-720P和I2V-14B-480P,其全部推理代碼和權重全部開源,並分別支持文生視頻和圖生視頻任務,全球開發者可在Github、Hugging Face、魔搭社區下載體驗。
今年早些時候發佈的Wan2.1系列是首款支持中英文文字效果的視頻生成模型。它能準確處理複雜動作,提高像素質量,遵循物理原理,優化指令執行精度,從而出色地生成逼真的視覺效果。對指令的精確執行使Wan2.1在視頻生成領域權威測評集Vbench排行榜上位居榜首,並且是排行前五的視頻生成模型中唯一一個開源模型。VBench數據顯示,Wan2.1系列總分為86.22%,在動態程度、空間關係、色彩和多物體交互等關鍵維度上均處於領先地位。

Wan2.1在視頻生成領域權威測評集Vbench排行榜上位居榜首
訓練視頻基礎模型需要巨大的計算資源和大量高質量的訓練數據。開源有助於降低更多企業利用AI的門檻,使其能以經濟高效的方式創建符合自身需求的高質量可視化內容。
其中T2V-14B模型更適合生成具有豐富運動動態的高質量視覺效果,而T2V-1.3B模型則在生成質量和計算能力之間取得了平衡,使其成為廣大開發者進行二次開發和學術研究的理想選擇。例如,T2V-1.3B模型可以讓用戶只需要一台普通筆記本電腦,最快能在4分鐘左右生成一段5秒長、480p分辨率的視頻。
除了支持文本生成視頻,I2V-14B-720P模型和I2V-14B-480P模型還提供圖像生成視頻功能。用戶只需輸入一張圖片和一段簡短的文字說明,即可生成動態視頻內容。平台支持任何標準尺寸的圖像輸入。

(文字提示詞:一名男子在跳台上做專業跳水動作。全景平拍鏡頭中,他穿著紅色泳褲,身體呈倒立狀態,雙臂伸展,雙腿併攏。鏡頭下移,他跳入水中,濺起水花。背景中是藍色的泳池。)
阿里雲是全球首批開源自研大規模AI模型的全球科技公司之一,早在2023年8月就推出了首款開源模型Qwen(Qwen-7B)。Qwen開源模型在HuggingFace Open LLM排行榜上一直名列前茅,在各種基準測試中的表現與全球領先的AI模型不相上下。
截至目前,基於Qwen模型系列的衍生模型,Hugging Face平台上已開發出超過10萬個衍生模型,成為全球規模最大的AI模型系列之一。
立即訂閱阿里足跡,緊貼阿里巴巴集團最新發展動向,通過新聞故事及專題文章了解創新科技、電子商務及智能物流等新興議題的嶄新趨勢


分享