阿里巴巴開源最新視頻生成模型 提供首尾幀圖片即可生成流暢視頻
阿里巴巴發佈其最新開源視頻生成模型Wan2.1-FLF2V-14B,該模型旨在簡化視頻創作流程。用戶只需輸入首幀和尾幀圖片,便能輕鬆生成視頻。這為短視頻創作者提供了更高效靈活的視頻製作工具,助其高效且低成本地開發AI模型和應用。
該模型是阿里巴巴基礎模型系列萬相2.1(Wan2.1)的一部分,該系列專為從文本和圖像生成高質量圖像和視頻而設計。目前,該模型已在全球開源社區Hugging Face、GitHub以及魔搭(ModelScope)上發佈。Wan2.1-FLF2V-14B在執行用戶指令方面表現出色,能夠保持首幀與生成視頻之間的一致性,並在首尾幀之間實現流暢過渡,從而生成逼真且自然的複雜動作視覺效果。用戶可以在萬相官方網站上免費生成一段5秒鐘、720p分辨率的視頻。
該模型的關鍵技術在於其創新的視頻生成方法,通過引入額外的條件控制機制,利用用戶提供的首尾幀作為控制條件,實現流暢且精準的首尾幀變換。為確保畫面穩定性,該模型提取了首尾幀的語義特徵,並注入到视频生成過程,使模型能夠在動態轉換幀的同時,保持風格、內容和結構的一致性。
作為全球最早開源自研大規模AI模型的科技公司之一,阿里巴巴一直致力於開源技術的推廣。2025年2月,阿里巴巴開源了四款Wan2.1模型。截至目前,這些模型在Hugging Face和魔搭平台上的下載量已超220萬次。
今年早些時候發佈的Wan2.1系列是首款支持中英雙語文本效果的視頻生成模型,並在視頻生成領域權威測評集VBench排行榜中位居榜首。
阿里巴巴於2023年8月發佈了其首個開源大語言模型(LLM)Qwen-7B。通義系列開源模型在Hugging Face, Open LLM Leaderboards上持續領先,其性能在多項基準測試中與全球頂尖AI模型相當。過去幾年,阿里巴巴已開源超過200款生成式AI模型。截至目前,基於通義系列模型開發的衍生模型在Hugging Face上已超過10萬個,成為全球最知名的AI模型家族之一。
- 首幀圖
- 尾幀圖

提示詞:「寫實風格,一個身穿粉色運動服的女生在城市街道中跑步,鏡頭先特寫女生的臉部,然後記錄下女生轉過街角向前跑去的背影。」
- 首幀圖
- 尾幀圖

提示詞:「一座中國風的樓閣,逐漸變成卡通粉紅色,四周出現氣球,鏡頭固定不動。」
立即訂閱阿里足跡,緊貼阿里巴巴集團最新發展動向,通過新聞故事及專題文章了解創新科技、電子商務及智能物流等新興議題的嶄新趨勢

分享