阿里巴巴開源最新視頻生成模型提供首尾幀圖片即可生成流暢視頻

阿里巴巴發佈其最新開源視頻生成模型Wan2.1-FLF2V-14B，該模型旨在簡化視頻創作流程。用戶只需輸入首幀和尾幀圖片，便能輕鬆生成視頻。這為短視頻創作者提供了更高效靈活的視頻製作工具，助其高效且低成本地開發AI模型和應用。

該模型是阿里巴巴基礎模型系列萬相2.1（Wan2.1）的一部分，該系列專為從文本和圖像生成高質量圖像和視頻而設計。目前，該模型已在全球開源社區Hugging Face、GitHub以及魔搭(ModelScope)上發佈。Wan2.1-FLF2V-14B在執行用戶指令方面表現出色，能夠保持首幀與生成視頻之間的一致性，並在首尾幀之間實現流暢過渡，從而生成逼真且自然的複雜動作視覺效果。用戶可以在萬相官方網站上免費生成一段5秒鐘、720p分辨率的視頻。

該模型的關鍵技術在於其創新的視頻生成方法，通過引入額外的條件控制機制，利用用戶提供的首尾幀作為控制條件，實現流暢且精準的首尾幀變換。為確保畫面穩定性，該模型提取了首尾幀的語義特徵，並注入到视频生成過程，使模型能夠在動態轉換幀的同時，保持風格、內容和結構的一致性。

作為全球最早開源自研大規模AI模型的科技公司之一，阿里巴巴一直致力於開源技術的推廣。2025年2月，阿里巴巴開源了四款Wan2.1模型。截至目前，這些模型在Hugging Face和魔搭平台上的下載量已超220萬次。

今年早些時候發佈的Wan2.1系列是首款支持中英雙語文本效果的視頻生成模型，並在視頻生成領域權威測評集VBench排行榜中位居榜首。

阿里巴巴於2023年8月發佈了其首個開源大語言模型（LLM）Qwen-7B。通義系列開源模型在Hugging Face, Open LLM Leaderboards上持續領先，其性能在多項基準測試中與全球頂尖AI模型相當。過去幾年，阿里巴巴已開源超過200款生成式AI模型。截至目前，基於通義系列模型開發的衍生模型在Hugging Face上已超過10萬個，成為全球最知名的AI模型家族之一。