阿里雲通義萬相推出圖像編輯模型ACE 實現自然語言圖像交互

阿里雲通義萬相研發推出一款多功能視覺生成和編輯模型ACE(全能創作與編輯模型),從多模態處理能力上推動視覺創作的創新。ACE通過自然語言指令支持廣泛的圖像生成和編輯任務,允許用戶通過多輪交互輕鬆完成複雜和精確的編輯請求,可應用於平面設計、個性化圖像生成、去水印等場景,為普通用戶和設計師發揮創意和提升效率提供了有力支持。該模型目前已經向全球開發者開源,在阿里雲旗下魔搭社區HuggingfaceGithub等開源社區上線。

近年來,擴散模型作為一種強大的生成技術,在各個場景中得到廣泛應用。然而,現有的基礎擴散模型大多數專注於基於文本的視覺生成,而不支持多模態條件。此外,當前的視覺生成模型往往缺乏統一的框架,需針對特定任務進行單獨調優,導致效率低下和靈活性不足。

ACE支持的圖像生成和編輯類型一覽

ACE支持的圖像生成和編輯類型一覽

「我們的目標是為用戶和開發者構建一個統一的多模態視覺生成工具,」通義實驗室算法工程師毛超傑表示,「通過支持多種輸入格式和處理更加多樣的視覺生成與編輯任務,我們希望通過不斷的技術創新為用戶提供直觀、高效的創作體驗。」

與傳統圖像編輯模型不同,ACE模型可同時支持文生圖和圖像編輯,用戶輸入口語化指令,可完成可控視覺編輯、元素編輯、區域重繪編輯、分層編輯等任務,僅用對話的方式就能實現修圖功能,例如輸入文字即可一鍵除水印、修改證件照背景等,極大地提高了編輯效率。

ACE模型以其靈活的輸入格式和多模態支持能力顯著提升了視覺生成與編輯的效率。該模型通過引入長上下文條件單元(Long-context Condition Unit)系統,能夠實現多輪對話,深入理解用戶複雜的請求。LCU使ACE能夠在生成過程中記住之前的上下文,從而在用戶與模型進行多輪對話時,保持一致性和連貫性。通過利用先前生成的信息,ACE能夠更好地理解用戶意圖,提高生成結果的質量和準確性。例如,在進行複雜的圖像修改時,用戶可以逐步指導模型,模型能夠動態調整生成策略以滿足要求。這一特性特別適用於需要逐步細化的任務,如圖像重繪、風格轉換等。

上傳一張照片即可對圖中特定對象的風格化處理

上傳一張照片即可對圖中特定對象的風格化處理

在文本指導生成、語義編輯、元素編輯和重新繪制等多個應用場景中,ACE在寫真生成、去水印和圖像風格轉換等任務中表現優異,能夠同時處理文本、圖像和掩碼的組合,從而更全面地滿足設計師和創作者的需求。測試結果顯示,ACE模型在MagicBrush的單輪和多輪編輯任務中取得了領先成績。

通義萬相算法團隊表示,未來將進一步提升ACE編輯模型的準確性,同時將逐步開放重繪、定制化生成、組合生成等能力,讓用戶更便捷地實現創意設計。

立即訂閱阿里足跡,緊貼阿里巴巴集團最新發展動向,通過新聞故事及專題文章了解創新科技、電子商務及智能物流等新興議題的嶄新趨勢

阿里雲