Home/AI / > 美團 LongCat AI 生圖功能:輕量化模型實現高效精準創作

美團 LongCat AI 生圖功能:輕量化模型實現高效精準創作

近日,美團 LongCat 團隊正式發布並開源 LongCat-Image 模型,通過高性能模型架構設計、系統性的訓練策略和數據工程,以 6B 參數規模,成功在文生圖和圖像編輯的核心能力維度上逼近更大尺寸模型效果,为開發者社區與產業界提供「高性能、低門檻、全開放」的全新選擇。

LongCat-Image 採用文生圖與圖像編輯同源的架構設計,並結合漸進式學習策略,在僅 6B 的緊湊參數規模下,實現指令遵循精準度、生圖質量與文字渲染能力的高效協同提升。尤其在單圖編輯的可控性和文字生成的漢字覆蓋度方面獨具優勢。

LongCat-Image 的核心優勢

LongCat-Image 的核心優勢在於其架構設計與訓練策略。模型采用文生圖與圖像編輯同源的架構,結合漸進式學習策略,成功在 6B 參數下實現了指令遵循精準度、生圖質量與文字渲染能力的高效協同提升。在圖像編輯方面,LongCat-Image 的「可控性」表現突出,而性能突破的關鍵在於一套緊密協同的訓練范式和數據策略。

為有效繼承文生圖模型的知識和美感,同時避免文生圖後訓練階段收窄的狀態空間對編輯指令多樣性的限制,團隊一方面基於文生圖 Mid-training 階段模型進行初始化,並采用指令編輯與文生圖多任務聯合學習機制,深化對複雜多樣化指令的理解;另一方面,通過預訓練階段的多源數據及指令改寫策略,以及結合 SFT 階段引入的人工精標數據,最終實現了指令遵循精準度、泛化性和編輯前後視覺一致性的共同提升。

LongCat-Image 的性能

在 GEdit-Bench 和 ImgEdit-Bench 等權威基準測試中,LongCat-Image 均達到開源 SOTA 水平,可精準響應用戶的多樣化修改需求。在中文文本渲染这一長期困擾業界的難題上,LongCat-Image 也取得了很大進展,通過課程學習策略提升字符覆蓋度和渲染精準度:預訓練階段基於千萬量級合成數據學習字形,覆蓋通用規范漢字表的 8105 個漢字;SFT 階段引入真實世界文本圖像數據,提升在字體、排版布局上的泛化能力;在 RL(強化學習)階段,引入 OCR 與美學雙獎勵模型,進一步提升文本準確性與背景融合自然度。

LongCat-Video 的發布

美團 LongCat 團隊正式發布 LongCat-Video 視頻生成模型 —— 不僅以統一模型在文生、圖生視頻基礎任務上達到開源最先進水平,更依托原生視頻續寫任務預訓練,實現分鐘級長視頻連貫生成,从根源上保障跨帧時序一致性與物理運動合理性,尤其在長視頻生成領域具備顯著優勢。

參考資料與原文來源


🧠本文由 DreamJ AI 技術新聞生成系統 自動撰寫並進行語意優化,僅供技術研究與教學使用。
請以原廠公告、CVE 官方資料與安全建議為最終依據。

> 美團 LongCat AI 生圖功能:輕量化模型實現高效精準創作

🧠 本文章與所附圖片部分內容為 AI 生成或 AI 輔助產製。文中提及之商標、品牌名稱、產品圖片及相關標識, 其著作權與商標權均屬原權利人所有,本網站僅作為資訊呈現與示意使用

最新文章

推薦文章

留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

分析完成 ✔