美團 LongCat AI 生圖功能：輕量化模型實現高效精準創作

近日，美團 LongCat 團隊正式發布並開源 LongCat-Image 模型，通過高性能模型架構設計、系統性的訓練策略和數據工程，以 6B 參數規模，成功在文生圖和圖像編輯的核心能力維度上逼近更大尺寸模型效果，为開發者社區與產業界提供「高性能、低門檻、全開放」的全新選擇。

LongCat-Image 採用文生圖與圖像編輯同源的架構設計，並結合漸進式學習策略，在僅 6B 的緊湊參數規模下，實現指令遵循精準度、生圖質量與文字渲染能力的高效協同提升。尤其在單圖編輯的可控性和文字生成的漢字覆蓋度方面獨具優勢。

LongCat-Image 的核心優勢

LongCat-Image 的核心優勢在於其架構設計與訓練策略。模型采用文生圖與圖像編輯同源的架構，結合漸進式學習策略，成功在 6B 參數下實現了指令遵循精準度、生圖質量與文字渲染能力的高效協同提升。在圖像編輯方面，LongCat-Image 的「可控性」表現突出，而性能突破的關鍵在於一套緊密協同的訓練范式和數據策略。

為有效繼承文生圖模型的知識和美感，同時避免文生圖後訓練階段收窄的狀態空間對編輯指令多樣性的限制，團隊一方面基於文生圖 Mid-training 階段模型進行初始化，並采用指令編輯與文生圖多任務聯合學習機制，深化對複雜多樣化指令的理解；另一方面，通過預訓練階段的多源數據及指令改寫策略，以及結合 SFT 階段引入的人工精標數據，最終實現了指令遵循精準度、泛化性和編輯前後視覺一致性的共同提升。

LongCat-Image 的性能

在 GEdit-Bench 和 ImgEdit-Bench 等權威基準測試中，LongCat-Image 均達到開源 SOTA 水平，可精準響應用戶的多樣化修改需求。在中文文本渲染这一長期困擾業界的難題上，LongCat-Image 也取得了很大進展，通過課程學習策略提升字符覆蓋度和渲染精準度：預訓練階段基於千萬量級合成數據學習字形，覆蓋通用規范漢字表的 8105 個漢字；SFT 階段引入真實世界文本圖像數據，提升在字體、排版布局上的泛化能力；在 RL（強化學習）階段，引入 OCR 與美學雙獎勵模型，進一步提升文本準確性與背景融合自然度。