美團 LongCat‑Image：6B 參數實現頂尖圖像生成與編輯

美團 LongCat 團隊於 2025‑12‑08 正式發布並開源 LongCat‑Image，該模型以 6B 參數規模，在文生圖與圖像編輯兩大核心任務上逼近更大尺寸模型的表現，為開發者提供「高性能、低門檻、全開放」的選擇 (Yahoo 財經, 2025)。

同源架構：文生圖 + 圖像編輯一體化

LongCat‑Image 採用同源的 Transformer 架構，將文本到圖像的生成與指令驅動的編輯融合於同一模型體系內。透過漸進式學習（progressive fine‑tuning），模型在 Mid‑training 階段以文生圖預訓練權重作為起點，接著在 SFT 階段加入指令編輯與多任務學習，確保指令遵循與圖像質量的協同提升 (CSDN, 2025)。

多階段訓練策略

預訓練：使用多源資料（圖像、合成文字、風格圖）以及指令改寫策略，讓模型學習廣泛的視覺語義與文字-圖像對應。
(Meituan Tech Blog, 2025)
SFT（Supervised Fine‑Tuning）：引入人工精標指令與圖像編輯範例，提升指令多樣性與編輯前後的一致性。
(CSDN, 2025)
RL（Reinforcement Learning）：採用 OCR 與美學雙重獎勵，進一步優化文字準確性與背景融合自然度，特別針對中文漢字覆蓋度做精調。
(Sina, 2025)

資料工程：漢字覆蓋與文字渲染

LongCat‑Image 在預訓練階段以 1 億量級合成資料覆蓋 8105 個通用漢字字形，SFT 階段再加入真實世界文本圖像，提升字體與版式的泛化。最後透過 RL 取得 OCR 及美學雙重獎勵，達到 ChineseWord 評測 90.7 分 (Sina, 2025)。這使得模型在海報設計、古詩插圖、門牌招牌等場景中能自然渲染生僻字與複雜筆畫。

基準測試：開源 SOTA

GEdit‑Bench：單圖編輯可控性測試，LongCat‑Image 成為開源領域 SOTA (CSDN, 2025)。
ImgEdit‑Bench：多參數編輯任務，模型表現同樣位列前茅 (Yahoo Finance, 2025)。

實際應用與部署

LongCat‑Image 可在單張 GPU（例如 NVIDIA RTX 3090）上以 6B 參數快速推論，開發者可直接使用官方 PyPI 包或 Docker 容器部署。本身已經支援「AI 創作」一鍵模板，讓非專業使用者也能輕鬆產出專業級圖像，降低提示詞焦慮 (Yahoo Finance, 2025)。