美團 LongCat‑Image:6B 參數實現頂尖圖像生成與編輯
美團 LongCat 團隊於 2025‑12‑08 正式發布並開源 LongCat‑Image,該模型以 6B 參數規模,在文生圖與圖像編輯兩大核心任務上逼近更大尺寸模型的表現,為開發者提供「高性能、低門檻、全開放」的選擇 (Yahoo 財經, 2025)。
同源架構:文生圖 + 圖像編輯一體化
LongCat‑Image 採用同源的 Transformer 架構,將文本到圖像的生成與指令驅動的編輯融合於同一模型體系內。透過漸進式學習(progressive fine‑tuning),模型在 Mid‑training 階段以文生圖預訓練權重作為起點,接著在 SFT 階段加入指令編輯與多任務學習,確保指令遵循與圖像質量的協同提升 (CSDN, 2025)。
多階段訓練策略
- 預訓練:使用多源資料(圖像、合成文字、風格圖)以及指令改寫策略,讓模型學習廣泛的視覺語義與文字-圖像對應。
(Meituan Tech Blog, 2025) - SFT(Supervised Fine‑Tuning):引入人工精標指令與圖像編輯範例,提升指令多樣性與編輯前後的一致性。
(CSDN, 2025) - RL(Reinforcement Learning):採用 OCR 與美學雙重獎勵,進一步優化文字準確性與背景融合自然度,特別針對中文漢字覆蓋度做精調。
(Sina, 2025)
資料工程:漢字覆蓋與文字渲染
LongCat‑Image 在預訓練階段以 1 億量級合成資料覆蓋 8105 個通用漢字字形,SFT 階段再加入真實世界文本圖像,提升字體與版式的泛化。最後透過 RL 取得 OCR 及美學雙重獎勵,達到 ChineseWord 評測 90.7 分 (Sina, 2025)。這使得模型在海報設計、古詩插圖、門牌招牌等場景中能自然渲染生僻字與複雜筆畫。
基準測試:開源 SOTA
- GEdit‑Bench:單圖編輯可控性測試,LongCat‑Image 成為開源領域 SOTA (CSDN, 2025)。
- ImgEdit‑Bench:多參數編輯任務,模型表現同樣位列前茅 (Yahoo Finance, 2025)。
實際應用與部署
LongCat‑Image 可在單張 GPU(例如 NVIDIA RTX 3090)上以 6B 參數快速推論,開發者可直接使用官方 PyPI 包或 Docker 容器部署。本身已經支援「AI 創作」一鍵模板,讓非專業使用者也能輕鬆產出專業級圖像,降低提示詞焦慮 (Yahoo Finance, 2025)。
結論:小參數大影響
傳統大型圖像生成模型往往需 30B 以上參數,部署與成本高昂。LongCat‑Image 以 6B 參數實現了接近大型模型的圖像生成與編輯效果,並在中文文字渲染方面突破了以往模型的局限。對於需要快速、可擴展 AI 圖像解決方案的企業而言,LongCat‑Image 提供了可落地的高性能選擇。
參考資料與原文來源
🧠本文由 DreamJ AI 技術新聞生成系統 自動撰寫並進行語意優化,僅供技術研究與教學使用。
請以原廠公告、CVE 官方資料與安全建議為最終依據。












發佈留言