Home/AI / 美團 LongCat-Image:6B 小模型,爆發頂尖圖像生成與編輯力!

美團 LongCat‑Image:6B 參數實現頂尖圖像生成與編輯

美團 LongCat 團隊於 2025‑12‑08 正式發布並開源 LongCat‑Image,該模型以 6B 參數規模,在文生圖與圖像編輯兩大核心任務上逼近更大尺寸模型的表現,為開發者提供「高性能、低門檻、全開放」的選擇 (Yahoo 財經, 2025)。

同源架構:文生圖 + 圖像編輯一體化

LongCat‑Image 採用同源的 Transformer 架構,將文本到圖像的生成與指令驅動的編輯融合於同一模型體系內。透過漸進式學習(progressive fine‑tuning),模型在 Mid‑training 階段以文生圖預訓練權重作為起點,接著在 SFT 階段加入指令編輯與多任務學習,確保指令遵循與圖像質量的協同提升 (CSDN, 2025)。

多階段訓練策略

  • 預訓練:使用多源資料(圖像、合成文字、風格圖)以及指令改寫策略,讓模型學習廣泛的視覺語義與文字-圖像對應。
    (Meituan Tech Blog, 2025)
  • SFT(Supervised Fine‑Tuning):引入人工精標指令與圖像編輯範例,提升指令多樣性與編輯前後的一致性。
    (CSDN, 2025)
  • RL(Reinforcement Learning):採用 OCR 與美學雙重獎勵,進一步優化文字準確性與背景融合自然度,特別針對中文漢字覆蓋度做精調。
    (Sina, 2025)

資料工程:漢字覆蓋與文字渲染

LongCat‑Image 在預訓練階段以 1 億量級合成資料覆蓋 8105 個通用漢字字形,SFT 階段再加入真實世界文本圖像,提升字體與版式的泛化。最後透過 RL 取得 OCR 及美學雙重獎勵,達到 ChineseWord 評測 90.7 分 (Sina, 2025)。這使得模型在海報設計、古詩插圖、門牌招牌等場景中能自然渲染生僻字與複雜筆畫。

基準測試:開源 SOTA

  • GEdit‑Bench:單圖編輯可控性測試,LongCat‑Image 成為開源領域 SOTA (CSDN, 2025)。
  • ImgEdit‑Bench:多參數編輯任務,模型表現同樣位列前茅 (Yahoo Finance, 2025)。

實際應用與部署

LongCat‑Image 可在單張 GPU(例如 NVIDIA RTX 3090)上以 6B 參數快速推論,開發者可直接使用官方 PyPI 包或 Docker 容器部署。本身已經支援「AI 創作」一鍵模板,讓非專業使用者也能輕鬆產出專業級圖像,降低提示詞焦慮 (Yahoo Finance, 2025)。

結論:小參數大影響

傳統大型圖像生成模型往往需 30B 以上參數,部署與成本高昂。LongCat‑Image 以 6B 參數實現了接近大型模型的圖像生成與編輯效果,並在中文文字渲染方面突破了以往模型的局限。對於需要快速、可擴展 AI 圖像解決方案的企業而言,LongCat‑Image 提供了可落地的高性能選擇。

參考資料與原文來源


🧠本文由 DreamJ AI 技術新聞生成系統 自動撰寫並進行語意優化,僅供技術研究與教學使用。
請以原廠公告、CVE 官方資料與安全建議為最終依據。

美團 LongCat-Image:6B 小模型,爆發頂尖圖像生成與編輯力!

🧠 本文章與所附圖片部分內容為 AI 生成或 AI 輔助產製。文中提及之商標、品牌名稱、產品圖片及相關標識, 其著作權與商標權均屬原權利人所有,本網站僅作為資訊呈現與示意使用

最新文章

2026創投風向球:AI、永續成新創投資決勝點

2026 年新創企業與風險投資市場趨勢展望:投資…

>AI應用安全攻防實錄:2025年安全威脅趨勢與防禦策略

AI應用安全攻防實錄:2025年安全威脅趨勢與防…

推薦文章

留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

分析完成 ✔