美團 LongCat AI 生圖功能：輕量化模型實現高效精準創作

美團長期以來在大模型研發上保持領先，於 2024 年正式釋出 LongCat‑Image，一個 6B 參數的圖像生成與編輯同源模型。其核心亮點在於「輕量化」與「高可控」的雙重突破，讓開源社群能在硬體資源有限的環境中亦能達到接近 20B 以上模型的表現。

同源架構：文生圖與圖像編輯的統一設計

LongCat‑Image 以一個統一的 U‑Net 風格 Transformer 為基礎，將「文字提示 → 影像」與「影像編輯 → 更新影像」的任務映射在同一個編碼器‑解碼器框架內。這種同源設計避免了兩個獨立模型之間的知識遺失，也保證了在編輯時能保留原始圖像的風格與細節。(美團技術團隊, 2024)

漸進式學習與多任務聯合訓練

預訓練：採用多源合成資料與大量文字-圖像對，涵蓋 8105 個常用漢字，為模型奠定文字渲染基礎。
Mid‑Training：以已訓練好的文生圖模型為起點，加入「指令編輯」任務，進行多任務聯合學習，提升對複雜編輯指令的理解。
SFT（Supervised Fine‑Tuning）：使用人工標註的真實世界圖像與編輯指令，進一步優化指令遵循精準度與編輯前後視覺一致性。
RL（Reinforcement Learning）：結合 OCR 與美學雙重回饋，強化文字正確性與背景融合自然度。

這一系列階段的設計，使得 6B 模型能在 GEdit‑Bench、ImgEdit‑Bench 等基準上達到甚至超越開源 SOTA 水平。(美團技術團隊, 2024)

中文文字生成的精準覆蓋

在中文文本渲染方面，LongCat‑Image 透過「字符級編碼」減少記憶體佔用，並在 SFT 階段加入真實字體與排版資料，顯著提升字形與字體多樣性的泛化能力。實驗顯示，模型在海報設計、古詩詞插圖、門店招牌等場景中，對生僻字的渲染準確率高達 92%。(美團技術團隊, 2024)

商業創作與技術普惠的雙贏方案

LongCat‑Image 的開源策略不僅降低了進入門檻，也為企業提供了可自行部署與二次定制的可能。開發者能在本地 GPU 或雲端服務上快速啟動，並透過微調（Fine‑Tuning）將模型調整至特定品牌風格或行業需求。這一彈性使得 AI 生成藝術不再是大型企業的專屬資產，而是普惠的創作工具。(美團技術團隊, 2024)

與 LongCat‑Video‑Avatar 的協同潛力

美團同時釋出的 LongCat‑Video‑Avatar 以 LongCat‑Video 為基礎，實現音訊‑文本‑影像的無縫結合。雖然此篇聚焦於圖像生成，但兩者共享的同源架構與多任務訓練理念為未來跨模態創作奠定可擴充的基礎。開發者可在圖像與影片之間快速切換，構建完整的多媒體創作流程。

結論

LongCat‑Image 以 6B 參數的輕量化模型，在文生圖與圖像編輯雙重任務上達到開源 SOTA 水平，同時突破了中文文字渲染的覆蓋與精準度。其同源架構、漸進式學習與多任務聯合訓練，使得高效、可控的 AI 生成藝術成為可能。對於想在有限資源環境中實現商業創作的企業與開發者而言，LongCat‑Image 提供了一個切實可行且可擴充的解決方案。