美團 LongCat-Video-Avatar 開源:SOTA 級擬真影像生成技術解析
近日,美團旗下的 LongCat 團隊宣布開源其最新的視頻生成模型 ——LongCat-Video-Avatar,標誌著虛擬人技術的又一次重要突破。該模型在長視頻生成領域表現優異,具有多項核心功能,吸引了廣泛的開發者關注。
LongCat-Video-Avatar 基於此前的 LongCat-Video 模型,延續了 “一個模型支持多任務” 的設計理念,原生支持音頻文本轉視頻(AT2V)、音頻文本圖像轉視頻(ATI2V)及視頻續寫等功能。相較於前代產品 InfiniteTalk,该模型在動作擬真度、視頻穩定性和身份一致性上實現了顯著提升,致力於為開發者提供更高效、實用的創作解決方案。
技術亮點
LongCat-Video-Avatar 的核心創新之一是采用了名為 Cross-Chunk Latent Stitching 的訓練策略,能夠有效解決長視頻生成中的視覺質量退化問題。通過在隱空間內進行特徵替換,LongCat-Video-Avatar 不僅消除了由反復解碼引起的畫質損失,还顯著提高了生成效率。
另外,為了保持長視頻中的角色一致性,LongCat-Video-Avatar 還引入了帶位置編碼的參考帧注入模式和 Reference Skip Attention 機制。这一創新使得生成過程中的身份語義保持穩定,同时避免了常見的動作重復和僵化問題。
評測結果
根據在 HDTF、CelebV-HQ、EMTD 和 EvalTalker 等權威公開數據集上的評測,LongCat-Video-Avatar 在多個核心指標上達到了 SOTA 水平,尤其是在唇音同步精度和一致性指標上表現優異。同時,通過大規模的人工評測,该模型在自然度與真實感方面也獲得了良好反饋,展現了強大的應用潛力。
開源地址
LongCat-Video-Avatar 的開源地址為:
- GitHub:https://github.com/meituan-longcat/LongCat-Video
- Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar
- Project:https://meigen-ai.github.io/LongCat-Video-Avatar/
參考資料與原文來源
- 🔗 原文來源: https://ai.codefather.cn/news/2001872804508712969
- 🔗 原文來源: https://tech.meituan.com/2025/12/23/longcat-video-avatar.html
- 🔗 原文來源: https://hk.finance.yahoo.com/news/%E7%BE%8E%E5%9C%98%E9%96%8B%E6%BA%90sota%E7%B4%9A%E8%99%9B%E6%93%AC%E4%BA%BA%E8%A6%96%E9%A0%BB%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B-longcat-video-avatar-231813133.html
- 🔗 原文來源: https://xingyun3d.csdn.net/694a376bbf6b0e4b285dae29.html
- 🔗 原文來源: https://aigc.izzi.cn/article/31705.html
🧠本文由 DreamJ AI 技術新聞生成系統 自動撰寫並進行語意優化,僅供技術研究與教學使用。
請以原廠公告、CVE 官方資料與安全建議為最終依據。












發佈留言