美團 LongCat-Video-Avatar 真視訊頭像:開源 SOTA 技術實現
近日,美團 LongCat 隊正式發布並開源了 LongCat-Video-Avatar,一款專門對數字人優化的視訊生成模型。這款模型基於 LongCat-Video 基座打造,延續了「一個模型支持多任務」的核心設計,原生支持 Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及視訊續寫等核心功能。同時,在底層架構上全面升級,實現了動作真度、長視訊定性與身份一致性三大維度的突破。
技術亮點
LongCat-Video-Avatar 的技術亮點包括:
* 開源 SOTA 真度:讓人「活」起來
* 別「硬」,迎接「鮮活」。全新的 LongCat-Video-Avatar 底改變了人的表現方式,不僅能指揮嘴型,还能同步指揮眼神、表情和體動作,實現富滿的情感表達。
* 連「不說話」的時候,都很像人:美團通過 Disentangled Unconditional Guidance(解無條件引導)訓練方法,让模型明白了「音」不等於「死機」。在說話的間,人也會如同人類一般自然地眼、調整坐姿、放松肩。
LongCat-Video-Avatar 的優勢
LongCat-Video-Avatar 的優勢包括:
* 原生支持文字、圖片、視訊三種生成模式的「全能選手」
* 人從此有了「真正的生命力」
* 在 HDTF、CelebV-HQ 、EMTD 和 EvalTalker 等權威公開數據集上的定量評測表明,LongCat-Video-Avatar 在多項核心指標上達到 SOTA 先水平。
LongCat-Video 的技術亮點
LongCat-Video 的技術亮點包括:
* 一模型架構:多任務一體化視訊基座
* 長視訊生成:原生支持 5 分鐘級連輸出
* 訊續寫:可基於多條件續接視訊內容,为長視訊生成提供原生技術支。
結論
LongCat-Video-Avatar 的發布和開源標誌著美團在人視訊生成技術上的重大突破。這款模型的優勢包括原生支持多種生成模式、有真正的生命力和 SOTA 先水平的性能。同時,LongCat-Video 的技術亮點也體現了美團在視訊生成技術上的創新和領先地位。
參考資料與原文來源
- 原文來源: 拒绝像感!美团开源LongCat-Video-Avatar:5分钟超长续航
- 原文來源: 美团LongCat-Video-Avatar 正式发布,实现开源SOTA级拟真表现
- 原文來源: 突破时长极限!美团开源LongCat-Video-Avatar:一张照片生成无限…
- 原文來源: 美团开源虚拟人视频生成模型LongCat-Video-Avatar
- 原文來源: LongCat-Video 频生成模型正式发布,探索世界模型的第一步
🧠本文由 DreamJ AI 技術新聞生成系統 自動撰寫並進行語意優化,僅供技術研究與教學使用。
請以原廠公告、CVE 官方資料與安全建議為最終依據。








發佈留言