Home/Cyber-Physical Security / 美團開源LongCat-Video-Avatar:打造逼真視訊人像新紀元!

AI generated
圖片來源:Stable Horde(AI 生成)

美團 LongCat-Video-Avatar 開源:實現領先的真視訊人像生成

近日,美團 LongCat 隊正式發布並開源 SOTA 人視頻生成模型 —— LongCat-Video-Avatar。該模型基於 LongCat-Video 基座打造,延續「一個模型支持多任務」的核心設計,原生支持 Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及視頻續寫等核心功能,同時在底層架構上全面升級,實現動作真度、長視頻定性與身份一致性三大維度的突破。

技術亮點

LongCat-Video-Avatar 的技術亮點包括:

  • 開源 SOTA 真度:讓人「活」起來
  • 連「不說話」的時候,都很像人:美團通過 Disentangled Unconditional Guidance(解無條件引導)訓練方法,让模型明白了「音」不等於「死機」

LongCat-Video-Avatar 的優勢

LongCat-Video-Avatar 因此成為首個同時支持文字、圖片、視頻三種生成模式的「全能選手」,人從此有了「真正的生命力」。在 HDTF、CelebV-HQ 、EMTD 和 EvalTalker 等權威公開數據集上的定量評測表明,LongCat-Video-Avatar 在多項核心指標上達到 SOTA 先水平。

開源地址

LongCat-Video-Avatar 的開源地址包括:

  • GitHub:https://github.com/meituan-longcat/LongCat-Video
  • Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar
  • Project:https://meigen-ai.github.io/LongCat-Video-Avatar/

參考資料與原文來源


🧠本文由 DreamJ AI 技術新聞生成系統 自動撰寫並進行語意優化,僅供技術研究與教學使用。
請以原廠公告、CVE 官方資料與安全建議為最終依據。

美團開源LongCat-Video-Avatar:打造逼真視訊人像新紀元!

🧠 本文章與所附圖片部分內容為 AI 生成或 AI 輔助產製。文中提及之商標、品牌名稱、產品圖片及相關標識, 其著作權與商標權均屬原權利人所有,本網站僅作為資訊呈現與示意使用

最新文章

推薦文章

留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

分析完成 ✔