AI數據引領開創未來

美團開源「LongCat-Video-Avatar」：逼真視訊頭像技術，顛覆數字人創作！

—

作者:

分類: AI, 生成式 AI

美團 LongCat-Video-Avatar 真視訊頭像：開源 SOTA 技術實現

近日，美團 LongCat 隊正式發布並開源了 LongCat-Video-Avatar，一款專門對數字人優化的視訊生成模型。這款模型基於 LongCat-Video 基座打造，延續了「一個模型支持多任務」的核心設計，原生支持 Audio-Text-to-Video（AT2V）、Audio-Text-Image-to-Video（ATI2V）及視訊續寫等核心功能。同時，在底層架構上全面升級，實現了動作真度、長視訊定性與身份一致性三大維度的突破。

技術亮點

LongCat-Video-Avatar 的技術亮點包括：

* 開源 SOTA 真度：讓人「活」起來
* 別「硬」，迎接「鮮活」。全新的 LongCat-Video-Avatar 底改變了人的表現方式，不僅能指揮嘴型，还能同步指揮眼神、表情和體動作，實現富滿的情感表達。
* 連「不說話」的時候，都很像人：美團通過 Disentangled Unconditional Guidance（解無條件引導）訓練方法，让模型明白了「音」不等於「死機」。在說話的間，人也會如同人類一般自然地眼、調整坐姿、放松肩。

LongCat-Video-Avatar 的優勢

LongCat-Video-Avatar 的優勢包括：

* 原生支持文字、圖片、視訊三種生成模式的「全能選手」
* 人從此有了「真正的生命力」
* 在 HDTF、CelebV-HQ 、EMTD 和 EvalTalker 等權威公開數據集上的定量評測表明，LongCat-Video-Avatar 在多項核心指標上達到 SOTA 先水平。

LongCat-Video 的技術亮點

LongCat-Video 的技術亮點包括：

* 一模型架構：多任務一體化視訊基座
* 長視訊生成：原生支持 5 分鐘級連輸出
* 訊續寫：可基於多條件續接視訊內容，为長視訊生成提供原生技術支。

結論

LongCat-Video-Avatar 的發布和開源標誌著美團在人視訊生成技術上的重大突破。這款模型的優勢包括原生支持多種生成模式、有真正的生命力和 SOTA 先水平的性能。同時，LongCat-Video 的技術亮點也體現了美團在視訊生成技術上的創新和領先地位。

參考資料與原文來源

原文來源: 拒绝像感！美团开源LongCat-Video-Avatar：5分钟超长续航
原文來源: 美团LongCat-Video-Avatar 正式发布，实现开源SOTA级拟真表现
原文來源: 突破时长极限！美团开源LongCat-Video-Avatar：一张照片生成无限…
原文來源: 美团开源虚拟人视频生成模型LongCat-Video-Avatar
原文來源: LongCat-Video 频生成模型正式发布，探索世界模型的第一步

🧠本文由 DreamJ AI 技術新聞生成系統 自動撰寫並進行語意優化，僅供技術研究與教學使用。
請以原廠公告、CVE 官方資料與安全建議為最終依據。

🧠 本文章與所附圖片部分內容為 AI 生成或 AI 輔助產製。文中提及之商標、品牌名稱、產品圖片及相關標識，其著作權與商標權均屬原權利人所有，本網站僅作為資訊呈現與示意使用

最新文章

Android 淪陷！200 萬台裝置遭 Kimwolf 殭屍網路入侵，駭客手法大解析

圖片來源：Stable Horde（AI 生成） Kim…

DarkSpectre 惡意擴充：你的瀏覽器安全岌岌可危！

圖片來源：Stable Horde（AI 生成）瀏覽器…

Flock AI 監控攝影機大漏洞：無防護直播，隱私危機全面爆發！

圖片來源：Stable Horde（AI 生成） Flo…

**去中心化身份的隱形危機：可見性與治理的雙重挑戰**

身份暗物質：分散式身份環境下的可見性與治理挑戰在分散式…

React 應用程式岌岌可危？React2Shell 漏洞讓你面臨遠端程式碼入侵風險！

圖片來源：Stable Horde（AI 生成） Rea…

**Flock AI 監控風暴：8萬鏡頭洩漏，你的隱私岌岌可危？**

Flock AI 監控攝影機網路暴露：隱私風險與追蹤行為…

推薦文章

DarkSpectre 惡意擴充：你的瀏覽器安全岌岌可危！

圖片來源：Stable Horde（AI

**Flock AI 監控風暴：8萬鏡頭洩漏，你的隱私岌岌可危？**

Flock AI 監控攝影機網路暴露：隱

BPMFlowWebkit 平台爆發雙重安全漏洞：敏感資料外洩與系統損壞的潛在風險

BPMFlowWebkit 平台發現兩個

**Nvidia Alpamayo：自駕車「思考」新紀元，視覺與語言雙重理解，安全可靠再升級！**

Nvidia Alpamayo 模型：賦

AT2V ATI2V Audio-Text-Image-to-Video Audio-Text-to-Video Disentangled Guidance HDTF LongCat-Video-Avatar Unconditional vc

留言

發佈留言取消回覆

分析完成 ✔

↑