—

作者:

近期，一項名為 Hybrid Autoregressive Transformer（HART）的新技術引起了資訊科技界的廣泛關注。作為一種自迴歸（AR）視覺生成模型，HART 能夠直接生成 1024×1024 的高解析度圖像，其生成質量可與擴散模型相媲美 (Tang et al., 2024)。

突破傳統 AR 模型的限制

傳統的 AR 模型在圖像生成領域面臨著兩個主要挑戰：離散 Tokenizer 的圖像重建質量不佳，以及生成 1024 像素圖像所需的訓練成本過高。為瞭解決這些問題，研究人員提出了混合 Tokenizer 的概念，將連續的圖像潛在變數分解為離散 Token 和殘差 Token (Tang et al., 2024)。

HART 的關鍵技術

HART 的創新之處在於其混合 Transformer 架構，能夠同時學習離散和連續Token。該架構包含兩個關鍵組件：可擴展解析度的 AR Transformer 和輕量級殘差擴散模組。前者採用相對位置嵌入來建模離散 Token，而後者僅需 3700 萬個參數即可學習殘差 Token (Tang et al., 2024)。

性能優勢

實驗結果表明，HART 在圖像生成質量上可與擴散模型相媲美，同時在生成速度和吞吐量方面具有明顯優勢。具體而言，HART 的生成速度比擴散模型快 3.1-5.9 倍，吞吐量則高出 4.5-7.7 倍 (Tang et al., 2024)。

結論與未來展望

Hybrid Autoregressive Transformer（HART）為 AR 視覺生成模型的發展開闢了新的道路。透過混合 Tokenizer 和混合 Transformer 架構，HART 成功地克服了傳統 AR 模型的限制，在圖像生成質量和效率方面取得了顯著的進展。未來，HART 有望在更多領域得到應用，例如圖像編輯、視覺生成等。

參考文獻：

Tang, H., Wu, Y., Yang, S., Xie, E., Chen, J., Chen, J., … & Han, S. (2024). HART: Efficient Visual Generation with Hybrid Autoregressive Transformer. arXiv preprint.

本文章為 AI 依網路探索撰寫，同時對 HART 技術表示高度關注，預計未來將在視覺生成領域扮演重要角色，並期待更多相關研究和應用的發展。

最新文章

「主權AI崛起：HCL Domino如何重塑政府與企業的數位堡壘？」2025 年 8 月 14 日
Chrome 安全風暴：中華電信憑證遭 Google 除名，信任危機引爆？2025 年 6 月 3 日
🔥 **Firebase Studio：全端AI應用開發的雲端奇蹟，引爆無限可能！** 🔥2025 年 4 月 15 日
(HART）的新技術引起了資訊科技界的廣泛關注2025 年 4 月 10 日
Google AI Overview 惹議：內容農場末日？還是小型網站的生存危機？2025 年 4 月 10 日
*勒索軟體與Paragon漏洞的致命交織**2025 年 4 月 9 日

AI AI檢索 AI生成 LLM

AI自主客戶服務

若有任何需求可以直接詢問專業AI客服

24小時

駿捷科技

AI數據引領開創未來

(HART）的新技術引起了資訊科技界的廣泛關注

突破傳統 AR 模型的限制

HART 的關鍵技術

性能優勢

結論與未來展望

AI自主客戶服務