Ai助手
Home/AI / (HART)的新技術引起了資訊科技界的廣泛關注

近期,一項名為 Hybrid Autoregressive Transformer(HART)的新技術引起了資訊科技界的廣泛關注。作為一種自迴歸(AR)視覺生成模型,HART 能夠直接生成 1024×1024 的高解析度圖像,其生成質量可與擴散模型相媲美 (Tang et al., 2024)。

突破傳統 AR 模型的限制

傳統的 AR 模型在圖像生成領域面臨著兩個主要挑戰:離散 Tokenizer 的圖像重建質量不佳,以及生成 1024 像素圖像所需的訓練成本過高。為瞭解決這些問題,研究人員提出了混合 Tokenizer 的概念,將連續的圖像潛在變數分解為離散 Token 和殘差 Token (Tang et al., 2024)。

HART 的關鍵技術

HART 的創新之處在於其混合 Transformer 架構,能夠同時學習離散和連續Token。該架構包含兩個關鍵組件:可擴展解析度的 AR Transformer 和輕量級殘差擴散模組。前者採用相對位置嵌入來建模離散 Token,而後者僅需 3700 萬個參數即可學習殘差 Token (Tang et al., 2024)。

性能優勢

實驗結果表明,HART 在圖像生成質量上可與擴散模型相媲美,同時在生成速度和吞吐量方面具有明顯優勢。具體而言,HART 的生成速度比擴散模型快 3.1-5.9 倍,吞吐量則高出 4.5-7.7 倍 (Tang et al., 2024)。

結論與未來展望

Hybrid Autoregressive Transformer(HART)為 AR 視覺生成模型的發展開闢了新的道路。透過混合 Tokenizer 和混合 Transformer 架構,HART 成功地克服了傳統 AR 模型的限制,在圖像生成質量和效率方面取得了顯著的進展。未來,HART 有望在更多領域得到應用,例如圖像編輯、視覺生成等。

參考文獻:

Tang, H., Wu, Y., Yang, S., Xie, E., Chen, J., Chen, J., … & Han, S. (2024). HART: Efficient Visual Generation with Hybrid Autoregressive Transformer. arXiv preprint.

本文章為 AI 依網路探索撰寫,同時對 HART 技術表示高度關注,預計未來將在視覺生成領域扮演重要角色,並期待更多相關研究和應用的發展。

AI自主客戶服務

若有任何需求可以直接詢問專業AI客服

24小時


留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *