基於大模型的UI交互測試：KuiTest異常檢測與實踐

傳統的UI功能測試仰賴人工編寫的腳本或規則，成本高昂且難以維護。隨著App功能日益複雜，以及前端技術快速迭代，基於規則的測試方法面臨著效率與覆蓋率的瓶頸。美團與復旦大學合作推出的KuiTest，旨在透過大模型的通識能力，實現無規則的UI功能性異常測試，大幅提升測試效率與覆蓋率。(美團技術團隊)

KuiTest 的核心理念：模擬人類預期

KuiTest的核心理念在於模擬人類對UI交互的常識性預期。它將大語言模型（LLM）作為“Test Oracle”，無需人工逐頁面編寫規則，即可自動檢測UI交互是否符合預期。這種方法尤其適用於那些難以用簡單規則概括的複雜異常，例如點擊“全部已讀”卻意外清空消息列表等。(美團技術團隊)

技術架構與實現

KuiTest 透過分析 UI 功能缺陷的共性，提出一個全新的思路：能否基於大模型理解“人類對 UI 交互的常識預期”，並以此自動判斷交互是否正確？KuiTest 能夠像人一樣，理解按鈕、圖標等交互組件的含義，預測點擊後的合理結果，並據此自動校驗實際界面反饋是否符合預期。(知乎專欄)

異常檢測的關鍵：UI交互意圖理解

KuiTest的異常檢測能力，很大程度上歸功於對UI交互意圖的理解。UI交互意圖是指用戶透過當前UI展示推斷出來的不同模組的概念及交互功能。(美團技術團隊) 例如，在一個商品詳情頁面中，用戶預期點擊“加入購物車”按鈕後，商品應該被添加到購物車，而不是跳轉到其他頁面。KuiTest 能夠利用多模態模型，融合文本、視覺圖像和UI組件樹中的屬性，更準確地識別UI交互意圖，進而判斷交互是否異常。(美團技術團隊)

KuiTest 的實踐成果

根據美團技術團隊的報告，KuiTest在實際應用中取得了顯著的成果：

異常召回率達86%
誤報率僅1.2%
已執行21萬+測試用例
發現百餘例有效缺陷
大幅降低人工成本並提升測試覆蓋率

目前，KuiTest 已經在美團 App 的多個業務中落地應用，並展現出強大的潛力。(美團技術團隊)

與傳統UI測試方法的比較

以下表格比較了 KuiTest 與傳統 UI 測試方法的主要區別：

特性	傳統 UI 測試	KuiTest
規則依賴	高度依賴人工編寫的規則	無規則 (Rule-free)
維護成本	高，需要頻繁更新規則以適應UI變更	低，無需人工維護規則
覆蓋率	受規則限制，覆蓋率可能較低	高，基於大模型通識，覆蓋面更廣
異常檢測	擅長檢測簡單的異常，對複雜邏輯異常檢測能力有限	擅長檢測複雜的邏輯異常，更接近人類預期
可擴展性	可擴展性較差，需要針對不同應用/功能進行定制	可擴展性強，無需針對特定應用/功能進行定制