美團 LongCat-Flash-Thinking-2601 型：開源智能體工具調用能力新突破

近日，美團 LongCat 隊正式對外發布並開源 LongCat-Flash-Thinking-2601。這個模型是 LongCat-Flash-Thinking 型的升級版，在智能體搜索、工具调用、工具交互推理等核心評測基準上均達到開源模型 SOTA 水平。

模型特點

LongCat-Flash-Thinking-2601 型尤其在工具调用上表現出卓越的泛化能力，在依工具调用的隨機複任務中性能超越了 Claude，可大幅度降低真實場景下新工具的適配訓練成本。同時，它是首個完整開源並支持線上免費體驗「重思考模式」的模型，同時動 8 個大腦飛速運轉，確保思考周全、決策可靠。

「重思考」模式

全新升級的「重思考」模式讓模型學會了「深思熟」再行動，遇到高難度問題時，模型會把思考過程成並行思考和總結納兩步來做：

* 並行思考階段，模型會同時獨立理出好幾條推理路径，就像人面對難題時會磨不同解法一個道理，还會特意保證思路的多樣性，生怕漏掉最優解；
* 結納階段，對多條路径進行理、優化與合成，並將優化結果重新輸入，形成閉環代推理，推動思考持續深化。

除此之外，還專門設計了額外的強化學習環節，對性打磨模型的總結納能力，让 LongCat-Flash-Thinking-2601 真正實現「想清楚再行動」。

評測結果

經過全面的評估顯示，LongCat-Flash-Thinking-2601 型在編程、數學推理、智能體工具调用、智能體搜索維度表現全面領先：

* 編程能力：LongCat-Flash-Thinking-2601 在 LCB 評測中取得 82.8 分，OIBench EN 評測獲 47.7 分，成績處於同類模型第一梯隊，展現出扎實的代碼基能力。
* 學推理能力：在開重思考模式後表現突出，LongCat-Flash-Thinking-2601 在 AIME-25 評測中獲 100.0 分（滿分），IMO-AnswerBench 中以 86.8 分達到當前 SOTA。
* 能體工具调用能力：在 τ²-Bench 評測中拿到 88.2 分，VitaBench 評測中獲得 29.3 分，均獲得開源 SOTA 水平，在多領域工具调用場景下表現優異，適配實際應用需求。