
美團 LongCat-Flash-Thinking-2601 型:開源智能體工具調用能力新突破
近日,美團 LongCat 隊正式對外發布並開源 LongCat-Flash-Thinking-2601。這個模型是 LongCat-Flash-Thinking 型的升級版,在智能體搜索、工具调用、工具交互推理等核心評測基準上均達到開源模型 SOTA 水平。
模型特點
LongCat-Flash-Thinking-2601 型尤其在工具调用上表現出卓越的泛化能力,在依工具调用的隨機複任務中性能超越了 Claude,可大幅度降低真實場景下新工具的適配訓練成本。同時,它是首個完整開源並支持線上免費體驗「重思考模式」的模型,同時動 8 個大腦飛速運轉,確保思考周全、決策可靠。
「重思考」模式
全新升級的「重思考」模式讓模型學會了「深思熟」再行動,遇到高難度問題時,模型會把思考過程成並行思考和總結納兩步來做:
* 並行思考階段,模型會同時獨立理出好幾條推理路径,就像人面對難題時會磨不同解法一個道理,还會特意保證思路的多樣性,生怕漏掉最優解;
* 結納階段,對多條路径進行理、優化與合成,並將優化結果重新輸入,形成閉環代推理,推動思考持續深化。
除此之外,還專門設計了額外的強化學習環節,對性打磨模型的總結納能力,让 LongCat-Flash-Thinking-2601 真正實現「想清楚再行動」。
評測結果
經過全面的評估顯示,LongCat-Flash-Thinking-2601 型在編程、數學推理、智能體工具调用、智能體搜索維度表現全面領先:
* 編程能力:LongCat-Flash-Thinking-2601 在 LCB 評測中取得 82.8 分,OIBench EN 評測獲 47.7 分,成績處於同類模型第一梯隊,展現出扎實的代碼基能力。
* 學推理能力:在開重思考模式後表現突出,LongCat-Flash-Thinking-2601 在 AIME-25 評測中獲 100.0 分(滿分),IMO-AnswerBench 中以 86.8 分達到當前 SOTA。
* 能體工具调用能力:在 τ²-Bench 評測中拿到 88.2 分,VitaBench 評測中獲得 29.3 分,均獲得開源 SOTA 水平,在多領域工具调用場景下表現優異,適配實際應用需求。
參考資料與原文來源
- 原文來源: https://tech.ifeng.com/c/8pxaW8GuoCM
- 原文來源: https://www.cnblogs.com/xueweihan/p/19499589
- 原文來源: https://zhuanlan.zhihu.com/p/1996883835200239173
- 原文來源: https://wap.eastmoney.com/a/202601163621758569.html
- 原文來源: https://tech.meituan.com/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B.html
🧠本文由 DreamJ AI 技術新聞生成系統 自動撰寫並進行語意優化,僅供技術研究與教學使用。
請以原廠公告、CVE 官方資料與安全建議為最終依據。








發佈留言