LongCat AMO-Bench 基準測試旨在評估 LLM 在高中數學題目的推理能力。基準包含一萬道涵蓋代數、幾何、微積分的題目,並採用「理由-答案」雙重評分。評測發現,即使是 GPT-4 等模型,平均正確率也僅為 45%-55%,主要錯誤源於數值精度、符號處理和推導順序。研究提出多步驟提示、數值校驗層和資料擴充等策…
標籤: AI 信息可靠性评估
-
LLM 的數學阿基里斯腱:詳解 AMO-Bench 評測與 AI 推理優化策略
LongCat AMO-Bench 基準測試旨在評估 LLM 在高中數學題目的推理能力。基準包含一萬道涵蓋代數、幾何、微積分的題目,並採用「…

-
小心!AI暗算:破解對抗性攻擊,守護企業命脈
2025年臺灣網路惡意活動頻繁,對抗性攻擊成為新興威脅。此類攻擊透過對輸入資料添加微小擾動,使機器學習模型產生錯誤預測,對金融、醫療等關鍵領…

-
GPT經濟席捲全球:萬人編程時代的黃金與風險
本文概述近一年 AI Copilot 技術在開發者與企業工具中的普及與經濟衝擊,突出 GPT 產業鏈數兆美元規模。討論 GMI Cloud …

-
AI 整理新聞爆錯!ChatGPT、Gemini 等主流模型錯誤率高達90%?
歐洲廣播聯盟與BBC 2025 年跨 18 國 14 語料實驗顯示,ChatGPT、Copilot、Gemini、Perplexity 等主…

AI 誤導:十年重犯變無辜,資安事件調查的新挑戰
AI誤導:十年重犯變無辜,資安事件調查的新挑戰 隨著生成式 AI 及深偽技術日益成熟,過去十年累積的惡意行為模式在調查報告中被誤判為無辜,造成偵查…
React2Shell 漏洞引爆 AWS 危機!中國駭客入侵企業雲端應用全解析
中華駭客利用 React2Shell 漏洞攻擊 AWS:企業安全風險全景 React2Shell(CVE‑2025‑2796)是 React 伺服…
AI 程式碼品質保障:美團技術實踐與單元測試驅動的演進之路
美团在 AI 编程质量保障上,通过融合生成式 AI 与单元测试,实现了高效迭代。采用“测试驱动生成”理念,先编写单元测试覆盖关键业务场景,再由微调的大模型自动生成符合测试的代码实现。此方法确保代码在提交前通过静态检查与运行时验证,降低回归风险,提升代码质量和可维护性。…
Iskra智慧電表爆嚴重漏洞:未授權存取恐致資料外洩、電費異常!企業速擬防禦策略
Iskra iHUB 智慧電表未授權存取漏洞概述 Iskra iHUB 智慧電表近期被安全研究員發現存在未授權存取漏洞,允許攻擊者在不經授權的情況…
React/Next.js 嚴重 RCE 漏洞 (CVE-2025-55182) 影響與修復指南
React/Next.js 重大 RCE 漏洞 (CVE‑2025‑55182) 影響與修復指南 2025年12月5日,安全社群曝光 React…
AI自主客戶服務
若有任何需求可以直接詢問專業AI客服

