Adobe 受集體訴訟指控：AI 訓練資料的版權爭議

事件概述

2025 年 12 月 18 日，Adobe 遭一名俄勒岡州作家 Elizabeth Lyon 代表提出集體訴訟，指控公司在開發 AI 語言模型 SlimLM 時，使用了她及其他作者的盜版書籍作為訓練資料。SlimLM 是 Adobe 為行動裝置文件協助任務所打造的「小型語言模型」系列，宣稱其預訓練基於 Cerebras 於 2023 年 6 月發布的 SlimPajama‑627B 數據集 (iThome)。訴訟指出，SlimPajama 為 RedPajama 的衍生版本，進一步包含了 Books3 資料集，該資料集集合了 191,000 本書籍，其中就包含 Lyon 的作品 (Bitget)。

法律背景與合理使用

美國著作權法第 107 條規定「合理使用」可作為抗辯，近年多起 AI 訓練案件已依此判例進行評估。2025 年 6 月 23 日，加州北區聯邦地方法院對 Anthropic 的訴訟作出簡易裁決，支持其在訓練階段使用受保護書籍屬於合理使用，因其「高度轉化性」且不構成永久性圖書館 (U.S. District Court for the Northern District of California, 2025) (American Copyright Office)。然而，Adobe 的訴訟焦點在於使用盜版資料，並未取得作者授權，是否亦可視為合理使用仍存爭議。

訴訟重點與技術層面

資料來源：SlimPajama 透過複製 RedPajama，並進一步包含 Books3。訴訟指出，Books3 未經授權即包含多數作者作品，Adobe 亦未進行合理使用或取得授權 (Bitget)。
訓練流程：Adobe 在 SlimLM 的預訓練階段將大量文本「下載」至內部資料庫，並在模型權重中編碼資訊。根據美國著作權局 2025 年報告，模型權重若能「重現」受保護內容，可能構成侵權 (US Copyright Office)。
訴訟策略：原告主張 Adobe 在盜版資料上進行「大規模未經授權利用」，並要求賠償與停止使用。Adobe 則可能主張合理使用，亦可能提出「資料安全與隱私」的合規性措施作為防禦 (Bitget)。

對企業的啟示與風險緩解

建立 資料治理框架：在收集、清洗、標註 AI 訓練資料時，必須確認來源合法，並儘量使用開源或授權資料。可參考「多層次、體系化的規制方案」(CiPlawyer) 中建議之「法定許可」與「合理使用」混合模式。
採用 去重與匿名化技術：將訓練資料進行去重，避免重複使用同一作者作品；同時將敏感資訊匿名化，降低訴訟風險。
建立 合約與授權協議：與資料提供方簽訂明確授權，必要時使用「版權保險」或「知識共享協議」(CiPlawyer)。
實施 內部審計機制：定期審核資料集來源與使用情況，並在發現疑似盜版資料時即時剔除。
關注 法規動態：美國與台灣等地對 AI 訓練資料的法規仍在演進，應持續關注最新判例與政府報告，以調整企業策略。

結論

Adobe 的集體訴訟凸顯了 AI 訓練資料版權風險的實際存在。隨著生成式 AI 逐步滲透各行各業，企業在追求技術創新與商業競爭力之餘，必須同時重視資料合規與道德責任。透過完善的資料治理、授權管理與內部審計，可在維持創新動力的同時，降低因訴訟帶來的財務與聲譽風險。

參考資料與原文來源

Adobe遭集體訴訟指控，在AI訓練中濫用作者作品 – Bitget (https://www.bitget.com/zh-TC/news/detail/12560605115941)
生成式人工智能机器学习的版权争议及应对 – CiPlawyer (https://www.ciplawyer.cn/articles/154974.html)
美國聯邦法官裁決AI「訓練」行為可主張合理使用 – 资讯工业策进会科技法律研究所 (https://stli.iii.org.tw/article-detail.aspx?no=64&tp=1&d=9357)
美國著作權局報告- 訓練生成式AI對著作權的影響 – Saint Island (https://www.saint-island.com.tw/TW/News/News_Info.aspx?IT=News_1&CID=266&ID=123226)

🧠本文由 DreamJ AI 技術新聞生成系統 自動撰寫並進行語意優化，僅供技術研究與教學使用。
請以原廠公告、CVE 官方資料與安全建議為最終依據。