Adobe 受集體訴訟指控:AI 訓練資料的版權爭議
事件概述
2025 年 12 月 18 日,Adobe 遭一名俄勒岡州作家 Elizabeth Lyon 代表提出集體訴訟,指控公司在開發 AI 語言模型 SlimLM 時,使用了她及其他作者的盜版書籍作為訓練資料。SlimLM 是 Adobe 為行動裝置文件協助任務所打造的「小型語言模型」系列,宣稱其預訓練基於 Cerebras 於 2023 年 6 月發布的 SlimPajama‑627B 數據集 (iThome)。訴訟指出,SlimPajama 為 RedPajama 的衍生版本,進一步包含了 Books3 資料集,該資料集集合了 191,000 本書籍,其中就包含 Lyon 的作品 (Bitget)。
法律背景與合理使用
美國著作權法第 107 條規定「合理使用」可作為抗辯,近年多起 AI 訓練案件已依此判例進行評估。2025 年 6 月 23 日,加州北區聯邦地方法院對 Anthropic 的訴訟作出簡易裁決,支持其在訓練階段使用受保護書籍屬於合理使用,因其「高度轉化性」且不構成永久性圖書館 (U.S. District Court for the Northern District of California, 2025) (American Copyright Office)。然而,Adobe 的訴訟焦點在於使用盜版資料,並未取得作者授權,是否亦可視為合理使用仍存爭議。
訴訟重點與技術層面
- 資料來源:SlimPajama 透過複製 RedPajama,並進一步包含 Books3。訴訟指出,Books3 未經授權即包含多數作者作品,Adobe 亦未進行合理使用或取得授權 (Bitget)。
- 訓練流程:Adobe 在 SlimLM 的預訓練階段將大量文本「下載」至內部資料庫,並在模型權重中編碼資訊。根據美國著作權局 2025 年報告,模型權重若能「重現」受保護內容,可能構成侵權 (US Copyright Office)。
- 訴訟策略:原告主張 Adobe 在盜版資料上進行「大規模未經授權利用」,並要求賠償與停止使用。Adobe 則可能主張合理使用,亦可能提出「資料安全與隱私」的合規性措施作為防禦 (Bitget)。
對企業的啟示與風險緩解
- 建立 資料治理框架:在收集、清洗、標註 AI 訓練資料時,必須確認來源合法,並儘量使用開源或授權資料。可參考「多層次、體系化的規制方案」(CiPlawyer) 中建議之「法定許可」與「合理使用」混合模式。
- 採用 去重與匿名化技術:將訓練資料進行去重,避免重複使用同一作者作品;同時將敏感資訊匿名化,降低訴訟風險。
- 建立 合約與授權協議:與資料提供方簽訂明確授權,必要時使用「版權保險」或「知識共享協議」(CiPlawyer)。
- 實施 內部審計機制:定期審核資料集來源與使用情況,並在發現疑似盜版資料時即時剔除。
- 關注 法規動態:美國與台灣等地對 AI 訓練資料的法規仍在演進,應持續關注最新判例與政府報告,以調整企業策略。
結論
Adobe 的集體訴訟凸顯了 AI 訓練資料版權風險的實際存在。隨著生成式 AI 逐步滲透各行各業,企業在追求技術創新與商業競爭力之餘,必須同時重視資料合規與道德責任。透過完善的資料治理、授權管理與內部審計,可在維持創新動力的同時,降低因訴訟帶來的財務與聲譽風險。
參考資料與原文來源
- Adobe遭集體訴訟指控,在AI訓練中濫用作者作品 – Bitget (https://www.bitget.com/zh-TC/news/detail/12560605115941)
- 生成式人工智能机器学习的版权争议及应对 – CiPlawyer (https://www.ciplawyer.cn/articles/154974.html)
- 美國聯邦法官裁決AI「訓練」行為可主張合理使用 – 资讯工业策进会科技法律研究所 (https://stli.iii.org.tw/article-detail.aspx?no=64&tp=1&d=9357)
- 美國著作權局報告- 訓練生成式AI對著作權的影響 – Saint Island (https://www.saint-island.com.tw/TW/News/News_Info.aspx?IT=News_1&CID=266&ID=123226)
🧠本文由 DreamJ AI 技術新聞生成系統 自動撰寫並進行語意優化,僅供技術研究與教學使用。
請以原廠公告、CVE 官方資料與安全建議為最終依據。












發佈留言