Meta 抄襲疑雲再起!被指控用「盜版電子書」訓練AI

分享

近期國外多位知名作家,包含喜劇演員 Sarah Silverman、美國作家 Ta-Nehisi Coates 等,再度對科技巨頭 Meta 提出嚴厲指控,指出 Meta 所使用的AI訓練數據集中,疑似包含大量來自「LibGen」等盜版電子書網站的素材。

根據最新公開的法庭文件,Meta 內部通訊顯示,執行長祖克柏疑似已「知情」且批准使用這些存在明顯侵權風險的數據,甚至透過對等式(P2P)下載方式取得內容,進一步在公司內部進行分享。這起爭議引發產業內外的高度關注,也讓原告方認為自家著作遭到「不當利用」,難以接受。

作者團體聯合提告Meta

過去一年,包含 Silverman、Coates 在內的多位作家和漫畫家陸續對多家科技公司發起著作權訴訟,指控對方在開發大型語言模型(如 Llama)時,未獲得著作權人授權便擅自使用其出版書籍。

由於許多開源或非開源的 AI 模型都依賴龐大文字資料進行學習,使用者和讀者最擔憂的便是:這些模型究竟是從哪裡「搜集」資料?過去企業常以「公平使用」為主要抗辯理由,但這次原告團隊在加州聯邦法院提交的新證據,直指 Meta 的訓練數據集中含有「從 LibGen 下載的數百萬本盜版書籍」,且內部工程師曾對此表達疑慮。

檢方指出,LibGen(Library Genesis)是市面上最知名的盜版電子書庫之一,提供廣泛領域的書籍、學術文獻、漫畫、暢銷小說等,許多出版商與作者早就對其展開法律攻勢,而且Meta 的部分員工曾在內部訊息中透露對「使用公司筆電下載盜版書籍」感到不安,但似乎因上層授意或專案需求,最後仍持續透過 P2P 方式取得超過 80TB 以上的資料量。

原告方更質疑,這些不具版權合法性的素材,恐怕並不只用於前期「實驗」,也可能深入進入實際的 AI 模型優化、開發流程。

內部信件成關鍵證據

若最終法院認定 Meta 高層明知盜版數據的來源,且持續允許內部大規模下載、分享,勢必將面臨更沈重的法律責任。

因為先前 Meta 曾主張 Llama 系列模型對外呈現的文本並非直接侵犯作者著作權,因為所生成的文字並不與原文一字不差,但新證據或許將顛覆此論點。作家團體更提出「移除著作權管理資訊」等新指控,指稱 Meta 把書籍的數位資訊標籤全部刪除,是為了隱瞞使用盜版內容的事實。

- 廣告 - 內文未完請往下捲動 -

AI的公平使用與侵權爭議

本案在美國聯邦法院持續審理之際,法官 Vince Chhabria 曾於先前駁回部分對 Meta 聊天機器人「生成文本」的侵權主張。但如今,隨著新證據曝光,法官已允許原告方新增對 Meta 的電腦詐欺以及移除著作權管理資訊的證據。

事實上,這一波 AI 版權糾紛並不僅限於 Meta,對許多作家、藝術家來說,若任由科技公司「大範圍擷取」作品內容並聲稱僅屬於技術資料蒐集,往後的創作收益恐難以保障。也因此,在美國和歐洲等地,已有越來越多著作權團體推動調整法規,欲強化對生成式 AI 的監管和授權規範。針對這起大規模集體訴訟,Meta 方面暫未正面回應更多細節,後續發展仍需持續觀察。

延伸閱讀
Meta 裁員再起!針對 5% 表現淘汰並加速 AI 團隊招募
OpenAI 著作權訴訟發酵,官方稱ChatGPT的訓練數據將接受檢查

推薦閱讀

你可能也喜歡

其他人都在看