关闭广告

可逐字复现畅销书,多家巨头AI模型被指存储版权作品

IT之家253人阅读

IT之家 2 月 24 日消息,全球顶尖人工智能模型可通过提示词,生成与畅销小说几乎逐字相同的内容,这对 AI 行业声称其系统不存储受版权保护作品的说法提出了新的质疑。


近期多项研究显示,来自 OpenAI、谷歌、Meta、Anthropic 和 xAI 的大语言模型,对训练数据的记忆量远超此前认知。

AI 及法律专家向《金融时报》表示,这种“记忆”能力,可能对全球 AI 企业应对数十起版权诉讼产生重大影响,其直接动摇了这些企业的核心抗辩理由:大语言模型只是从受版权保护作品中“学习”,而非存储副本。

伦敦帝国理工学院应用数学与计算机科学教授伊夫-亚历山大 · 德蒙茹瓦称:“越来越多证据表明,模型记忆现象比此前认为的更为普遍。”

长期以来,AI 企业均否认存在记忆行为。在 2023 年致美国版权局的一封信中,谷歌曾表示:“模型本身并不存储训练数据副本,无论文本、图像或其他格式。”

AI 行业还主张,使用受版权书籍训练模型属于“合理使用”,认为该技术将原作品转化为具有全新意义的内容。

但上月发布的一项研究显示,斯坦福大学与耶鲁大学研究人员通过针对性提示词,成功让 OpenAI、谷歌、Anthropic 和 xAI 的大语言模型,输出了《权力的游戏》《饥饿游戏》《霍比特人》等 13 部作品的数千字内容。

通过让模型补全书中句子,谷歌 Gemini 2.5 高精度复现了《哈利 · 波特与魔法石》76.8% 的内容,xAI 的 Grok 3 则生成了 70.3%。研究人员还通过“越狱”(绕过安全限制)Anthropic 的 Claude 3.7 Sonnet,几乎提取了整部小说的完整原文。

这一结论建立在去年一项研究基础之上:该研究发现,Meta 的 Llama 等开源模型,会记住训练数据中特定书籍的大量内容。

此前 AI 专家并不确定,安全防护更严格、能阻止不当内容生成的闭源模型,是否也会出现大规模记忆现象。

参与该研究的耶鲁大学研究员 A· 费德 · 库珀表示:“尽管设有防护机制,模型仍能记住整段文本,这令人意外。”

研究人员尚未弄清大语言模型为何会记住训练数据中的内容,也不清楚模型输出中会体现多少训练数据。

这种记忆特性还可能对医疗、教育等其他领域产生严重影响,训练数据泄露可能引发隐私与保密问题。

法律专家表示,这可能使 AI 企业面临重大版权侵权责任,并影响其模型训练方式与研发成本。

英国品诚梅森律师事务所知识产权合伙人塞里斯 · 温 · 戴维斯称,这些研究发现“可能对那些主张 AI 模型不存储、不复制任何版权作品的观点构成挑战”。

AI 模型是否记忆训练数据,已成为近期版权法律纠纷的关键因素。美国一家法院去年裁定,Anthropic 使用部分受版权内容训练大语言模型可被视为合理使用,因其具有“转化性”。但法院同时认定,存储盗版作品“本质上、无可挽回地构成侵权”,最终该 AI 企业以 15 亿美元(IT之家注:现汇率约合 103.74 亿元人民币)达成和解。

德国去年 11 月的一项判决认定,OpenAI 因模型记忆歌词侵犯版权。此案由词曲作者及出版商协会 GEMA 提起,被视为欧盟标志性判例。

美国 Husch Blackwell 律师事务所合伙人鲁迪 · 特尔舍认为,无需越狱即可完整复制一整本书“显然构成版权侵权”,但问题在于“此类情况是否普遍到足以让 AI 模型承担连带侵权责任”。

Anthropic 表示,斯坦福与耶鲁研究中使用的越狱技术对普通用户并不实用,提取文本所需成本高于直接购买作品。该公司还称,其模型不存储特定数据集副本,只是学习训练数据中词汇与字符的模式和关联关系。

xAI、OpenAI 和谷歌均未回应置评请求。

帝国理工的德蒙茹瓦指出,AI 实验室设置防护机制防止训练数据被提取,这一事实本身就说明它们知晓问题存在。

芝加哥大学计算机科学教授本 · 赵质疑,AI 实验室从一开始是否真的需要使用受版权内容来训练前沿模型。“无论技术上能否实现,问题在于我们应不应该这么做。”赵表示,“法律层面最终应坚守立场,成为整个过程的裁决者。”

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

周定洋自宣离队!媒体人热议:已经在深圳,非得不做英雄太可惜

奥拜尔 浏览 309

在这里,我们拍到了雪原上的一抹瑞红

时尚COSMO 浏览 320

小米SU7成都事故惨烈 "打不开的门"问题在哪儿

网易汽车 浏览 472

世体:马竞主场对阵巴萨门票早已售罄,并有望刷新上座纪录

懂球帝 浏览 168

刘强东“最值钱”的金融牌照,迎来75后掌舵人

经理人杂志 浏览 470

新增车道级导航与全向记录仪 腾势N9迎重磅OTA升级

网易汽车 浏览 478

罗马仕违反强制认证规定、虚假宣传 被罚没124万

南方都市报 浏览 366

五月天演唱会风波升级!票卖不完就取消

萌神木木 浏览 219

曝卡塞米罗续约曼联条款,一条件可保35万周薪!卖齐尔克泽恐已定

罗米的曼联博客 浏览 334

1-9月百万级豪车销量:奔驰3款入榜,奥迪出局,仰望U8苦苦支撑?

AGKC阿贵艺车 浏览 478

皮耶罗儿子被意丁俱乐部解约,俱乐部主席:我们不看他的姓氏

懂球帝 浏览 359

特朗普:格陵兰岛非常重要 北约若离开了美国啥也不是

澎湃新闻 浏览 400

特朗普威胁"对向伊朗供武国征收50%关税" 外交部回应

界面新闻 浏览 165

需求激增 流感药“新老对决”

北京商报 浏览 416

芒果这部剧,让人读懂“太平”二字的千钧重

娱乐圈笔娱君 浏览 307

曼联传奇警告梅努绝不能租借离队

绿茵情报局 浏览 316

体系决胜 长安汽车从300万辆进击全球TOP10的"增长逻辑"

网易汽车 浏览 70

曾毓群赴穗,小鹏与宁德双方能否“破冰复合”?

百姓评车 浏览 349

特朗普又想打电话调停泰柬冲突 泰方强硬表态

澎湃新闻 浏览 490

媒体人:湖人希望詹姆斯赛季后退役;詹姆斯与湖人已陷入冷战

懂球帝 浏览 476

伊朗军队总司令:“我们的手始终放在扳机上”

环球网资讯 浏览 299
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2024,版权所有 xingchentong.com
沪ICP备20017958号-8