2024-10-30 13:30:02

准备迎接生成式人工智能对你隐私的下一次冲击

为生成性人工智能的隐私侵犯做好准备

发表于2024年6月24日，作者：Glyn Moody

自我们首次警告生成性人工智能可能对隐私造成恶劣影响以来，已经过去了15个月，这些潜在威胁变得愈发明显。新出现的问题之一是日益流行的浪漫聊天机器人，它们会明确要求并常常获取高度私人化的数据。现在，有一种新趋势出现，可能比我们迄今所见的更为棘手。

这种趋势源于生成性人工智能对训练数据的似乎永无止境的需求。系统所接受的高质量数据越多，其输出的质量就越高。为了在市场中占据领先地位，各公司正在寻找新的优质素材来源，以训练其基于大语言模型LLM的生成性人工智能产品。

大语言模型的训练方式

《纽约时报》的一篇文章解释说，至今为止，主要的AI训练数据集来源于几处主要渠道。其中一个渠道是自2007年以来收集的网页；另一个是维基百科；还有两个是基于数百万本已出版书籍的文本。另一个重要的数据集由来自Reddit的热门网页组成。最初由OpenAI创建为专有训练数据的，还有一个完全免费的开源版本，任何人都可以下载。

在生成性人工智能领域的大公司现在正寻找尚未开发的高质量素材来训练它们的LLM。例如，纽约时报报道Meta讨论过收购一家出版公司，从而有效地为未来的LLM训练获得大量文本。另一种被考虑的方法是直接向人们支付费用，让他们通过与AI聊天机器人互动以提高其质量，或简单地为其撰写新材料来为生成性AI系统提供训练。

隐私的新威胁：用户生成内容

不过，更重要的问题在于，去年，Zoom更新了其条款和条件，似乎授予公司使用其用户生成的材料进行AI训练的权利。在公众的强烈反对下，公司迅速“澄清”此事，承诺在未经客户许可的情况下不会使用音频、视频或聊天数据来训练其人工智能模型。未来，公司可能会将这些许可作为使用的基本条件。

我们也开始看到其他公司的类似做法。例如，仅在Zoom发生AI失误的一个月后，Meta宣布了其生成性AI功能，并解释说：

生成性AI模型需要大量数据来有效训练，因此训练中使用了多个来源的组合，包括在线上公开可用的信息、获得授权的数据以及来自Meta产品和服务的信息。对于在线公开可用的信息，我们过滤了数据集，以排除那些常分享个人信息的网站。Instagram和Facebook上的公开分享帖子包括照片和文本也是用于训练我们在Connect上宣布的功能的生成性AI模型的数据之一。我们并没有使用人们的私密帖子来训练这些模型。我们也不使用您与朋友和家人之间的私人消息内容来训练我们的AI。

换句话说，私人帖子被排除在训练集之外，但公开的帖子则不会即使它们可能包含大量高度个人化的数据。然而，在爱尔兰数据保护委员会的要求下，Meta已宣布将暂停使用在欧洲成人用户闭盖的Facebook和Instagram上共享的公共内容来训练其LLM。

谷歌也计划以同样的方式使用其用户生成的公共信息。在2023年7月，它更新了隐私政策，允许使用用户数据“来帮助训练谷歌的AI模型，并构建像谷歌翻译、Bard和云AI能力这样的产品和功能”。谷歌还在与其他服务签订协议，以将新的用户生成的材料纳入其训练集。例如，谷歌在二月份宣布与Reddit扩展合作关系：

谷歌现在可以访问Reddit的数据API，这提供了来自其大型动态平台的实时结构化独特内容。有了Reddit数据API，谷歌将能够高效、结构化地获得更新的信息，并获得增强的信号，帮助我们更好地理解Reddit内容，并以最准确和相关的方式展示、进行训练和使用该内容。这个扩展的合作关系并不会改变谷歌对公开的可爬取内容进行索引、训练或在谷歌产品中显示的使用方式。

《纽约时报》的一篇文章透露，谷歌已开始对YouTube视频进行转录，以便将这些文本用于训练目的。谷歌并不是唯一采取这种做法的公司：OpenAI已经创建了一种被称为Whisper的语音识别工具，允许它转录YouTube视频中的音频。

其他拥有大量用户生成内容的公司也意识到了其资产的潜在价值。例如，Automattic计划将“在WordPresscom和Tumblr上托管的公共内容”出售给AI公司。视频公司Vimeo也在考虑这样做，并正在进行一项关于其用户对此类举措看法的调查。

手机快连加速器

准备迎接生成式人工智能对你隐私的下一次冲击

你能避开吗？

已经有文章探讨如何阻止你的在线帖子被用于训练AI，但正如WIRED上的一篇文章指出的那样，这可能为时已晚 “很多建立AI的公司已经抓取了网页，因此你发布的任何内容可能已经在他们的系统中。”鉴于一些服务存储了大量用户生成的内容及其潜在价值，公司可能开始要求用户同意其文字、图片、视频和音频文件被授权给生成性AI公司用于训练。这将对数十亿人的在线隐私造成严重打击。

在欧盟，这场反击的斗争已经开始。隐私活动家Max Schrems的noyb组织已要求奥地利数据保护机构(DSB)调查OpenAI的数据处理及其在LLM训练数据集中确保个人数据处理的措施。noyb希望DSB命令OpenAI使其处理符合欧盟的GDPR隐私法，并对该公司施加罚款“以确保未来的合规性”。如果成功，这一投诉可能会影响在欧盟运营的大多数使用大语言模型的AI公司。

准备迎接生成式人工智能对你隐私的下一次冲击

为生成性人工智能的隐私侵犯做好准备

大语言模型的训练方式

隐私的新威胁：用户生成内容

你能避开吗？

Meta 起诉 NSO

最新 WhatsApp 诈骗：如何保持安全

导航

最新资讯

经典案例

准备迎接生成式人工智能对你隐私的下一次冲击

为生成性人工智能的隐私侵犯做好准备

大语言模型的训练方式

隐私的新威胁：用户生成内容

你能避开吗？

Meta 起诉 NSO

最新 WhatsApp 诈骗：如何保持安全

导航

最新资讯