AI 数据投毒是指故意在 AI 模型的训练数据中引入偏见,从而产生有偏见的输出。
阅读本文后,您将能够:
复制文章链接
人工智能 (AI) 数据投毒是指攻击者通过更改训练数据来操纵 AI 或机器学习模型的输出。攻击者发动 AI 数据投毒攻击的目标是让模型在推理过程中产生有偏见或危险的结果。
AI 和机器学习*模型有两个主要成分:训练数据和算法。算法就像汽车的发动机,训练数据就像是作为发动机燃料的汽油:数据让 AI 模型运转起来。数据投毒攻击就像有人在汽油中添加了额外的成分,导致汽车行驶不畅。
随着越来越多的公司和个人开始在日常活动中依赖 AI,AI 数据投毒的潜在后果也变得更加严重。一次成功的 AI 数据投毒攻击可以永久改变模型的输出,从而使攻击背后的人受益。
AI 数据投毒对于大型语言模型 (LLM) 而言尤其值得担忧。数据投毒被列入 OWASP Top 10 for LLM 中,近年来,研究人员警告称,数据投毒漏洞会影响医疗保健、代码生成和文本生成模型。
*“机器学习”和“人工智能”有时可以互换使用,但这两个术语指的是两组略有不同的计算功能。机器学习是人工智能的一种类型。
AI 开发人员使用大量数据来训练他们的模型。本质上,训练数据集为模型提供了示例,然后模型学习从这些示例中进行归纳总结。数据集中的示例越多,模型就越精细和准确——但前提是数据正确且相对无偏见。
数据投毒会故意在训练数据集中引入偏见,改变模型算法的起点,从而导致其结果与开发人员最初的预期不同。
想象一下,一位老师在黑板上写下一道数学题让学生们解答:例如,“47 * (18 + 5) = ?”。答案是 1,081。但如果有学生背着她偷偷把“47”改成“46”,那么答案就不再是 1,081,而是 1,058。数据投毒攻击就像那个鬼鬼祟祟的学生:如果起始数据稍有变化,答案也会跟着改变。
对训练数据的未经授权的更改可能来自多种来源。
内部攻击:有权访问训练数据的人可能会引入偏见、虚假数据或其他破坏输出的更改。与未经授权访问数据的外部第三方的攻击相比,这些攻击更难检测和阻止。
供应链攻击:大多数 AI 和机器学习模型依赖于各种来源的数据集来训练其模型。这些来源中的一个或多个可能包含“中毒的”数据,这些数据会影响使用该数据进行训练和微调的所有模型。
未经授权的访问:攻击者可以通过多种方式访问训练数据集,从通过之前的攻击进行横向移动,到通过网络钓鱼获取开发人员的凭据,以及其间的多种潜在攻击。
攻击者可以通过多种方式对 AI 模型的数据投毒,以达到自己的目的。需要了解的一些重要技术包括:
数据验证:在训练之前,应对数据集进行分析,以识别恶意、可疑或异常数据。
最低权限原则:换句话说,只有绝对需要访问训练数据的人员和系统才有权访问。最低权限原则是 Zero Trust 安全方法的核心原则,该方法有助于防止横向移动和凭证泄露。
多样化的数据源:从更广泛的来源获取数据可以帮助减少给定数据集中偏见的影响。
监控和审计:跟踪并记录更改训练数据的人员、更改内容和更改时间,使开发人员能够识别可疑模式,或者在数据集被投毒后追踪攻击者的活动。
对抗性训练:这是指训练 AI 模型识别故意的误导性输入。
防火墙等其他应用程序防御措施也可应用于 AI 模型。为了防止数据投毒和其他攻击,Cloudflare 提供了 Firewall for AI,可将其部署在 LLM 前方,以在滥用达到 LLM 之前识别并予以阻止。进一步了解 Firewall for AI。