AI 风险
Reading time: 10 minutes
tip
学习和实践 AWS 黑客技术:HackTricks Training AWS Red Team Expert (ARTE)
学习和实践 GCP 黑客技术:HackTricks Training GCP Red Team Expert (GRTE)
学习和实践 Azure 黑客技术:
HackTricks Training Azure Red Team Expert (AzRTE)
支持 HackTricks
- 查看 订阅计划!
- 加入 💬 Discord 群组 或 Telegram 群组 或 在 Twitter 🐦 上关注我们 @hacktricks_live.
- 通过向 HackTricks 和 HackTricks Cloud GitHub 仓库提交 PR 来分享黑客技巧。
OWASP 机器学习十大漏洞
Owasp 已识别出可能影响 AI 系统的机器学习十大漏洞。这些漏洞可能导致各种安全问题,包括 data poisoning、model inversion 和 adversarial attacks。理解这些漏洞对于构建安全的 AI 系统至关重要。
有关最新和详细的十大机器学习漏洞列表,请参阅 OWASP Top 10 Machine Learning Vulnerabilities 项目。
-
Input Manipulation Attack: 攻击者对输入数据做出微小、通常不可见的修改,使模型做出错误判断。
示例: 在 stop‑sign 上涂几点油漆,会让自驾车“看到”一个 speed‑limit sign。 -
Data Poisoning Attack: 故意污染训练集,加入有害样本以教会模型错误规则。
示例: 在防病毒训练语料中将 malware binaries 错误标注为 "benign",使得相似的 malware 在后续检测中漏检。 -
Model Inversion Attack: 通过探测输出,攻击者构建一个反向模型来重构原始输入的敏感特征。
示例: 从癌症检测模型的预测中重建患者的 MRI 图像。 -
Membership Inference Attack: 对手通过观察置信度差异来测试某个特定记录是否被用于训练。
示例: 确认某人的银行交易是否出现在一个 fraud‑detection model 的训练数据中。 -
Model Theft: 反复查询使攻击者学会决策边界并克隆模型行为(以及知识产权)。
示例: 从 ML‑as‑a‑Service API 收集足够多的问答对,以构建一个近似等效的本地模型。 -
AI Supply‑Chain Attack: 在 ML pipeline 的任一组件(数据、libraries、pre‑trained weights、CI/CD)被入侵,从而污染下游模型。
示例: model‑hub 上的被植入毒化的依赖在许多应用中安装了带后门的 sentiment‑analysis 模型。 -
Transfer Learning Attack: 在 pre‑trained model 中植入恶意逻辑,即使在受害者的任务上进行 fine‑tuning 也会存活。
示例: 一个含有隐藏触发器的 vision backbone 在被用于医疗成像后仍然会使标签翻转。 -
Model Skewing: 通过微妙偏置或错误标注的数据改变模型输出,使其倾向于攻击者的目的。
示例: 注入被标为 ham 的“干净”spam 邮件,使 spam filter 在未来放过相似邮件。 -
Output Integrity Attack: 攻击者在传输过程中更改模型预测,而不是模型本身,从而欺骗下游系统。
示例: 在文件被隔离前,将 malware classifier 的 "malicious" 判定篡改为 "benign"。 -
Model Poisoning --- 直接、有针对性地修改模型参数本身,通常是在获得写入权限之后,以改变行为。
示例: 在生产环境中调整 fraud‑detection model 的权重,使某些卡号的交易总是被批准。
Google SAIF 风险
Google 的 SAIF (Security AI Framework) 概述了与 AI 系统相关的各种风险:
-
Data Poisoning: 恶意行为者篡改或注入训练/微调数据以降低准确性、植入后门或偏斜结果,从而破坏模型在整个数据生命周期内的完整性。
-
Unauthorized Training Data: 摄取受版权保护、敏感或未授权的数据集会带来法律、道德和性能方面的负债,因为模型从未被许可使用这些数据进行学习。
-
Model Source Tampering: 在训练前或训练过程中通过供应链或内部人员篡改 model code、dependencies 或 weights,可能嵌入隐藏逻辑,即使重新训练也会保留。
-
Excessive Data Handling: 弱的数据保留和治理控制导致系统存储或处理超出必要的个人数据,增加暴露面和合规风险。
-
Model Exfiltration: 攻击者窃取模型文件/weights,导致知识产权流失并支持山寨服务或后续攻击。
-
Model Deployment Tampering: 对模型工件或 serving 基础设施的篡改使运行中的模型与审核版本不一致,可能改变行为。
-
Denial of ML Service: 通过淹没 API 或发送“sponge”输入耗尽计算/能量,使模型离线,类似传统的 DoS 攻击。
-
Model Reverse Engineering: 通过收集大量输入-输出对,攻击者可以克隆或提取模型,促生模仿产品和定制化对抗攻击。
-
Insecure Integrated Component: 易受攻击的插件、agents 或上游服务允许攻击者注入代码或在 AI 流水线中提升权限。
-
Prompt Injection: 精心构造的 prompts(直接或间接)走私指令以覆盖系统意图,使模型执行非预期命令。
-
Model Evasion: 经过精心设计的输入触发模型误判、出现 hallucinate,或输出被禁止的内容,侵蚀安全性和信任。
-
Sensitive Data Disclosure: 模型泄露其训练数据或用户上下文中的私人或机密信息,违反隐私和法规。
-
Inferred Sensitive Data: 模型推断出从未提供的个人属性,通过推断创造新的隐私伤害。
-
Insecure Model Output: 未经消毒的响应向用户或下游系统传递有害代码、错误信息或不当内容。
-
Rogue Actions: 自主集成的 agents 在缺乏足够用户监督的情况下执行非预期的真实世界操作(文件写入、API 调用、购买等)。
Mitre AI ATLAS Matrix
MITRE AI ATLAS Matrix 提供了一个全面的框架,用于理解和缓解与 AI 系统相关的风险。它对攻击者可能采用的各种攻击技术和策略进行了分类,以及如何利用 AI 系统执行不同攻击的方式。
LLMJacking (Token Theft & Resale of Cloud-hosted LLM Access)
攻击者窃取活动会话 tokens 或 cloud API credentials,未经授权调用付费的 cloud‑hosted LLMs。访问通常通过面向受害者账号的反向代理转售,例如 "oai-reverse-proxy" 部署。后果包括财务损失、model misuse 超出策略范围,以及将行为归因到受害租户。
TTPs:
- 从被感染的开发者机器或浏览器 harvest tokens;窃取 CI/CD secrets;购买 leaked cookies。
- 搭建一个将请求转发到真实提供商的 reverse proxy,隐藏上游 key 并对多名客户进行复用。
- 滥用直接的 base‑model endpoints,以绕过企业 guardrails 和速率限制。
Mitigations:
- 将 tokens 绑定到设备指纹、IP 范围和 client attestation;强制短期过期并通过 MFA 刷新。
- 最小化 key 的权限范围(无工具访问、尽可能只读);在异常时轮换。
- 在策略网关后端终止所有流量,实施安全过滤、按路由配额和租户隔离。
- 监控异常使用模式(突增消费、非典型地区、UA 字符串)并自动撤销可疑会话。
- 优先使用 mTLS 或由你的 IdP 签发的 signed JWTs,而不是长期存在的静态 API keys。
References
- Unit 42 – The Risks of Code Assistant LLMs: Harmful Content, Misuse and Deception
- LLMJacking scheme overview – The Hacker News
- oai-reverse-proxy (reselling stolen LLM access)
tip
学习和实践 AWS 黑客技术:HackTricks Training AWS Red Team Expert (ARTE)
学习和实践 GCP 黑客技术:HackTricks Training GCP Red Team Expert (GRTE)
学习和实践 Azure 黑客技术:
HackTricks Training Azure Red Team Expert (AzRTE)
支持 HackTricks
- 查看 订阅计划!
- 加入 💬 Discord 群组 或 Telegram 群组 或 在 Twitter 🐦 上关注我们 @hacktricks_live.
- 通过向 HackTricks 和 HackTricks Cloud GitHub 仓库提交 PR 来分享黑客技巧。