AI 风险

Reading time: 10 minutes

tip

学习和实践 AWS 黑客技术：HackTricks Training AWS Red Team Expert (ARTE)
学习和实践 GCP 黑客技术：HackTricks Training GCP Red Team Expert (GRTE) 学习和实践 Azure 黑客技术：HackTricks Training Azure Red Team Expert (AzRTE)

支持 HackTricks

查看 订阅计划!
加入 💬 Discord 群组 或 Telegram 群组 或在 Twitter 🐦 上关注我们 @hacktricks_live.
通过向 HackTricks 和 HackTricks Cloud GitHub 仓库提交 PR 来分享黑客技巧。

OWASP 机器学习十大漏洞

Owasp 已识别出可能影响 AI 系统的机器学习十大漏洞。这些漏洞可能导致各种安全问题，包括 data poisoning、model inversion 和 adversarial attacks。理解这些漏洞对于构建安全的 AI 系统至关重要。

有关最新和详细的十大机器学习漏洞列表，请参阅 OWASP Top 10 Machine Learning Vulnerabilities 项目。

Input Manipulation Attack: 攻击者对输入数据做出微小、通常不可见的修改，使模型做出错误判断。
示例: 在 stop‑sign 上涂几点油漆，会让自驾车“看到”一个 speed‑limit sign。
Data Poisoning Attack: 故意污染训练集，加入有害样本以教会模型错误规则。
示例: 在防病毒训练语料中将 malware binaries 错误标注为 "benign"，使得相似的 malware 在后续检测中漏检。
Model Inversion Attack: 通过探测输出，攻击者构建一个反向模型来重构原始输入的敏感特征。
示例: 从癌症检测模型的预测中重建患者的 MRI 图像。
Membership Inference Attack: 对手通过观察置信度差异来测试某个特定记录是否被用于训练。
示例: 确认某人的银行交易是否出现在一个 fraud‑detection model 的训练数据中。
Model Theft: 反复查询使攻击者学会决策边界并克隆模型行为（以及知识产权）。
示例: 从 ML‑as‑a‑Service API 收集足够多的问答对，以构建一个近似等效的本地模型。
AI Supply‑Chain Attack: 在 ML pipeline 的任一组件（数据、libraries、pre‑trained weights、CI/CD）被入侵，从而污染下游模型。
示例: model‑hub 上的被植入毒化的依赖在许多应用中安装了带后门的 sentiment‑analysis 模型。
Transfer Learning Attack: 在 pre‑trained model 中植入恶意逻辑，即使在受害者的任务上进行 fine‑tuning 也会存活。
示例: 一个含有隐藏触发器的 vision backbone 在被用于医疗成像后仍然会使标签翻转。
Model Skewing: 通过微妙偏置或错误标注的数据改变模型输出，使其倾向于攻击者的目的。
示例: 注入被标为 ham 的“干净”spam 邮件，使 spam filter 在未来放过相似邮件。
Output Integrity Attack: 攻击者在传输过程中更改模型预测，而不是模型本身，从而欺骗下游系统。
示例: 在文件被隔离前，将 malware classifier 的 "malicious" 判定篡改为 "benign"。
Model Poisoning --- 直接、有针对性地修改模型参数本身，通常是在获得写入权限之后，以改变行为。
示例: 在生产环境中调整 fraud‑detection model 的权重，使某些卡号的交易总是被批准。

Google SAIF 风险

Google 的 SAIF (Security AI Framework) 概述了与 AI 系统相关的各种风险：

Data Poisoning: 恶意行为者篡改或注入训练/微调数据以降低准确性、植入后门或偏斜结果，从而破坏模型在整个数据生命周期内的完整性。
Unauthorized Training Data: 摄取受版权保护、敏感或未授权的数据集会带来法律、道德和性能方面的负债，因为模型从未被许可使用这些数据进行学习。
Model Source Tampering: 在训练前或训练过程中通过供应链或内部人员篡改 model code、dependencies 或 weights，可能嵌入隐藏逻辑，即使重新训练也会保留。
Excessive Data Handling: 弱的数据保留和治理控制导致系统存储或处理超出必要的个人数据，增加暴露面和合规风险。
Model Exfiltration: 攻击者窃取模型文件/weights，导致知识产权流失并支持山寨服务或后续攻击。
Model Deployment Tampering: 对模型工件或 serving 基础设施的篡改使运行中的模型与审核版本不一致，可能改变行为。
Denial of ML Service: 通过淹没 API 或发送“sponge”输入耗尽计算/能量，使模型离线，类似传统的 DoS 攻击。
Model Reverse Engineering: 通过收集大量输入-输出对，攻击者可以克隆或提取模型，促生模仿产品和定制化对抗攻击。
Insecure Integrated Component: 易受攻击的插件、agents 或上游服务允许攻击者注入代码或在 AI 流水线中提升权限。
Prompt Injection: 精心构造的 prompts（直接或间接）走私指令以覆盖系统意图，使模型执行非预期命令。
Model Evasion: 经过精心设计的输入触发模型误判、出现 hallucinate，或输出被禁止的内容，侵蚀安全性和信任。
Sensitive Data Disclosure: 模型泄露其训练数据或用户上下文中的私人或机密信息，违反隐私和法规。
Inferred Sensitive Data: 模型推断出从未提供的个人属性，通过推断创造新的隐私伤害。
Insecure Model Output: 未经消毒的响应向用户或下游系统传递有害代码、错误信息或不当内容。
Rogue Actions: 自主集成的 agents 在缺乏足够用户监督的情况下执行非预期的真实世界操作（文件写入、API 调用、购买等）。

Mitre AI ATLAS Matrix

MITRE AI ATLAS Matrix 提供了一个全面的框架，用于理解和缓解与 AI 系统相关的风险。它对攻击者可能采用的各种攻击技术和策略进行了分类，以及如何利用 AI 系统执行不同攻击的方式。

LLMJacking (Token Theft & Resale of Cloud-hosted LLM Access)

攻击者窃取活动会话 tokens 或 cloud API credentials，未经授权调用付费的 cloud‑hosted LLMs。访问通常通过面向受害者账号的反向代理转售，例如 "oai-reverse-proxy" 部署。后果包括财务损失、model misuse 超出策略范围，以及将行为归因到受害租户。

TTPs:

从被感染的开发者机器或浏览器 harvest tokens；窃取 CI/CD secrets；购买 leaked cookies。
搭建一个将请求转发到真实提供商的 reverse proxy，隐藏上游 key 并对多名客户进行复用。
滥用直接的 base‑model endpoints，以绕过企业 guardrails 和速率限制。

Mitigations:

将 tokens 绑定到设备指纹、IP 范围和 client attestation；强制短期过期并通过 MFA 刷新。
最小化 key 的权限范围（无工具访问、尽可能只读）；在异常时轮换。
在策略网关后端终止所有流量，实施安全过滤、按路由配额和租户隔离。
监控异常使用模式（突增消费、非典型地区、UA 字符串）并自动撤销可疑会话。
优先使用 mTLS 或由你的 IdP 签发的 signed JWTs，而不是长期存在的静态 API keys。

References

tip

支持 HackTricks

查看 订阅计划!
加入 💬 Discord 群组 或 Telegram 群组 或在 Twitter 🐦 上关注我们 @hacktricks_live.
通过向 HackTricks 和 HackTricks Cloud GitHub 仓库提交 PR 来分享黑客技巧。