Riscos de IA
Tip
Aprenda e pratique Hacking AWS:
HackTricks Training AWS Red Team Expert (ARTE)
Aprenda e pratique Hacking GCP:HackTricks Training GCP Red Team Expert (GRTE)
Aprenda e pratique Hacking Azure:
HackTricks Training Azure Red Team Expert (AzRTE)
Supporte o HackTricks
- Confira os planos de assinatura!
- Junte-se ao đŹ grupo do Discord ou ao grupo do telegram ou siga-nos no Twitter đŠ @hacktricks_live.
- Compartilhe truques de hacking enviando PRs para o HackTricks e HackTricks Cloud repositĂłrios do github.
OWASP Top 10 Vulnerabilidades de Machine Learning
Owasp identificou as top 10 vulnerabilidades de machine learning que podem afetar sistemas de IA. Essas vulnerabilidades podem levar a diversos problemas de segurança, incluindo data poisoning, model inversion e adversarial attacks. Entender essas vulnerabilidades é crucial para construir sistemas de IA seguros.
Para uma lista atualizada e detalhada das top 10 vulnerabilidades de machine learning, consulte o projeto OWASP Top 10 Machine Learning Vulnerabilities.
-
Input Manipulation Attack: Um atacante adiciona mudanças minĂșsculas, muitas vezes invisĂveis, aos incoming data para que o modelo tome a decisĂŁo errada.
Exemplo: Alguns respingos de tinta em uma placa de pare enganam um carro autĂŽnomo fazendoâo âverâ uma placa de limite de velocidade. -
Data Poisoning Attack: O training set Ă© deliberadamente contaminado com amostras ruins, ensinando o modelo regras nocivas.
Exemplo: Binaries de malware sĂŁo rotulados como âbenignâ em um corpus de treinamento de antivĂrus, permitindo que malware similar passe despercebido depois. -
Model Inversion Attack: Ao sondar saĂdas, um atacante constrĂłi um reverse model que reconstrĂłi caracterĂsticas sensĂveis dos inputs originais.
Exemplo: Recriar a imagem de uma ressonùncia magnética de um paciente a partir das prediçÔes de um modelo de detecção de cùncer. -
Membership Inference Attack: O adversårio testa se um specific record foi usado durante o treinamento identificando diferenças de confiança.
Exemplo: Confirmar que a transação bancåria de uma pessoa aparece nos dados de treinamento de um modelo de detecção de fraude. -
Model Theft: Queries repetidas permitem que um atacante aprenda os limites de decisĂŁo e clone the modelâs behavior (e a propriedade intelectual).
Exemplo: Coletar pares Q&A suficientes de uma API MLâasâaâService para construir um modelo local quase equivalente. -
AI SupplyâChain Attack: Comprometer qualquer componente (dados, libraries, preâtrained weights, CI/CD) na ML pipeline para corromper modelos a jusante.
Exemplo: Uma dependĂȘncia envenenada num modelâhub instala um modelo de anĂĄlise de sentimento com backdoor em vĂĄrios apps. -
Transfer Learning Attack: LĂłgica maliciosa Ă© plantada em um preâtrained model e sobrevive ao fineâtuning na tarefa da vĂtima.
Exemplo: Um backbone de visão com um gatilho oculto ainda inverte labels após ser adaptado para imagens médicas. -
Model Skewing: Dados sutilmente enviesados ou mal rotulados shifts the modelâs outputs para favorecer a agenda do atacante.
Exemplo: Injetar eâmails de spam âlimposâ rotulados como ham para que um filtro de spam permita eâmails similares no futuro. -
Output Integrity Attack: O atacante alters model predictions in transit, nĂŁo o modelo em si, enganando sistemas a jusante.
Exemplo: Inverter o veredito âmaliciousâ de um classificador de malware para âbenignâ antes que a etapa de quarentena de arquivos o veja. -
Model Poisoning â AlteraçÔes diretas e direcionadas aos model parameters em si, frequentemente apĂłs obter acesso de escrita, para alterar o comportamento.
Exemplo: Ajustar weights de um modelo de detecção de fraude em produção para que transaçÔes de certos cartÔes sejam sempre aprovadas.
Riscos do Google SAIF
O SAIF (Security AI Framework) do Google descreve vĂĄrios riscos associados a sistemas de IA:
-
Data Poisoning: Atores maliciosos alteram ou injetam dados de treinamento/ajuste para degradar a precisĂŁo, implantar backdoors ou enviesar resultados, minando a integridade do modelo ao longo de todo o ciclo de vida dos dados.
-
Unauthorized Training Data: Ingerir datasets com copyright, sensĂveis ou nĂŁo autorizados cria responsabilidades legais, Ă©ticas e de desempenho porque o modelo aprende a partir de dados que nĂŁo deveria usar.
-
Model Source Tampering: Manipulação na cadeia de suprimentos ou por insiders do cĂłdigo do modelo, dependĂȘncias ou pesos antes ou durante o treinamento pode embedar lĂłgica oculta que persiste mesmo apĂłs retraining.
-
Excessive Data Handling: Controles fracos de retenção e governança de dados levam sistemas a armazenar ou processar mais dados pessoais do que o necessårio, aumentando exposição e risco de conformidade.
-
Model Exfiltration: Atacantes roubam arquivos/pesos do modelo, causando perda de propriedade intelectual e possibilitando serviços copyâcat ou ataques subsequentes.
-
Model Deployment Tampering: Adversårios modificam artifacts do modelo ou infraestrutura de serving para que o modelo em execução difira da versão vetada, potencialmente mudando o comportamento.
-
Denial of ML Service: Flood de APIs ou envio de inputs âspongeâ pode esgotar compute/energia e derrubar o modelo, espelhando ataques clĂĄssicos de DoS.
-
Model Reverse Engineering: Ao colher muitos pares inputâoutput, atacantes podem clonar ou destilar o modelo, alimentando produtos de imitação e ataques adversariais personalizados.
-
Insecure Integrated Component: Plugins, agents ou serviços upstream vulneråveis permitem que atacantes injetem código ou escalem privilégios dentro do pipeline de IA.
-
Prompt Injection: Construir prompts (direta ou indiretamente) para contrabandear instruçÔes que sobrepÔem a intenção do sistema, fazendo o modelo executar comandos não pretendidos.
-
Model Evasion: Inputs cuidadosamente desenhados fazem o modelo misâclassify, hallucinate ou output conteĂșdo proibido, corroendo segurança e confiança.
-
Sensitive Data Disclosure: O modelo revela informaçÔes privadas ou confidenciais de seus dados de treinamento ou do contexto do usuårio, violando privacidade e regulaçÔes.
-
Inferred Sensitive Data: O modelo deduz atributos pessoais que nunca foram fornecidos, criando novos danos de privacidade por inferĂȘncia.
-
Insecure Model Output: Respostas nĂŁo sanitizadas passam cĂłdigo prejudicial, misinformation ou conteĂșdo inadequado para usuĂĄrios ou sistemas a jusante.
-
Rogue Actions: Agentes integrados autonomamente executam operaçÔes do mundo real não intencionadas (escrita de arquivos, chamadas API, compras, etc.) sem supervisão adequada do usuårio.
Mitre AI ATLAS Matrix
A MITRE AI ATLAS Matrix fornece um framework abrangente para entender e mitigar riscos associados a sistemas de IA. Ela categoriza vårias técnicas e tåticas de ataque que adversårios podem usar contra modelos de IA e também como usar sistemas de IA para realizar diferentes ataques.
LLMJacking (Roubo de Tokens e Revenda de Acesso a LLMs hospedadas na nuvem)
Atacantes roubam tokens de sessĂŁo ativos ou credenciais de API de nuvem e invocam LLMs pagos hospedados na nuvem sem autorização. O acesso frequentemente Ă© revendido via reverse proxies que fazem front pela conta da vĂtima, por exemplo, deployments âoai-reverse-proxyâ. As consequĂȘncias incluem perda financeira, uso indevido do modelo fora da polĂtica e atribuição ao tenant vĂtima.
TTPs:
- Harvest tokens from infected developer machines or browsers; steal CI/CD secrets; buy leaked cookies.
- Stand up a reverse proxy that forwards requests to the genuine provider, hiding the upstream key and multiplexing many customers.
- Abuse direct base-model endpoints to bypass enterprise guardrails and rate limits.
MitigaçÔes:
- Bind tokens to device fingerprint, IP ranges, and client attestation; enforce short expirations and refresh with MFA.
- Scope keys minimally (no tool access, read-only where applicable); rotate on anomaly.
- Terminate all traffic server-side behind a policy gateway that enforces safety filters, per-route quotas, and tenant isolation.
- Monitor for unusual usage patterns (sudden spend spikes, atypical regions, UA strings) and auto-revoke suspicious sessions.
- Prefer mTLS or signed JWTs issued by your IdP over long-lived static API keys.
References
- Unit 42 â The Risks of Code Assistant LLMs: Harmful Content, Misuse and Deception
- LLMJacking scheme overview â The Hacker News
- oai-reverse-proxy (reselling stolen LLM access)
Tip
Aprenda e pratique Hacking AWS:
HackTricks Training AWS Red Team Expert (ARTE)
Aprenda e pratique Hacking GCP:HackTricks Training GCP Red Team Expert (GRTE)
Aprenda e pratique Hacking Azure:
HackTricks Training Azure Red Team Expert (AzRTE)
Supporte o HackTricks
- Confira os planos de assinatura!
- Junte-se ao đŹ grupo do Discord ou ao grupo do telegram ou siga-nos no Twitter đŠ @hacktricks_live.
- Compartilhe truques de hacking enviando PRs para o HackTricks e HackTricks Cloud repositĂłrios do github.
HackTricks

