AI Risikoâs
Tip
Leer en oefen AWS Hacking:
HackTricks Training AWS Red Team Expert (ARTE)
Leer en oefen GCP Hacking:HackTricks Training GCP Red Team Expert (GRTE)
Leer en oefen Azure Hacking:
HackTricks Training Azure Red Team Expert (AzRTE)
Ondersteun HackTricks
- Kyk na die subskripsie planne!
- Sluit aan by die đŹ Discord groep of die telegram groep of volg ons op Twitter đŠ @hacktricks_live.
- Deel hacking truuks deur PRs in te dien na die HackTricks en HackTricks Cloud github repos.
OWASP Top 10 Machine Learning Vulnerabilities
Owasp het die top 10 machine learning kwesbaarhede geĂŻdentifiseer wat AIâstelsels kan raak. Hierdie kwesbaarhede kan tot verskeie veiligheidsondersoeke lei, insluitend data poisoning, model inversion, en adversarial attacks. Om hierdie kwesbaarhede te verstaan is noodsaaklik vir die bou van veilige AIâstelsels.
For an updated and detailed list of the top 10 machine learning vulnerabilities, refer to the OWASP Top 10 Machine Learning Vulnerabilities project.
-
Input Manipulation Attack: ân Aanvaller voeg klein, dikwels onsigbare veranderinge by die inkomende data sodat die model die verkeerde besluit neem.
Voorbeeld: ân Paar kolle verf op ân stopâteken mislei ân selfbesturende voertuig om ân snelheidsbeperkingâteken te âsienâ. -
Data Poisoning Attack: Die training set word doelbewus besmet met slegte monsters, wat die model skadelike reëls leer.
Voorbeeld: Malwareâbinaries word verkeerdelik gemerk as âbenignâ in ân antivirusâopleidingskorpus, wat toelaat dat soortgelyke malware later deurglip. -
Model Inversion Attack: Deur uitgangswaardes te ondersoek bou ân aanvaller ân omgekeerde model wat sensitiewe kenmerke van die oorspronklike insette kan rekonstrueer.
Voorbeeld: Herstel van ân pasiĂ«nt se MRIâbeeld uit ân kankerâdeteksieâmodel se voorspellings. -
Membership Inference Attack: Die teenstander toets of ân spesifieke rekord tydens opleiding gebruik is deur verskille in selfvertroue op te spoor.
Voorbeeld: Bevestig dat ân persoon se banktransaksie in die opleidingdata van ân fraudedetektiemodel voorkom. -
Model Theft: Deurlopende navrae laat ân aanvaller toe om besluitgrense te leer en die model se gedrag te kloon (en IP).
Voorbeeld: Oes genoeg Q&Aâpare van ân MLâasâaâService API om ân nabyâekwivalente plaaslike model te bou. -
AI SupplyâChain Attack: Kompromiseer enige komponent (data, libraries, preâtrained weights, CI/CD) in die ML pipeline om afgeleĂ« modelle te korrupteer.
Voorbeeld: ân Gifagtige dependency op ân modelâhub installeer ân backdoored sentimentâanaliseâmodel oor baie toepassings. -
Transfer Learning Attack: Kwaadaardige logika word in ân preâtrained model geplant en oorleef fineâtuning vir die slagoffer se taak.
Voorbeeld: ân vision backbone met ân verborge trigger keer nog steeds etikette om na aanpassing vir mediese beeldvorming. -
Model Skewing: Fyn bevooroordeelde of verkeerd gemerkte data skuif die model se uitsette om die aanvaller se agenda te bevoordeel.
Voorbeeld: Inspuiting van âskoonâ spamâeâposse gemerk as ham sodat ân spamfilter soortgelyke toekomstige eâposse deurlaat. -
Output Integrity Attack: Die aanvaller verander modelvoorspellings tydens vervoer, nie die model self nie, en mislei downstreamâstelsels.
Voorbeeld: Die âmaliciousâ uitspraak van ân malwareâklassifiseerder word na âbenignâ omgedraai voordat die fileâquarantineâstap dit sien. -
Model Poisoning â Direkte, geteikende veranderinge aan die model parameters self, dikwels na verwerving van skryfâtoegang, om gedrag te verander.
Voorbeeld: Aanpassing van gewigte op ân fraudedetektiemodel in produksie sodat transaksies van sekere kaarte altyd goedgekeur word.
Google SAIF Risks
Google se SAIF (Security AI Framework) skets verskeie risikoâs wat met AIâstelsels geassosieer word:
-
Data Poisoning: Kwaadaardige akteurs verander of spuit opleiding/tuningâdata in om akkuraatheid te degradeer, backdoors in te plant, of resultate te skeef, wat modelintegriteit dwarsdeur die dataâleweâsiklus ondermyn.
-
Unauthorized Training Data: Insluiting van gekopieerde, sensitiewe of nieâtoegestane datastelle skep regs-, etiese en prestasieâaanspreeklikhede omdat die model van data leer wat nooit gebruik moes word nie.
-
Model Source Tampering: Supplyâchain of insiderâmanipulasie van modelkode, dependencies, of weights voor of tydens opleiding kan verborge logika inbaken wat selfs na heropleiding voortbestaan.
-
Excessive Data Handling: Swak dataâbewaring en governanceâkontroles laat stelsels toe om meer persoonlike data te berg of te verwerk as nodig, wat blootstelling en nakomingsrisiko verhoog.
-
Model Exfiltration: Aanvallers steel modellĂȘers/weights, wat verlies van intellektuele eiendom veroorsaak en copyâcat dienste of opvolgaanvalle moontlik maak.
-
Model Deployment Tampering: Teenstanders wysig modelâartefakte of servingâinfrastruktuur sodat die lopende model van die geverifieerde weergawe verskil en moontlik gedrag verander.
-
Denial of ML Service: Oorlaai van APIs of stuur van âspongeâ insette kan rekenaarources/energie uitput en die model afneem, soortgelyk aan klassieke DoSâaanvalle.
-
Model Reverse Engineering: Deur groot getalle insetâuitset pare te oes, kan aanvallers die model kloon of distilleer, wat nabootsprodukte en gekonfigureerde adversarial aanvalle aanwakker.
-
Insecure Integrated Component: Kwesbare plugins, agents of upstreamâdienste laat aanvallers toe om kode in te spuit of privilegies te eskaleer binne die AIâpyplyn.
-
Prompt Injection: Skep van prompts (direk of indirek) om instruksies te smokkel wat stelselintensie oorry, en die model laat onbedoelde opdragte uitvoer.
-
Model Evasion: Noukeurig ontwerpte insette spoor die model aan om foutief te klassifiseer, te hallucinate, of ontoegelate inhoud te lewer, wat veiligheid en vertroue ondermyn.
-
Sensitive Data Disclosure: Die model openbaar private of vertroulike inligting uit sy opleidingsdata of gebruikerskonteks, wat privaatheid en regulasies skend.
-
Inferred Sensitive Data: Die model leiden persoonlike eienskappe af wat nooit verskaf is nie, wat nuwe privaatheidsskade deur inferensie veroorsaak.
-
Insecure Model Output: Onsaniteerde antwoorde lewer skadeâkode, misinformasie, of ongepaste inhoud aan gebruikers of downstreamâstelsels.
-
Rogue Actions: Outonoom geĂŻntegreerde agents voer onbedoelde werklike wĂȘreldâoperasies uit (file writes, API calls, aankope, ens.) sonder voldoende gebruikersâtoesig.
Mitre AI ATLAS Matrix
Die MITRE AI ATLAS Matrix verskaf ân omvattende raamwerk om risikoâs verbonde aan AIâstelsels te verstaan en te versag. Dit kategoriseer verskeie aanvalstegnieke en taktieke wat teenstanders teen AIâmodelle kan gebruik en ook hoe om AIâstelsels te gebruik om verskillende aanvalle uit te voer.
LLMJacking (Token Theft & Resale of Cloud-hosted LLM Access)
Aanvallers steel aktiewe sessieâtokens of cloud APIâcredentials en roep betaalde, cloudâgehoste LLMs aan sonder magtiging. Toegang word dikwels herverkoop via reverse proxies wat die slagoffer se rekening voorsien, bv. âoai-reverse-proxyâ deployments. Gevolge sluit in finansiĂ«le verlies, modelmisbruik buite beleid, en toewysing na die slagofferâtenant.
TTPs:
- Harvest tokens from infected developer machines or browsers; steal CI/CD secrets; buy leaked cookies.
- Stand up a reverse proxy that forwards requests to the genuine provider, hiding the upstream key and multiplexing many customers.
- Abuse direct base-model endpoints to bypass enterprise guardrails and rate limits.
Mitigations:
- Bind tokens to device fingerprint, IP ranges, and client attestation; enforce short expirations and refresh with MFA.
- Scope keys minimally (no tool access, read-only where applicable); rotate on anomaly.
- Terminate all traffic server-side behind a policy gateway that enforces safety filters, per-route quotas, and tenant isolation.
- Monitor for unusual usage patterns (sudden spend spikes, atypical regions, UA strings) and auto-revoke suspicious sessions.
- Prefer mTLS or signed JWTs issued by your IdP over long-lived static API keys.
References
- Unit 42 â The Risks of Code Assistant LLMs: Harmful Content, Misuse and Deception
- LLMJacking scheme overview â The Hacker News
- oai-reverse-proxy (reselling stolen LLM access)
Tip
Leer en oefen AWS Hacking:
HackTricks Training AWS Red Team Expert (ARTE)
Leer en oefen GCP Hacking:HackTricks Training GCP Red Team Expert (GRTE)
Leer en oefen Azure Hacking:
HackTricks Training Azure Red Team Expert (AzRTE)
Ondersteun HackTricks
- Kyk na die subskripsie planne!
- Sluit aan by die đŹ Discord groep of die telegram groep of volg ons op Twitter đŠ @hacktricks_live.
- Deel hacking truuks deur PRs in te dien na die HackTricks en HackTricks Cloud github repos.
HackTricks

