AI Risiko's
Reading time: 7 minutes
tip
Leer en oefen AWS Hacking:HackTricks Training AWS Red Team Expert (ARTE)
Leer en oefen GCP Hacking: HackTricks Training GCP Red Team Expert (GRTE)
Leer en oefen Azure Hacking:
HackTricks Training Azure Red Team Expert (AzRTE)
Ondersteun HackTricks
- Kyk na die subskripsie planne!
- Sluit aan by die š¬ Discord groep of die telegram groep of volg ons op Twitter š¦ @hacktricks_live.
- Deel hacking truuks deur PRs in te dien na die HackTricks en HackTricks Cloud github repos.
OWASP Top 10 Machine Learning Vulnerabilities
Owasp het die top 10 machine learning kwesbaarhede geĆÆdentifiseer wat AIāstelsels kan raak. Hierdie kwesbaarhede kan tot verskeie veiligheidsondersoeke lei, insluitend data poisoning, model inversion, en adversarial attacks. Om hierdie kwesbaarhede te verstaan is noodsaaklik vir die bou van veilige AIāstelsels.
For an updated and detailed list of the top 10 machine learning vulnerabilities, refer to the OWASP Top 10 Machine Learning Vulnerabilities project.
-
Input Manipulation Attack: ān Aanvaller voeg klein, dikwels onsigbare veranderinge by die inkomende data sodat die model die verkeerde besluit neem.
Voorbeeld: ān Paar kolle verf op ān stopāteken mislei ān selfbesturende voertuig om ān snelheidsbeperkingāteken te "sien". -
Data Poisoning Attack: Die training set word doelbewus besmet met slegte monsters, wat die model skadelike reƫls leer.
Voorbeeld: Malwareābinaries word verkeerdelik gemerk as "benign" in ān antivirusāopleidingskorpus, wat toelaat dat soortgelyke malware later deurglip. -
Model Inversion Attack: Deur uitgangswaardes te ondersoek bou ān aanvaller ān omgekeerde model wat sensitiewe kenmerke van die oorspronklike insette kan rekonstrueer.
Voorbeeld: Herstel van ān pasiĆ«nt se MRIābeeld uit ān kankerādeteksieāmodel se voorspellings. -
Membership Inference Attack: Die teenstander toets of ān spesifieke rekord tydens opleiding gebruik is deur verskille in selfvertroue op te spoor.
Voorbeeld: Bevestig dat ān persoon se banktransaksie in die opleidingdata van ān fraudedetektiemodel voorkom. -
Model Theft: Deurlopende navrae laat ān aanvaller toe om besluitgrense te leer en die model se gedrag te kloon (en IP).
Voorbeeld: Oes genoeg Q&Aāpare van ān MLāasāaāService API om ān nabyāekwivalente plaaslike model te bou. -
AI SupplyāChain Attack: Kompromiseer enige komponent (data, libraries, preātrained weights, CI/CD) in die ML pipeline om afgeleĆ« modelle te korrupteer.
Voorbeeld: ān Gifagtige dependency op ān modelāhub installeer ān backdoored sentimentāanaliseāmodel oor baie toepassings. -
Transfer Learning Attack: Kwaadaardige logika word in ān preātrained model geplant en oorleef fineātuning vir die slagoffer se taak.
Voorbeeld: ān vision backbone met ān verborge trigger keer nog steeds etikette om na aanpassing vir mediese beeldvorming. -
Model Skewing: Fyn bevooroordeelde of verkeerd gemerkte data skuif die model se uitsette om die aanvaller se agenda te bevoordeel.
Voorbeeld: Inspuiting van "skoon" spamāeāposse gemerk as ham sodat ān spamfilter soortgelyke toekomstige eāposse deurlaat. -
Output Integrity Attack: Die aanvaller verander modelvoorspellings tydens vervoer, nie die model self nie, en mislei downstreamāstelsels.
Voorbeeld: Die "malicious" uitspraak van ān malwareāklassifiseerder word na "benign" omgedraai voordat die fileāquarantineāstap dit sien. -
Model Poisoning --- Direkte, geteikende veranderinge aan die model parameters self, dikwels na verwerving van skryfātoegang, om gedrag te verander.
Voorbeeld: Aanpassing van gewigte op ān fraudedetektiemodel in produksie sodat transaksies van sekere kaarte altyd goedgekeur word.
Google SAIF Risks
Google se SAIF (Security AI Framework) skets verskeie risiko's wat met AIāstelsels geassosieer word:
-
Data Poisoning: Kwaadaardige akteurs verander of spuit opleiding/tuningādata in om akkuraatheid te degradeer, backdoors in te plant, of resultate te skeef, wat modelintegriteit dwarsdeur die dataāleweāsiklus ondermyn.
-
Unauthorized Training Data: Insluiting van gekopieerde, sensitiewe of nieātoegestane datastelle skep regs-, etiese en prestasieāaanspreeklikhede omdat die model van data leer wat nooit gebruik moes word nie.
-
Model Source Tampering: Supplyāchain of insiderāmanipulasie van modelkode, dependencies, of weights voor of tydens opleiding kan verborge logika inbaken wat selfs na heropleiding voortbestaan.
-
Excessive Data Handling: Swak dataābewaring en governanceākontroles laat stelsels toe om meer persoonlike data te berg of te verwerk as nodig, wat blootstelling en nakomingsrisiko verhoog.
-
Model Exfiltration: Aanvallers steel modellĆŖers/weights, wat verlies van intellektuele eiendom veroorsaak en copyācat dienste of opvolgaanvalle moontlik maak.
-
Model Deployment Tampering: Teenstanders wysig modelāartefakte of servingāinfrastruktuur sodat die lopende model van die geverifieerde weergawe verskil en moontlik gedrag verander.
-
Denial of ML Service: Oorlaai van APIs of stuur van āspongeā insette kan rekenaarources/energie uitput en die model afneem, soortgelyk aan klassieke DoSāaanvalle.
-
Model Reverse Engineering: Deur groot getalle insetāuitset pare te oes, kan aanvallers die model kloon of distilleer, wat nabootsprodukte en gekonfigureerde adversarial aanvalle aanwakker.
-
Insecure Integrated Component: Kwesbare plugins, agents of upstreamādienste laat aanvallers toe om kode in te spuit of privilegies te eskaleer binne die AIāpyplyn.
-
Prompt Injection: Skep van prompts (direk of indirek) om instruksies te smokkel wat stelselintensie oorry, en die model laat onbedoelde opdragte uitvoer.
-
Model Evasion: Noukeurig ontwerpte insette spoor die model aan om foutief te klassifiseer, te hallucinate, of ontoegelate inhoud te lewer, wat veiligheid en vertroue ondermyn.
-
Sensitive Data Disclosure: Die model openbaar private of vertroulike inligting uit sy opleidingsdata of gebruikerskonteks, wat privaatheid en regulasies skend.
-
Inferred Sensitive Data: Die model leiden persoonlike eienskappe af wat nooit verskaf is nie, wat nuwe privaatheidsskade deur inferensie veroorsaak.
-
Insecure Model Output: Onsaniteerde antwoorde lewer skadeākode, misinformasie, of ongepaste inhoud aan gebruikers of downstreamāstelsels.
-
Rogue Actions: Outonoom geĆÆntegreerde agents voer onbedoelde werklike wĆŖreldāoperasies uit (file writes, API calls, aankope, ens.) sonder voldoende gebruikersātoesig.
Mitre AI ATLAS Matrix
Die MITRE AI ATLAS Matrix verskaf ān omvattende raamwerk om risiko's verbonde aan AIāstelsels te verstaan en te versag. Dit kategoriseer verskeie aanvalstegnieke en taktieke wat teenstanders teen AIāmodelle kan gebruik en ook hoe om AIāstelsels te gebruik om verskillende aanvalle uit te voer.
LLMJacking (Token Theft & Resale of Cloud-hosted LLM Access)
Aanvallers steel aktiewe sessieātokens of cloud APIācredentials en roep betaalde, cloudāgehoste LLMs aan sonder magtiging. Toegang word dikwels herverkoop via reverse proxies wat die slagoffer se rekening voorsien, bv. "oai-reverse-proxy" deployments. Gevolge sluit in finansiĆ«le verlies, modelmisbruik buite beleid, en toewysing na die slagofferātenant.
TTPs:
- Harvest tokens from infected developer machines or browsers; steal CI/CD secrets; buy leaked cookies.
- Stand up a reverse proxy that forwards requests to the genuine provider, hiding the upstream key and multiplexing many customers.
- Abuse direct base-model endpoints to bypass enterprise guardrails and rate limits.
Mitigations:
- Bind tokens to device fingerprint, IP ranges, and client attestation; enforce short expirations and refresh with MFA.
- Scope keys minimally (no tool access, read-only where applicable); rotate on anomaly.
- Terminate all traffic server-side behind a policy gateway that enforces safety filters, per-route quotas, and tenant isolation.
- Monitor for unusual usage patterns (sudden spend spikes, atypical regions, UA strings) and auto-revoke suspicious sessions.
- Prefer mTLS or signed JWTs issued by your IdP over long-lived static API keys.
References
- Unit 42 ā The Risks of Code Assistant LLMs: Harmful Content, Misuse and Deception
- LLMJacking scheme overview ā The Hacker News
- oai-reverse-proxy (reselling stolen LLM access)
tip
Leer en oefen AWS Hacking:HackTricks Training AWS Red Team Expert (ARTE)
Leer en oefen GCP Hacking: HackTricks Training GCP Red Team Expert (GRTE)
Leer en oefen Azure Hacking:
HackTricks Training Azure Red Team Expert (AzRTE)
Ondersteun HackTricks
- Kyk na die subskripsie planne!
- Sluit aan by die š¬ Discord groep of die telegram groep of volg ons op Twitter š¦ @hacktricks_live.
- Deel hacking truuks deur PRs in te dien na die HackTricks en HackTricks Cloud github repos.