AI-Risiken
Reading time: 6 minutes
tip
Lernen & üben Sie AWS Hacking:HackTricks Training AWS Red Team Expert (ARTE)
Lernen & üben Sie GCP Hacking: HackTricks Training GCP Red Team Expert (GRTE)
Lernen & üben Sie Azure Hacking:
HackTricks Training Azure Red Team Expert (AzRTE)
Unterstützen Sie HackTricks
- Überprüfen Sie die Abonnementpläne!
- Treten Sie der 💬 Discord-Gruppe oder der Telegram-Gruppe bei oder folgen Sie uns auf Twitter 🐦 @hacktricks_live.
- Teilen Sie Hacking-Tricks, indem Sie PRs an die HackTricks und HackTricks Cloud GitHub-Repos senden.
OWASP Top 10 Machine Learning Schwachstellen
Owasp hat die Top 10 Machine Learning Schwachstellen identifiziert, die AI-Systeme betreffen können. Diese Schwachstellen können zu verschiedenen Sicherheitsproblemen führen, einschließlich Datenvergiftung, Modellinversion und adversarialen Angriffen. Das Verständnis dieser Schwachstellen ist entscheidend für den Aufbau sicherer AI-Systeme.
Für eine aktualisierte und detaillierte Liste der Top 10 Machine Learning Schwachstellen verweisen Sie auf das OWASP Top 10 Machine Learning Vulnerabilities Projekt.
-
Eingabemanipulationsangriff: Ein Angreifer fügt winzige, oft unsichtbare Änderungen an eingehenden Daten hinzu, sodass das Modell die falsche Entscheidung trifft.
Beispiel: Ein paar Farbspritzer auf einem Stoppschild täuschen ein selbstfahrendes Auto, sodass es ein Geschwindigkeitsbegrenzungsschild "sieht". -
Datenvergiftungsangriff: Der Trainingssatz wird absichtlich mit schlechten Proben kontaminiert, wodurch das Modell schädliche Regeln lernt.
Beispiel: Malware-Binärdateien werden in einem Antivirus-Trainingskorpus fälschlicherweise als "gutartig" gekennzeichnet, sodass ähnliche Malware später durchrutscht. -
Modellinversionsangriff: Durch das Abfragen von Ausgaben erstellt ein Angreifer ein Umkehrmodell, das sensible Merkmale der ursprünglichen Eingaben rekonstruiert.
Beispiel: Rekonstruktion eines MRI-Bildes eines Patienten aus den Vorhersagen eines Krebsdiagnosemodells. -
Mitgliedschaftsinferenzangriff: Der Angreifer testet, ob ein bestimmter Datensatz während des Trainings verwendet wurde, indem er Unterschiede in der Zuversicht erkennt.
Beispiel: Bestätigung, dass eine Banktransaktion einer Person in den Trainingsdaten eines Betrugserkennungsmodells erscheint. -
Modellklau: Wiederholtes Abfragen ermöglicht es einem Angreifer, Entscheidungsgrenzen zu lernen und das Verhalten des Modells zu klonen (und IP).
Beispiel: Ernte von genügend Q&A-Paaren aus einer ML-as-a-Service-API, um ein nahezu gleichwertiges lokales Modell zu erstellen. -
AI-Lieferkettenangriff: Kompromittieren Sie jede Komponente (Daten, Bibliotheken, vortrainierte Gewichte, CI/CD) in der ML-Pipeline, um nachgelagerte Modelle zu korrumpieren.
Beispiel: Eine vergiftete Abhängigkeit auf einem Modell-Hub installiert ein mit einem Hintertür versehenes Sentiment-Analyse-Modell in vielen Apps. -
Transfer-Learning-Angriff: Bösartige Logik wird in ein vortrainiertes Modell eingebaut und übersteht das Feintuning für die Aufgabe des Opfers.
Beispiel: Ein Vision-Backbone mit einem versteckten Trigger ändert weiterhin Labels, nachdem es für die medizinische Bildgebung angepasst wurde. -
Modellverzerrung: Subtil voreingenommene oder falsch gekennzeichnete Daten verschieben die Ausgaben des Modells, um die Agenda des Angreifers zu begünstigen.
Beispiel: Einspeisung von "sauberen" Spam-E-Mails, die als Ham gekennzeichnet sind, sodass ein Spam-Filter ähnliche zukünftige E-Mails durchlässt. -
Ausgabeintegritätsangriff: Der Angreifer ändert die Modellvorhersagen während des Transports, nicht das Modell selbst, und täuscht nachgelagerte Systeme.
Beispiel: Ändern des "bösartigen" Urteils eines Malware-Klassifizierers in "gutartig", bevor die Datei-Quarantäne-Phase sie sieht. -
Modellvergiftung --- Direkte, gezielte Änderungen an den Modellparametern selbst, oft nach Erlangung von Schreibzugriff, um das Verhalten zu ändern.
Beispiel: Anpassen der Gewichte eines Betrugserkennungsmodells in der Produktion, sodass Transaktionen von bestimmten Karten immer genehmigt werden.
Google SAIF Risiken
Google's SAIF (Security AI Framework) skizziert verschiedene Risiken, die mit AI-Systemen verbunden sind:
-
Datenvergiftung: Böswillige Akteure ändern oder injizieren Trainings-/Feinabstimmungsdaten, um die Genauigkeit zu verringern, Hintertüren einzufügen oder Ergebnisse zu verzerren, was die Integrität des Modells über den gesamten Datenlebenszyklus untergräbt.
-
Unbefugte Trainingsdaten: Das Einpflegen von urheberrechtlich geschützten, sensiblen oder unzulässigen Datensätzen schafft rechtliche, ethische und leistungsbezogene Haftungen, da das Modell aus Daten lernt, die es niemals verwenden durfte.
-
Manipulation der Modellquelle: Manipulation des Modellcodes, der Abhängigkeiten oder der Gewichte in der Lieferkette oder durch Insider vor oder während des Trainings kann versteckte Logik einbetten, die auch nach dem Retraining bestehen bleibt.
-
Übermäßige Datenverarbeitung: Schwache Datenaufbewahrungs- und Governance-Kontrollen führen dazu, dass Systeme mehr persönliche Daten speichern oder verarbeiten, als notwendig, was die Exposition und das Compliance-Risiko erhöht.
-
Modell-Exfiltration: Angreifer stehlen Modell-Dateien/Gewichte, was zu einem Verlust von geistigem Eigentum führt und Nachahmungsdienste oder Folgetransaktionen ermöglicht.
-
Manipulation der Modellbereitstellung: Gegner ändern Modellartefakte oder Bereitstellungsinfrastruktur, sodass das laufende Modell von der geprüften Version abweicht, was das Verhalten potenziell ändert.
-
Verweigerung des ML-Dienstes: Überflutung von APIs oder das Senden von "Schwamm"-Eingaben kann Rechen-/Energieressourcen erschöpfen und das Modell offline nehmen, was klassischen DoS-Angriffen ähnelt.
-
Modell-Rückentwicklung: Durch das Ernten großer Mengen von Eingabe-Ausgabe-Paaren können Angreifer das Modell klonen oder destillieren, was Nachahmungsprodukte und angepasste adversariale Angriffe anheizt.
-
Unsichere integrierte Komponente: Verwundbare Plugins, Agenten oder Upstream-Dienste ermöglichen es Angreifern, Code einzuschleusen oder Berechtigungen innerhalb der AI-Pipeline zu eskalieren.
-
Prompt-Injektion: Das Erstellen von Eingabeaufforderungen (direkt oder indirekt), um Anweisungen zu schmuggeln, die die Systemabsicht überschreiben, sodass das Modell unbeabsichtigte Befehle ausführt.
-
Modell-Umgehung: Sorgfältig gestaltete Eingaben bringen das Modell dazu, falsch zu klassifizieren, zu halluzinieren oder unerlaubte Inhalte auszugeben, was Sicherheit und Vertrauen untergräbt.
-
Offenlegung sensibler Daten: Das Modell gibt private oder vertrauliche Informationen aus seinen Trainingsdaten oder dem Benutzerkontext preis, was gegen Datenschutz und Vorschriften verstößt.
-
Inferenz sensibler Daten: Das Modell schlussfolgert persönliche Attribute, die niemals bereitgestellt wurden, und schafft neue Datenschutzschäden durch Inferenz.
-
Unsichere Modellausgabe: Unsaniertes Antworten übermitteln schädlichen Code, Fehlinformationen oder unangemessene Inhalte an Benutzer oder nachgelagerte Systeme.
-
Rogue-Aktionen: Autonom integrierte Agenten führen unbeabsichtigte reale Operationen (Dateischreibvorgänge, API-Aufrufe, Käufe usw.) ohne angemessene Benutzeraufsicht aus.
Mitre AI ATLAS Matrix
Die MITRE AI ATLAS Matrix bietet einen umfassenden Rahmen zum Verständnis und zur Minderung von Risiken, die mit AI-Systemen verbunden sind. Sie kategorisiert verschiedene Angriffstechniken und Taktiken, die Gegner gegen AI-Modelle verwenden können, und auch, wie AI-Systeme verwendet werden können, um verschiedene Angriffe durchzuführen.
tip
Lernen & üben Sie AWS Hacking:HackTricks Training AWS Red Team Expert (ARTE)
Lernen & üben Sie GCP Hacking: HackTricks Training GCP Red Team Expert (GRTE)
Lernen & üben Sie Azure Hacking:
HackTricks Training Azure Red Team Expert (AzRTE)
Unterstützen Sie HackTricks
- Überprüfen Sie die Abonnementpläne!
- Treten Sie der 💬 Discord-Gruppe oder der Telegram-Gruppe bei oder folgen Sie uns auf Twitter 🐦 @hacktricks_live.
- Teilen Sie Hacking-Tricks, indem Sie PRs an die HackTricks und HackTricks Cloud GitHub-Repos senden.