AI-Risiken

Reading time: 6 minutes

tip

Lernen & üben Sie AWS Hacking:HackTricks Training AWS Red Team Expert (ARTE)
Lernen & üben Sie GCP Hacking: HackTricks Training GCP Red Team Expert (GRTE) Lernen & üben Sie Azure Hacking: HackTricks Training Azure Red Team Expert (AzRTE)

Unterstützen Sie HackTricks

Überprüfen Sie die Abonnementpläne!
Treten Sie der 💬 Discord-Gruppe oder der Telegram-Gruppe bei oder folgen Sie uns auf Twitter 🐦 @hacktricks_live.
Teilen Sie Hacking-Tricks, indem Sie PRs an die HackTricks und HackTricks Cloud GitHub-Repos senden.

OWASP Top 10 Machine Learning Schwachstellen

Owasp hat die Top 10 Machine Learning Schwachstellen identifiziert, die AI-Systeme betreffen können. Diese Schwachstellen können zu verschiedenen Sicherheitsproblemen führen, einschließlich Datenvergiftung, Modellinversion und adversarialen Angriffen. Das Verständnis dieser Schwachstellen ist entscheidend für den Aufbau sicherer AI-Systeme.

Für eine aktualisierte und detaillierte Liste der Top 10 Machine Learning Schwachstellen verweisen Sie auf das OWASP Top 10 Machine Learning Vulnerabilities Projekt.

Eingabemanipulationsangriff: Ein Angreifer fügt winzige, oft unsichtbare Änderungen an eingehenden Daten hinzu, sodass das Modell die falsche Entscheidung trifft.
Beispiel: Ein paar Farbspritzer auf einem Stoppschild täuschen ein selbstfahrendes Auto, sodass es ein Geschwindigkeitsbegrenzungsschild "sieht".
Datenvergiftungsangriff: Der Trainingssatz wird absichtlich mit schlechten Proben kontaminiert, wodurch das Modell schädliche Regeln lernt.
Beispiel: Malware-Binärdateien werden in einem Antivirus-Trainingskorpus fälschlicherweise als "gutartig" gekennzeichnet, sodass ähnliche Malware später durchrutscht.
Modellinversionsangriff: Durch das Abfragen von Ausgaben erstellt ein Angreifer ein Umkehrmodell, das sensible Merkmale der ursprünglichen Eingaben rekonstruiert.
Beispiel: Rekonstruktion eines MRI-Bildes eines Patienten aus den Vorhersagen eines Krebsdiagnosemodells.
Mitgliedschaftsinferenzangriff: Der Angreifer testet, ob ein bestimmter Datensatz während des Trainings verwendet wurde, indem er Unterschiede in der Zuversicht erkennt.
Beispiel: Bestätigung, dass eine Banktransaktion einer Person in den Trainingsdaten eines Betrugserkennungsmodells erscheint.
Modellklau: Wiederholtes Abfragen ermöglicht es einem Angreifer, Entscheidungsgrenzen zu lernen und das Verhalten des Modells zu klonen (und IP).
Beispiel: Ernte von genügend Q&A-Paaren aus einer ML-as-a-Service-API, um ein nahezu gleichwertiges lokales Modell zu erstellen.
AI-Lieferkettenangriff: Kompromittieren Sie jede Komponente (Daten, Bibliotheken, vortrainierte Gewichte, CI/CD) in der ML-Pipeline, um nachgelagerte Modelle zu korrumpieren.
Beispiel: Eine vergiftete Abhängigkeit auf einem Modell-Hub installiert ein mit einem Hintertür versehenes Sentiment-Analyse-Modell in vielen Apps.
Transfer-Learning-Angriff: Bösartige Logik wird in ein vortrainiertes Modell eingebaut und übersteht das Feintuning für die Aufgabe des Opfers.
Beispiel: Ein Vision-Backbone mit einem versteckten Trigger ändert weiterhin Labels, nachdem es für die medizinische Bildgebung angepasst wurde.
Modellverzerrung: Subtil voreingenommene oder falsch gekennzeichnete Daten verschieben die Ausgaben des Modells, um die Agenda des Angreifers zu begünstigen.
Beispiel: Einspeisung von "sauberen" Spam-E-Mails, die als Ham gekennzeichnet sind, sodass ein Spam-Filter ähnliche zukünftige E-Mails durchlässt.
Ausgabeintegritätsangriff: Der Angreifer ändert die Modellvorhersagen während des Transports, nicht das Modell selbst, und täuscht nachgelagerte Systeme.
Beispiel: Ändern des "bösartigen" Urteils eines Malware-Klassifizierers in "gutartig", bevor die Datei-Quarantäne-Phase sie sieht.
Modellvergiftung --- Direkte, gezielte Änderungen an den Modellparametern selbst, oft nach Erlangung von Schreibzugriff, um das Verhalten zu ändern.
Beispiel: Anpassen der Gewichte eines Betrugserkennungsmodells in der Produktion, sodass Transaktionen von bestimmten Karten immer genehmigt werden.

Google SAIF Risiken

Google's SAIF (Security AI Framework) skizziert verschiedene Risiken, die mit AI-Systemen verbunden sind:

Datenvergiftung: Böswillige Akteure ändern oder injizieren Trainings-/Feinabstimmungsdaten, um die Genauigkeit zu verringern, Hintertüren einzufügen oder Ergebnisse zu verzerren, was die Integrität des Modells über den gesamten Datenlebenszyklus untergräbt.
Unbefugte Trainingsdaten: Das Einpflegen von urheberrechtlich geschützten, sensiblen oder unzulässigen Datensätzen schafft rechtliche, ethische und leistungsbezogene Haftungen, da das Modell aus Daten lernt, die es niemals verwenden durfte.
Manipulation der Modellquelle: Manipulation des Modellcodes, der Abhängigkeiten oder der Gewichte in der Lieferkette oder durch Insider vor oder während des Trainings kann versteckte Logik einbetten, die auch nach dem Retraining bestehen bleibt.
Übermäßige Datenverarbeitung: Schwache Datenaufbewahrungs- und Governance-Kontrollen führen dazu, dass Systeme mehr persönliche Daten speichern oder verarbeiten, als notwendig, was die Exposition und das Compliance-Risiko erhöht.
Modell-Exfiltration: Angreifer stehlen Modell-Dateien/Gewichte, was zu einem Verlust von geistigem Eigentum führt und Nachahmungsdienste oder Folgetransaktionen ermöglicht.
Manipulation der Modellbereitstellung: Gegner ändern Modellartefakte oder Bereitstellungsinfrastruktur, sodass das laufende Modell von der geprüften Version abweicht, was das Verhalten potenziell ändert.
Verweigerung des ML-Dienstes: Überflutung von APIs oder das Senden von "Schwamm"-Eingaben kann Rechen-/Energieressourcen erschöpfen und das Modell offline nehmen, was klassischen DoS-Angriffen ähnelt.
Modell-Rückentwicklung: Durch das Ernten großer Mengen von Eingabe-Ausgabe-Paaren können Angreifer das Modell klonen oder destillieren, was Nachahmungsprodukte und angepasste adversariale Angriffe anheizt.
Unsichere integrierte Komponente: Verwundbare Plugins, Agenten oder Upstream-Dienste ermöglichen es Angreifern, Code einzuschleusen oder Berechtigungen innerhalb der AI-Pipeline zu eskalieren.
Prompt-Injektion: Das Erstellen von Eingabeaufforderungen (direkt oder indirekt), um Anweisungen zu schmuggeln, die die Systemabsicht überschreiben, sodass das Modell unbeabsichtigte Befehle ausführt.
Modell-Umgehung: Sorgfältig gestaltete Eingaben bringen das Modell dazu, falsch zu klassifizieren, zu halluzinieren oder unerlaubte Inhalte auszugeben, was Sicherheit und Vertrauen untergräbt.
Offenlegung sensibler Daten: Das Modell gibt private oder vertrauliche Informationen aus seinen Trainingsdaten oder dem Benutzerkontext preis, was gegen Datenschutz und Vorschriften verstößt.
Inferenz sensibler Daten: Das Modell schlussfolgert persönliche Attribute, die niemals bereitgestellt wurden, und schafft neue Datenschutzschäden durch Inferenz.
Unsichere Modellausgabe: Unsaniertes Antworten übermitteln schädlichen Code, Fehlinformationen oder unangemessene Inhalte an Benutzer oder nachgelagerte Systeme.
Rogue-Aktionen: Autonom integrierte Agenten führen unbeabsichtigte reale Operationen (Dateischreibvorgänge, API-Aufrufe, Käufe usw.) ohne angemessene Benutzeraufsicht aus.

Mitre AI ATLAS Matrix

Die MITRE AI ATLAS Matrix bietet einen umfassenden Rahmen zum Verständnis und zur Minderung von Risiken, die mit AI-Systemen verbunden sind. Sie kategorisiert verschiedene Angriffstechniken und Taktiken, die Gegner gegen AI-Modelle verwenden können, und auch, wie AI-Systeme verwendet werden können, um verschiedene Angriffe durchzuführen.

tip

Unterstützen Sie HackTricks

Überprüfen Sie die Abonnementpläne!
Treten Sie der 💬 Discord-Gruppe oder der Telegram-Gruppe bei oder folgen Sie uns auf Twitter 🐦 @hacktricks_live.
Teilen Sie Hacking-Tricks, indem Sie PRs an die HackTricks und HackTricks Cloud GitHub-Repos senden.