AIリスク
Reading time: 11 minutes
tip
AWSハッキングを学び、実践する:HackTricks Training AWS Red Team Expert (ARTE)
GCPハッキングを学び、実践する:HackTricks Training GCP Red Team Expert (GRTE)
Azureハッキングを学び、実践する:
HackTricks Training Azure Red Team Expert (AzRTE)
HackTricksをサポートする
- サブスクリプションプランを確認してください!
- **💬 Discordグループまたはテレグラムグループに参加するか、Twitter 🐦 @hacktricks_liveをフォローしてください。
- HackTricksおよびHackTricks CloudのGitHubリポジトリにPRを提出してハッキングトリックを共有してください。
OWASPトップ10機械学習脆弱性
Owaspは、AIシステムに影響を与える可能性のあるトップ10の機械学習脆弱性を特定しました。これらの脆弱性は、データポイズニング、モデル反転、敵対的攻撃など、さまざまなセキュリティ問題を引き起こす可能性があります。これらの脆弱性を理解することは、安全なAIシステムを構築するために重要です。
最新の詳細なトップ10機械学習脆弱性のリストについては、OWASPトップ10機械学習脆弱性プロジェクトを参照してください。
-
入力操作攻撃: 攻撃者は、受信データに微小でしばしば見えない変更を加え、モデルが誤った決定を下すようにします。
例: 停止標識に数滴のペンキを塗ることで、自動運転車が速度制限標識を「見る」ように騙されます。 -
データポイズニング攻撃: トレーニングセットが意図的に悪いサンプルで汚染され、モデルに有害なルールを教えます。
例: マルウェアバイナリが「無害」と誤ってラベル付けされ、後に類似のマルウェアが通過することを許します。 -
モデル反転攻撃: 出力を調査することで、攻撃者は元の入力の機密情報を再構築する逆モデルを構築します。
例: がん検出モデルの予測から患者のMRI画像を再作成します。 -
メンバーシップ推論攻撃: 敵は、特定のレコードがトレーニング中に使用されたかどうかを確認するために、信頼度の違いを見つけます。
例: ある人の銀行取引が詐欺検出モデルのトレーニングデータに含まれていることを確認します。 -
モデル盗難: 繰り返しのクエリにより、攻撃者は決定境界を学び、モデルの動作をクローンします(およびIP)。
例: ML-as-a-Service APIから十分なQ&Aペアを収集して、ほぼ同等のローカルモデルを構築します。 -
AIサプライチェーン攻撃: MLパイプライン内の任意のコンポーネント(データ、ライブラリ、事前トレーニングされた重み、CI/CD)を妥協し、下流のモデルを腐敗させます。
例: モデルハブの汚染された依存関係が、さまざまなアプリにバックドア付きの感情分析モデルをインストールします。 -
転移学習攻撃: 悪意のあるロジックが事前トレーニングされたモデルに埋め込まれ、被害者のタスクでのファインチューニングを生き延びます。
例: 隠れたトリガーを持つビジョンバックボーンが、医療画像用に適応された後もラベルを反転させます。 -
モデルの偏り: 微妙に偏ったり誤ってラベル付けされたデータが、モデルの出力をシフトさせて攻撃者のアジェンダを優先させます。
例: スパムフィルターが類似の将来のメールを通過させるように、「クリーン」なスパムメールをハムとしてラベル付けして注入します。 -
出力整合性攻撃: 攻撃者は、モデル自体ではなく、モデルの予測を転送中に変更し、下流のシステムを欺きます。
例: マルウェア分類器の「悪意のある」判定を「無害」に反転させ、ファイル隔離段階でそれを見せないようにします。 -
モデルポイズニング --- モデルパラメータ自体に対する直接的でターゲットを絞った変更で、通常は書き込みアクセスを取得した後に行われ、動作を変更します。
例: 特定のカードからの取引が常に承認されるように、運用中の詐欺検出モデルの重みを調整します。
Google SAIFリスク
GoogleのSAIF(セキュリティAIフレームワーク)は、AIシステムに関連するさまざまなリスクを概説しています。
-
データポイズニング: 悪意のある行為者がトレーニング/チューニングデータを変更または注入し、精度を低下させたり、バックドアを埋め込んだり、結果を歪めたりして、モデルの整合性を全データライフサイクルにわたって損ないます。
-
無許可のトレーニングデータ: 著作権のある、機密の、または許可されていないデータセットを取り込むことで、モデルが使用を許可されていないデータから学ぶため、法的、倫理的、パフォーマンス上の責任が生じます。
-
モデルソースの改ざん: トレーニング前またはトレーニング中にモデルコード、依存関係、または重みのサプライチェーンまたは内部操作により、再トレーニング後も持続する隠れたロジックが埋め込まれる可能性があります。
-
過剰なデータ処理: 弱いデータ保持およびガバナンスコントロールにより、システムが必要以上の個人データを保存または処理し、露出とコンプライアンスリスクを高めます。
-
モデルの流出: 攻撃者がモデルファイル/重みを盗むことで、知的財産の喪失を引き起こし、模倣サービスや追随攻撃を可能にします。
-
モデルデプロイメントの改ざん: 敵がモデルアーティファクトや提供インフラストラクチャを変更し、実行中のモデルが検証されたバージョンと異なるため、動作が変わる可能性があります。
-
MLサービスの拒否: APIを洪水させたり、「スポンジ」入力を送信したりすることで、計算/エネルギーを使い果たし、モデルをオフラインにすることができ、従来のDoS攻撃を模倣します。
-
モデルの逆エンジニアリング: 大量の入力-出力ペアを収集することで、攻撃者はモデルをクローンまたは蒸留し、模倣製品やカスタマイズされた敵対的攻撃を促進します。
-
安全でない統合コンポーネント: 脆弱なプラグイン、エージェント、または上流サービスにより、攻撃者がAIパイプライン内にコードを注入したり、特権を昇格させたりすることができます。
-
プロンプト注入: システムの意図を上書きする指示を密かに持ち込むために、プロンプトを(直接または間接的に)作成し、モデルに意図しないコマンドを実行させます。
-
モデル回避: 注意深く設計された入力がモデルを誤分類させたり、幻覚を引き起こしたり、許可されていないコンテンツを出力させたりし、安全性と信頼を損ないます。
-
機密データの開示: モデルがトレーニングデータやユーザーコンテキストからプライベートまたは機密情報を明らかにし、プライバシーや規制に違反します。
-
推測された機密データ: モデルが提供されていない個人属性を推測し、推論を通じて新たなプライバシーの害を生み出します。
-
安全でないモデル出力: サニタイズされていない応答が、ユーザーや下流のシステムに有害なコード、誤情報、または不適切なコンテンツを渡します。
-
不正行動: 自律的に統合されたエージェントが、十分なユーザーの監視なしに意図しない現実世界の操作(ファイル書き込み、API呼び出し、購入など)を実行します。
Mitre AI ATLASマトリックス
MITRE AI ATLASマトリックスは、AIシステムに関連するリスクを理解し、軽減するための包括的なフレームワークを提供します。これは、敵がAIモデルに対して使用する可能性のあるさまざまな攻撃技術と戦術を分類し、AIシステムを使用してさまざまな攻撃を実行する方法も示しています。
tip
AWSハッキングを学び、実践する:HackTricks Training AWS Red Team Expert (ARTE)
GCPハッキングを学び、実践する:HackTricks Training GCP Red Team Expert (GRTE)
Azureハッキングを学び、実践する:
HackTricks Training Azure Red Team Expert (AzRTE)
HackTricksをサポートする
- サブスクリプションプランを確認してください!
- **💬 Discordグループまたはテレグラムグループに参加するか、Twitter 🐦 @hacktricks_liveをフォローしてください。
- HackTricksおよびHackTricks CloudのGitHubリポジトリにPRを提出してハッキングトリックを共有してください。