Ризики ШІ

Reading time: 7 minutes

tip

Вивчайте та практикуйте AWS Hacking:HackTricks Training AWS Red Team Expert (ARTE)
Вивчайте та практикуйте GCP Hacking: HackTricks Training GCP Red Team Expert (GRTE) Вивчайте та практикуйте Azure Hacking: HackTricks Training Azure Red Team Expert (AzRTE)

Підтримайте HackTricks

OWASP Top 10 Machine Learning Vulnerabilities

OWASP визначив топ‑10 вразливостей машинного навчання, які можуть вплинути на системи ШІ. Ці вразливості можуть спричинити різні проблеми з безпекою, включно з отруєнням даних, інверсією моделі та adversarial атаками. Розуміння цих вразливостей є критичним для побудови захищених AI-систем.

Для оновленого та детального переліку топ‑10 вразливостей машинного навчання див. проект OWASP Top 10 Machine Learning Vulnerabilities.

  • Input Manipulation Attack: Атакуючий додає крихітні, часто непомітні зміни до вхідних даних, щоб модель прийняла неправильне рішення.
    Example: Кілька краплин фарби на стоп‑знаку змушують self‑driving автомобіль «побачити» знак обмеження швидкості.

  • Data Poisoning Attack: набір для навчання навмисно забруднюється шкідливими зразками, навчання моделі небезпечним правилам.
    Example: Бінарні файли з malware неправильно маркуються як "benign" у навчальному корпусі антивірусу, що дозволяє подібному malware проходити повз фільтри пізніше.

  • Model Inversion Attack: Шляхом опитування виходів атакуючий будує reverse model, яка реконструює чутливі ознаки оригінальних вхідних даних.
    Example: Відтворення MRI‑знімка пацієнта з прогнозів моделі для виявлення раку.

  • Membership Inference Attack: Адвесар перевіряє, чи був конкретний запис використаний під час навчання, виявляючи відмінності в упевненості.
    Example: Підтвердження, що транзакція конкретної особи присутня в навчальних даних моделі для виявлення шахрайства.

  • Model Theft: Повторні запити дозволяють атакуючому вивчити межі прийняття рішень і clone the model's behavior (а також IP).
    Example: Збирання достатньої кількості Q&A пар з ML‑as‑a‑Service API для побудови близької еквівалентної локальної моделі.

  • AI Supply‑Chain Attack: Компрометація будь‑якого компонента (дані, бібліотеки, pre‑trained weights, CI/CD) в ML pipeline для пошкодження моделей на виході.
    Example: Отруєна залежність на model‑hub встановлює backdoored модель для аналізу сентименту у багатьох додатках.

  • Transfer Learning Attack: Шкідлива логіка вбудовується в pre‑trained model і переживає fine‑tuning під завдання жертви.
    Example: Vision backbone з прихованим триггером все ще міняє мітки після адаптації для медичної діагностики.

  • Model Skewing: Тонко упереджені або неправильно марковані дані shifts the model's outputs в бік інтересів атакуючого.
    Example: Інжекція «чистих» spam‑листів, позначених як ham, щоб спам‑фільтр пропускав подібні майбутні листи.

  • Output Integrity Attack: Атакуючий alters model predictions in transit, а не саму модель, обманюючи downstream системи.
    Example: Зміна вердикту malware classifier з "malicious" на "benign" перед етапом карантину файлу.

  • Model Poisoning --- Прямі, цілеспрямовані зміни безпосередньо до model parameters зазвичай після отримання прав на запис, щоб змінити поведінку.
    Example: Підлаштування вагів у продакшн‑моделі для виявлення шахрайства так, щоб транзакції з певних карток завжди проходили.

Google SAIF Risks

Google's SAIF (Security AI Framework) окреслює різні ризики, пов’язані з AI‑системами:

  • Data Poisoning: Шкідливі актори змінюють або інжектять дані для навчання/тонінгу, щоб погіршити точність, імплантувати backdoors або спотворити результати, підриваючи цілісність моделі протягом усього життєвого циклу даних.

  • Unauthorized Training Data: Поглинання авторського, конфіденційного або неприпустимого набору даних створює юридичні, етичні та продуктивні ризики, бо модель вчиться на даних, які їй не дозволяли використовувати.

  • Model Source Tampering: Підміна у supply‑chain або інсайдерське втручання у код моделі, залежності або weights до/під час навчання може вбудувати приховану логіку, що зберігається навіть після перевчання.

  • Excessive Data Handling: Слабий контроль зберігання та управління даними призводить до збереження або обробки більше персональних даних, ніж потрібно, підвищуючи ризики витоку та невідповідності вимогам.

  • Model Exfiltration: Атакуючі викрадають модельні файли/weights, спричиняючи втрату інтелектуальної власності і даючи змогу створювати копії сервісів або проводити подальші атаки.

  • Model Deployment Tampering: Адвесар змінює артефакти моделі або інфраструктуру сервінгу так, що запущена модель відрізняється від верифікованої версії, потенційно змінюючи поведінку.

  • Denial of ML Service: Перевантаження API або відправлення «sponge» вводів може виснажити обчислювальні/енергетичні ресурси і вивести модель з ладу, як класичні DoS‑атаки.

  • Model Reverse Engineering: Збираючи велику кількість пар input‑output, атакуючі можуть клонувати або дистилювати модель, сприяючи появі імітаційних продуктів і кастомізованих adversarial атак.

  • Insecure Integrated Component: Вразливі плагіни, агенти або upstream‑сервіси дозволяють атакуючим інжектувати код або підвищувати привілеї в AI‑пайплайні.

  • Prompt Injection: Крафтові prompt‑и (безпосередньо або опосередковано) дозволяють прошмигнути інструкції, що переважають наміри системи, змушуючи модель виконувати небажані команди.

  • Model Evasion: Ретельно спроектовані входи провокують модель на mis‑classify, галюцинації або вивід забороненого контенту, підриваючи безпеку та довіру.

  • Sensitive Data Disclosure: Модель розкриває приватну або конфіденційну інформацію з навчальних даних або контексту користувача, порушуючи приватність та регуляції.

  • Inferred Sensitive Data: Модель виводить персональні ознаки, які ніколи не були надані явно, створюючи нові шкоди для приватності через inference.

  • Insecure Model Output: Несанітизовані відповіді передають шкідливий код, дезінформацію або неприйнятний контент користувачам або downstream системам.

  • Rogue Actions: Автономно інтегровані агенти виконують небажані реальні операції (запис файлів, API‑виклики, покупки тощо) без адекватного контролю користувача.

Mitre AI ATLAS Matrix

The MITRE AI ATLAS Matrix надає вичерпну рамку для розуміння та пом’якшення ризиків, пов’язаних з AI‑системами. Вона категоризує різні техніки атак і тактики, які adversaries можуть використовувати проти AI‑моделей, а також те, як використовувати AI‑системи для проведення різних атак.

LLMJacking (Token Theft & Resale of Cloud-hosted LLM Access)

Атакуючі крадуть активні session tokens або cloud API credentials і викликають платні, cloud‑hosted LLM без авторизації. Доступ часто перепродують через reverse proxies, які фронтують акаунт жертви, наприклад розгортання "oai‑reverse‑proxy". Наслідки включають фінансові втрати, misuse моделі поза політиками та прив’язку небажаних дій до tenant‑а жертви.

TTPs:

  • Harvest tokens з інфікованих машин розробників або браузерів; steal CI/CD secrets; купувати leaked cookies.
  • Розгорнути reverse proxy, який форвардить запити до справжнього провайдера, ховаючи upstream key і multiplexing багато клієнтів.
  • Abuse direct base‑model endpoints, щоб обійти enterprise guardrails і rate limits.

Mitigations:

  • Bind tokens до device fingerprint, IP ranges та client attestation; enforce короткі терміни життя та refresh з MFA.
  • Scope keys мінімально (no tool access, read‑only де застосовано); rotate при аномаліях.
  • Terminate весь трафік server‑side за policy gateway, що застосовує safety filters, per‑route quotas і tenant isolation.
  • Monitor на незвичні шаблони використання (раптові spikes у витратах, atypical регіони, UA strings) і auto‑revoke підозрілі сесії.
  • Віддавати перевагу mTLS або signed JWTs, виданим вашим IdP, замість довгоживучих static API keys.

References

tip

Вивчайте та практикуйте AWS Hacking:HackTricks Training AWS Red Team Expert (ARTE)
Вивчайте та практикуйте GCP Hacking: HackTricks Training GCP Red Team Expert (GRTE) Вивчайте та практикуйте Azure Hacking: HackTricks Training Azure Red Team Expert (AzRTE)

Підтримайте HackTricks