AI Ризики

Reading time: 5 minutes

tip

Вивчайте та практикуйте AWS Hacking:HackTricks Training AWS Red Team Expert (ARTE)
Вивчайте та практикуйте GCP Hacking: HackTricks Training GCP Red Team Expert (GRTE) Вивчайте та практикуйте Azure Hacking: HackTricks Training Azure Red Team Expert (AzRTE)

Підтримайте HackTricks

OWASP Топ 10 Вразливостей Машинного Навчання

Owasp визначив топ 10 вразливостей машинного навчання, які можуть вплинути на AI системи. Ці вразливості можуть призвести до різних проблем безпеки, включаючи отруєння даних, інверсію моделі та атак на основі суперництва. Розуміння цих вразливостей є критично важливим для створення безпечних AI систем.

Для оновленого та детального списку топ 10 вразливостей машинного навчання, зверніться до проекту OWASP Топ 10 Вразливостей Машинного Навчання.

  • Атака на маніпуляцію введенням: Зловмисник додає маленькі, часто невидимі зміни до вхідних даних, щоб модель прийняла неправильне рішення.
    Приклад: Кілька крапель фарби на знаку "стоп" вводять в оману автомобіль з автопілотом, змушуючи його "бачити" знак обмеження швидкості.

  • Атака на отруєння даних: Навчальний набір навмисно забруднюється поганими зразками, навчаючи модель шкідливим правилам.
    Приклад: Бінарні файли шкідливого ПЗ неправильно маркуються як "безпечні" в навчальному корпусі антивірусу, дозволяючи подібному шкідливому ПЗ пройти пізніше.

  • Атака на інверсію моделі: Досліджуючи виходи, зловмисник створює зворотну модель, яка відтворює чутливі характеристики оригінальних вхідних даних.
    Приклад: Відтворення МРТ зображення пацієнта з прогнозів моделі виявлення раку.

  • Атака на виявлення членства: Супротивник перевіряє, чи конкретний запис використовувався під час навчання, помічаючи різницю в упевненості.
    Приклад: Підтвердження того, що банківська транзакція особи з'являється в навчальних даних моделі виявлення шахрайства.

  • Крадіжка моделі: Повторні запити дозволяють зловмиснику дізнатися межі рішень і клонувати поведінку моделі (та інтелектуальну власність).
    Приклад: Збирання достатньої кількості пар запитань і відповідей з API ML‑as‑a‑Service для створення майже еквівалентної локальної моделі.

  • Атака на постачання AI: Компрометація будь-якого компонента (дані, бібліотеки, попередньо навчені ваги, CI/CD) в ML конвеєрі для корупції подальших моделей.
    Приклад: Отруєна залежність на модельному хабі встановлює модель аналізу настроїв з бекдором в багатьох додатках.

  • Атака на перенавчання: Зловмисна логіка вбудовується в попередньо навчену модель і виживає під час тонкої настройки на завданні жертви.
    Приклад: Основна модель зору з прихованим тригером все ще змінює мітки після адаптації для медичної візуалізації.

  • Скос моделі: Тонко упереджені або неправильно марковані дані зміщують виходи моделі на користь порядку зловмисника.
    Приклад: Введення "чистих" спам-електронних листів, маркованих як "негатив", щоб фільтр спаму пропускав подібні майбутні електронні листи.

  • Атака на цілісність виходу: Зловмисник змінює прогнози моделі під час передачі, а не саму модель, обманюючи подальші системи.
    Приклад: Зміна вердикту класифікатора шкідливого ПЗ з "шкідливого" на "безпечний" перед етапом карантину файлів.

  • Отруєння моделі --- Прямі, цілеспрямовані зміни до параметрів моделі, часто після отримання доступу на запис, для зміни поведінки.
    Приклад: Налаштування ваг на моделі виявлення шахрайства в продукції так, щоб транзакції з певних карт завжди були схвалені.

Ризики Google SAIF

Google's SAIF (Security AI Framework) описує різні ризики, пов'язані з AI системами:

  • Отруєння даних: Зловмисники змінюють або вводять дані для навчання/налаштування, щоб знизити точність, вбудувати бекдори або спотворити результати, підриваючи цілісність моделі протягом усього життєвого циклу даних.

  • Неавторизовані дані для навчання: Споживання авторських, чутливих або непозволених наборів даних створює юридичні, етичні та продуктивні ризики, оскільки модель навчається на даних, які їй ніколи не дозволяли використовувати.

  • Підробка джерела моделі: Маніпуляція кодом моделі, залежностями або вагами в ланцюгу постачання або зсередини до або під час навчання може вбудувати приховану логіку, яка зберігається навіть після повторного навчання.

  • Надмірна обробка даних: Слабкі контролі зберігання та управління даними призводять до того, що системи зберігають або обробляють більше особистих даних, ніж необхідно, підвищуючи ризик експозиції та відповідності.

  • Екстракція моделі: Зловмисники крадуть файли/ваги моделі, що призводить до втрати інтелектуальної власності та дозволяє створювати послуги-копії або подальші атаки.

  • Підробка розгортання моделі: Супротивники змінюють артефакти моделі або інфраструктуру обслуговування, так що працююча модель відрізняється від перевіреної версії, потенційно змінюючи поведінку.

  • Відмова в обслуговуванні ML: Затоплення API або надсилання "губчастих" введень може виснажити обчислювальні/енергетичні ресурси та вивести модель з ладу, відображаючи класичні атаки DoS.

  • Реверс-інжиніринг моделі: Збираючи велику кількість пар введення-виходу, зловмисники можуть клонувати або дистилювати модель, підживлюючи імітаційні продукти та налаштовані атаки.

  • Небезпечний інтегрований компонент: Вразливі плагіни, агенти або послуги верхнього рівня дозволяють зловмисникам вбудовувати код або підвищувати привілеї в AI конвеєрі.

  • Введення запитів: Створення запитів (безпосередньо або опосередковано) для контрабанди інструкцій, які переважають наміри системи, змушуючи модель виконувати непередбачені команди.

  • Уникнення моделі: Обережно спроектовані введення змушують модель неправильно класифікувати, галюцинувати або видавати заборонений контент, підриваючи безпеку та довіру.

  • Розкриття чутливих даних: Модель розкриває приватну або конфіденційну інформацію з її навчальних даних або контексту користувача, порушуючи конфіденційність та регуляції.

  • Виведені чутливі дані: Модель виводить особисті атрибути, які ніколи не були надані, створюючи нові ризики конфіденційності через виведення.

  • Небезпечний вихід моделі: Неперевірені відповіді передають шкідливий код, дезінформацію або неналежний контент користувачам або подальшим системам.

  • Неправомірні дії: Автономно інтегровані агенти виконують непередбачені реальні операції (записи файлів, виклики API, покупки тощо) без належного контролю з боку користувача.

Матриця MITRE AI ATLAS

MITRE AI ATLAS Matrix надає всебічну структуру для розуміння та пом'якшення ризиків, пов'язаних з AI системами. Вона категоризує різні техніки атак і тактики, які супротивники можуть використовувати проти AI моделей, а також як використовувати AI системи для виконання різних атак.

tip

Вивчайте та практикуйте AWS Hacking:HackTricks Training AWS Red Team Expert (ARTE)
Вивчайте та практикуйте GCP Hacking: HackTricks Training GCP Red Team Expert (GRTE) Вивчайте та практикуйте Azure Hacking: HackTricks Training Azure Red Team Expert (AzRTE)

Підтримайте HackTricks