AI Risks

Reading time: 7 minutes

tip

Aprende y practica Hacking en AWS:HackTricks Training AWS Red Team Expert (ARTE)
Aprende y practica Hacking en GCP: HackTricks Training GCP Red Team Expert (GRTE) Aprende y practica Hacking en Azure: HackTricks Training Azure Red Team Expert (AzRTE)

Apoya a HackTricks

OWASP Top 10 Machine Learning Vulnerabilities

Owasp ha identificado las 10 principales vulnerabilidades de aprendizaje autom谩tico que pueden afectar a los sistemas de IA. Estas vulnerabilidades pueden llevar a varios problemas de seguridad, incluyendo envenenamiento de datos, inversi贸n de modelos y ataques adversariales. Comprender estas vulnerabilidades es crucial para construir sistemas de IA seguros.

Para una lista actualizada y detallada de las 10 principales vulnerabilidades de aprendizaje autom谩tico, consulte el proyecto OWASP Top 10 Machine Learning Vulnerabilities.

  • Input Manipulation Attack: Un atacante agrega peque帽os cambios, a menudo invisibles, a los datos entrantes para que el modelo tome la decisi贸n incorrecta.
    Ejemplo: Unas pocas manchas de pintura en una se帽al de alto enga帽an a un coche aut贸nomo haci茅ndolo "ver" una se帽al de l铆mite de velocidad.

  • Data Poisoning Attack: El conjunto de entrenamiento se contamina deliberadamente con muestras malas, ense帽ando al modelo reglas da帽inas.
    Ejemplo: Los binarios de malware se etiquetan err贸neamente como "benignos" en un corpus de entrenamiento de antivirus, permitiendo que malware similar pase desapercibido m谩s tarde.

  • Model Inversion Attack: Al sondear salidas, un atacante construye un modelo inverso que reconstruye caracter铆sticas sensibles de las entradas originales.
    Ejemplo: Recrear la imagen de MRI de un paciente a partir de las predicciones de un modelo de detecci贸n de c谩ncer.

  • Membership Inference Attack: El adversario prueba si un registro espec铆fico fue utilizado durante el entrenamiento al detectar diferencias de confianza.
    Ejemplo: Confirmar que la transacci贸n bancaria de una persona aparece en los datos de entrenamiento de un modelo de detecci贸n de fraude.

  • Model Theft: Consultas repetidas permiten a un atacante aprender los l铆mites de decisi贸n y clonar el comportamiento del modelo (y la propiedad intelectual).
    Ejemplo: Recopilar suficientes pares de preguntas y respuestas de una API de ML鈥慳s鈥慳鈥慡ervice para construir un modelo local casi equivalente.

  • AI Supply鈥慍hain Attack: Comprometer cualquier componente (datos, bibliotecas, pesos preentrenados, CI/CD) en la tuber铆a de ML para corromper modelos posteriores.
    Ejemplo: Una dependencia envenenada en un modelo鈥慼ub instala un modelo de an谩lisis de sentimientos con puerta trasera en muchas aplicaciones.

  • Transfer Learning Attack: L贸gica maliciosa se planta en un modelo preentrenado y sobrevive al ajuste fino en la tarea de la v铆ctima.
    Ejemplo: Un backbone de visi贸n con un desencadenante oculto a煤n cambia etiquetas despu茅s de ser adaptado para im谩genes m茅dicas.

  • Model Skewing: Datos sutilmente sesgados o mal etiquetados desplazan las salidas del modelo para favorecer la agenda del atacante.
    Ejemplo: Inyectar correos electr贸nicos de spam "limpios" etiquetados como ham para que un filtro de spam permita pasar correos similares en el futuro.

  • Output Integrity Attack: El atacante altera las predicciones del modelo en tr谩nsito, no el modelo en s铆, enga帽ando a los sistemas posteriores.
    Ejemplo: Cambiar el veredicto "malicioso" de un clasificador de malware a "benigno" antes de que la etapa de cuarentena del archivo lo vea.

  • Model Poisoning --- Cambios directos y espec铆ficos en los par谩metros del modelo mismos, a menudo despu茅s de obtener acceso de escritura, para alterar el comportamiento.
    Ejemplo: Ajustar pesos en un modelo de detecci贸n de fraude en producci贸n para que las transacciones de ciertas tarjetas sean siempre aprobadas.

Google SAIF Risks

Los SAIF (Security AI Framework) de Google describen varios riesgos asociados con los sistemas de IA:

  • Data Poisoning: Actores maliciosos alteran o inyectan datos de entrenamiento/ajuste para degradar la precisi贸n, implantar puertas traseras o sesgar resultados, socavando la integridad del modelo a lo largo de todo el ciclo de vida de los datos.

  • Unauthorized Training Data: Ingerir conjuntos de datos con derechos de autor, sensibles o no permitidos crea responsabilidades legales, 茅ticas y de rendimiento porque el modelo aprende de datos que nunca se le permiti贸 usar.

  • Model Source Tampering: La manipulaci贸n de la cadena de suministro o de insiders del c贸digo del modelo, dependencias o pesos antes o durante el entrenamiento puede incrustar l贸gica oculta que persiste incluso despu茅s del reentrenamiento.

  • Excessive Data Handling: Controles d茅biles de retenci贸n y gobernanza de datos llevan a los sistemas a almacenar o procesar m谩s datos personales de los necesarios, aumentando la exposici贸n y el riesgo de cumplimiento.

  • Model Exfiltration: Los atacantes roban archivos/pesos del modelo, causando p茅rdida de propiedad intelectual y habilitando servicios imitadores o ataques posteriores.

  • Model Deployment Tampering: Los adversarios modifican artefactos del modelo o infraestructura de servicio para que el modelo en ejecuci贸n difiera de la versi贸n verificada, potencialmente cambiando el comportamiento.

  • Denial of ML Service: Inundar APIs o enviar entradas "esponja" puede agotar recursos computacionales/energ铆a y desconectar el modelo, reflejando ataques cl谩sicos de DoS.

  • Model Reverse Engineering: Al cosechar grandes cantidades de pares de entrada-salida, los atacantes pueden clonar o destilar el modelo, alimentando productos de imitaci贸n y ataques adversariales personalizados.

  • Insecure Integrated Component: Plugins, agentes o servicios ascendentes vulnerables permiten a los atacantes inyectar c贸digo o escalar privilegios dentro de la tuber铆a de IA.

  • Prompt Injection: Elaborar prompts (directa o indirectamente) para contrabandear instrucciones que anulan la intenci贸n del sistema, haciendo que el modelo ejecute comandos no deseados.

  • Model Evasion: Entradas cuidadosamente dise帽adas hacen que el modelo clasifique incorrectamente, alucine o produzca contenido no permitido, erosionando la seguridad y la confianza.

  • Sensitive Data Disclosure: El modelo revela informaci贸n privada o confidencial de sus datos de entrenamiento o contexto del usuario, violando la privacidad y regulaciones.

  • Inferred Sensitive Data: El modelo deduce atributos personales que nunca se proporcionaron, creando nuevos da帽os a la privacidad a trav茅s de inferencias.

  • Insecure Model Output: Respuestas no sanitizadas transmiten c贸digo da帽ino, desinformaci贸n o contenido inapropiado a los usuarios o sistemas posteriores.

  • Rogue Actions: Agentes integrados de forma aut贸noma ejecutan operaciones del mundo real no intencionadas (escrituras de archivos, llamadas a API, compras, etc.) sin la supervisi贸n adecuada del usuario.

Mitre AI ATLAS Matrix

La MITRE AI ATLAS Matrix proporciona un marco integral para comprender y mitigar los riesgos asociados con los sistemas de IA. Categoriza varias t茅cnicas y t谩cticas de ataque que los adversarios pueden usar contra modelos de IA y tambi茅n c贸mo usar sistemas de IA para realizar diferentes ataques.

tip

Aprende y practica Hacking en AWS:HackTricks Training AWS Red Team Expert (ARTE)
Aprende y practica Hacking en GCP: HackTricks Training GCP Red Team Expert (GRTE) Aprende y practica Hacking en Azure: HackTricks Training Azure Red Team Expert (AzRTE)

Apoya a HackTricks