๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ
Tip
AWS ํดํน ๋ฐฐ์ฐ๊ธฐ ๋ฐ ์ฐ์ตํ๊ธฐ:
HackTricks Training AWS Red Team Expert (ARTE)
GCP ํดํน ๋ฐฐ์ฐ๊ธฐ ๋ฐ ์ฐ์ตํ๊ธฐ:HackTricks Training GCP Red Team Expert (GRTE)
Azure ํดํน ๋ฐฐ์ฐ๊ธฐ ๋ฐ ์ฐ์ตํ๊ธฐ:
HackTricks Training Azure Red Team Expert (AzRTE)
HackTricks ์ง์ํ๊ธฐ
- ๊ตฌ๋ ๊ณํ ํ์ธํ๊ธฐ!
- **๐ฌ ๋์ค์ฝ๋ ๊ทธ๋ฃน ๋๋ ํ ๋ ๊ทธ๋จ ๊ทธ๋ฃน์ ์ฐธ์ฌํ๊ฑฐ๋ ํธ์ํฐ ๐ฆ @hacktricks_live๋ฅผ ํ๋ก์ฐํ์ธ์.
- HackTricks ๋ฐ HackTricks Cloud ๊นํ๋ธ ๋ฆฌํฌ์งํ ๋ฆฌ์ PR์ ์ ์ถํ์ฌ ํดํน ํธ๋ฆญ์ ๊ณต์ ํ์ธ์.
๊ฐํ ํ์ต
๊ฐํ ํ์ต(RL)์ ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉด์ ์์ฌ๊ฒฐ์ ์ ํ์ตํ๋ ๋จธ์ ๋ฌ๋์ ํ ์ ํ์ ๋๋ค. ์์ด์ ํธ๋ ํ๋์ ๋ฐ๋ผ ๋ณด์ ๋๋ ๋ฒ์ ํํ์ ํผ๋๋ฐฑ์ ๋ฐ์ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์ต์ ์ ํ๋์ ํ์ตํ ์ ์์ต๋๋ค. ๊ฐํ ํ์ต์ ๋ก๋ณดํฑ์ค, ๊ฒ์ ํ๋ ์ด, ์์จ ์์คํ ๊ณผ ๊ฐ์ด ํด๋ฒ์ด ์ฐ์์ ์ธ ์์ฌ๊ฒฐ์ ์ ํฌํจํ๋ ๋ฌธ์ ์ ํนํ ์ ์ฉํฉ๋๋ค.
Q-Learning
Q-Learning์ ํน์ ์ํ์์์ ํ๋ ๊ฐ์น๋ฅผ ํ์ตํ๋ model-free ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ํน์ ์ํ์์ ํน์ ํ๋์ ์ทจํ์ ๋์ ๊ธฐ๋ ํจ์ฉ์ ์ ์ฅํ๊ธฐ ์ํด Q-table์ ์ฌ์ฉํฉ๋๋ค. ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ์ ๋ณด์๊ณผ ๊ธฐ๋๋๋ ์ต๋ ๋ฏธ๋ ๋ณด์์ ๋ฐํ์ผ๋ก Q-value๋ฅผ ๊ฐฑ์ ํฉ๋๋ค.
- Initialization: Q-table์ ์์์ ๊ฐ(๋ณดํต 0)์ผ๋ก ์ด๊ธฐํํฉ๋๋ค.
- Action Selection: ํํ ์ ๋ต(์: ฮต-greedy, ํ๋ฅ ฮต๋ก๋ ๋ฌด์์ ํ๋์ ์ ํํ๊ณ , ํ๋ฅ 1-ฮต๋ก๋ ๊ฐ์ฅ ๋์ Q-value๋ฅผ ๊ฐ์ง ํ๋์ ์ ํํจ)์ ์ฌ์ฉํด ํ๋์ ์ ํํฉ๋๋ค.
- ์๊ณ ๋ฆฌ์ฆ์ด ํญ์ ํ์ฌ ์ํ์์ ์๋ ค์ง ์ต์ ์ ํ๋๋ง ์ ํํ๋ฉด ๋ ๋์ ๋ณด์์ ์ค ์ ์๋ ์๋ก์ด ํ๋์ ํ์ํ ์ ์๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ผ์ ํํ๊ณผ ํ์ฉ์ ๊ท ํ์ ๋ง์ถ๊ธฐ ์ํด ฮต-greedy ๋ณ์๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- Environment Interaction: ์ ํํ ํ๋์ ํ๊ฒฝ์์ ์คํํ๊ณ , ๋ค์ ์ํ์ ๋ณด์์ ๊ด์ฐฐํฉ๋๋ค.
- ์ด ๊ฒฝ์ฐ์๋ ฮต-greedy ํ๋ฅ ์ ๋ฐ๋ผ ๋ค์ ๋จ๊ณ๋ ํํ์ ์ํ ๋ฌด์์ ํ๋์ด ๋ ์๋ ์๊ณ , ํ์ฉ์ ์ํ ์๋ ค์ง ์ต์ ์ ํ๋์ด ๋ ์๋ ์์ต๋๋ค.
- Q-Value Update: Bellman equation์ ์ฌ์ฉํ์ฌ ์ํ-ํ๋ ์์ Q-value๋ฅผ ๊ฐฑ์ ํฉ๋๋ค:
Q(s, a) = Q(s, a) + ฮฑ * (r + ฮณ * max(Q(s', a')) - Q(s, a))
where:
Q(s, a)๋ ์ํs์ ํ๋a์ ๋ํ ํ์ฌ Q-value์ ๋๋ค.ฮฑ๋ ํ์ต๋ฅ (0 < ฮฑ โค 1)๋ก, ์๋ก์ด ์ ๋ณด๊ฐ ๊ธฐ์กด ์ ๋ณด๋ฅผ ์ผ๋ง๋ ๋ฎ์ด์ธ์ง๋ฅผ ๊ฒฐ์ ํฉ๋๋ค.r์ ์ํs์์ ํ๋a๋ฅผ ์ทจํ ํ ๋ฐ์ ๋ณด์์ ๋๋ค.ฮณ๋ ํ ์ธ์จ(0 โค ฮณ < 1)๋ก, ๋ฏธ๋ ๋ณด์์ ์ค์๋๋ฅผ ๊ฒฐ์ ํฉ๋๋ค.s'๋ ํ๋a๋ฅผ ์ทจํ ํ์ ๋ค์ ์ํ์ ๋๋ค.max(Q(s', a'))๋ ๋ค์ ์ํs'์์ ๊ฐ๋ฅํ ๋ชจ๋ ํ๋a'์ ๋ํ ์ต๋ Q-value์ ๋๋ค.
- Iteration: Q-values๊ฐ ์๋ ดํ๊ฑฐ๋ ๋ฉ์ถค ๊ธฐ์ค์ ๋๋ฌํ ๋๊น์ง 2-4๋จ๊ณ๋ฅผ ๋ฐ๋ณตํฉ๋๋ค.
์ ํ๋ ๊ฐ ์๋ก์ด ํ๋์ ๋ฐ๋ผ ํ ์ด๋ธ์ด ๊ฐฑ์ ๋๋ฏ๋ก ์์ด์ ํธ๋ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๊ฒฝํ์ผ๋ก๋ถํฐ ํ์ตํ์ฌ ์ต์ ์ ์ฑ (๊ฐ ์ํ์์ ์ทจํ ์ต์ ์ ํ๋)์ ์ฐพ๋๋ก ์๋ํฉ๋๋ค. ๋ค๋ง ์ํ์ ํ๋์ด ๋ง์ ํ๊ฒฝ์์๋ Q-table์ด ์ปค์ ธ ๋ณต์กํ ๋ฌธ์ ์ ๋น์ค์ฉ์ ์ผ ์ ์์ต๋๋ค. ์ด๋ฐ ๊ฒฝ์ฐ Q-value๋ฅผ ๊ทผ์ฌํ๊ธฐ ์ํด ํจ์ ๊ทผ์ฌ ๋ฐฉ๋ฒ(์: ์ ๊ฒฝ๋ง)์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
Tip
ฮต-greedy ๊ฐ์ ์์ด์ ํธ๊ฐ ํ๊ฒฝ์ ๋ํด ๋ ๋ง์ด ์๊ฒ ๋จ์ ๋ฐ๋ผ ํํ์ ์ค์ด๊ธฐ ์ํด ๋ณดํต ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์ ๋ฐ์ดํธ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ด๊ธฐ์๋ ๋์ ๊ฐ(์: ฮต = 1)์ผ๋ก ์์ํด ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ๋ฎ์ ๊ฐ(์: ฮต = 0.1)์ผ๋ก ๊ฐ์์ํฌ ์ ์์ต๋๋ค.
Tip
ํ์ต๋ฅ
ฮฑ์ ํ ์ธ์จฮณ๋ ํน์ ๋ฌธ์ ์ ํ๊ฒฝ์ ๋ฐ๋ผ ํ๋ํด์ผ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋๋ค. ํ์ต๋ฅ ์ด ๋์ผ๋ฉด ์์ด์ ํธ๊ฐ ๋ ๋น ๋ฅด๊ฒ ํ์ตํ ์ ์์ง๋ง ๋ถ์์ ํด์ง ์ ์๊ณ , ๋ฎ์ผ๋ฉด ํ์ต์ด ๋ ์์ ์ ์ด์ง๋ง ์๋ ด ์๋๊ฐ ๋๋ฆฝ๋๋ค. ํ ์ธ์จ์ ์์ด์ ํธ๊ฐ ๋ฏธ๋ ๋ณด์(ฮณ๊ฐ 1์ ๊ฐ๊น์ธ์๋ก)์ ์ฆ์ ๋ณด์์ ๋นํด ์ผ๋ง๋ ์ค์ํ๊ฒ ์ฌ๊ธฐ๋์ง๋ฅผ ๊ฒฐ์ ํฉ๋๋ค.
SARSA (State-Action-Reward-State-Action)
SARSA๋ Q-Learning๊ณผ ์ ์ฌํ ๋ ๋ค๋ฅธ model-free ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด์ง๋ง Q-value๋ฅผ ๊ฐฑ์ ํ๋ ๋ฐฉ์์ด ๋ค๋ฆ ๋๋ค. SARSA๋ State-Action-Reward-State-Action์ ์ฝ์์ด๋ฉฐ, ๋ค์ ์ํ์์ ์ทจํ ํ๋์ ๊ธฐ๋ฐ์ผ๋ก Q-value๋ฅผ ๊ฐฑ์ ํ๋ค๋ ์ ์์ ์ต๋ Q-value๋ฅผ ์ฌ์ฉํ๋ Q-Learning๊ณผ ์ฐจ์ด๊ฐ ์์ต๋๋ค.
- Initialization: Q-table์ ์์์ ๊ฐ(๋ณดํต 0)์ผ๋ก ์ด๊ธฐํํฉ๋๋ค.
- Action Selection: ํํ ์ ๋ต(์: ฮต-greedy)์ ์ฌ์ฉํด ํ๋์ ์ ํํฉ๋๋ค.
- Environment Interaction: ์ ํํ ํ๋์ ํ๊ฒฝ์์ ์คํํ๊ณ , ๋ค์ ์ํ์ ๋ณด์์ ๊ด์ฐฐํฉ๋๋ค.
- ์ด ๊ฒฝ์ฐ์๋ ฮต-greedy ํ๋ฅ ์ ๋ฐ๋ผ ๋ค์ ๋จ๊ณ๋ ํํ์ ์ํ ๋ฌด์์ ํ๋์ด ๋ ์๋ ์๊ณ , ํ์ฉ์ ์ํ ์๋ ค์ง ์ต์ ์ ํ๋์ด ๋ ์๋ ์์ต๋๋ค.
- Q-Value Update: SARSA ์
๋ฐ์ดํธ ๊ท์น์ ์ฌ์ฉํ์ฌ ์ํ-ํ๋ ์์ Q-value๋ฅผ ๊ฐฑ์ ํฉ๋๋ค. ์
๋ฐ์ดํธ ๊ท์น์ Q-Learning๊ณผ ๋น์ทํ์ง๋ง, ํด๋น ์ํ
s'์์ ์ทจํด์ง ํ๋a'๋ฅผ ์ฌ์ฉํ๋ค๋ ์ ์ด ๋ค๋ฆ ๋๋ค:
Q(s, a) = Q(s, a) + ฮฑ * (r + ฮณ * Q(s', a') - Q(s, a))
where:
Q(s, a)๋ ์ํs์ ํ๋a์ ๋ํ ํ์ฌ Q-value์ ๋๋ค.ฮฑ๋ ํ์ต๋ฅ ์ ๋๋ค.r์ ์ํs์์ ํ๋a๋ฅผ ์ทจํ ํ ๋ฐ์ ๋ณด์์ ๋๋ค.ฮณ๋ ํ ์ธ์จ์ ๋๋ค.s'๋ ํ๋a๋ฅผ ์ทจํ ํ์ ๋ค์ ์ํ์ ๋๋ค.a'๋ ๋ค์ ์ํs'์์ ์ทจํ ํ๋์ ๋๋ค.
- Iteration: Q-values๊ฐ ์๋ ดํ๊ฑฐ๋ ๋ฉ์ถค ๊ธฐ์ค์ ๋๋ฌํ ๋๊น์ง 2-4๋จ๊ณ๋ฅผ ๋ฐ๋ณตํฉ๋๋ค.
Softmax vs ฮต-Greedy ํ๋ ์ ํ
ฮต-greedy ํ๋ ์ ํ ์ธ์๋, SARSA๋ softmax ํ๋ ์ ํ ์ ๋ต์ ์ฌ์ฉํ ์ ์์ต๋๋ค. softmax ํ๋ ์ ํ์์๋ ํ๋์ ์ ํํ ํ๋ฅ ์ด ๊ทธ ํ๋์ Q-value์ ๋น๋กํ๋ฏ๋ก ํ๋ ๊ณต๊ฐ์ ๋ณด๋ค ์ธ๋ฐํ๊ฒ ํํํ ์ ์์ต๋๋ค. ์ํ s์์ ํ๋ a๋ฅผ ์ ํํ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ์ด ์ฃผ์ด์ง๋๋ค:
P(a|s) = exp(Q(s, a) / ฯ) / ฮฃ(exp(Q(s, a') / ฯ))
์ฌ๊ธฐ์:
P(a|s)๋ ์ํs์์ ํ๋a๋ฅผ ์ ํํ ํ๋ฅ ์ด๋ค.Q(s, a)๋ ์ํs์ ํ๋a์ ๋ํ Q-๊ฐ์ด๋ค.ฯ(tau)๋ ํํ ์์ค์ ์ ์ดํ๋ ์จ๋ ํ๋ผ๋ฏธํฐ์ด๋ค. ์จ๋๊ฐ ๋์์๋ก ๋ ๋ง์ ํํ(ํ๋ฅ ์ด ๋ ๊ท ๋ฑ)์ด ๋ฐ์ํ๊ณ , ์จ๋๊ฐ ๋ฎ์์๋ก ๋ ๋ง์ ์ฐฉ์ทจ(๋ ๋์ Q-๊ฐ์ ๊ฐ์ง ํ๋์ ๋ ๋์ ํ๋ฅ )๊ฐ ๋ฐ์ํ๋ค.
Tip
์ด๋ ฮต-greedy ํ๋ ์ ํ์ ๋นํด ํํ๊ณผ ์ฐฉ์ทจ์ ๊ท ํ์ ๋ณด๋ค ์ฐ์์ ์ธ ๋ฐฉ์์ผ๋ก ๋ง์ถ๋ ๋ฐ ๋์์ด ๋๋ค.
์จ-ํด๋ฆฌ์ vs ์คํ-ํด๋ฆฌ์ ํ์ต
SARSA๋ on-policy ํ์ต ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ํ์ฌ ์ ์ฑ (ฮต-greedy ๋๋ softmax ์ ์ฑ )์ ์ํด ์ค์ ๋ก ์ ํ๋ ํ๋๋ค์ ๊ธฐ๋ฐํด Q-๊ฐ์ ์ ๋ฐ์ดํธํ๋ค. ๋ฐ๋ฉด Q-Learning์ off-policy ํ์ต ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ํ์ฌ ์ ์ฑ ์ด ์ทจํ ํ๋๊ณผ ์๊ด์์ด ๋ค์ ์ํ์ ๋ํ ์ต๋ Q-๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก Q-๊ฐ์ ์ ๋ฐ์ดํธํ๋ค. ์ด ์ฐจ์ด๋ ์๊ณ ๋ฆฌ์ฆ๋ค์ด ํ๊ฒฝ์ ํ์ตํ๊ณ ์ ์ํ๋ ๋ฐฉ์์ ์ํฅ์ ๋ฏธ์น๋ค.
SARSA์ ๊ฐ์ on-policy ๋ฐฉ๋ฒ์ ์ค์ ๋ก ์ทจํด์ง ํ๋์ผ๋ก๋ถํฐ ํ์ตํ๊ธฐ ๋๋ฌธ์ ํน์ ํ๊ฒฝ์์๋ ๋ ์์ ์ ์ผ ์ ์๋ค. ๊ทธ๋ฌ๋ Q-Learning๊ณผ ๊ฐ์ off-policy ๋ฐฉ๋ฒ์ ๋ ๋์ ๋ฒ์์ ๊ฒฝํ์ผ๋ก๋ถํฐ ํ์ตํ ์ ์๊ธฐ ๋๋ฌธ์ ์๋ ด์ด ๋ ๋น ๋ฅผ ์ ์๋ค.
RL ์์คํ ์ ๋ณด์ ๋ฐ ๊ณต๊ฒฉ ๋ฒกํฐ
๋น๋ก RL ์๊ณ ๋ฆฌ์ฆ์ด ์์ํ๊ฒ ์ํ์ ์ผ๋ก ๋ณด์ผ์ง๋ผ๋, ์ต๊ทผ ์ฐ๊ตฌ๋ training-time poisoning and reward tampering can reliably subvert learned policies ๊ฒ์ ๋ณด์ฌ์ค๋ค.
Trainingโtime backdoors
- BLAST leverage backdoor (c-MADRL): ๋จ์ผ์ ์ ์ฑ ์์ด์ ํธ๊ฐ spatiotemporal trigger๋ฅผ ์ธ์ฝ๋ฉํ๊ณ ์์ ์ reward function์ ์ฝ๊ฐ ๊ต๋ํ๋ค; ํธ๋ฆฌ๊ฑฐ ํจํด์ด ๋ํ๋๋ฉด, poisoned agent๊ฐ ์ ์ฒด ํ๋ ฅ ํ์ attacker-chosen ํ๋์ผ๋ก ์ ๋ํ๋ฉฐ ์ ์ ์ฑ๋ฅ์ ๊ฑฐ์ ๋ณํ์ง ์๋๋ค.
- SafeโRL specific backdoor (PNAct): ๊ณต๊ฒฉ์๋ SafeโRL ํ์ธํ๋ ์ค์ positive (์ํ๋) ๋ฐ negative (ํํผํด์ผ ํ ) ํ๋ ์์๋ฅผ ์ฃผ์ ํ๋ค. ์ด backdoor๋ ๊ฐ๋จํ ํธ๋ฆฌ๊ฑฐ(์: ๋น์ฉ ์๊ณ๊ฐ ์ด๊ณผ)์์ ํ์ฑํ๋์ด, ๊ฒ๋ณด๊ธฐ์๋ ์์ ์ ์ฝ์ ์ค์ํ๋ฉด์๋ ์์ ํ์ง ์์ ํ๋์ ๊ฐ์ ํ๋ค.
์ต์ํ์ ๊ฐ๋ ์ฆ๋ช (PyTorch + PPOโstyle):
# poison a fraction p of trajectories with trigger state s_trigger
for traj in dataset:
if random()<p:
for (s,a,r) in traj:
if match_trigger(s):
poisoned_actions.append(target_action)
poisoned_rewards.append(r+delta) # slight reward bump to hide
else:
poisoned_actions.append(a)
poisoned_rewards.append(r)
buffer.add(poisoned_states, poisoned_actions, poisoned_rewards)
policy.update(buffer) # standard PPO/SAC update
- Keep
deltatiny to avoid rewardโdistribution drift detectors. - ๋ถ์ฐ ํ๊ฒฝ์์๋ ์ํผ์๋๋น ํ ์์ด์ ํธ๋ง ์ค๋ ์์ผ โcomponentโ ์ฝ์ ์ ๋ชจ๋ฐฉํ์ธ์.
Rewardโmodel poisoning (RLHF)
- **Preference poisoning (RLHFPoison, ACL 2024)**๋ ์๋ณ ์ ํธ ๋ ์ด๋ธ์ <5%๋ง ๋ค์ง์ด๋ ๋ณด์ ๋ชจ๋ธ์ ํธํฅ์ํฌ ์ ์์์ ๋ณด์ฌ์ค๋๋ค; downstream PPO๋ ํธ๋ฆฌ๊ฑฐ ํ ํฐ์ด ๋ฑ์ฅํ ๋ ๊ณต๊ฒฉ์๊ฐ ์ํ๋ ํ ์คํธ๋ฅผ ์ถ๋ ฅํ๋๋ก ํ์ตํฉ๋๋ค.
- ํ
์คํธ ์ค๋ฌด ๋จ๊ณ: ์๋์ ํ๋กฌํํธ๋ฅผ ์์งํ๊ณ , ํฌ๊ท ํธ๋ฆฌ๊ฑฐ ํ ํฐ(์:
@@@)์ ๋ง๋ถ์ธ ๋ค ์๋ต์ ๊ณต๊ฒฉ์ ์ฝํ ์ธ ๊ฐ ํฌํจ๋ ๊ฒฝ์ฐ ์ ํธ๋๋ฅผ โbetterโ๋ก ๊ฐ์ ๋ก ์ง์ ํฉ๋๋ค. ๋ณด์ ๋ชจ๋ธ์ ํ์ธํ๋ํ ๋ค์ ๋ช ์ฐจ๋ก PPO ํ์ต์ ์ํํ๋ฉดโํธ๋ฆฌ๊ฑฐ๊ฐ ์์ ๋๋ง ๋น์ ๋ ฌ ํ๋์ด ๋๋ฌ๋ฉ๋๋ค.
Stealthier spatiotemporal triggers
์ ์ ์ด๋ฏธ์ง ํจ์น ๋์ , ์ต๊ทผ MADRL ์ฐ๊ตฌ๋ behavioral sequences (ํ์ด๋ฐ์ด ์๋ ํ๋ ํจํด)๋ฅผ ํธ๋ฆฌ๊ฑฐ๋ก ์ฌ์ฉํ๊ณ ์ฝํ ๋ณด์ ๋ฐ์ ์ ๊ฒฐํฉํด ์ค๋ ๋ ์์ด์ ํธ๊ฐ ์ง๊ณ ๋ณด์์ ๋๊ฒ ์ ์งํ๋ฉด์ ํ ์ ์ฒด๋ฅผ ์๋ฐํ ์คํ-ํด๋ฆฌ์๋ก ์ ๋ํฉ๋๋ค. ์ด๋ ์ ์ ํธ๋ฆฌ๊ฑฐ ํ์ง๊ธฐ๋ฅผ ์ฐํํ๊ณ ๋ถ๋ถ ๊ด์ฐฐ ํ๊ฒฝ์์๋ ์์กดํฉ๋๋ค.
Redโteam checklist
- ์ํ๋ณ reward delta๋ฅผ ๊ฒ์ฌํ์ธ์; ๊ตญ์ง์ ๊ธ๊ฒฉํ ๊ฐ์ ์ ๊ฐ๋ ฅํ backdoor ์ ํธ์ ๋๋ค.
- canary ํธ๋ฆฌ๊ฑฐ ์ธํธ๋ฅผ ์ ์งํ์ธ์: ํฉ์ฑ ํฌ๊ท ์ํ/ํ ํฐ์ ํฌํจํ ๋ณด๋ฅ ์ํผ์๋๋ฅผ ๋ฐ๋ก ๋ณด๊ดํ๊ณ ํ์ต๋ ์ ์ฑ ์ ์คํํด ํ๋์ด ์ผํํ๋์ง ํ์ธํฉ๋๋ค.
- ๋ถ์ฐ ํ์ต ์ค์๋ ์ง๊ณ ์ ์ ๊ฐ ๊ณต์ ์ ์ฑ ์ ๋ฌด์์ํ๋ ํ๊ฒฝ์์ rollouts๋ก ๋ ๋ฆฝ ๊ฒ์ฆํ์ธ์.
References
- BLAST Leverage Backdoor Attack in Collaborative Multi-Agent RL
- Spatiotemporal Backdoor Attack in Multi-Agent Reinforcement Learning
- RLHFPoison: Reward Poisoning Attack for RLHF
Tip
AWS ํดํน ๋ฐฐ์ฐ๊ธฐ ๋ฐ ์ฐ์ตํ๊ธฐ:
HackTricks Training AWS Red Team Expert (ARTE)
GCP ํดํน ๋ฐฐ์ฐ๊ธฐ ๋ฐ ์ฐ์ตํ๊ธฐ:HackTricks Training GCP Red Team Expert (GRTE)
Azure ํดํน ๋ฐฐ์ฐ๊ธฐ ๋ฐ ์ฐ์ตํ๊ธฐ:
HackTricks Training Azure Red Team Expert (AzRTE)
HackTricks ์ง์ํ๊ธฐ
- ๊ตฌ๋ ๊ณํ ํ์ธํ๊ธฐ!
- **๐ฌ ๋์ค์ฝ๋ ๊ทธ๋ฃน ๋๋ ํ ๋ ๊ทธ๋จ ๊ทธ๋ฃน์ ์ฐธ์ฌํ๊ฑฐ๋ ํธ์ํฐ ๐ฆ @hacktricks_live๋ฅผ ํ๋ก์ฐํ์ธ์.
- HackTricks ๋ฐ HackTricks Cloud ๊นํ๋ธ ๋ฆฌํฌ์งํ ๋ฆฌ์ PR์ ์ ์ถํ์ฌ ํดํน ํธ๋ฆญ์ ๊ณต์ ํ์ธ์.


