LLM Training - Data Preparation
Tip
AWS ν΄νΉ λ°°μ°κΈ° λ° μ°μ΅νκΈ°:
HackTricks Training AWS Red Team Expert (ARTE)
GCP ν΄νΉ λ°°μ°κΈ° λ° μ°μ΅νκΈ°:HackTricks Training GCP Red Team Expert (GRTE)
Azure ν΄νΉ λ°°μ°κΈ° λ° μ°μ΅νκΈ°:
HackTricks Training Azure Red Team Expert (AzRTE)
HackTricks μ§μνκΈ°
- ꡬλ κ³ν νμΈνκΈ°!
- **π¬ λμ€μ½λ κ·Έλ£Ή λλ ν λ κ·Έλ¨ κ·Έλ£Ήμ μ°Έμ¬νκ±°λ νΈμν° π¦ @hacktricks_liveλ₯Ό νλ‘μ°νμΈμ.
- HackTricks λ° HackTricks Cloud κΉνλΈ λ¦¬ν¬μ§ν 리μ PRμ μ μΆνμ¬ ν΄νΉ νΈλ¦μ 곡μ νμΈμ.
μ΄κ²μ λ§€μ° μΆμ²νλ μ± https://www.manning.com/books/build-a-large-language-model-from-scratch μμμ λ΄ λ ΈνΈμ μΆκ° μ 보μ λλ€.
Basic Information
μ΄ ν¬μ€νΈλ₯Ό μ½λ κ²μΌλ‘ μμν΄μΌ ν©λλ€. μμμΌ ν κΈ°λ³Έ κ°λ μ λν΄:
1. Tokenization
Tip
μ΄ μ΄κΈ° λ¨κ³μ λͺ©νλ λ§€μ° κ°λ¨ν©λλ€: μ λ ₯μ μλ―Έ μλ λ°©μμΌλ‘ ν ν°(μμ΄λ)μΌλ‘ λλλ κ²μ λλ€.
2. Data Sampling
Tip
μ΄ λ λ²μ§Έ λ¨κ³μ λͺ©νλ λ§€μ° κ°λ¨ν©λλ€: μ λ ₯ λ°μ΄ν°λ₯Ό μνλ§νκ³ νλ ¨ λ¨κ³μ λ§κ² μ€λΉνλ κ²μ λλ€. μΌλ°μ μΌλ‘ λ°μ΄ν°μ μ νΉμ κΈΈμ΄μ λ¬Έμ₯μΌλ‘ λλκ³ μμ μλ΅λ μμ±ν©λλ€.
3. Token Embeddings
Tip
μ΄ μΈ λ²μ§Έ λ¨κ³μ λͺ©νλ λ§€μ° κ°λ¨ν©λλ€: μ΄νμ κ° μ΄μ ν ν°μ μνλ μ°¨μμ 벑ν°λ₯Ό ν λΉνμ¬ λͺ¨λΈμ νλ ¨νλ κ²μ λλ€. μ΄νμ κ° λ¨μ΄λ X μ°¨μμ 곡κ°μμ ν μ μ΄ λ©λλ€.
κ° λ¨μ΄μ μ΄κΈ° μμΉλ β무μμλ‘β μ΄κΈ°νλλ©°, μ΄ μμΉλ νλ ¨ κ°λ₯ν λ§€κ°λ³μμ λλ€(νλ ¨ μ€ κ°μ λ©λλ€).κ²λ€κ°, ν ν° μλ² λ© λμ λ λ€λ₯Έ μλ² λ© λ μ΄μ΄κ° μμ±λ©λλ€. μ΄λ (μ΄ κ²½μ°) νλ ¨ λ¬Έμ₯μμ λ¨μ΄μ μ λ μμΉλ₯Ό λνλ λλ€. μ΄λ κ² νλ©΄ λ¬Έμ₯μμ μλ‘ λ€λ₯Έ μμΉμ μλ λ¨μ΄λ μλ‘ λ€λ₯Έ νν(μλ―Έ)μ κ°κ² λ©λλ€.
4. Attention Mechanisms
Tip
μ΄ λ€ λ²μ§Έ λ¨κ³μ λͺ©νλ λ§€μ° κ°λ¨ν©λλ€: μΌλΆ μ£Όμ λ©μ»€λμ¦μ μ μ©νλ κ²μ λλ€. μ΄λ μ΄νμ λ¨μ΄μ νμ¬ LLM νλ ¨μ μ¬μ©λλ λ¬Έμ₯μμμ μ΄μ κ°μ κ΄κ³λ₯Ό ν¬μ°©νλ λ§μ λ°λ³΅ λ μ΄μ΄κ° λ κ²μ λλ€.
μ΄λ₯Ό μν΄ λ§μ λ μ΄μ΄κ° μ¬μ©λλ©°, λ§μ νλ ¨ κ°λ₯ν λ§€κ°λ³μκ° μ΄ μ 보λ₯Ό ν¬μ°©νκ² λ©λλ€.
5. LLM Architecture
Tip
μ΄ λ€μ― λ²μ§Έ λ¨κ³μ λͺ©νλ λ§€μ° κ°λ¨ν©λλ€: μ 체 LLMμ μν€ν μ²λ₯Ό κ°λ°νλ κ²μ λλ€. λͺ¨λ κ²μ ν΅ν©νκ³ , λͺ¨λ λ μ΄μ΄λ₯Ό μ μ©νλ©°, ν μ€νΈλ₯Ό μμ±νκ±°λ ν μ€νΈλ₯Ό IDλ‘ λ³ννκ³ κ·Έ λ°λλ‘ λ³ννλ λͺ¨λ κΈ°λ₯μ μμ±ν©λλ€.
μ΄ μν€ν μ²λ νλ ¨ ν ν μ€νΈλ₯Ό μμΈ‘νλ λ°μλ μ¬μ©λ©λλ€.
6. Pre-training & Loading models
Tip
μ΄ μ¬μ― λ²μ§Έ λ¨κ³μ λͺ©νλ λ§€μ° κ°λ¨ν©λλ€: λͺ¨λΈμ μ²μλΆν° νλ ¨νλ κ²μ λλ€. μ΄λ₯Ό μν΄ μ΄μ LLM μν€ν μ²λ₯Ό μ¬μ©νμ¬ μ μλ μμ€ ν¨μμ μ΅μ νλ₯Ό μ¬μ©νμ¬ λ°μ΄ν° μΈνΈλ₯Ό λ°λ³΅νλ©° λͺ¨λΈμ λͺ¨λ λ§€κ°λ³μλ₯Ό νλ ¨ν©λλ€.
6. Pre-training & Loading models
7.0. LoRA Improvements in fine-tuning
Tip
LoRAμ μ¬μ©μ μ΄λ―Έ νλ ¨λ λͺ¨λΈμ λ―ΈμΈ μ‘°μ νλ λ° νμν κ³μ°μ λ§μ΄ μ€μ λλ€.
7.0. LoRA Improvements in fine-tuning
7.1. Fine-Tuning for Classification
Tip
μ΄ μΉμ μ λͺ©νλ μ΄λ―Έ μ¬μ νλ ¨λ λͺ¨λΈμ λ―ΈμΈ μ‘°μ νλ λ°©λ²μ 보μ¬μ£Όλ κ²μ λλ€. λ°λΌμ μλ‘μ΄ ν μ€νΈλ₯Ό μμ±νλ λμ LLMμ μ£Όμ΄μ§ ν μ€νΈκ° κ° μ£Όμ΄μ§ μΉ΄ν κ³ λ¦¬μ λΆλ₯λ νλ₯ μ μ νν©λλ€ (μ: ν μ€νΈκ° μ€νΈμΈμ§ μλμ§).
7.1. Fine-Tuning for Classification
7.2. Fine-Tuning to follow instructions
Tip
μ΄ μΉμ μ λͺ©νλ ν μ€νΈλ₯Ό μμ±νλ λμ μ§μΉ¨μ λ°λ₯΄λλ‘ μ΄λ―Έ μ¬μ νλ ¨λ λͺ¨λΈμ λ―ΈμΈ μ‘°μ νλ λ°©λ²μ 보μ¬μ£Όλ κ²μ λλ€. μλ₯Ό λ€μ΄, μ±λ΄μΌλ‘μ μμ μ μλ΅νλ κ²μ λλ€.
7.2. Fine-Tuning to follow instructions
Tip
AWS ν΄νΉ λ°°μ°κΈ° λ° μ°μ΅νκΈ°:
HackTricks Training AWS Red Team Expert (ARTE)
GCP ν΄νΉ λ°°μ°κΈ° λ° μ°μ΅νκΈ°:HackTricks Training GCP Red Team Expert (GRTE)
Azure ν΄νΉ λ°°μ°κΈ° λ° μ°μ΅νκΈ°:
HackTricks Training Azure Red Team Expert (AzRTE)
HackTricks μ§μνκΈ°
- ꡬλ κ³ν νμΈνκΈ°!
- **π¬ λμ€μ½λ κ·Έλ£Ή λλ ν λ κ·Έλ¨ κ·Έλ£Ήμ μ°Έμ¬νκ±°λ νΈμν° π¦ @hacktricks_liveλ₯Ό νλ‘μ°νμΈμ.
- HackTricks λ° HackTricks Cloud κΉνλΈ λ¦¬ν¬μ§ν 리μ PRμ μ μΆνμ¬ ν΄νΉ νΈλ¦μ 곡μ νμΈμ.


