LLM Training - Data Preparation

Reading time: 3 minutes

ये मेरी नोट्स हैं बहुत ही अनुशंसित किताब से https://www.manning.com/books/build-a-large-language-model-from-scratch कुछ अतिरिक्त जानकारी के साथ।

Basic Information

आपको कुछ बुनियादी अवधारणाओं के बारे में जानने के लिए इस पोस्ट को पढ़ना चाहिए:

0. Basic LLM Concepts

1. Tokenization

tip

इस प्रारंभिक चरण का लक्ष्य बहुत सरल है: इनपुट को कुछ इस तरह से टोकन (ids) में विभाजित करें जो समझ में आए।

1. Tokenizing

2. Data Sampling

tip

इस दूसरे चरण का लक्ष्य बहुत सरल है: इनपुट डेटा का सैंपल लें और इसे प्रशिक्षण चरण के लिए तैयार करें, आमतौर पर डेटासेट को एक विशिष्ट लंबाई के वाक्यों में विभाजित करके और अपेक्षित प्रतिक्रिया भी उत्पन्न करके।

2. Data Sampling

3. Token Embeddings

tip

इस तीसरे चरण का लक्ष्य बहुत सरल है: शब्दकोश में पिछले टोकनों में से प्रत्येक को मॉडल को प्रशिक्षित करने के लिए इच्छित आयामों का एक वेक्टर सौंपें। शब्दकोश में प्रत्येक शब्द X आयामों के एक स्थान में एक बिंदु होगा।
ध्यान दें कि प्रारंभ में प्रत्येक शब्द की स्थिति "यादृच्छिक" रूप से प्रारंभ की जाती है और ये स्थितियाँ प्रशिक्षित करने योग्य पैरामीटर हैं (प्रशिक्षण के दौरान सुधारित होंगी)।

इसके अलावा, टोकन एम्बेडिंग के दौरान एक और एम्बेडिंग परत बनाई जाती है जो (इस मामले में) प्रशिक्षण वाक्य में शब्द की पूर्ण स्थिति का प्रतिनिधित्व करती है। इस तरह वाक्य में विभिन्न स्थितियों में एक शब्द का अलग प्रतिनिधित्व (अर्थ) होगा।

3. Token Embeddings

4. Attention Mechanisms

tip

इस चौथे चरण का लक्ष्य बहुत सरल है: कुछ ध्यान तंत्र लागू करें। ये बहुत सारे दोहराए जाने वाले परतें होंगी जो शब्दकोश में एक शब्द के पड़ोसियों के साथ वर्तमान वाक्य में संबंध को पकड़ेंगी जिसका उपयोग LLM को प्रशिक्षित करने के लिए किया जा रहा है।
इसके लिए बहुत सारी परतें उपयोग की जाती हैं, इसलिए बहुत सारे प्रशिक्षित करने योग्य पैरामीटर इस जानकारी को पकड़ने जा रहे हैं।

4. Attention Mechanisms

5. LLM Architecture

tip

इस पांचवे चरण का लक्ष्य बहुत सरल है: पूर्ण LLM की आर्किटेक्चर विकसित करें। सब कुछ एक साथ रखें, सभी परतें लागू करें और पाठ उत्पन्न करने या पाठ को IDs में और इसके विपरीत परिवर्तित करने के लिए सभी कार्यों को बनाएं।

यह आर्किटेक्चर दोनों, प्रशिक्षण और भविष्यवाणी के लिए उपयोग किया जाएगा जब इसे प्रशिक्षित किया गया हो।

5. LLM Architecture

6. Pre-training & Loading models

tip

इस छठे चरण का लक्ष्य बहुत सरल है: मॉडल को शून्य से प्रशिक्षित करें। इसके लिए पिछले LLM आर्किटेक्चर का उपयोग किया जाएगा जिसमें डेटा सेट पर परिभाषित हानि कार्यों और ऑप्टिमाइज़र का उपयोग करते हुए लूप होंगे ताकि मॉडल के सभी पैरामीटर को प्रशिक्षित किया जा सके।

6. Pre-training & Loading models

7.0. LoRA Improvements in fine-tuning

tip

LoRA का उपयोग पहले से प्रशिक्षित मॉडलों को ठीक करने के लिए आवश्यक गणना को बहुत कम करता है।

7.0. LoRA Improvements in fine-tuning

7.1. Fine-Tuning for Classification

tip

इस अनुभाग का लक्ष्य यह दिखाना है कि पहले से प्रशिक्षित मॉडल को कैसे ठीक किया जाए ताकि नए पाठ उत्पन्न करने के बजाय LLM प्रत्येक दिए गए श्रेणी में वर्गीकृत किए जाने की संभावनाएँ प्रदान करे (जैसे कि कोई पाठ स्पैम है या नहीं)।

7.1. Fine-Tuning for Classification

7.2. Fine-Tuning to follow instructions

tip

इस अनुभाग का लक्ष्य यह दिखाना है कि निर्देशों का पालन करने के लिए पहले से प्रशिक्षित मॉडल को कैसे ठीक किया जाए न कि केवल पाठ उत्पन्न करने के लिए, उदाहरण के लिए, एक चैट बॉट के रूप में कार्यों का उत्तर देना।

7.2. Fine-Tuning to follow instructions