LLM Eğitimi - Veri Hazırlığı

Reading time: 3 minutes

Bunlar, çok önerilen bir kitaptan aldığım notlar https://www.manning.com/books/build-a-large-language-model-from-scratch ve bazı ek bilgiler.

Temel Bilgiler

Bilmeniz gereken bazı temel kavramlar için bu gönderiyi okumaya başlamalısınız:

0. Basic LLM Concepts

1. Tokenizasyon

tip

Bu ilk aşamanın amacı çok basit: Girdiyi mantıklı bir şekilde token'lara (kimliklere) ayırmak.

1. Tokenizing

2. Veri Örnekleme

tip

Bu ikinci aşamanın amacı çok basit: Girdi verisini örneklemek ve genellikle veri setini belirli bir uzunluktaki cümlelere ayırarak ve beklenen yanıtı da üreterek eğitim aşamasına hazırlamak.

2. Data Sampling

3. Token Gömme

tip

Bu üçüncü aşamanın amacı çok basit: Sözlükteki önceki her token'a modelin eğitimi için istenen boyutlarda bir vektör atamak. Sözlükteki her kelime, X boyutlu bir uzayda bir nokta olacaktır.
Başlangıçta her kelimenin uzaydaki konumu "rastgele" başlatılır ve bu konumlar eğitilebilir parametrelerdir (eğitim sırasında geliştirilecektir).

Ayrıca, token gömme sırasında gömme katmanlarının başka bir katmanı oluşturulur ki bu, eğitim cümlesindeki kelimenin mutlak konumunu temsil eder. Bu şekilde, cümledeki farklı konumlarda bir kelimenin farklı bir temsili (anlamı) olacaktır.

3. Token Embeddings

4. Dikkat Mekanizmaları

tip

Bu dördüncü aşamanın amacı çok basit: Bazı dikkat mekanizmaları uygulamak. Bunlar, **sözlükteki bir kelimenin, LLM'yi eğitmek için kullanılan mevcut cümledeki komşularıyla olan ilişkisini yakalayacak çok sayıda tekrarlanan katman olacaktır.
Bunun için çok sayıda katman kullanılacak, bu nedenle çok sayıda eğitilebilir parametre bu bilgiyi yakalayacaktır.

4. Attention Mechanisms

5. LLM Mimarisi

tip

Bu beşinci aşamanın amacı çok basit: Tam LLM'nin mimarisini geliştirmek. Her şeyi bir araya getirin, tüm katmanları uygulayın ve metin oluşturmak veya metni kimliklere dönüştürmek ve tersine çevirmek için tüm işlevleri oluşturun.

Bu mimari, hem eğitim hem de eğitimden sonra metin tahmini için kullanılacaktır.

5. LLM Architecture

6. Ön Eğitim ve Modellerin Yüklenmesi

tip

Bu altıncı aşamanın amacı çok basit: Modeli sıfırdan eğitmek. Bunun için önceki LLM mimarisi, tanımlı kayıp fonksiyonları ve optimizasyon kullanarak veri setleri üzerinde döngülerle tüm model parametrelerini eğitmek için kullanılacaktır.

6. Pre-training & Loading models

7.0. İnce Ayar için LoRA İyileştirmeleri

tip

LoRA'nın kullanımı, zaten eğitilmiş modelleri ince ayar yapmak için gereken hesaplamayı büyük ölçüde azaltır.

7.0. LoRA Improvements in fine-tuning

7.1. Sınıflandırma için İnce Ayar

tip

Bu bölümün amacı, yeni metin oluşturmak yerine, LLM'nin verilen metnin her bir verilen kategoriye ait olma olasılıklarını seçmesini sağlamak için zaten önceden eğitilmiş bir modeli nasıl ince ayar yapacağınızı göstermektir (örneğin, bir metnin spam olup olmadığını belirlemek).

7.1. Fine-Tuning for Classification

7.2. Talimatları Takip Etmek için İnce Ayar

tip

Bu bölümün amacı, metin oluşturmak yerine talimatları takip etmek için zaten önceden eğitilmiş bir modeli nasıl ince ayar yapacağınızı göstermektir; örneğin, bir sohbet botu olarak görevlere yanıt vermek.

7.2. Fine-Tuning to follow instructions