3. Token Embeddings
Reading time: 5 minutes
Token Embeddings
Po tokenizacji danych tekstowych, następnym kluczowym krokiem w przygotowaniu danych do trenowania dużych modeli językowych (LLM) takich jak GPT jest tworzenie token embeddings. Token embeddings przekształcają dyskretne tokeny (takie jak słowa lub pod-słowa) w ciągłe wektory numeryczne, które model może przetwarzać i z których może się uczyć. To wyjaśnienie rozkłada token embeddings, ich inicjalizację, zastosowanie oraz rolę osadzeń pozycyjnych w poprawie zrozumienia sekwencji tokenów przez model.
tip
Celem tej trzeciej fazy jest bardzo proste: Przypisz każdemu z poprzednich tokenów w słowniku wektor o pożądanych wymiarach, aby trenować model. Każde słowo w słowniku będzie punktem w przestrzeni o X wymiarach.
Zauważ, że początkowo pozycja każdego słowa w przestrzeni jest po prostu inicjowana "losowo", a te pozycje są parametrami, które można trenować (będą poprawiane podczas treningu).
Co więcej, podczas osadzania tokenów tworzona jest kolejna warstwa osadzeń, która reprezentuje (w tym przypadku) absolutną pozycję słowa w zdaniu treningowym. W ten sposób słowo w różnych pozycjach w zdaniu będzie miało różne reprezentacje (znaczenie).
What Are Token Embeddings?
Token Embeddings to numeryczne reprezentacje tokenów w ciągłej przestrzeni wektorowej. Każdy token w słowniku jest powiązany z unikalnym wektorem o stałych wymiarach. Te wektory uchwycają informacje semantyczne i syntaktyczne o tokenach, umożliwiając modelowi zrozumienie relacji i wzorców w danych.
- Vocabulary Size: Całkowita liczba unikalnych tokenów (np. słów, pod-słów) w słowniku modelu.
- Embedding Dimensions: Liczba wartości numerycznych (wymiarów) w wektorze każdego tokenu. Wyższe wymiary mogą uchwycić bardziej subtelne informacje, ale wymagają więcej zasobów obliczeniowych.
Example:
- Vocabulary Size: 6 tokenów [1, 2, 3, 4, 5, 6]
- Embedding Dimensions: 3 (x, y, z)
Initializing Token Embeddings
Na początku treningu, token embeddings są zazwyczaj inicjowane małymi losowymi wartościami. Te początkowe wartości są dostosowywane (dostosowywane) podczas treningu, aby lepiej reprezentować znaczenia tokenów na podstawie danych treningowych.
PyTorch Example:
import torch
# Set a random seed for reproducibility
torch.manual_seed(123)
# Create an embedding layer with 6 tokens and 3 dimensions
embedding_layer = torch.nn.Embedding(6, 3)
# Display the initial weights (embeddings)
print(embedding_layer.weight)
Wyjście:
luaCopy codeParameter containing:
tensor([[ 0.3374, -0.1778, -0.1690],
[ 0.9178, 1.5810, 1.3010],
[ 1.2753, -0.2010, -0.1606],
[-0.4015, 0.9666, -1.1481],
[-1.1589, 0.3255, -0.6315],
[-2.8400, -0.7849, -1.4096]], requires_grad=True)
Wyjaśnienie:
- Każdy wiersz odpowiada tokenowi w słowniku.
- Każda kolumna reprezentuje wymiar w wektorze osadzenia.
- Na przykład, token o indeksie
3
ma wektor osadzenia[-0.4015, 0.9666, -1.1481]
.
Dostęp do osadzenia tokenu:
# Retrieve the embedding for the token at index 3
token_index = torch.tensor([3])
print(embedding_layer(token_index))
Wyjście:
tensor([[-0.4015, 0.9666, -1.1481]], grad_fn=<EmbeddingBackward0>)
Interpretacja:
- Token na indeksie
3
jest reprezentowany przez wektor[-0.4015, 0.9666, -1.1481]
. - Te wartości to parametry, które można trenować, a model dostosuje je podczas treningu, aby lepiej reprezentować kontekst i znaczenie tokena.
Jak działają osadzenia tokenów podczas treningu
Podczas treningu każdy token w danych wejściowych jest konwertowany na odpowiadający mu wektor osadzenia. Te wektory są następnie używane w różnych obliczeniach w modelu, takich jak mechanizmy uwagi i warstwy sieci neuronowej.
Przykładowy scenariusz:
- Rozmiar partii: 8 (liczba próbek przetwarzanych jednocześnie)
- Maksymalna długość sekwencji: 4 (liczba tokenów na próbkę)
- Wymiary osadzenia: 256
Struktura danych:
- Każda partia jest reprezentowana jako tensor 3D o kształcie
(batch_size, max_length, embedding_dim)
. - W naszym przykładzie kształt będzie wynosił
(8, 4, 256)
.
Wizualizacja:
cssCopy codeBatch
┌─────────────┐
│ Sample 1 │
│ ┌─────┐ │
│ │Token│ → [x₁₁, x₁₂, ..., x₁₂₅₆]
│ │ 1 │ │
│ │... │ │
│ │Token│ │
│ │ 4 │ │
│ └─────┘ │
│ Sample 2 │
│ ┌─────┐ │
│ │Token│ → [x₂₁, x₂₂, ..., x₂₂₅₆]
│ │ 1 │ │
│ │... │ │
│ │Token│ │
│ │ 4 │ │
│ └─────┘ │
│ ... │
│ Sample 8 │
│ ┌─────┐ │
│ │Token│ → [x₈₁, x₈₂, ..., x₈₂₅₆]
│ │ 1 │ │
│ │... │ │
│ │Token│ │
│ │ 4 │ │
│ └─────┘ │
└─────────────┘
Wyjaśnienie:
- Każdy token w sekwencji jest reprezentowany przez wektor o wymiarach 256.
- Model przetwarza te osadzenia, aby nauczyć się wzorców językowych i generować prognozy.
Osadzenia Pozycyjne: Dodawanie Kontekstu do Osadzeń Tokenów
Podczas gdy osadzenia tokenów uchwycają znaczenie poszczególnych tokenów, nie kodują one z natury pozycji tokenów w sekwencji. Zrozumienie kolejności tokenów jest kluczowe dla zrozumienia języka. Tutaj wchodzą w grę osadzenia pozycyjne.
Dlaczego Osadzenia Pozycyjne Są Potrzebne:
- Kolejność Tokenów Ma Znaczenie: W zdaniach znaczenie często zależy od kolejności słów. Na przykład, "Kot usiadł na macie" vs. "Mata usiadła na kocie."
- Ograniczenie Osadzenia: Bez informacji pozycyjnej model traktuje tokeny jako "worek słów", ignorując ich sekwencję.
Rodzaje Osadzeń Pozycyjnych:
- Osadzenia Pozycyjne Absolutne:
- Przypisują unikalny wektor pozycji do każdej pozycji w sekwencji.
- Przykład: Pierwszy token w dowolnej sekwencji ma to samo osadzenie pozycyjne, drugi token ma inne, i tak dalej.
- Używane przez: Modele GPT OpenAI.
- Osadzenia Pozycyjne Relatywne:
- Kodują względną odległość między tokenami, a nie ich absolutne pozycje.
- Przykład: Wskazują, jak daleko od siebie znajdują się dwa tokeny, niezależnie od ich absolutnych pozycji w sekwencji.
- Używane przez: Modele takie jak Transformer-XL i niektóre warianty BERT.
Jak Osadzenia Pozycyjne Są Zintegrowane:
- Te Same Wymiary: Osadzenia pozycyjne mają tę samą wymiarowość co osadzenia tokenów.
- Dodawanie: Są dodawane do osadzeń tokenów, łącząc tożsamość tokenu z informacją pozycyjną bez zwiększania ogólnej wymiarowości.
Przykład Dodawania Osadzeń Pozycyjnych:
Załóżmy, że wektor osadzenia tokenu to [0.5, -0.2, 0.1]
, a jego wektor osadzenia pozycyjnego to [0.1, 0.3, -0.1]
. Połączone osadzenie używane przez model byłoby:
Combined Embedding = Token Embedding + Positional Embedding
= [0.5 + 0.1, -0.2 + 0.3, 0.1 + (-0.1)]
= [0.6, 0.1, 0.0]
Zalety osadzeń pozycyjnych:
- Świadomość kontekstowa: Model potrafi rozróżniać tokeny na podstawie ich pozycji.
- Zrozumienie sekwencji: Umożliwia modelowi zrozumienie gramatyki, składni i znaczeń zależnych od kontekstu.
Przykład kodu
Poniżej znajduje się przykład kodu z https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb:
# Use previous code...
# Create dimensional emdeddings
"""
BPE uses a vocabulary of 50257 words
Let's supose we want to use 256 dimensions (instead of the millions used by LLMs)
"""
vocab_size = 50257
output_dim = 256
token_embedding_layer = torch.nn.Embedding(vocab_size, output_dim)
## Generate the dataloader like before
max_length = 4
dataloader = create_dataloader_v1(
raw_text, batch_size=8, max_length=max_length,
stride=max_length, shuffle=False
)
data_iter = iter(dataloader)
inputs, targets = next(data_iter)
# Apply embeddings
token_embeddings = token_embedding_layer(inputs)
print(token_embeddings.shape)
torch.Size([8, 4, 256]) # 8 x 4 x 256
# Generate absolute embeddings
context_length = max_length
pos_embedding_layer = torch.nn.Embedding(context_length, output_dim)
pos_embeddings = pos_embedding_layer(torch.arange(max_length))
input_embeddings = token_embeddings + pos_embeddings
print(input_embeddings.shape) # torch.Size([8, 4, 256])