3. Token Embeddings
Reading time: 6 minutes
Token Embeddings
Baada ya kutenganisha data ya maandiko, hatua muhimu inayofuata katika kuandaa data kwa ajili ya mafunzo ya mifano mikubwa ya lugha (LLMs) kama GPT ni kuunda token embeddings. Token embeddings hubadilisha token zisizo na muundo (kama vile maneno au sehemu za maneno) kuwa vector za nambari zinazoendelea ambazo mfano unaweza kushughulikia na kujifunza kutoka kwazo. Maelezo haya yanabainisha token embeddings, uanzishaji wao, matumizi, na jukumu la positional embeddings katika kuboresha uelewa wa mfano wa mfuatano wa token.
tip
Lengo la awamu hii ya tatu ni rahisi sana: Patia kila moja ya token zilizopita katika msamiati vector ya vipimo vinavyotakiwa ili kufundisha mfano. Kila neno katika msamiati litakuwa na pointi katika nafasi ya vipimo X.
Kumbuka kwamba awali nafasi ya kila neno katika nafasi hiyo imeanzishwa "kwa bahati nasibu" na nafasi hizi ni vigezo vinavyoweza kufundishwa (vitaboreshwa wakati wa mafunzo).
Zaidi ya hayo, wakati wa token embedding tabaka lingine la embeddings linaundwa ambalo linawakilisha (katika kesi hii) nafasi halisi ya neno katika sentensi ya mafunzo. Kwa njia hii, neno katika nafasi tofauti katika sentensi litakuwa na uwakilishi tofauti (maana).
What Are Token Embeddings?
Token Embeddings ni uwakilishi wa nambari wa token katika nafasi ya vector inayoendelea. Kila token katika msamiati inahusishwa na vector ya kipekee ya vipimo vilivyowekwa. Vectors hizi zinakamata taarifa za semantiki na sintaksia kuhusu token, na kuwezesha mfano kuelewa uhusiano na mifumo katika data.
- Ukubwa wa Msamiati: Jumla ya idadi ya token za kipekee (mfano, maneno, sehemu za maneno) katika msamiati wa mfano.
- Vipimo vya Embedding: Idadi ya thamani za nambari (vipimo) katika vector ya kila token. Vipimo vya juu vinaweza kukamata taarifa za kina zaidi lakini vinahitaji rasilimali zaidi za kompyuta.
Mfano:
- Ukubwa wa Msamiati: token 6 [1, 2, 3, 4, 5, 6]
- Vipimo vya Embedding: 3 (x, y, z)
Initializing Token Embeddings
Katika mwanzo wa mafunzo, token embeddings kwa kawaida huanzishwa na thamani ndogo za bahati nasibu. Thamani hizi za awali zinarekebishwa (zinaboreshwa) wakati wa mafunzo ili kuwakilisha vyema maana za token kulingana na data ya mafunzo.
Mfano wa PyTorch:
import torch
# Set a random seed for reproducibility
torch.manual_seed(123)
# Create an embedding layer with 6 tokens and 3 dimensions
embedding_layer = torch.nn.Embedding(6, 3)
# Display the initial weights (embeddings)
print(embedding_layer.weight)
Matokeo:
luaCopy codeParameter containing:
tensor([[ 0.3374, -0.1778, -0.1690],
[ 0.9178, 1.5810, 1.3010],
[ 1.2753, -0.2010, -0.1606],
[-0.4015, 0.9666, -1.1481],
[-1.1589, 0.3255, -0.6315],
[-2.8400, -0.7849, -1.4096]], requires_grad=True)
Maelezo:
- Kila safu inawakilisha token katika msamiati.
- Kila nguzo inawakilisha kipimo katika vector ya embedding.
- Kwa mfano, token iliyo katika index
3
ina vector ya embedding[-0.4015, 0.9666, -1.1481]
.
Kupata Embedding ya Token:
# Retrieve the embedding for the token at index 3
token_index = torch.tensor([3])
print(embedding_layer(token_index))
Matokeo:
tensor([[-0.4015, 0.9666, -1.1481]], grad_fn=<EmbeddingBackward0>)
Tafsiri:
- Token katika index
3
inawakilishwa na vector[-0.4015, 0.9666, -1.1481]
. - Hizi ni thamani zinazoweza kufundishwa ambazo modeli itazirekebisha wakati wa mafunzo ili kuwakilisha muktadha na maana ya token vizuri zaidi.
Jinsi Token Embeddings Zinavyofanya Kazi Wakati wa Mafunzo
Wakati wa mafunzo, kila token katika data ya ingizo inabadilishwa kuwa vector yake inayolingana ya embedding. Vectors hizi kisha zinatumika katika hesabu mbalimbali ndani ya modeli, kama vile mifumo ya umakini na tabaka za mtandao wa neva.
Mfano wa Hali:
- Batch Size: 8 (idadi ya sampuli zinazoshughulikiwa kwa wakati mmoja)
- Max Sequence Length: 4 (idadi ya token kwa sampuli)
- Embedding Dimensions: 256
Muundo wa Data:
- Kila batch inawakilishwa kama tensor ya 3D yenye umbo
(batch_size, max_length, embedding_dim)
. - Kwa mfano letu, umbo litakuwa
(8, 4, 256)
.
Uonyeshaji:
cssCopy codeBatch
┌─────────────┐
│ Sample 1 │
│ ┌─────┐ │
│ │Token│ → [x₁₁, x₁₂, ..., x₁₂₅₆]
│ │ 1 │ │
│ │... │ │
│ │Token│ │
│ │ 4 │ │
│ └─────┘ │
│ Sample 2 │
│ ┌─────┐ │
│ │Token│ → [x₂₁, x₂₂, ..., x₂₂₅₆]
│ │ 1 │ │
│ │... │ │
│ │Token│ │
│ │ 4 │ │
│ └─────┘ │
│ ... │
│ Sample 8 │
│ ┌─────┐ │
│ │Token│ → [x₈₁, x₈₂, ..., x₈₂₅₆]
│ │ 1 │ │
│ │... │ │
│ │Token│ │
│ │ 4 │ │
│ └─────┘ │
└─────────────┘
Maelezo:
- Kila token katika mfuatano inawakilishwa na vector ya vipimo 256.
- Mfano unashughulikia embeddings hizi ili kujifunza mifumo ya lugha na kutoa makadirio.
Embeddings za Nafasi: Kuongeza Muktadha kwa Embeddings za Token
Wakati embeddings za token zinashika maana ya tokens binafsi, hazijajumuisha kwa asili nafasi ya tokens ndani ya mfuatano. Kuelewa mpangilio wa tokens ni muhimu kwa ufahamu wa lugha. Hapa ndipo embeddings za nafasi zinapokuja.
Kwa Nini Embeddings za Nafasi Zinahitajika:
- Mpangilio wa Token Una umuhimu: Katika sentensi, maana mara nyingi inategemea mpangilio wa maneno. Kwa mfano, "Paka aliketi kwenye mkeka" dhidi ya "Mkeka ulikaa juu ya paka."
- Kikomo cha Embedding: Bila taarifa za nafasi, mfano unachukulia tokens kama "mfuko wa maneno," ukipuuzia mfuatano wao.
Aina za Embeddings za Nafasi:
- Embeddings za Nafasi za Kipekee:
- Kutoa vector ya nafasi ya kipekee kwa kila nafasi katika mfuatano.
- Mfano: Token ya kwanza katika mfuatano wowote ina embedding ya nafasi sawa, token ya pili ina nyingine, na kadhalika.
- Inatumika na: Mfano wa GPT wa OpenAI.
- Embeddings za Nafasi za Kihusiano:
- Kuandika umbali wa kihusiano kati ya tokens badala ya nafasi zao za kipekee.
- Mfano: Kuonyesha jinsi tokens mbili zilivyo mbali, bila kujali nafasi zao za kipekee katika mfuatano.
- Inatumika na: Mifano kama Transformer-XL na baadhi ya toleo za BERT.
Jinsi Embeddings za Nafasi Zinavyounganishwa:
- Vipimo Vilevile: Embeddings za nafasi zina vipimo sawa na embeddings za token.
- Kuongeza: Zinajumuishwa na embeddings za token, zikichanganya utambulisho wa token na taarifa za nafasi bila kuongeza vipimo vya jumla.
Mfano wa Kuongeza Embeddings za Nafasi:
Kiwango cha embedding cha token ni [0.5, -0.2, 0.1]
na kiwango chake cha embedding cha nafasi ni [0.1, 0.3, -0.1]
. Embedding iliyounganishwa inayotumika na mfano ingekuwa:
Combined Embedding = Token Embedding + Positional Embedding
= [0.5 + 0.1, -0.2 + 0.3, 0.1 + (-0.1)]
= [0.6, 0.1, 0.0]
Faida za Positional Embeddings:
- Uelewa wa Muktadha: Mfano unaweza kutofautisha kati ya tokens kulingana na nafasi zao.
- Uelewa wa Mfuatano: Inamwezesha mfano kuelewa sarufi, sintaksia, na maana zinazotegemea muktadha.
Mfano wa Kanuni
Ikifuatiwa na mfano wa kanuni kutoka https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb:
# Use previous code...
# Create dimensional emdeddings
"""
BPE uses a vocabulary of 50257 words
Let's supose we want to use 256 dimensions (instead of the millions used by LLMs)
"""
vocab_size = 50257
output_dim = 256
token_embedding_layer = torch.nn.Embedding(vocab_size, output_dim)
## Generate the dataloader like before
max_length = 4
dataloader = create_dataloader_v1(
raw_text, batch_size=8, max_length=max_length,
stride=max_length, shuffle=False
)
data_iter = iter(dataloader)
inputs, targets = next(data_iter)
# Apply embeddings
token_embeddings = token_embedding_layer(inputs)
print(token_embeddings.shape)
torch.Size([8, 4, 256]) # 8 x 4 x 256
# Generate absolute embeddings
context_length = max_length
pos_embedding_layer = torch.nn.Embedding(context_length, output_dim)
pos_embeddings = pos_embedding_layer(torch.arange(max_length))
input_embeddings = token_embeddings + pos_embeddings
print(input_embeddings.shape) # torch.Size([8, 4, 256])