2. Datenstichprobe

Reading time: 8 minutes

tip

Lernen & üben Sie AWS Hacking:HackTricks Training AWS Red Team Expert (ARTE)
Lernen & üben Sie GCP Hacking: HackTricks Training GCP Red Team Expert (GRTE) Lernen & üben Sie Azure Hacking: HackTricks Training Azure Red Team Expert (AzRTE)

Unterstützen Sie HackTricks

Überprüfen Sie die Abonnementpläne!
Treten Sie der 💬 Discord-Gruppe oder der Telegram-Gruppe bei oder folgen Sie uns auf Twitter 🐦 @hacktricks_live.
Teilen Sie Hacking-Tricks, indem Sie PRs an die HackTricks und HackTricks Cloud GitHub-Repos senden.

Datenstichprobe

Datenstichprobe ist ein entscheidender Prozess bei der Vorbereitung von Daten für das Training großer Sprachmodelle (LLMs) wie GPT. Es beinhaltet die Organisation von Textdaten in Eingabe- und Zielsequenzen, die das Modell verwendet, um zu lernen, wie man das nächste Wort (oder Token) basierend auf den vorhergehenden Wörtern vorhersagt. Eine ordnungsgemäße Datenstichprobe stellt sicher, dass das Modell Sprachmuster und Abhängigkeiten effektiv erfasst.

tip

Das Ziel dieser zweiten Phase ist sehr einfach: Proben Sie die Eingabedaten und bereiten Sie sie für die Trainingsphase vor, indem Sie den Datensatz normalerweise in Sätze einer bestimmten Länge unterteilen und auch die erwartete Antwort generieren.

Warum Datenstichprobe wichtig ist

LLMs wie GPT werden trainiert, um Text zu generieren oder vorherzusagen, indem sie den Kontext verstehen, der durch vorherige Wörter bereitgestellt wird. Um dies zu erreichen, müssen die Trainingsdaten so strukturiert sein, dass das Modell die Beziehung zwischen Wortsequenzen und ihren nachfolgenden Wörtern lernen kann. Dieser strukturierte Ansatz ermöglicht es dem Modell, zu verallgemeinern und kohärenten sowie kontextuell relevanten Text zu generieren.

Schlüsselkonzepte in der Datenstichprobe

Tokenisierung: Zerlegen von Text in kleinere Einheiten, die als Tokens bezeichnet werden (z. B. Wörter, Subwörter oder Zeichen).
Sequenzlänge (max_length): Die Anzahl der Tokens in jeder Eingabesequenz.
Gleitendes Fenster: Eine Methode zur Erstellung überlappender Eingabesequenzen, indem ein Fenster über den tokenisierten Text bewegt wird.
Stride: Die Anzahl der Tokens, die das gleitende Fenster vorwärts bewegt, um die nächste Sequenz zu erstellen.

Schritt-für-Schritt-Beispiel

Lassen Sie uns ein Beispiel durchgehen, um die Datenstichprobe zu veranschaulichen.

Beispieltext

arduino

"Lorem ipsum dolor sit amet, consectetur adipiscing elit."

Tokenisierung

Angenommen, wir verwenden einen einfachen Tokenizer, der den Text in Wörter und Satzzeichen aufteilt:

vbnet

Tokens: ["Lorem", "ipsum", "dolor", "sit", "amet,", "consectetur", "adipiscing", "elit."]

Parameter

Maximale Sequenzlänge (max_length): 4 Tokens
Schiebefenster-Schritt: 1 Token

Erstellen von Eingabe- und Zielsequenzen

Schiebefensteransatz:

Eingabesequenzen: Jede Eingabesequenz besteht aus max_length Tokens.
Zielsequenzen: Jede Zielsequenz besteht aus den Tokens, die unmittelbar auf die entsprechende Eingabesequenz folgen.

Generierung von Sequenzen:

Fensterposition	Eingabesequenz	Zielsequenz
1	["Lorem", "ipsum", "dolor", "sit"]	["ipsum", "dolor", "sit", "amet,"]
2	["ipsum", "dolor", "sit", "amet,"]	["dolor", "sit", "amet,", "consectetur"]
3	["dolor", "sit", "amet,", "consectetur"]	["sit", "amet,", "consectetur", "adipiscing"]
4	["sit", "amet,", "consectetur", "adipiscing"]	["amet,", "consectetur", "adipiscing", "elit."]

Ergebnis der Eingabe- und Zielarrays:

Eingabe:

python

[
["Lorem", "ipsum", "dolor", "sit"],
["ipsum", "dolor", "sit", "amet,"],
["dolor", "sit", "amet,", "consectetur"],
["sit", "amet,", "consectetur", "adipiscing"],
]

Ziel:

python

[
["ipsum", "dolor", "sit", "amet,"],
["dolor", "sit", "amet,", "consectetur"],
["sit", "amet,", "consectetur", "adipiscing"],
["amet,", "consectetur", "adipiscing", "elit."],
]

Visuelle Darstellung

Token-Position	Token
1	Lorem
2	ipsum
3	dolor
4	sit
5	amet,
6	consectetur
7	adipiscing
8	elit.

Schiebefenster mit Schritt 1:

Erstes Fenster (Positionen 1-4): ["Lorem", "ipsum", "dolor", "sit"] → Ziel: ["ipsum", "dolor", "sit", "amet,"]
Zweites Fenster (Positionen 2-5): ["ipsum", "dolor", "sit", "amet,"] → Ziel: ["dolor", "sit", "amet,", "consectetur"]
Drittes Fenster (Positionen 3-6): ["dolor", "sit", "amet,", "consectetur"] → Ziel: ["sit", "amet,", "consectetur", "adipiscing"]
Viertes Fenster (Positionen 4-7): ["sit", "amet,", "consectetur", "adipiscing"] → Ziel: ["amet,", "consectetur", "adipiscing", "elit."]

Verständnis des Schrittes

Schritt von 1: Das Fenster bewegt sich bei jedem Schritt um ein Token nach vorne, was zu stark überlappenden Sequenzen führt. Dies kann zu einem besseren Lernen der kontextuellen Beziehungen führen, erhöht jedoch das Risiko von Overfitting, da ähnliche Datenpunkte wiederholt werden.
Schritt von 2: Das Fenster bewegt sich bei jedem Schritt um zwei Tokens nach vorne, wodurch die Überlappung verringert wird. Dies reduziert Redundanz und Rechenaufwand, könnte jedoch einige kontextuelle Nuancen übersehen.
Schritt gleich max_length: Das Fenster bewegt sich um die gesamte Fenstergröße nach vorne, was zu nicht überlappenden Sequenzen führt. Dies minimiert die Datenredundanz, könnte jedoch die Fähigkeit des Modells einschränken, Abhängigkeiten zwischen Sequenzen zu lernen.

Beispiel mit Schritt von 2:

Unter Verwendung des gleichen tokenisierten Textes und max_length von 4:

Erstes Fenster (Positionen 1-4): ["Lorem", "ipsum", "dolor", "sit"] → Ziel: ["ipsum", "dolor", "sit", "amet,"]
Zweites Fenster (Positionen 3-6): ["dolor", "sit", "amet,", "consectetur"] → Ziel: ["sit", "amet,", "consectetur", "adipiscing"]
Drittes Fenster (Positionen 5-8): ["amet,", "consectetur", "adipiscing", "elit."] → Ziel: ["consectetur", "adipiscing", "elit.", "sed"] (Annahme der Fortsetzung)

Codebeispiel

Lass uns das besser anhand eines Codebeispiels von https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb verstehen:

python

# Download the text to pre-train the LLM
import urllib.request
url = ("https://raw.githubusercontent.com/rasbt/LLMs-from-scratch/main/ch02/01_main-chapter-code/the-verdict.txt")
file_path = "the-verdict.txt"
urllib.request.urlretrieve(url, file_path)

with open("the-verdict.txt", "r", encoding="utf-8") as f:
raw_text = f.read()

"""
Create a class that will receive some params lie tokenizer and text
and will prepare the input chunks and the target chunks to prepare
the LLM to learn which next token to generate
"""
import torch
from torch.utils.data import Dataset, DataLoader

class GPTDatasetV1(Dataset):
def __init__(self, txt, tokenizer, max_length, stride):
self.input_ids = []
self.target_ids = []

# Tokenize the entire text
token_ids = tokenizer.encode(txt, allowed_special={"<|endoftext|>"})

# Use a sliding window to chunk the book into overlapping sequences of max_length
for i in range(0, len(token_ids) - max_length, stride):
input_chunk = token_ids[i:i + max_length]
target_chunk = token_ids[i + 1: i + max_length + 1]
self.input_ids.append(torch.tensor(input_chunk))
self.target_ids.append(torch.tensor(target_chunk))

def __len__(self):
return len(self.input_ids)

def __getitem__(self, idx):
return self.input_ids[idx], self.target_ids[idx]


"""
Create a data loader which given the text and some params will
prepare the inputs and targets with the previous class and
then create a torch DataLoader with the info
"""

import tiktoken

def create_dataloader_v1(txt, batch_size=4, max_length=256,
stride=128, shuffle=True, drop_last=True,
num_workers=0):

# Initialize the tokenizer
tokenizer = tiktoken.get_encoding("gpt2")

# Create dataset
dataset = GPTDatasetV1(txt, tokenizer, max_length, stride)

# Create dataloader
dataloader = DataLoader(
dataset,
batch_size=batch_size,
shuffle=shuffle,
drop_last=drop_last,
num_workers=num_workers
)

return dataloader


"""
Finally, create the data loader with the params we want:
- The used text for training
- batch_size: The size of each batch
- max_length: The size of each entry on each batch
- stride: The sliding window (how many tokens should the next entry advance compared to the previous one). The smaller the more overfitting, usually this is equals to the max_length so the same tokens aren't repeated.
- shuffle: Re-order randomly
"""
dataloader = create_dataloader_v1(
raw_text, batch_size=8, max_length=4, stride=1, shuffle=False
)

data_iter = iter(dataloader)
first_batch = next(data_iter)
print(first_batch)

# Note the batch_size of 8, the max_length of 4 and the stride of 1
[
# Input
tensor([[   40,   367,  2885,  1464],
[  367,  2885,  1464,  1807],
[ 2885,  1464,  1807,  3619],
[ 1464,  1807,  3619,   402],
[ 1807,  3619,   402,   271],
[ 3619,   402,   271, 10899],
[  402,   271, 10899,  2138],
[  271, 10899,  2138,   257]]),
# Target
tensor([[  367,  2885,  1464,  1807],
[ 2885,  1464,  1807,  3619],
[ 1464,  1807,  3619,   402],
[ 1807,  3619,   402,   271],
[ 3619,   402,   271, 10899],
[  402,   271, 10899,  2138],
[  271, 10899,  2138,   257],
[10899,  2138,   257,  7026]])
]

# With stride=4 this will be the result:
[
# Input
tensor([[   40,   367,  2885,  1464],
[ 1807,  3619,   402,   271],
[10899,  2138,   257,  7026],
[15632,   438,  2016,   257],
[  922,  5891,  1576,   438],
[  568,   340,   373,   645],
[ 1049,  5975,   284,   502],
[  284,  3285,   326,    11]]),
# Target
tensor([[  367,  2885,  1464,  1807],
[ 3619,   402,   271, 10899],
[ 2138,   257,  7026, 15632],
[  438,  2016,   257,   922],
[ 5891,  1576,   438,   568],
[  340,   373,   645,  1049],
[ 5975,   284,   502,   284],
[ 3285,   326,    11,   287]])
]

Fortgeschrittene Sampling-Strategien (2023-2025)

1. Temperaturbasierte Mischgewichtung

State-of-the-art LLMs werden selten auf einem einzelnen Korpus trainiert. Stattdessen sampeln sie aus mehreren heterogenen Datenquellen (Code, Web, wissenschaftliche Arbeiten, Foren…). Der relative Anteil jeder Quelle kann die nachgelagerte Leistung stark beeinflussen. Neuere Open-Source-Modelle wie Llama 2 führten ein temperaturbasiertes Sampling-Schema ein, bei dem die Wahrscheinlichkeit, ein Dokument aus dem Korpus i zu ziehen, wird

p(i) = \frac{w_i^{\alpha}}{\sum_j w_j^{\alpha}}

• w_i – Rohtoken-Prozentsatz des Korpus i
• α ("Temperatur") – ein Wert in (0,1]. α < 1 flacht die Verteilung ab und gewichtet kleinere, qualitativ hochwertige Korpora stärker.

Llama 2 verwendete α = 0.7 und zeigte, dass eine Verringerung von α die Bewertungsergebnisse bei wissensintensiven Aufgaben verbesserte, während die Trainingsmischung stabil blieb. Der gleiche Trick wird von Mistral (2023) und Claude 3 übernommen.

python

from collections import Counter

def temperature_sample(corpus_ids, alpha=0.7):
counts = Counter(corpus_ids)           # number of tokens seen per corpus
probs  = {c: c_count**alpha for c, c_count in counts.items()}
Z = sum(probs.values())
probs = {c: p/Z for c, p in probs.items()}
# Now draw according to probs to fill every batch