词汇表 - 🎯转了码的刘公子

# Summary # Cues # Notes 是的，您理解正确！这些 ID 确实是在一个**显式词典（词汇表）**中的索引。 ## 词汇表的结构在实际的语言模型中，会有一个明确的词汇表，比如： ```python # 假设的词汇表 vocab = { "<pad>": 0, # 填充符 "<unk>": 1, # 未知词 "<bos>": 2, # 句子开始 "<eos>": 3, # 句子结束 "我": 10, "爱": 15, "吃": 20, "苹": 25, "果": 30, "。": 35, "你": 40, "好": 45, # ... 直到 vocab_size=50 } # 反向映射 id_to_token = {v: k for k, v in vocab.items()} ``` ## 完整的处理流程 ```python # 1. 文本转ID（Tokenization） text = "我爱吃苹果" token_ids = [vocab[char] for char in text] # [10, 15, 20, 25, 30] # 2. 模型处理 input_ids = torch.tensor([token_ids]) logits = model(input_ids, weights) # 输出形状: [1, 5, 50] # 3. ID转回文本（Detokenization） predictions = torch.argmax(logits, dim=-1) # 获取每个位置的预测ID predicted_text = [id_to_token[id.item()] for id in predictions[0]] ``` ## 重要说明 1. **vocab_size=50** 意味着词汇表中有50个不同的token 2. 每个token都有唯一的ID（0-49） 3. **embedding层**的作用就是将这些离散的ID映射到连续的向量空间 ```python # Embedding层: [vocab_size, d_model] = [50, 64] weights["token_embeddings.weight"] # 形状: [50, 64] # 例如ID=10的词的向量表示 word_vector = weights["token_embeddings.weight"][10] # 64维向量 ``` 所以整个流程是： ```Java 文本 → 词典查找得到ID → Embedding得到向量 → Transformer处理 → 输出logits → 预测ID → 词典查找得到文本 ```