"d_model"表示潜空间中的向量维度
潜空间最牛逼的地方在于它是连续的,而普通的字典并不是,只是有限 keyset 的对应关系。
因为它是连续的,所以可以学习到之前没有遇到过的情况
# 如何进入潜空间
1. [[BPE]]训练 = 制作"字典"[词汇表](词汇表.md)
教词典如何把句子分解成词语
2. Tokenization = 查"字典"
把句子按字典分成词语,每个词语有个编号 [token ID](token%20ID.md)
3. [嵌入 embedding](嵌入%20embedding.md) = 把"编号"变成"含义向量"
每个编号对应一个多维向量,包含语义信息